Tokenization
Mix.install([
{:wug_thai, path: "/workspace"}
])
Pipeline
defmodule Pipeline do
@moduledoc "Wug pipeline to process texts"
use Wug.Pipeline, language: Wug.Thai
alias Wug.Pipes.Tokenizer
pipe(Tokenizer)
end
Tokenize
text = """
ประเทศไทย มีชื่ออย่างเป็นทางการว่า ราชอาณาจักรไทย เป็นรัฐชาติอันตั้งอยู่ในภูมิภาคเอเชียตะวันออกเฉียงใต้ เดิมมีชื่อว่า "สยาม" รัฐบาลประกาศเปลี่ยนชื่อเป็นประเทศไทยอย่างเป็นทางการตั้งแต่ปี 2482 ประเทศไทยมีขนาดใหญ่เป็นอันดับที่ 50 ของโลก มีเนื้อที่ 513,120 ตารางกิโลเมตร[9] และมีประชากรมากเป็นอันดับที่ 20 ของโลก คือ ประมาณ 70 ล้านคน มีอาณาเขตติดต่อกับประเทศพม่าทางทิศเหนือและตะวันตก ประเทศลาวทางทิศเหนือและตะวันออก ประเทศกัมพูชาทางทิศตะวันออก และประเทศมาเลเซียทางทิศใต้ กรุงเทพมหานครเป็นศูนย์กลางการบริหารราชการแผ่นดินและนครใหญ่สุดของประเทศ และการปกครองส่วนภูมิภาค จัดระเบียบเป็น 76 จังหวัด[10] แม้จะมีการสถาปนาระบอบประชาธิปไตยอันมีพระมหากษัตริย์ทรงเป็นประมุขและประชาธิปไตยระบบรัฐสภา ในปี 2475 แต่กองทัพยังมีบทบาทในการเมืองไทยสูง โดยมีรัฐประหารครั้งล่าสุดในปี 2557
"""
text
|> Pipeline.call()
|> Wug.Document.tokens()
text = """
ราชอาณาจักรไทย
"""
text
|> Pipeline.call()
|> Wug.Document.tokens()
text = """
ที่สามารถ
"""
text
|> Pipeline.call()
|> Wug.Document.tokens()
text = """
พ่อค้า
"""
text
|> Pipeline.call()
|> Wug.Document.tokens()
text = """
ประกาศกระทรวง
"""
text
|> Pipeline.call()
|> Wug.Document.tokens()
text = """
พมชื่อ{เจก}ครับ
"""
text
|> Pipeline.call()
|> Wug.Document.tokens()