Powered by AppSignal & Oban Pro

Tokenization

notebooks/tokenization.livemd

Tokenization

Mix.install([
  {:wug_thai, path: "/workspace"}
])

Pipeline

defmodule Pipeline do
  @moduledoc "Wug pipeline to process texts"

  use Wug.Pipeline, language: Wug.Thai

  alias Wug.Pipes.Tokenizer

  pipe(Tokenizer)
end

Tokenize

text = """
ประเทศไทย มีชื่ออย่างเป็นทางการว่า ราชอาณาจักรไทย เป็นรัฐชาติอันตั้งอยู่ในภูมิภาคเอเชียตะวันออกเฉียงใต้ เดิมมีชื่อว่า "สยาม" รัฐบาลประกาศเปลี่ยนชื่อเป็นประเทศไทยอย่างเป็นทางการตั้งแต่ปี 2482 ประเทศไทยมีขนาดใหญ่เป็นอันดับที่ 50 ของโลก มีเนื้อที่ 513,120 ตารางกิโลเมตร[9] และมีประชากรมากเป็นอันดับที่ 20 ของโลก คือ ประมาณ 70 ล้านคน มีอาณาเขตติดต่อกับประเทศพม่าทางทิศเหนือและตะวันตก ประเทศลาวทางทิศเหนือและตะวันออก ประเทศกัมพูชาทางทิศตะวันออก และประเทศมาเลเซียทางทิศใต้ กรุงเทพมหานครเป็นศูนย์กลางการบริหารราชการแผ่นดินและนครใหญ่สุดของประเทศ และการปกครองส่วนภูมิภาค จัดระเบียบเป็น 76 จังหวัด[10] แม้จะมีการสถาปนาระบอบประชาธิปไตยอันมีพระมหากษัตริย์ทรงเป็นประมุขและประชาธิปไตยระบบรัฐสภา ในปี 2475 แต่กองทัพยังมีบทบาทในการเมืองไทยสูง โดยมีรัฐประหารครั้งล่าสุดในปี 2557
"""

text
|> Pipeline.call()
|> Wug.Document.tokens()
text = """
ราชอาณาจักรไทย
"""

text
|> Pipeline.call()
|> Wug.Document.tokens()
text = """
ที่สามารถ
"""

text
|> Pipeline.call()
|> Wug.Document.tokens()
text = """
พ่อค้า
"""

text
|> Pipeline.call()
|> Wug.Document.tokens()
text = """
ประกาศกระทรวง
"""

text
|> Pipeline.call()
|> Wug.Document.tokens()
text = """
พมชื่อ{เจก}ครับ
"""

text
|> Pipeline.call()
|> Wug.Document.tokens()