explosion · ines · May 1, 2019 · Apr 5, 2019 · Apr 5, 2019 · Apr 5, 2019
diff --git a/spacy/lang/th/__init__.py b/spacy/lang/th/__init__.py
@@ -5,6 +5,7 @@
 from .tag_map import TAG_MAP
 from .stop_words import STOP_WORDS
 from .norm_exceptions import NORM_EXCEPTIONS
+from .lex_attrs import LEX_ATTRS
 
 from ..norm_exceptions import BASE_NORMS
 from ...attrs import LANG, NORM
@@ -34,6 +35,7 @@ def __call__(self, text):
 
 class ThaiDefaults(Language.Defaults):
  lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
+ lex_attr_getters.update(LEX_ATTRS)
  lex_attr_getters[LANG] = lambda _text: "th"
  lex_attr_getters[NORM] = add_lookups(
  Language.Defaults.lex_attr_getters[NORM], BASE_NORMS, NORM_EXCEPTIONS

diff --git a/spacy/lang/th/lex_attrs.py b/spacy/lang/th/lex_attrs.py
@@ -0,0 +1,62 @@
+# coding: utf8
+from __future__ import unicode_literals
+
+from ...attrs import LIKE_NUM
+
+
+_num_words = [
+ "ศูนย์",
+ "หนึ่ง",
+ "สอง",
+ "สาม",
+ "สี่",
+ "ห้า",
+ "หก",
+ "เจ็ด",
+ "แปด",
+ "เก้า",
+ "สิบ",
+ "สิบเอ็ด",
+ "ยี่สิบ",
+ "ยี่สิบเอ็ด",
+ "สามสิบ",
+ "สามสิบเอ็ด",
+ "สี่สิบ",
+ "สี่สิบเอ็ด",
+ "ห้าสิบ",
+ "ห้าสิบเอ็ด",
+ "หกสิบเอ็ด",
+ "เจ็ดสิบ",
+ "เจ็ดสิบเอ็ด",
+ "แปดสิบ",
+ "แปดสิบเอ็ด",
+ "เก้าสิบ",
+ "เก้าสิบเอ็ด",
+ "ร้อย",
+ "พัน",
+ "ล้าน",
+ "พันล้าน",
+ "หมื่นล้าน",
+ "แสนล้าน",
+ "ล้านล้าน",
+ "ล้านล้านล้าน",
+ "ล้านล้านล้านล้าน",
+]
+
+
+def like_num(text):
+ if text.startswith(("+", "-", "±", "~")):
+ text = text[1:]
+ text = text.replace(",", "").replace(".", "")
+ if text.isdigit():
+ return True
+ if text.count("/") == 1:
+ num, denom = text.split("/")
+ if num.isdigit() and denom.isdigit():
+ return True
+ if text in _num_words:
+ return True
+ return False
+
+
+LEX_ATTRS = {LIKE_NUM: like_num}
diff --git a/spacy/lang/th/norm_exceptions.py b/spacy/lang/th/norm_exceptions.py
@@ -37,6 +37,14 @@
  "บ่องตง": "บอกตรงๆ",
  "ถ่ามตง": "ถามตรงๆ",
  "ต่อมตง": "ตอบตรงๆ",
+ "เพิ่ล": "เพื่อน",
+ "จอบอ": "จอบอ",
+ "ดั้ย": "ได้",
+ "ขอบคุง": "ขอบคุณ",
+ "ยังงัย": "ยังไง",
+ "Inw": "เทพ",
+ "uou": "นอน",
+ "Lกรีeu": "เกรียน",
  # Misspelled to express emotions (คำที่สะกดผิดเพื่อแสดงอารมณ์)
  "เปงราย": "เป็นอะไร",
  "เปนรัย": "เป็นอะไร",
@@ -50,9 +58,17 @@
  "ไม่รู้": "มะรุ",
  "เฮ่ย": "เฮ้ย",
  "เห้ย": "เฮ้ย",
- "น่าร็อคอ่ะ": "น่ารักอ่ะ",
- "น่าร๊ากอ้ะ": "น่ารักอ่ะ",
- "ตั้ลล๊ากอ่ะ": "น่ารักอ่ะ",
+ "น่าร็อค": "น่ารัก",
+ "น่าร๊าก": "น่ารัก",
+ "ตั้ลล๊าก": "น่ารัก",
+ "คือร๊ะ": "คืออะไร",
+ "โอป่ะ": "โอเคหรือเปล่า",
+ "น่ามคาน": "น่ารำคาญ",
+ "น่ามสาร": "น่าสงสาร",
+ "วงวาร": "สงสาร",
+ "บับว่า": "แบบว่า",
+ "อัลไล": "อะไร",
+ "อิจ": "อิจฉา",
  # Reduce rough words or Avoid to software filter (คำที่สะกดผิดเพื่อลดความหยาบของคำ หรืออาจใช้หลีกเลี่ยงการกรองคำหยาบของซอฟต์แวร์)
  "กรู": "กู",
  "กุ": "กู",
@@ -71,11 +87,22 @@
  "โคด": "โคตร",
  "โครต": "โคตร",
  "โคตะระ": "โคตร",
+ "พ่อง": "พ่อมึง",
+ "แม่เมิง": "แม่มึง",
+ "เชี่ย": "เหี้ย",
  # Imitate words (คำเลียนเสียง โดยส่วนใหญ่จะเพิ่มทัณฑฆาต หรือซ้ำตัวอักษร)
  "แอร๊ยย": "อ๊าย",
  "อร๊ายยย": "อ๊าย",
  "มันส์": "มัน",
  "วู๊วววววววว์": "วู้",
+ # Acronym (แบบคำย่อ)
+ "หมาลัย": "มหาวิทยาลัย",
+ "วิดวะ": "วิศวะ",
+ "สินสาด ": "ศิลปศาสตร์",
+ "สินกำ ": "ศิลปกรรมศาสตร์",
+ "เสารีย์ ": "อนุเสาวรีย์ชัยสมรภูมิ",
+ "เมกา ": "อเมริกา",
+ "มอไซค์ ": "มอเตอร์ไซค์",
 }
 
 
@@ -84,3 +111,4 @@
 for string, norm in _exc.items():
  NORM_EXCEPTIONS[string] = norm
  NORM_EXCEPTIONS[string.title()] = norm
+