Smodin ประกาศเปิดตัวใหม่ API การตรวจจับภาษา รองรับ 176 ภาษา

เนื่องจากจำเป็นต้องมีตัวตรวจจับภาษาเพื่อปรับปรุงแอปพลิเคชันของเรา เราจึงตัดสินใจค้นหาวิธีแก้ไข

ตอนแรก เราคิดว่าน่าจะง่ายเพราะ Google ทำให้ดูเหมือนง่าย แต่อย่างที่เราพบว่ามันไม่ใช่งานง่าย ตรงกันข้าม การตรวจจับภาษาเป็นงานที่ยากเสมอ

ในการค้นหาตัวเลือกที่ดีที่สุดสำหรับการคาดคะเนภาษาจากข้อความที่ไม่ต้องการโมเดลการเรียนรู้ของเครื่องขนาดใหญ่ เราพบว่าทางออกที่ดีที่สุดคือแบบจำลองการระบุภาษาที่ฝึกไว้ล่วงหน้าซึ่งใช้หน่วยความจำน้อยกว่า 1MB ในขณะที่สามารถ จำแนกเอกสารหลายพันฉบับต่อวินาที

หลังจากปรับแต่งและปรับปรุงหลายครั้ง เราได้พัฒนาเครื่องมือที่สามารถให้อัตราความแม่นยำที่ดีสำหรับแต่ละภาษาได้อย่างมั่นใจ

ให้คะแนนความถูกต้องแม่นยำดีมาก ไม่เพียงเท่านั้นแต่ยังให้ความเร็วที่รวดเร็วและเชื่อถือได้ นี่คือรายการความถูกต้องของแต่ละประเทศ

ภาษาที่แม่นยำ 99%*: ฝรั่งเศส (fr), อังกฤษ (en), เยอรมัน (de), โปรตุเกส (pt), ตุรกี (tr), ดัตช์ (nl), อิตาลี (it), สเปน (es), ฮังการี (hu) , เอสเปรันโต (eo), โปแลนด์ (pl), ฟินแลนด์ (fi), รัสเซีย (ru), มาซิโดเนีย (mk), ยูเครน (สหราชอาณาจักร), ลิทัวเนีย (lt), เวียดนาม (vi), กรีก (el), Marathi (mr) , อารบิก (ar), ฮิบรู (เขา), ฮินดี (สวัสดี), อุยกูร์ (ug), ญี่ปุ่น (ja), จอร์เจีย (กา), เบงกาลี (bn), อูรดู (ur), ไทย (th), จีน (zh) , อาร์เมเนีย (hy), มาลายาลัม (มล.), เกาหลี (โก), เขมร (กม.), พม่า (ของฉัน), ทมิฬ (ตา), กันนาดา (kn), เตลูกู (เต), ปัญจาบ (ปา), ลาว (หล่อ) , Gujarati (gu), มาตรฐานทิเบต (bo), Divehi (dv), Sinhala (si), Amharic (am)

90% ภาษาที่ถูกต้อง*: เดนมาร์ก (ดา), โรมาเนีย (ro), สวีเดน (sv), ละติน (la), บัลแกเรีย (bg), เช็ก (cs), ตากาล็อก (tl), ชาวอินโดนีเซีย (id), ตาตาร์ (tt) , ไอซ์แลนด์ (คือ), เบลารุส (เป็น), บาสก์ (สหภาพยุโรป), เบรอตง (br), คาซัค (kk), ลัตเวีย (lv), เอสโตเนีย (et), ไอริช (ga), ชูวัช (cv), บัชคีร์ (ba) , Ossetian (os), ทาจิกิสถาน (tg).

*ข้อมูลจะแสดงตามลำดับข้อมูลการทดสอบส่วนใหญ่ ข้อมูลเป็นประโยคความยาว 30-250 ตัวอักษร การทดสอบทำใน 100 ภาษาที่ได้รับความนิยมสูงสุดเท่านั้น การทดสอบพบว่ามีความแม่นยำเกือบ 99% สำหรับประโยคส่วนใหญ่ที่มีความยาวอักขระ 300 ขึ้นไปหรือสูงกว่า

แม้ว่าคุณจะไม่ได้ผลลัพธ์ที่สมบูรณ์แบบ แต่ความแม่นยำที่ดีที่สุด (99%+ สำหรับหลายภาษา แม้แต่ภาษาที่ไม่ค่อยมีใครรู้จัก) จะเห็นได้ที่อักขระ 300 ตัวขึ้นไป โดยไม่คำนึงถึงความยาวของข้อความ ยิ่งยาวยิ่งดี

ตามที่ Wiki กล่าวถึง: การระบุภาษาหรือการคาดเดาภาษาเป็นปัญหาในการพิจารณาว่าเนื้อหาใดเป็นภาษาธรรมชาติ วิธีการคำนวณสำหรับปัญหานี้มองว่าเป็นกรณีพิเศษของการจัดหมวดหมู่ข้อความ ซึ่งแก้ไขด้วยวิธีทางสถิติต่างๆ

บริการตรวจจับภาษาสามารถใช้ได้หลายวิธี เช่น สามารถใช้เพื่อระบุภาษาของข้อความทางธุรกิจ เช่น แชทและอีเมล
บริการสามารถระบุภาษาของข้อความและส่วนของข้อความที่เปลี่ยนภาษาได้จนถึงระดับคำ
การใช้บริการตรวจจับภาษา Surveillance Insights สามารถเน้นและใส่คำอธิบายประกอบภาษาที่ใช้ในข้อความและช่วยระบุกิจกรรมที่น่าสงสัยได้

ข้อความทางธุรกิจเช่นอีเมลหรือแชทสามารถเป็นภาษาต่างๆ ส่วนสำคัญของไปป์ไลน์การประมวลผลภาษาธรรมชาติคือการกำหนดว่าภาษาใดเป็นภาษาหลัก เพื่อให้แต่ละข้อความสามารถประมวลผลผ่านขั้นตอนเฉพาะภาษาที่เกี่ยวข้อง
ในบางกรณี ผู้คนอาจเปลี่ยนภาษาที่ใช้ในแชทเพื่อหลีกเลี่ยงการตรวจสอบหรือซ่อนกิจกรรมที่ผิดกฎหมาย การระบุจุดที่เปลี่ยนภาษาแชทนั้นมีประโยชน์มากในการพิจารณาว่ามีกิจกรรมที่น่าสงสัยเกิดขึ้นหรือไม่

หากคุณต้องการใช้ API ของเรา คุณสามารถรับข้อมูลเพิ่มเติมเกี่ยวกับ API และราคาได้โดยคลิก ที่นี่

นอกจากการให้บริการ API แล้ว เรายังตัดสินใจเปิดตัวเป็นโอเพ่นซอร์สอีกด้วย
นี่เป็นการเปิดตัวโอเพ่นซอร์สครั้งแรกของเรา! โอเพ่นซอร์สตัวตรวจจับภาษาพร้อมใช้งาน ที่นี่