Smodin ประกาศเปิด ตัว Language Detection API ใหม่ที่รองรับ 176 ภาษา

เนื่องจากจำเป็นต้องมีเครื่องตรวจจับภาษาเพื่อปรับปรุงแอปพลิเคชันของเรา เราจึงตัดสินใจที่จะหาวิธีแก้ปัญหา

ในตอนแรกเราคิดว่ามันจะง่ายเนื่องจาก Google ทำให้มันดูง่ายมาก แต่เมื่อเราค้นพบว่ามันไม่ใช่เรื่องง่าย ในทางตรงกันข้าม การตรวจจับภาษาเป็นงานที่ยากเสมอมา

ในการค้นหาตัวเลือกที่ดีที่สุดในการทำนายภาษาจากข้อความที่ไม่จำเป็นต้องใช้โมเดลการเรียนรู้ของเครื่องขนาดใหญ่ เราพบว่าโซลูชันที่ดีที่สุดคือโมเดลการระบุภาษาที่ได้รับการฝึกอบรมไว้ล่วงหน้าซึ่งใช้หน่วยความจำน้อยกว่า 1MB แต่สามารถจำแนกเอกสารได้หลายพันรายการต่อวินาที

หลังจากปรับแต่งและปรับปรุงมากมาย เราได้พัฒนาเครื่องมือที่สามารถให้ความแม่นยำที่ดีสำหรับแต่ละภาษาได้อย่างมั่นใจ

ให้คะแนนความแม่นยำที่ดีมาก และไม่เพียงเท่านั้น แต่ยังให้ความเร็วที่รวดเร็วและเชื่อถือได้อีกด้วย นี่คือรายการความแม่นยำของแต่ละประเทศ

ภาษาที่มีความแม่นยำ 99%*: ฝรั่งเศส (fr), อังกฤษ (en), เยอรมัน (de), โปรตุเกส (pt), ตุรกี (tr), ดัตช์ (nl), อิตาลี (it), สเปน (es), ฮังการี (hu), เอสเปรันโต (eo), โปแลนด์ (pl), ฟินแลนด์ (fi), รัสเซีย (ru), มาซิโดเนีย (mk), ยูเครน (uk), ลิทัวเนีย (lt), เวียดนาม (vi), กรีก (el), มาราฐี (mr), อาหรับ (ar), ฮีบรู (he), ฮินดี (hi), อุยกูร์ (ug), ญี่ปุ่น (ja), จอร์เจีย (ka), เบงกาลี (bn), อูรดู (ur), ไทย (th), จีน (zh), อาร์เมเนีย (hy), มาลายาลัม (ml), เกาหลี (ko), เขมร (km), พม่า (my), ทมิฬ (ta), กันนาดา (kn), เตลูกู (te), ปัญจาบ (pa), ลาว (lo), กุชราติ (gu), ทิเบตมาตรฐาน (bo), ดิเวฮี (dv), สิงหล (si), อัมฮาริก (am)

ภาษาที่มีความแม่นยำ 90%*: เดนมาร์ก (da), โรมาเนีย (ro), สวีเดน (sv), ละติน (la), บัลแกเรีย (bg), เช็ก (cs), ตากาล็อก (tl), อินโดนีเซีย (id), ตาตาร์ (tt), ไอซ์แลนด์ (is), เบลารุส (be), บาสก์ (eu), เบรตัน (br), คาซัค (kk), ลัตเวีย (lv), เอสโตเนีย (et), ไอริช (ga), ชูวัช (cv), บัชคีร์ (ba), ออสเซเชียน (os), ทาจิก (tg)

*ข้อมูลจะแสดงตามลำดับของข้อมูลทดสอบส่วนใหญ่ ข้อมูลเป็นประโยคที่มีความยาว 30-250 อักขระ การทดสอบทำเฉพาะกับภาษาที่ได้รับความนิยมสูงสุด 100 ภาษา การทดสอบแสดงให้เห็นว่ามีความแม่นยำเกือบ 99% สำหรับประโยคส่วนใหญ่ที่มีความยาว 300 อักขระขึ้นไป

แม้ว่าคุณจะไม่สามารถได้ผลลัพธ์ที่สมบูรณ์แบบ แต่ความแม่นยำสูงสุด (99%+ สำหรับหลายภาษา แม้แต่ภาษาที่ไม่ค่อยมีคนรู้จัก) จะเห็นได้ที่ 300 อักขระขึ้นไป ไม่ว่าข้อความจะมีความยาวเท่าใด ยิ่งยาวเท่าไรก็ยิ่งดี

ตามที่วิกิกล่าวไว้ การระบุภาษาหรือการเดาภาษาเป็นปัญหาในการกำหนดว่าเนื้อหาที่กำหนดไว้นั้นอยู่ในภาษาธรรมชาติใด แนวทางการคำนวณในการแก้ปัญหานี้มองว่าเป็นกรณีพิเศษของการจัดหมวดหมู่ข้อความที่แก้ไขได้โดยใช้วิธีการทางสถิติต่างๆ

บริการตรวจจับภาษาสามารถใช้ได้หลายวิธี เช่น ใช้ระบุภาษาของข้อความทางธุรกิจ เช่น การแชทและอีเมล
บริการนี้สามารถระบุภาษาของข้อความ และส่วนของข้อความที่มีการเปลี่ยนแปลงภาษาได้ลงลึกถึงระดับคำ
ด้วยการใช้บริการการตรวจจับภาษา Surveillance Insights สามารถเน้นย้ำและใส่คำอธิบายภาษาที่ใช้ในข้อความ และช่วยระบุกิจกรรมที่น่าสงสัยได้

ข้อความทางธุรกิจ เช่น อีเมลหรือแชทสามารถอยู่ในภาษาต่างๆ ได้ ส่วนสำคัญของกระบวนการประมวลผลภาษาธรรมชาติคือการพิจารณาว่าภาษาใดเป็นภาษาหลัก เพื่อให้สามารถประมวลผลข้อความแต่ละข้อความผ่านขั้นตอนเฉพาะภาษาที่เกี่ยวข้องได้
ในบางกรณี ผู้คนอาจเปลี่ยนภาษาที่ใช้ในแชทเพื่อหลีกเลี่ยงการเฝ้าติดตามหรือซ่อนกิจกรรมที่ผิดกฎหมาย การกำหนดจุดที่เปลี่ยนภาษาในแชทนั้นมีประโยชน์มากในการพิจารณาว่ามีกิจกรรมที่น่าสงสัยเกิดขึ้นหรือไม่

หากคุณต้องการใช้ API ของเรา คุณสามารถรับข้อมูลเพิ่มเติมเกี่ยวกับ API ของเราและราคาได้โดยคลิก ที่นี่

นอกจากจะให้บริการ API แล้ว เรายังตัดสินใจที่จะเปิดตัวเป็นโอเพนซอร์สด้วย
นี่คือการเปิดตัวโอเพ่นซอร์สครั้งแรกของเรา! เครื่องตรวจจับภาษาแบบโอเพ่นซอร์ส สามารถดาวน์โหลดได้ ที่นี่