Smodin ประกาศเปิดตัวใหม่ API การตรวจจับภาษา รองรับ 176 ภาษา
เนื่องจากจำเป็นต้องมีตัวตรวจจับภาษาเพื่อปรับปรุงแอปพลิเคชันของเรา เราจึงตัดสินใจค้นหาวิธีแก้ไข
ตอนแรก เราคิดว่าน่าจะง่ายเพราะ Google ทำให้ดูเหมือนง่าย แต่อย่างที่เราพบว่ามันไม่ใช่งานง่าย ตรงกันข้าม การตรวจจับภาษาเป็นงานที่ยากเสมอ
ในการค้นหาตัวเลือกที่ดีที่สุดสำหรับการคาดคะเนภาษาจากข้อความที่ไม่ต้องการโมเดลการเรียนรู้ของเครื่องขนาดใหญ่ เราพบว่าทางออกที่ดีที่สุดคือแบบจำลองการระบุภาษาที่ฝึกไว้ล่วงหน้าซึ่งใช้หน่วยความจำน้อยกว่า 1MB ในขณะที่สามารถ จำแนกเอกสารหลายพันฉบับต่อวินาที
หลังจากปรับแต่งและปรับปรุงหลายครั้ง เราได้พัฒนาเครื่องมือที่สามารถให้อัตราความแม่นยำที่ดีสำหรับแต่ละภาษาได้อย่างมั่นใจ
ให้คะแนนความถูกต้องแม่นยำดีมาก ไม่เพียงเท่านั้นแต่ยังให้ความเร็วที่รวดเร็วและเชื่อถือได้ นี่คือรายการความถูกต้องของแต่ละประเทศ
ภาษาที่แม่นยำ 99%*: ฝรั่งเศส (fr), อังกฤษ (en), เยอรมัน (de), โปรตุเกส (pt), ตุรกี (tr), ดัตช์ (nl), อิตาลี (it), สเปน (es), ฮังการี (hu) , เอสเปรันโต (eo), โปแลนด์ (pl), ฟินแลนด์ (fi), รัสเซีย (ru), มาซิโดเนีย (mk), ยูเครน (สหราชอาณาจักร), ลิทัวเนีย (lt), เวียดนาม (vi), กรีก (el), Marathi (mr) , อารบิก (ar), ฮิบรู (เขา), ฮินดี (สวัสดี), อุยกูร์ (ug), ญี่ปุ่น (ja), จอร์เจีย (กา), เบงกาลี (bn), อูรดู (ur), ไทย (th), จีน (zh) , อาร์เมเนีย (hy), มาลายาลัม (มล.), เกาหลี (โก), เขมร (กม.), พม่า (ของฉัน), ทมิฬ (ตา), กันนาดา (kn), เตลูกู (เต), ปัญจาบ (ปา), ลาว (หล่อ) , Gujarati (gu), มาตรฐานทิเบต (bo), Divehi (dv), Sinhala (si), Amharic (am)
90% ภาษาที่ถูกต้อง*: เดนมาร์ก (ดา), โรมาเนีย (ro), สวีเดน (sv), ละติน (la), บัลแกเรีย (bg), เช็ก (cs), ตากาล็อก (tl), ชาวอินโดนีเซีย (id), ตาตาร์ (tt) , ไอซ์แลนด์ (คือ), เบลารุส (เป็น), บาสก์ (สหภาพยุโรป), เบรอตง (br), คาซัค (kk), ลัตเวีย (lv), เอสโตเนีย (et), ไอริช (ga), ชูวัช (cv), บัชคีร์ (ba) , Ossetian (os), ทาจิกิสถาน (tg).
*ข้อมูลจะแสดงตามลำดับข้อมูลการทดสอบส่วนใหญ่ ข้อมูลเป็นประโยคความยาว 30-250 ตัวอักษร การทดสอบทำใน 100 ภาษาที่ได้รับความนิยมสูงสุดเท่านั้น การทดสอบพบว่ามีความแม่นยำเกือบ 99% สำหรับประโยคส่วนใหญ่ที่มีความยาวอักขระ 300 ขึ้นไปหรือสูงกว่า
แม้ว่าคุณจะไม่ได้ผลลัพธ์ที่สมบูรณ์แบบ แต่ความแม่นยำที่ดีที่สุด (99%+ สำหรับหลายภาษา แม้แต่ภาษาที่ไม่ค่อยมีใครรู้จัก) จะเห็นได้ที่อักขระ 300 ตัวขึ้นไป โดยไม่คำนึงถึงความยาวของข้อความ ยิ่งยาวยิ่งดี
ตามที่ Wiki กล่าวถึง: การระบุภาษาหรือการคาดเดาภาษาเป็นปัญหาในการพิจารณาว่าเนื้อหาใดเป็นภาษาธรรมชาติ วิธีการคำนวณสำหรับปัญหานี้มองว่าเป็นกรณีพิเศษของการจัดหมวดหมู่ข้อความ ซึ่งแก้ไขด้วยวิธีทางสถิติต่างๆ
บริการตรวจจับภาษาสามารถใช้ได้หลายวิธี เช่น สามารถใช้เพื่อระบุภาษาของข้อความทางธุรกิจ เช่น แชทและอีเมล
บริการสามารถระบุภาษาของข้อความและส่วนของข้อความที่เปลี่ยนภาษาได้จนถึงระดับคำ
การใช้บริการตรวจจับภาษา Surveillance Insights สามารถเน้นและใส่คำอธิบายประกอบภาษาที่ใช้ในข้อความและช่วยระบุกิจกรรมที่น่าสงสัยได้
ข้อความทางธุรกิจเช่นอีเมลหรือแชทสามารถเป็นภาษาต่างๆ ส่วนสำคัญของไปป์ไลน์การประมวลผลภาษาธรรมชาติคือการกำหนดว่าภาษาใดเป็นภาษาหลัก เพื่อให้แต่ละข้อความสามารถประมวลผลผ่านขั้นตอนเฉพาะภาษาที่เกี่ยวข้อง
ในบางกรณี ผู้คนอาจเปลี่ยนภาษาที่ใช้ในแชทเพื่อหลีกเลี่ยงการตรวจสอบหรือซ่อนกิจกรรมที่ผิดกฎหมาย การระบุจุดที่เปลี่ยนภาษาแชทนั้นมีประโยชน์มากในการพิจารณาว่ามีกิจกรรมที่น่าสงสัยเกิดขึ้นหรือไม่
หากคุณต้องการใช้ API ของเรา คุณสามารถรับข้อมูลเพิ่มเติมเกี่ยวกับ API และราคาได้โดยคลิก ที่นี่
นอกจากการให้บริการ API แล้ว เรายังตัดสินใจเปิดตัวเป็นโอเพ่นซอร์สอีกด้วย
นี่เป็นการเปิดตัวโอเพ่นซอร์สครั้งแรกของเรา! โอเพ่นซอร์สตัวตรวจจับภาษาพร้อมใช้งาน ที่นี่