Smodin Mengumumkan rilis barunya API Deteksi Bahasa mendukung 176 bahasa

Karena pendeteksi bahasa diperlukan untuk meningkatkan aplikasi kami, kami telah memutuskan untuk menemukan solusi.

Pada awalnya, kami pikir itu akan mudah karena google membuatnya terlihat sangat mudah, tetapi seperti yang kami tahu, itu bukan tugas yang mudah, sebaliknya, deteksi bahasa selalu menjadi tugas yang sulit.

Dalam mencari opsi terbaik untuk memprediksi bahasa dari teks yang tidak memerlukan model pembelajaran mesin yang besar, kami menemukan bahwa solusi terbaik adalah model identifikasi bahasa pra-terlatih yang membutuhkan memori kurang dari 1 MB sekaligus mampu mengklasifikasikan ribuan dokumen per detik.

Setelah banyak penyesuaian dan peningkatan, kami telah mengembangkan alat yang dengan percaya diri dapat memberikan tingkat akurasi yang baik untuk setiap bahasa.

Memberikan peringkat akurasi yang sangat baik, dan tidak hanya itu tetapi juga pada kecepatan yang cepat dan andal. Berikut daftar akurasi per negara.

99% Bahasa Akurat*: Prancis (fr), Inggris (en), Jerman (de), Portugis (pt), Turki (tr), Belanda (nl), Italia (it), Spanyol (es), Hongaria (hu) , Esperanto (eo), Polandia (pl), Finlandia (fi), Rusia (ru), Makedonia (mk), Ukraina (uk), Lituania (lt), Vietnam (vi), Yunani (el), Marathi (mr) , Arab (ar), Ibrani (he), Hindi (hai), Uyghur (ug), Jepang (ja), Georgia (ka), Bengali (bn), Urdu (ur), Thai (th), China (zh) , Armenia (hy), Malayalam (ml), Korea (ko), Khmer (km), Burma (saya), Tamil (ta), Kannada (kn), Telugu (te), Panjabi (pa), Lao (lo) , Gujarati (gu), Standar Tibet (bo), Divehi (dv), Sinhala (si), Amharik (am).

90% Bahasa Akurat*: Denmark (da), Rumania (ro), Swedia (sv), Latin (la), Bulgaria (bg), Ceko (cs), Tagalog (tl), Indonesia (id), Tatar (tt) , Islandia (adalah), Belarusia (menjadi), Basque (eu), Breton (br), Kazakh (kk), Latvia (lv), Estonia (et), Irlandia (ga), Chuvash (cv), Bashkir (ba) , Ossetia (os), Tajik (tg).

*Informasi disajikan dalam urutan sebagian besar data uji. Data berupa kalimat sepanjang 30-250 karakter. Pengujian hanya dilakukan pada 100 bahasa terpopuler. Pengujian menunjukkan akurasi hampir 99% untuk sebagian besar kalimat dengan panjang atau di atas 300 karakter.

Meskipun Anda tidak bisa mendapatkan hasil yang sempurna, akurasi terbaik (99%+ untuk banyak bahasa, bahkan yang kurang dikenal) terlihat pada 300 karakter atau lebih. Terlepas dari panjang teks, semakin panjang semakin baik.

Seperti yang disebutkan Wiki: identifikasi bahasa atau tebakan bahasa adalah masalah dalam menentukan konten yang diberikan bahasa alami. Pendekatan komputasi untuk masalah ini melihatnya sebagai kasus khusus kategorisasi teks, diselesaikan dengan berbagai metode statistik.

Layanan deteksi bahasa dapat digunakan dengan berbagai cara, misalnya, dapat digunakan untuk mengidentifikasi bahasa teks bisnis, seperti obrolan dan email.
Layanan ini dapat mengidentifikasi bahasa teks dan bagian teks yang mengalami perubahan bahasa, hingga ke tingkat kata.
Menggunakan layanan deteksi bahasa, Surveillance Insights dapat menyoroti dan membubuhi keterangan bahasa yang digunakan dalam teks dan membantu mengidentifikasi aktivitas yang berpotensi mencurigakan.

Teks bisnis seperti email atau obrolan bisa dalam bahasa yang berbeda. Bagian penting dari jalur pemrosesan bahasa alami adalah menentukan bahasa mana yang merupakan bahasa utama sehingga setiap teks dapat diproses melalui langkah-langkah khusus bahasa terkait.
Dalam beberapa kasus, orang mungkin mengubah bahasa yang digunakan dalam obrolan untuk menghindari pemantauan atau menyembunyikan aktivitas ilegal. Menentukan titik di mana bahasa obrolan dialihkan sangat berguna untuk menentukan apakah telah terjadi aktivitas yang mencurigakan.

jika Anda ingin menggunakan API kami, Anda bisa mendapatkan informasi lebih lanjut tentangnya dan harganya dengan mengklik SINI

Selain menyediakan layanan API, kami juga memutuskan untuk merilisnya sebagai sumber terbuka.
Ini adalah Rilis Sumber terbuka pertama kami! Detektor bahasa open source, tersedia SINI