Smodin Mengumumkan pelepasan barunya API Pengesanan Bahasa menyokong 176 bahasa

Oleh kerana alat pengesan bahasa diperlukan untuk meningkatkan aplikasi kami, kami telah memutuskan untuk mencari jalan keluar.

Pada mulanya, kami menyangka akan mudah kerana google menjadikannya sangat mudah, tetapi seperti yang kami ketahui, itu bukan tugas yang mudah, sebaliknya, pengesanan bahasa selalu menjadi tugas yang sukar.

Dalam mencari pilihan terbaik untuk meramalkan bahasa dari teks yang tidak memerlukan model pembelajaran mesin yang besar, kami mendapati bahawa penyelesaian terbaik adalah model pengenalan bahasa yang dilatih sebelumnya yang memerlukan memori kurang dari 1MB sambil dapat kelaskan beribu-ribu dokumen sesaat.

Setelah banyak perubahan dan penambahbaikan, kami telah mengembangkan alat yang dengan yakin dapat memberikan kadar ketepatan yang baik untuk setiap bahasa.

Memberi penilaian ketepatan yang sangat baik, dan bukan hanya itu tetapi juga pada kelajuan yang pantas dan boleh dipercayai. Berikut adalah senarai ketepatan setiap negara.

99% Bahasa yang Tepat *: Perancis (fr), Inggeris (en), Jerman (de), Portugis (pt), Turki (tr), Belanda (nl), Itali (it), Sepanyol (es), Hungarian (hu) , Esperanto (eo), Poland (pl), Finlandia (fi), Rusia (ru), Macedonia (mk), Ukrainian (uk), Lithuania (lt), Vietnam (vi), Yunani (el), Marathi (mr) , Arab (ar), Ibrani (dia), Hindi (hi), Uyghur (ug), Jepun (ja), Georgia (ka), Bengali (bn), Urdu (ur), Thai (th), Cina (zh) , Armenia (hy), Malayalam (ml), Korea (ko), Khmer (km), Burma (my), Tamil (ta), Kannada (kn), Telugu (te), Panjabi (pa), Lao (lo) , Gujarati (gu), Standard Tibet (bo), Divehi (dv), Sinhala (si), Amharic (am).

90% Bahasa yang Tepat *: Denmark (da), Romania (ro), Sweden (sv), Latin (la), Bulgaria (bg), Czech (cs), Tagalog (tl), Indonesia (id), Tatar (tt) , Iceland (is), Belarus (be), Basque (eu), Breton (br), Kazakh (kk), Latvia (lv), Estonia (et), Ireland (ga), Chuvash (cv), Bashkir (ba) , Ossetian (os), Tajik (tg).

* Maklumat disampaikan mengikut urutan kebanyakan data ujian. Data berukuran panjang 30-250 aksara. Ujian hanya dilakukan pada 100 bahasa yang paling popular. Ujian menunjukkan ketepatan 99% untuk sebilangan besar ayat yang panjangnya melebihi 300 aksara.

Walaupun anda tidak dapat memperoleh hasil yang sempurna, ketepatan terbaik (99% + untuk banyak bahasa, bahkan yang kurang dikenali) dilihat pada 300 aksara atau lebih. Tidak kira panjang teks, semakin lama semakin baik.

Seperti yang disebutkan oleh Wiki: pengenalpastian bahasa atau tekaan bahasa adalah masalah untuk menentukan kandungan bahasa semula jadi yang diberikan. Pendekatan komputasi untuk masalah ini menganggapnya sebagai kes pengkategorian teks khas, diselesaikan dengan pelbagai kaedah statistik.

Perkhidmatan pengesanan bahasa dapat digunakan dalam berbagai cara, misalnya, mereka dapat digunakan untuk mengidentifikasi bahasa teks perniagaan, seperti chat dan email.
Perkhidmatan ini dapat mengenal pasti bahasa teks dan bahagian teks di mana bahasanya telah berubah, hingga ke tahap kata.
Dengan menggunakan perkhidmatan pengesanan bahasa, Wawasan Pengawasan dapat menonjolkan dan memberi penjelasan tentang bahasa yang digunakan dalam teks dan membantu mengenal pasti aktiviti yang berpotensi mencurigakan.

Teks perniagaan seperti e-mel atau sembang boleh dalam pelbagai bahasa. Bahagian penting dari saluran pemprosesan bahasa semula jadi adalah menentukan bahasa mana yang merupakan bahasa utama sehingga setiap teks dapat diproses melalui langkah-langkah khusus bahasa yang berkaitan.
Dalam sesetengah kes, orang mungkin menukar bahasa yang digunakan dalam sembang untuk mengelakkan pemantauan atau menyembunyikan aktiviti haram. Menentukan titik di mana bahasa sembang ditukar sangat berguna untuk menentukan sama ada aktiviti yang mencurigakan telah berlaku.

jika anda ingin menggunakan API kami, anda boleh mendapatkan lebih banyak maklumat mengenainya dan harganya dengan mengklik SINI

Selain menyediakan perkhidmatan API, kami juga memutuskan untuk melepaskannya sebagai sumber terbuka.
Ini adalah Siaran Sumber terbuka pertama kami! Sumber terbuka pengesan bahasa, tersedia SINI