„Smodin“ praneša apie savo naujojo pasirodymą Kalbos aptikimo API palaiko 176 kalbas

Kadangi kalbų detektorius buvo reikalingas mūsų programoms tobulinti, nusprendėme rasti sprendimą.

Iš pradžių manėme, kad tai bus lengva, nes „Google“ leidžia atrodyti taip lengvai, tačiau, kaip sužinojome, tai nebuvo lengva užduotis, priešingai, kalbos aptikimas visada buvo sudėtingas uždavinys.

Ieškodami geriausio varianto numatyti kalbą iš teksto, kuriam nereikėjo didelio mašininio mokymosi modelio, išsiaiškinome, kad geriausias sprendimas buvo iš anksto apmokytas kalbos atpažinimo modelis, kuris užima mažiau nei 1 MB atminties, o klasifikuoti tūkstančius dokumentų per sekundę.

Po daugybės pakeitimų ir patobulinimų sukūrėme įrankį, kuris gali užtikrintai užtikrinti gerus kiekvienos kalbos tikslumo rodiklius.

Suteikia tikrai gerus tikslumo įvertinimus, ir ne tik, bet ir greitai bei patikimai. Pateikiame kiekvienos šalies tikslumo sąrašą.

99% tikslių kalbų*: prancūzų (fr), anglų (en), vokiečių (de), portugalų (pt), turkų (tr), olandų (nl), italų (it), ispanų (es), vengrų (hu) , Esperanto (eo), lenkų (pl), suomių (fi), rusų (ru), makedonų (mk), ukrainiečių (uk), lietuvių (lt), vietnamiečių (vi), graikų (el), maratų (mr) , Arabų (ar), hebrajų (he), hindi (hi), uigūrų (ug), japonų (ja), gruzinų (ka), bengalų (bn), urdu (ur), tailandiečių (th), kinų (zh) , Armėnų (hy), malajalių (ml), korėjiečių (ko), khmerų (km), birmiečių (my), tamilų (ta), kanadų (kn), telugų (te), panjabi (pa), Laoso (lo) , Gudžarati (gu), Tibeto standartas (bo), Divehi (dv), singalų (si), amharų (am).

90% tikslių kalbų*: danų (da), rumunų (ro), švedų (sv), lotynų (la), bulgarų (bg), čekų (cs), tagalogų (tl), indoneziečių (id), totorių (tt) , Islandų (is), baltarusių (be), baskų (eu), bretonų (br), kazachų (kk), latvių (lv), estų (et), airių (ga), chuvash (cv), baškirų (ba) , Osetinų (os), tadžikų (tg).

*Informacija pateikiama daugumos bandymų duomenų tvarka. Duomenys buvo 30–250 simbolių ilgio sakiniai. Bandymai buvo atlikti tik 100 populiariausių kalbų. Bandymas parodė beveik 99% tikslumą daugumai sakinių, kurių ilgis yra 300 simbolių arba didesnis.

Nors jūs negalite gauti puikių rezultatų, geriausias tikslumas (99%+ daugeliui kalbų, net ir mažiau žinomoms) matomas esant 300 ar daugiau simbolių. Nepriklausomai nuo teksto ilgio, kuo ilgiau, tuo geriau.

Kaip minimas „Wiki“: kalbos atpažinimas arba kalbos atspėjimas yra problema, nustatanti, kurioje natūralioje kalboje yra turinys. Kompiuteriniai šios problemos požiūriai vertina ją kaip ypatingą teksto kategorizavimo atvejį, išspręstą įvairiais statistiniais metodais.

Kalbos aptikimo paslaugos gali būti naudojamos įvairiais būdais, pavyzdžiui, jos gali būti naudojamos verslo tekstų, tokių kaip pokalbiai ir el.
Paslauga gali nustatyti teksto kalbą ir teksto dalis, kuriose kalba pasikeitė, iki žodžio lygio.
Naudodamiesi kalbos aptikimo paslaugomis, „Surveillance Insights“ gali paryškinti ir komentuoti tekste naudojamą kalbą ir padėti nustatyti galimai įtartiną veiklą.

Verslo tekstai, tokie kaip el. Laiškas ar pokalbiai, gali būti pateikiami skirtingomis kalbomis. Pagrindinė natūralios kalbos apdorojimo proceso dalis yra nustatyti, kuri kalba yra pagrindinė, kad kiekvienas tekstas galėtų būti apdorotas atliekant susijusius konkrečios kalbos veiksmus.
Kai kuriais atvejais žmonės gali pakeisti pokalbių kalbą, kad išvengtų nelegalios veiklos stebėjimo ar slėpimo. Pokalbio kalbos pakeitimo taško nustatymas yra labai naudingas norint nustatyti, ar įvyko įtartina veikla.

jei norite naudoti mūsų API, spustelėję galite gauti daugiau informacijos apie ją ir jos kainas ČIA

Mes ne tik teikiame API paslaugą, bet ir nusprendėme ją išleisti kaip atvirojo kodo.
Tai pirmasis mūsų atvirojo kodo leidimas! Atviro kodo kalbos detektorius, galima ČIA