Smodin oznamuje vydanie svojej novinky Rozhranie API na zisťovanie jazyka podporuje 176 jazykov

Pretože na vylepšenie našich aplikácií bol potrebný jazykový detektor, rozhodli sme sa nájsť riešenie.

Najprv sme si mysleli, že to bude jednoduché, pretože google to tak jednoducho vyzerá, ale ako sme zistili, nebola to ľahká úloha, naopak, zisťovanie jazyka bola vždy náročná úloha.

Pri hľadaní najlepšej možnosti predpovedania jazyka z textu, ktorý nevyžadoval veľký model strojového učenia, sme zistili, že najlepším riešením bol vopred vycvičený model identifikácie jazyka, ktorý zaberá menej ako 1 MB pamäte, pričom je schopný klasifikovať tisíce dokumentov za sekundu.

Po mnohých úpravách a vylepšeniach sme vyvinuli nástroj, ktorý môže s istotou poskytovať dobrú mieru presnosti pre každý jazyk.

Poskytuje skutočne dobré hodnotenie presnosti, a nielen to, ale aj pri vysokej a spoľahlivej rýchlosti. Tu je zoznam presností pre každú krajinu.

99% presné jazyky*: francúzština (fr), angličtina (en), nemčina (de), portugalčina (pt), turečtina (tr), holandčina (nl), taliančina (it), španielčina (es), maďarčina (hu) , Esperanto (eo), poľština (pl), fínčina (fi), ruština (ru), macedónčina (mk), ukrajinčina (britská), litovčina (lt), vietnamčina (vi), gréčtina (el), maráthčina (mr) , Arabčina (ar), hebrejčina (he), hindčina (ahoj), Ujgur (ug), japončina (ja), gruzínčina (ka), bengálčina (bn), urdčina (ur), thajčina (th), čínština (zh) , Arménsky (hy), malajálamský (ml), kórejský (ko), khmérsky (km), barmský (my), tamilský (ta), kannadský (kn), telugský (te), panjabský (pa), laoský (lo) , Gujarati (gu), Tibetan Standard (bo), Divehi (dv), Sinhala (si), Amharic (am).

90% presné jazyky*: dánčina (da), rumunčina (ro), švédčina (sv), latinka (la), bulharčina (bg), čeština (cs), tagalog (tl), indonézština (id), tatárčina (tt) , Islandčina (je), bieloruská (be), baskičtina (eu), bretónska (br), kazašská (kk), lotyšská (lv), estónska (et), írska (ga), čuvašská (cv), baškirská (ba) , Osetsky (os), tadžický (tg).

*Informácie sú uvedené v poradí väčšiny údajov z testov. Údaje boli vety o dĺžke 30-250 znakov. Testovanie bolo vykonané iba v najpopulárnejších 100 jazykoch. Testovanie ukázalo takmer 99% presnosť pre väčšinu viet s dĺžkou alebo viac ako 300 znakov.

Aj keď nemôžete dosiahnuť dokonalé výsledky, najlepšia presnosť (99%+ v mnohých jazykoch, dokonca aj v tých menej známych) je 300 alebo viac znakov. Bez ohľadu na dĺžku textu, čím dlhšie, tým lepšie.

Ako uvádza Wiki: identifikácia jazyka alebo hádanie jazyka je problémom určenia, v ktorom prirodzenom jazyku sa daný obsah nachádza. Výpočtové prístupy k tomuto problému ho považujú za zvláštny prípad kategorizácie textu, ktorý je riešený rôznymi štatistickými metódami.

Služby zisťovania jazyka môžu byť použité rôznymi spôsobmi, napríklad by mohli byť použité na identifikáciu jazyka obchodných textov, ako sú chat a e -mail.
Služba dokáže identifikovať jazyk textu a časti textu, kde sa jazyk zmenil, až po úroveň slov.
Vďaka službám zisťovania jazyka môže Surveillance Insights zvýrazniť a označiť jazyk používaný v texte a pomôcť identifikovať potenciálne podozrivé aktivity.

Obchodné texty, ako napríklad e -mail alebo chat, môžu byť v rôznych jazykoch. Kľúčovou súčasťou kanála spracovania prirodzeného jazyka je určiť, ktorý jazyk je primárnym jazykom, aby bolo možné každý text spracovať pomocou súvisiacich krokov špecifických pre jazyk.
V niektorých prípadoch môžu ľudia zmeniť jazyk používaný v rozhovoroch, aby sa vyhli monitorovaniu alebo skrývaniu nezákonných aktivít. Určenie bodu, v ktorom sa jazyk chatu prepne, je veľmi užitočné na zistenie, či došlo k podozrivej aktivite.

ak by ste chceli používať naše API, kliknutím na tlačidlo získate ďalšie informácie o ňom a jeho cenách TU

Okrem poskytovania služby API sme sa rozhodli vydať ju aj ako open-source.
Toto je naše prvé vydanie otvoreného zdroja! Detektor jazykov, otvorený zdroj, k dispozícii TU