Smodin anunță lansarea noului său API de detectare a limbii acceptând 176 de limbi

Deoarece un detector de limbă era necesar pentru a ne îmbunătăți aplicațiile, am decis să găsim o soluție.

La început, am crezut că va fi ușor, deoarece Google îl face să arate atât de ușor, dar după cum am aflat, nu a fost o sarcină ușoară, dimpotrivă, detectarea limbajului a fost întotdeauna o sarcină dificilă.

În căutarea celei mai bune opțiuni pentru prezicerea unei limbi din text care nu necesită un model mare de învățare automată, am aflat că cea mai bună soluție a fost un model de identificare a limbii pre-instruit, care necesită mai puțin de 1 MB de memorie în timp ce este capabil să clasificați mii de documente pe secundă.

După multe modificări și îmbunătățiri, am dezvoltat un instrument care poate oferi cu încredere rate de precizie bune pentru fiecare limbă.

Oferind evaluări de precizie foarte bune, și nu numai, ci și la o viteză rapidă și fiabilă. Iată o listă de precizie pe țară.

99% Limbi precise *: franceză (fr), engleză (en), germană (de), portugheză (pt), turcă (tr), olandeză (nl), italiană (it), spaniolă (es), maghiară (hu) , Esperanto (eo), poloneză (pl), finlandeză (fi), rusă (ru), macedoneană (mk), ucraineană (uk), lituaniană (lt), vietnameză (vi), greacă (el), marathi (mr) , Arabă (ar), ebraică (el), hindi (hi), uigur (ug), japoneză (ja), georgiană (ka), bengali (bn), urdu (ur), thailandeză (th), chineză (zh) , Armeană (hy), malayalam (ml), coreeană (ko), Khmer (km), birmaneză (my), tamilă (ta), kannada (kn), telugu (te), Panjabi (pa), Lao (lo) , Gujarati (gu), Tibetan Standard (bo), Divehi (dv), Sinhala (si), Amharic (am).

Limbi exacte 90% *: daneză (da), română (ro), suedeză (sv), latină (la), bulgară (bg), cehă (cs), tagalogă (tl), indoneziană (id), tătară (tt) , Islandeză (este), bielorusă (fi), bască (eu), bretonă (br), kazahă (kk), letonă (lv), estonă (et), irlandeză (ga), chuvash (cv), bashir (ba) , Osetian (os), Tajik (tg).

* Informațiile sunt prezentate în ordinea celor mai multe date de testare. Datele erau propoziții cu lungimea de 30-250 de caractere. Testarea s-a făcut numai în cele mai populare 100 de limbi. Testarea a arătat o precizie de aproape 99% pentru majoritatea frazelor cu o lungime de peste 300 de caractere.

Deși nu puteți obține rezultate perfecte, cea mai bună precizie (99% + pentru multe limbi, chiar și pentru cele mai puțin cunoscute) se vede la 300 de caractere sau mai mult. Indiferent de lungimea textului, cu cât este mai lung cu atât mai bine.

După cum menționează Wiki: identificarea limbii sau ghicirea limbii este problema determinării conținutului limbajului natural. Abordările computaționale ale acestei probleme îl privesc ca un caz special de categorizare a textului, rezolvat cu diferite metode statistice.

Serviciile de detectare a limbii pot fi utilizate în diferite moduri, de exemplu, ar putea fi utilizate pentru a identifica limba textelor de afaceri, cum ar fi chatul și e-mailul.
Serviciul poate identifica limba textului și părțile textului în care s-a schimbat limba, până la nivelul cuvântului.
Folosind serviciile de detectare a limbii, Surveillance Insights poate evidenția și adnota limba utilizată în text și poate ajuta la identificarea activităților potențial suspecte.

Textele de afaceri, cum ar fi e-mailul sau chat-ul, pot fi în diferite limbi. O parte esențială a conductei de procesare a limbajului natural este de a determina care limbă este limba primară, astfel încât fiecare text să poată fi procesat prin etape legate de limbajul specific.
În unele cazuri, oamenii pot schimba limba folosită în chat-uri pentru a evita monitorizarea sau ascunderea activităților ilegale. Determinarea punctului în care se schimbă limba de chat este foarte utilă pentru a determina dacă a avut loc o activitate suspectă.

dacă doriți să utilizați API-ul nostru, puteți obține mai multe informații despre acesta și prețurile acestuia făcând clic AICI

Pe lângă furnizarea unui serviciu API, am decis, de asemenea, să îl lansăm ca open-source.
Aceasta este prima noastră versiune open source! Detector de limbă open source, disponibil AICI