Smodin najavljuje izlazak svoje nove API za otkrivanje jezika podržava 176 jezika

Budući da je detektor jezika bio potreban za poboljšanje naših aplikacija, odlučili smo pronaći rješenje.

U početku smo mislili da će biti lako budući da Google čini da izgleda tako jednostavno, ali kako smo saznali, to nije bio lak zadatak, naprotiv, otkrivanje jezika oduvijek je bilo teško.

U potrazi za najboljom opcijom za predviđanje jezika iz teksta koji nije zahtijevao veliki model strojnog učenja, otkrili smo da je najbolje rješenje unaprijed obučeni model identifikacije jezika koji zauzima manje od 1 MB memorije dok je u mogućnosti klasificirati tisuće dokumenata u sekundi.

Nakon mnogih izmjena i poboljšanja, razvili smo alat koji s pouzdanjem može pružiti dobre stope točnosti za svaki jezik.

Pružajući zaista dobre ocjene točnosti, i ne samo to, već i velikom i pouzdanom brzinom. Evo popisa točnosti po zemlji.

99% točni jezici*: francuski (fr), engleski (en), njemački (de), portugalski (pt), turski (tr), nizozemski (nl), talijanski (it), španjolski (es), mađarski (hu) , Esperanto (eo), poljski (pl), finski (fi), ruski (ru), makedonski (mk), ukrajinski (uk), litvanski (lt), vijetnamski (vi), grčki (el), marati (mr) , Arapski (ar), hebrejski (on), hindi (hi), ujgurski (ug), japanski (ja), gruzijski (ka), bengalski (bn), urdu (ur), tajlandski (th), kineski (zh) , Armenski (hy), malajalamski (ml), korejski (ko), kmerski (km), burmanski (moj), tamilski (ta), kanada (kn), telugu (te), panjabi (pa), lao (lo) , Gudžarati (gu), tibetanski standard (bo), divehi (dv), sinhala (si), amharski (am).

90% točni jezici*: danski (da), rumunjski (ro), švedski (sv), latinski (la), bugarski (bg), češki (cs), tagaloški (tl), indonezijski (id), tatarski (tt) , Islandski (je), bjeloruski (biti), baskijski (eu), bretonski (br), kazahstanski (kk), latvijski (lv), estonski (et), irski (ga), čuvaški (cv), baškirski (ba) , Osetski (os), tadžički (tg).

*Podaci su prikazani redoslijedom većine testnih podataka. Podaci su bile rečenice duljine 30-250 znakova. Testiranje je provedeno samo na najpopularnijih 100 jezika. Testiranje je pokazalo gotovo 99% točnost za većinu rečenica duljine ili veće od 300 znakova.

Iako ne možete postići savršene rezultate, najbolja točnost (99%+ za mnoge jezike, čak i manje poznate) ima 300 znakova ili više. Bez obzira na duljinu teksta, što duže, to bolje.

Kao što Wiki napominje: identifikacija jezika ili pogađanje jezika problem je utvrđivanja u kojem se prirodnom jeziku nalazi sadržaj. Računalni pristupi ovom problemu vide ga kao poseban slučaj kategorizacije teksta, riješen različitim statističkim metodama.

Usluge otkrivanja jezika mogu se koristiti na različite načine, na primjer, mogle bi se koristiti za identifikaciju jezika poslovnih tekstova, kao što su chat i e -pošta.
Usluga može identificirati jezik teksta i dijelove teksta u kojima se jezik promijenio, do razine riječi.
Koristeći usluge otkrivanja jezika, Surveillance Insights može istaknuti i označiti jezik koji se koristi u tekstu i pomoći u identificiranju potencijalno sumnjivih aktivnosti.

Poslovni tekstovi poput e -pošte ili chata mogu biti na različitim jezicima. Ključni dio cjevovoda za obradu prirodnog jezika je odrediti koji je jezik primarni jezik kako bi se svaki tekst mogao obraditi kroz povezane korake specifične za jezik.
U nekim slučajevima ljudi mogu promijeniti jezik koji se koristi u razgovorima kako bi izbjegli praćenje ili skrivanje nezakonitih aktivnosti. Određivanje točke u kojoj se mijenja jezik razgovora vrlo je korisno za utvrđivanje je li se dogodila sumnjiva aktivnost.

ako želite koristiti naš API, više informacija o njemu i njegovim cijenama možete dobiti klikom na OVDJE

Osim pružanja API usluge, odlučili smo je objaviti i kao otvoreni izvorni kod.
Ovo je naše prvo izdanje otvorenog koda! Otvoreni izvor za detektor jezika, dostupan OVDJE