Smodin napoveduje izid svojega novega API za zaznavanje jezika podpira 176 jezikov

Ker je bil za izboljšanje naših aplikacij potreben detektor jezika, smo se odločili najti rešitev.

Sprva smo mislili, da bo enostavno, saj je z Googlom videti tako preprosto, a kot smo ugotovili, to ni bila lahka naloga, nasprotno, odkrivanje jezika je bilo vedno težko opravilo.

Pri iskanju najboljše možnosti za napovedovanje jezika iz besedila, ki ni zahtevalo velikega modela strojnega učenja, smo ugotovili, da je najboljša rešitev vnaprej usposobljen model identifikacije jezika, ki zavzame manj kot 1 MB pomnilnika, hkrati pa lahko razvršča na tisoče dokumentov na sekundo.

Po številnih popravkih in izboljšavah smo razvili orodje, ki lahko samozavestno zagotovi dobre stopnje natančnosti za vsak jezik.

Zagotavlja res dobre ocene natančnosti in ne le to, ampak tudi pri hitri in zanesljivi hitrosti. Tu je seznam natančnosti za državo.

99% natančni jeziki*: francoski (fr), angleški (en), nemški (de), portugalski (pt), turški (tr), nizozemski (nl), italijanski (it), španski (es), madžarski (hu) , Esperanto (eo), poljski (pl), finski (fi), ruski (ru), makedonski (mk), ukrajinski (velika Britanija), litovski (lt), vietnamski (vi), grški (el), maratski (mr) , Arabščina (ar), hebrejščina (on), hindi (hi), ujgur (ug), japonščina (ja), gruzijščina (ka), bengalščina (bn), urdu (ur), tajščina (th), kitajščina (zh) , Armenski (hy), malajalamski (ml), korejski (ko), kmerski (km), burmanski (moj), tamilski (ta), kanadski (kn), teluški (te), panjabi (pa), laoški (lo) , Gudžarati (gu), tibetanski standard (bo), divehi (dv), sinhala (si), amharski (am).

90% natančni jeziki*: danski (da), romunski (ro), švedski (sv), latinski (la), bolgarski (bg), češki (cs), tagaloški (tl), indonezijski (id), tatarski (tt) , Islandski (je), beloruski (be), baskovski (eu), bretonski (br), kazahstanski (kk), latvijski (lv), estonski (et), irski (ga), čuvaški (cv), baškirski (ba) , Osetski (os), tadžiški (tg).

*Podatki so predstavljeni po vrstnem redu večine testnih podatkov. Podatki so bili stavki dolžine 30-250 znakov. Testiranje je potekalo le v najbolj priljubljenih 100 jezikih. Testiranje je pokazalo skoraj 99 -odstotno natančnost za večino stavkov z dolžino ali nad 300 znakov.

Čeprav ne morete doseči popolnih rezultatov, je najboljša natančnost (99%+ za mnoge jezike, tudi manj znane) pri 300 znakih ali več. Ne glede na dolžino besedila, dlje tem bolje.

Kot omenja Wiki: identifikacija jezika ali ugibanje jezika je problem ugotavljanja, v katerem naravnem jeziku je vsebina. Računalniški pristopi k temu problemu ga obravnavajo kot poseben primer kategorizacije besedila, ki ga rešujejo različne statistične metode.

Storitve zaznavanja jezika se lahko uporabljajo na različne načine, na primer za identifikacijo jezika poslovnih besedil, kot sta klepet in e -pošta.
Storitev lahko identificira jezik besedila in dele besedila, kjer se je jezik spremenil, do ravni besed.
S storitvami odkrivanja jezika lahko Surveillance Insights označi in označi jezik, uporabljen v besedilu, ter pomaga pri prepoznavanju potencialno sumljivih dejavnosti.

Poslovna besedila, kot sta e -pošta ali klepet, so lahko v različnih jezikih. Ključni del postopka obdelave naravnega jezika je določiti, kateri jezik je primarni jezik, tako da je mogoče vsako besedilo obdelati s povezanimi koraki, značilnimi za jezik.
V nekaterih primerih lahko ljudje spremenijo jezik, ki se uporablja v klepetih, da se izognejo spremljanju ali skrivanju nezakonitih dejavnosti. Določanje točke, na kateri se preklopi jezik klepeta, je zelo koristno za ugotavljanje, ali je prišlo do sumljive dejavnosti.

če želite uporabiti naš API, lahko dobite več informacij o njem in njegovih cenah s klikom TUKAJ

Poleg zagotavljanja storitve API smo se odločili tudi, da jo izdamo kot odprtokodno.
To je naša prva odprtokodna izdaja! Odprta koda detektorja jezika, na voljo TUKAJ