Smodin kuulutab välja oma uue Keele tuvastamise API toetab 176 keelt

Kuna meie rakenduste täiustamiseks oli vaja keeleandurit, otsustasime lahenduse leida.

Alguses arvasime, et see on lihtne, kuna google muudab selle nii lihtsaks, kuid nagu me teada saime, polnud see lihtne ülesanne, vastupidi, keele tuvastamine on alati olnud keeruline ülesanne.

Otsides parimat võimalust keele ennustamiseks tekstist, mis ei nõudnud suurt masinõppemudelit, leidsime, et parim lahendus oli eelnevalt koolitatud keele tuvastamise mudel, mis võtab vähem kui 1 MB mälu, kuid suudab klassifitseerida tuhandeid dokumente sekundis.

Pärast paljusid muudatusi ja täiustusi oleme välja töötanud tööriista, mis suudab kindlalt pakkuda iga keele täpsust.

Pakub tõeliselt häid täpsushindamisi ja mitte ainult seda, vaid ka kiiret ja usaldusväärset kiirust. Siin on täpsusloend riigiti.

99% täpsed keeled*: prantsuse (fr), inglise (en), saksa (de), portugali (pt), türgi (tr), hollandi (nl), itaalia (it), hispaania (es), ungari (hu) , esperanto (eo), poola (pl), soome (fi), vene (ru), makedoonia (mk), ukraina (uk), leedu (lt), vietnami (vi), kreeka (el), marati (mr) , araabia (ar), heebrea (he), hindi (hi), uiguuri (ug), jaapani (ja), gruusia (ka), bengali (bn), urdu (ur), tai (th), hiina (zh) , armeenia (hy), malajalami (ml), korea (ko), khmeeri (km), birma (minu), tamili (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo) , gudžarati (gu), tiibeti standard (bo), divehi (dv), singali (si), amhari (am).

90% täpsed keeled*: taani (da), rumeenia (ro), rootsi (sv), ladina (la), bulgaaria (bg), tšehhi (cs), tagalogi (tl), indoneesia (id), tatari (tt) , Islandi (is), valgevene (be), baski (eu), bretooni (br), kasahhi (kk), läti (lv), eesti (et), iiri (ga), tšuvaši (cv), baškiiri (ba) , Osseetia (os), tadžiki (tg).

*Teave esitatakse enamiku katseandmete järjekorras. Andmed olid 30–250 märgi pikkused laused. Testimine toimus ainult 100 populaarseimas keeles. Testimine näitas enamiku lausete puhul, mis olid pikemad kui 99 tähemärki, peaaegu 300% täpsusega.

Kuigi te ei saa täiuslikke tulemusi, on parim täpsus (99%+ paljude keelte, isegi vähemtuntud keelte puhul) 300 või enama tähemärgi juures. Sõltumata teksti pikkusest, mida pikem, seda parem.

Nagu Wiki mainib: keele tuvastamine või keele oletamine on probleem, mis määrab, millises loomulikus keeles antud sisu on. Selle probleemi arvutuslikud lähenemisviisid näevad seda kui teksti liigitamise erijuhtu, mis on lahendatud erinevate statistiliste meetoditega.

Keeletuvastusteenuseid saab kasutada mitmel viisil, näiteks äritekstide, näiteks vestluse ja e -kirjade keele tuvastamiseks.
Teenus suudab tuvastada teksti keele ja tekstiosad, kus keel on muutunud, kuni sõnade tasemeni.
Keeletuvastusteenuseid kasutades saab Surveillance Insights esile tuua ja märkida tekstis kasutatavat keelt ning aidata tuvastada potentsiaalselt kahtlasi tegevusi.

Äritekstid, nagu meil või vestlus, võivad olla erinevates keeltes. Loomuliku keele töötlemise konveieri põhiosa on määrata kindlaks, milline keel on esmane keel, et iga teksti saaks töödelda seotud keelepõhiste toimingute abil.
Mõnel juhul võivad inimesed muuta vestlustes kasutatavat keelt, et vältida ebaseaduslike tegevuste jälgimist või varjamist. Vestluskeele vahetamise koha kindlaksmääramine on väga kasulik, et teha kindlaks, kas on toimunud kahtlane tegevus.

kui soovite meie API -d kasutada, saate selle ja selle hinna kohta lisateavet klõpsates SIIN

Lisaks API-teenuse pakkumisele oleme otsustanud selle vabastada ka avatud lähtekoodiga.
See on meie esimene avatud lähtekoodiga versioon! Avatud lähtekoodiga keeledetektor, saadaval SIIN