Smodin paziņo par sava jaunā izlaišanu Valodas noteikšanas API atbalsta 176 valodas

Tā kā mūsu lietojumprogrammu uzlabošanai bija nepieciešams valodas detektors, mēs esam nolēmuši atrast risinājumu.

Sākumā mēs domājām, ka tas būs viegli, jo Google padara to tik vieglu, taču, kā mēs noskaidrojām, tas nebija viegls uzdevums, gluži pretēji, valodas noteikšana vienmēr ir bijusi grūts uzdevums.

Meklējot labāko variantu, kā paredzēt valodu no teksta, kuram nebija vajadzīgs liels mašīnmācīšanās modelis, mēs noskaidrojām, ka labākais risinājums bija iepriekš apmācīts valodas identifikācijas modelis, kas aizņem mazāk par 1 MB atmiņas, vienlaikus klasificēt tūkstošiem dokumentu sekundē.

Pēc daudziem pielāgojumiem un uzlabojumiem mēs esam izstrādājuši rīku, kas var droši nodrošināt labus precizitātes rādītājus katrai valodai.

Nodrošina patiešām labus precizitātes novērtējumus, turklāt ne tikai to, bet arī ātru un uzticamu ātrumu. Šeit ir precizitātes saraksts katrai valstij.

99% precīzas valodas*: franču (fr), angļu (en), vācu (de), portugāļu (pt), turku (tr), holandiešu (nl), itāļu (it), spāņu (es), ungāru (hu) , Esperanto (eo), poļu (pl), somu (fi), krievu (ru), maķedoniešu (mk), ukraiņu (uk), lietuviešu (lt), vjetnamiešu (vi), grieķu (el), maratu (mr) , Arābu (ar), ebreju (he), hindi (hi), uiguru (ug), japāņu (ja), gruzīnu (ka), bengāļu (bn), urdu (ur), taju (th), ķīniešu (zh) , Armēņu (hy), malajalu (ml), korejiešu (ko), khmeru (km), birmiešu (my), tamilu (ta), kanādiešu (kn), telugu (te), panjabi (pa), lao (lo) , Gudžaratu (gu), Tibetas standarts (bo), Divehi (dv), sinhalu (si), amharu (am).

90% precīzas valodas*: dāņu (da), rumāņu (ro), zviedru (sv), latīņu (la), bulgāru (bg), čehu (cs), tagalogu (tl), indonēziešu (id), tatāru (tt) , Islandiešu (ir), baltkrievu (be), basku (eu), bretonu (br), kazahu (kk), latviešu (lv), igauņu (et), īru (ga), čuvaša (cv), baškīru (ba) , Osetīnu (os), tadžiku (tg).

*Informācija tiek parādīta lielākajā daļā testa datu. Dati bija teikumi, kuru garums bija 30–250 rakstzīmes. Pārbaude tika veikta tikai populārākajās 100 valodās. Pārbaude parādīja gandrīz 99% precizitāti lielākajai daļai teikumu, kuru garums bija 300 rakstzīmes vai vairāk.

Lai gan nevarat iegūt perfektus rezultātus, vislabākā precizitāte (99%+ daudzās valodās, pat mazāk zināmās) ir redzama ar 300 vai vairāk rakstzīmēm. Neatkarīgi no teksta garuma, jo garāks, jo labāk.

Kā minēts Wiki: valodas identifikācija vai valodas uzminēšana ir problēma, nosakot, kurā dabiskajā valodā ir dotais saturs. Šīs problēmas skaitļošanas pieejas uzskata to par īpašu teksta kategorizācijas gadījumu, kas atrisināts ar dažādām statistikas metodēm.

Valodas noteikšanas pakalpojumus var izmantot dažādos veidos, piemēram, tos var izmantot, lai identificētu biznesa tekstu valodu, piemēram, tērzēšanu un e -pastu.
Pakalpojums var identificēt teksta valodu un teksta daļas, kurās valoda ir mainījusies, līdz vārdu līmenim.
Izmantojot valodu noteikšanas pakalpojumus, Surveillance Insights var izcelt un komentēt tekstā izmantoto valodu un palīdzēt identificēt potenciāli aizdomīgas darbības.

Uzņēmējdarbības teksti, piemēram, e -pasts vai tērzēšana, var būt dažādās valodās. Dabiskās valodas apstrādes procesa galvenā daļa ir noteikt, kura valoda ir primārā valoda, lai katru tekstu varētu apstrādāt, veicot ar valodai saistītas darbības.
Dažos gadījumos cilvēki var mainīt tērzēšanā izmantoto valodu, lai izvairītos no nelikumīgu darbību uzraudzības vai slēpšanas. Tērzēšanas valodas maiņas punkta noteikšana ir ļoti noderīga, lai noteiktu, vai ir notikusi aizdomīga darbība.

ja vēlaties izmantot mūsu API, varat iegūt vairāk informācijas par to un tās cenām, noklikšķinot ŠEIT

Papildus API pakalpojuma nodrošināšanai mēs arī nolēmām to izlaist kā atvērtā koda.
Šis ir mūsu pirmais atvērtā koda laidiens! Atvērts pirmkoda valodas detektors, pieejams ŠEIT