A Smodin bejelentette újdonságának megjelenését Nyelvészlelési API 176 nyelvet támogat

Mivel nyelvérzékelőre volt szükség az alkalmazásaink fejlesztéséhez, úgy döntöttünk, hogy megoldást találunk.

Először azt hittük, hogy könnyű lesz, mivel a google ilyen egyszerűvé teszi a megjelenést, de mint megtudtuk, nem volt könnyű feladat, éppen ellenkezőleg, a nyelvfelismerés mindig is nehéz feladat volt.

Amikor megkerestük a legjobb lehetőséget a nyelv előrejelzésére olyan szövegből, amely nem igényelt nagy gépi tanulási modellt, rájöttünk, hogy a legjobb megoldás egy előre betanított nyelvi azonosítási modell, amely kevesebb mint 1 MB memóriát vesz igénybe, miközben képes dokumentumok ezreit osztályozza másodpercenként.

Sok módosítás és fejlesztés után kifejlesztettünk egy olyan eszközt, amely magabiztosan képes jó pontosságot biztosítani minden nyelvre.

Valóban jó pontossági minősítést nyújt, és nem csak ezt, hanem gyors és megbízható sebességgel is. Íme egy pontossági lista országonként.

99% pontos nyelvek*: francia (fr), angol (en), német (de), portugál (pt), török ​​(tr), holland (nl), olasz (it), spanyol (ok), magyar (hu) , Eszperantó (eo), lengyel (pl), finn (fi), orosz (ru), macedón (mk), ukrán (uk), litván (lt), vietnami (vi), görög (el), marathi (mr) , Arab (ar), héber (he), hindi (hi), ujgur (ug), japán (ja), grúz (ka), bengáli (bn), urdu (ur), thai (th), kínai (zh) , Örmény (hy), malajálam (ml), koreai (ko), khmer (km), burmai (my), tamil (ta), kannada (kn), telugu (te), panjabi (pa), laoszi (lo) , Gudzsaráti (gu), tibeti standard (bo), divehi (dv), szingaléz (si), amhara (am).

90% pontos nyelvek*: dán (da), román (ro), svéd (sv), latin (la), bolgár (bg), cseh (cs), tagalog (tl), indonéz (id), tatár (tt) , Izlandi (is), fehérorosz (be), baszk (eu), breton (br), kazah (kk), lett (lv), észt (et), ír (ga), csuvas (cv), baskír (ba) , Oszét (os), tadzsik (tg).

*Az információk a legtöbb tesztadat sorrendjében jelennek meg. Az adatok 30-250 karakter hosszú mondatok voltak. A tesztelés csak a legnépszerűbb 100 nyelven történt. A tesztelés 99% -os pontosságot mutatott a mondatok többségében, 300 karakter vagy annál hosszabb hosszúságban.

Bár nem lehet tökéletes eredményeket elérni, a legjobb pontosság (99%+ sok nyelvnél, még a kevésbé ismerteknél is) legalább 300 karakterből áll. A szöveg hosszától függetlenül minél hosszabb, annál jobb.

Ahogy a Wiki is említi: a nyelvi azonosítás vagy a találgatás az a probléma, amely meghatározza, hogy az adott tartalom melyik természetes nyelvben található. A probléma számítógépes megközelítései a szövegkategorizálás különleges esetének tekintik, amelyet különféle statisztikai módszerekkel oldanak meg.

A nyelvfelismerő szolgáltatásokat különböző módon lehet használni, például az üzleti szövegek nyelvének azonosítására, például a chatre és az e -mailre.
A szolgáltatás a szavak szintjéig képes azonosítani a szöveg nyelvét és azokat a szövegrészeket, ahol a nyelv megváltozott.
A nyelvészlelési szolgáltatások használatával a Surveillance Insights kiemelheti és megjegyzéseket fűzhet a szövegben használt nyelvhez, és segíthet azonosítani a potenciálisan gyanús tevékenységeket.

Az üzleti szövegek, például az e -mail vagy a csevegés különböző nyelveken is megjelenhetnek. A természetes nyelv feldolgozási folyamatának kulcsfontosságú része annak meghatározása, hogy melyik nyelv az elsődleges nyelv, így minden szöveg feldolgozható a kapcsolódó nyelvspecifikus lépésekkel.
Egyes esetekben az emberek megváltoztathatják a chatekben használt nyelvet, hogy elkerüljék az illegális tevékenységek megfigyelését vagy elrejtését. A csevegés nyelvének váltási pontjának meghatározása nagyon hasznos annak megállapításához, hogy történt-e gyanús tevékenység.

ha szeretné használni az API -t, akkor további információkat kaphat róla és annak árairól, ha rákattint ITT

Az API szolgáltatás nyújtása mellett úgy döntöttünk, hogy nyílt forráskódúként is kiadjuk.
Ez az első nyílt forráskódú kiadásunk! Nyelvérzékelő nyílt forráskódú, elérhető ITT