Nyelvérzékelő API - Írásbeli útmutató

Tartalomjegyzék

A Smodin bejelentette az új, 176 nyelvet támogató nyelvfelismerő API kiadását

Mivel alkalmazásaink fejlesztéséhez szükség volt egy nyelvi detektorra, úgy döntöttünk, hogy megoldást keresünk.

Először azt hittük, hogy könnyű lesz, hiszen a Google olyan könnyűnek mutatja, de mint kiderült, nem volt könnyű feladat, sőt, a nyelvi felismerés mindig is nehéz feladat volt.

Amikor a legjobb lehetőséget kerestük a nyelv szövegből történő előrejelzésére, amely nem igényel nagy gépi tanulási modellt, rájöttünk, hogy a legjobb megoldás egy előre betanított nyelvazonosító modell, amely kevesebb mint 1 MB memóriát igényel, miközben másodpercenként több ezer dokumentumot képes osztályozni.

Sok finomítás és fejlesztés után kifejlesztettünk egy olyan eszközt, amely minden nyelv esetében magabiztosan jó pontossági arányokat tud nyújtani.

Igazán jó pontossági értékeket biztosít, és nem csak ezt, hanem gyors és megbízható sebességet is. Itt van egy pontossági lista országonként.

99%-os pontosság Nyelvek*: (fr), angol (en), német (de), portugál (pt), török (tr), holland (nl), olasz (it), spanyol (es), magyar (hu), eszperantó (eo), lengyel (pl), finn (fi), orosz (ru), macedón (mk), ukrán (uk), litván (lt), vietnami (vi), görög (el), marathi (mr), arab (ar), héber (he), hindi (hi), Ujgur (ug), japán (ja), grúz (ka), bengáli (bn), urdu (ur), thai (th), kínai (zh), örmény (hy), malajálam (ml), koreai (ko), khmer (km), burmai (my), tamil (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo), gujarati (gu), tibeti standard (bo), divehi (dv), szingaléz (si), amharai (am).

90%-os pontosság Nyelvek*: (sv), latin (la), bolgár (bg), cseh (cs), tagalog (tl), indonéz (id), tatár (tt), izlandi (is), fehérorosz (be), baszk (eu), breton (br), kazah (kk), lett (lv), észt (et), ír (ga), csuvas (cv), baskír (ba), oszét (os), tadzsik (tg).

*Az információk a legtöbb vizsgálati adat sorrendjében szerepelnek. Az adatok 30-250 karakter hosszúságú mondatok voltak. A tesztelés csak a legnépszerűbb 100 nyelven történt. A tesztelés közel 99%-os pontosságot mutatott a 300 karakter hosszúságú vagy annál hosszabb mondatok többségénél.

Bár tökéletes eredményt nem lehet elérni, a legjobb pontosság (99%+ sok nyelv esetében, még a kevésbé ismerteknél is) 300 karakter vagy annál több karakter esetén érhető el. A szöveg hosszától függetlenül, minél hosszabb, annál jobb.

Ahogy a Wiki is említi: a nyelvi azonosítás vagy nyelvi kitalálás annak meghatározása, hogy egy adott tartalom milyen természetes nyelven van. A probléma számítógépes megközelítései a szövegkategorizálás speciális esetének tekintik, amelyet különböző statisztikai módszerekkel oldanak meg.

A nyelvfelismerő szolgáltatások többféleképpen használhatók, például az üzleti szövegek, például a chat és az e-mail nyelvének azonosítására.
A szolgáltatás képes azonosítani a szöveg nyelvét és a szöveg azon részeit, ahol a nyelv megváltozott, egészen a szavak szintjéig.

A mai digitális világban a tartalom hozzáférhetővé tétele fontosabb, mint valaha, különösen, ha videókról van szó. Az olyan platformok esetében, mint a YouTube, a YouTube feliratfordító óriási különbséget jelenthet, segítve az alkotókat abban, hogy szélesebb, globális közönséget érjenek el. A pontos feliratfordítások lebontják a nyelvi akadályokat, és biztosítják, hogy a videók a világ minden tájáról érkező nézőket is bevonzzák.

A Surveillance Insights a nyelvérzékelési szolgáltatások segítségével kiemeli és megjegyzésekkel látja el a szövegben használt nyelvet, és segít azonosítani a potenciálisan gyanús tevékenységeket.

Az üzleti szövegek, mint például az e-mail vagy a chat, különböző nyelveken érkezhetnek.

A különböző régiókban működő vállalkozások számára egy többnyelvű fordító hihetetlenül hasznos lehet. E technológia beépítésével a vállalatok fokozhatják a több nyelven történő hatékony kommunikáció képességét, javítva ezzel az ügyfélélményt és kiszélesítve globális elérésüket. A lokalizáció iránti növekvő igény miatt egy megbízható többnyelvű fordító alapvető támogatást nyújthat a különböző célközönségek számára megfelelő tartalomszolgáltatásban.

A természetes nyelvi feldolgozási csővezeték kulcsfontosságú része annak meghatározása, hogy melyik nyelv az elsődleges nyelv, hogy az egyes szövegeket a kapcsolódó nyelvspecifikus lépéseken keresztül lehessen feldolgozni.

Egyes esetekben az emberek megváltoztatják a csevegésekben használt nyelvet, hogy elkerüljék a megfigyelést vagy elrejtsék az illegális tevékenységeket. A csevegési nyelvváltás időpontjának meghatározása nagyon hasznos annak megállapításához, hogy történt-e gyanús tevékenység.

Ha szeretné használni API-nkat, további információkat kaphat róla és az árazásról IDE kattintva.

Az API szolgáltatás nyújtása mellett úgy döntöttünk, hogy nyílt forráskódúként is kiadjuk.
Ez az első nyílt forráskódú kiadásunk! Nyelvi detektor nyílt forráskódú, elérhető ITT