Nyelvérzékelő API

Sep 18, 2021 - 4 min olvasva

A Smodin bejelentette az új, 176 nyelvet támogató nyelvfelismerő API kiadását

Mivel alkalmazásaink fejlesztéséhez szükség volt egy nyelvi detektorra, úgy döntöttünk, hogy megoldást keresünk.

Először azt hittük, hogy könnyű lesz, hiszen a Google olyan könnyűnek mutatja, de mint kiderült, nem volt könnyű feladat, sőt, a nyelvi felismerés mindig is nehéz feladat volt.

Amikor a legjobb lehetőséget kerestük a nyelv szövegből történő előrejelzésére, amely nem igényel nagy gépi tanulási modellt, rájöttünk, hogy a legjobb megoldás egy előre betanított nyelvazonosító modell, amely kevesebb mint 1 MB memóriát igényel, miközben másodpercenként több ezer dokumentumot képes osztályozni.

Sok finomítás és fejlesztés után kifejlesztettünk egy olyan eszközt, amely minden nyelv esetében magabiztosan jó pontossági arányokat tud nyújtani.

Igazán jó pontossági értékeket biztosít, és nem csak ezt, hanem gyors és megbízható sebességet is. Itt van egy pontossági lista országonként.

99%-os pontosság Nyelvek*: (fr), angol (en), német (de), portugál (pt), török (tr), holland (nl), olasz (it), spanyol (es), magyar (hu), eszperantó (eo), lengyel (pl), finn (fi), orosz (ru), macedón (mk), ukrán (uk), litván (lt), vietnami (vi), görög (el), marathi (mr), arab (ar), héber (he), hindi (hi), Ujgur (ug), japán (ja), grúz (ka), bengáli (bn), urdu (ur), thai (th), kínai (zh), örmény (hy), malajálam (ml), koreai (ko), khmer (km), burmai (my), tamil (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo), gujarati (gu), tibeti standard (bo), divehi (dv), szingaléz (si), amharai (am).

90%-os pontosság Nyelvek*: (sv), latin (la), bolgár (bg), cseh (cs), tagalog (tl), indonéz (id), tatár (tt), izlandi (is), fehérorosz (be), baszk (eu), breton (br), kazah (kk), lett (lv), észt (et), ír (ga), csuvas (cv), baskír (ba), oszét (os), tadzsik (tg).

*Az információk a legtöbb vizsgálati adat sorrendjében szerepelnek. Az adatok 30-250 karakter hosszúságú mondatok voltak. A tesztelés csak a legnépszerűbb 100 nyelven történt. A tesztelés közel 99%-os pontosságot mutatott a 300 karakter hosszúságú vagy annál hosszabb mondatok többségénél.

Bár tökéletes eredményt nem lehet elérni, a legjobb pontosság (99%+ sok nyelv esetében, még a kevésbé ismerteknél is) 300 karakter vagy annál több karakter esetén érhető el. A szöveg hosszától függetlenül, minél hosszabb, annál jobb.

Ahogy a Wiki is említi: a nyelvi azonosítás vagy nyelvi kitalálás annak meghatározása, hogy egy adott tartalom milyen természetes nyelven van. A probléma számítógépes megközelítései a szövegkategorizálás speciális esetének tekintik, amelyet különböző statisztikai módszerekkel oldanak meg.

A nyelvfelismerő szolgáltatások többféleképpen használhatók, például az üzleti szövegek, például a chat és az e-mail nyelvének azonosítására.
A szolgáltatás képes azonosítani a szöveg nyelvét és a szöveg azon részeit, ahol a nyelv megváltozott, egészen a szavak szintjéig.

A mai digitális világban a tartalom hozzáférhetővé tétele fontosabb, mint valaha, különösen, ha videókról van szó. Az olyan platformok esetében, mint a YouTube, a YouTube feliratfordító óriási különbséget jelenthet, segítve az alkotókat abban, hogy szélesebb, globális közönséget érjenek el. A pontos feliratfordítások lebontják a nyelvi akadályokat, és biztosítják, hogy a videók a világ minden tájáról érkező nézőket is bevonzzák.

A Surveillance Insights a nyelvérzékelési szolgáltatások segítségével kiemeli és megjegyzésekkel látja el a szövegben használt nyelvet, és segít azonosítani a potenciálisan gyanús tevékenységeket.

Az üzleti szövegek, mint például az e-mail vagy a chat, különböző nyelveken érkezhetnek.

A különböző régiókban működő vállalkozások számára egy többnyelvű fordító hihetetlenül hasznos lehet. E technológia beépítésével a vállalatok fokozhatják a több nyelven történő hatékony kommunikáció képességét, javítva ezzel az ügyfélélményt és kiszélesítve globális elérésüket. A lokalizáció iránti növekvő igény miatt egy megbízható többnyelvű fordító alapvető támogatást nyújthat a különböző célközönségek számára megfelelő tartalomszolgáltatásban.

A természetes nyelvi feldolgozási csővezeték kulcsfontosságú része annak meghatározása, hogy melyik nyelv az elsődleges nyelv, hogy az egyes szövegeket a kapcsolódó nyelvspecifikus lépéseken keresztül lehessen feldolgozni.

Egyes esetekben az emberek megváltoztatják a csevegésekben használt nyelvet, hogy elkerüljék a megfigyelést vagy elrejtsék az illegális tevékenységeket. A csevegési nyelvváltás időpontjának meghatározása nagyon hasznos annak megállapításához, hogy történt-e gyanús tevékenység.

Ha szeretné használni API-nkat, további információkat kaphat róla és az árazásról IDE kattintva.

Az API szolgáltatás nyújtása mellett úgy döntöttünk, hogy nyílt forráskódúként is kiadjuk.
Ez az első nyílt forráskódú kiadásunk! Nyelvi detektor nyílt forráskódú, elérhető ITT


AI eszközök

Népszerű AI eszközök

Ingyenes AI Rewriter
Próbáld ki most
AI Plágiumellenőrző
Próbáld ki most
AI Tartalomérzékelés eltávolító
Próbáld ki most

BLOGOK

A személyzet választása

Legtöbbet olvasott cikkek

Minden a tartalomról és az írásról

A professzorok felismerhetik a Quillbotot? Részletes útmutató

A QuillBothoz hasonló mesterséges intelligencia-eszközök használata előnyös lehet az írás számára. Segíthetnek a tervezésben, a kutatásban, a parafrazálásban és a...

Szerző kép
Smodin Szerkesztőség január 13, 2025

Általános útmutató a tartalomról és az írásról

Hogyan tanítsuk meg a mesterséges intelligenciát arra, hogy a márka hangján írjon

Mindenki a tartalom automatizálásáról beszél. De senki sem beszél arról, hogyan tartsa meg a márka hangját, amikor az AI a...

Szerző kép
Smodin Szerkesztőség október 24, 2025

Lépésről-lépésre útmutató az íráshoz, diákoknak szóló útmutató az íráshoz

Hogyan kell írni informatív esszéket és kap Top Marks

Segítségre van szüksége, hogy a következő informatív esszéjével a legjobb jegyet kapja az osztályban? Megosztjuk a stratégiákat...

Szerző kép
Smodin Szerkesztőség november 5, 2024

Lépésről-lépésre útmutató az íráshoz, diákoknak szóló útmutató az íráshoz

Hogyan kell írni informatív esszéket és kap Top Marks

Segítségre van szüksége, hogy a következő informatív esszéjével a legjobb jegyet kapja az osztályban? Megosztjuk a stratégiákat...

Szerző kép
Smodin Szerkesztőség november 5, 2024
Készen állsz?
Védje tartalmát a Smodin's segítségével AI Checker eszközzel

Készen áll arra, hogy tartalma hiteles és AI-mentes maradjon? Ne kockáztassa, hogy kemény munkája összetévesztheti mesterséges intelligencia által generált szöveggel. Iratkozzon fel még ma a Smodinra, hogy hozzáférjen mesterséges intelligencia tartalomdetektorunkhoz, és élvezze a nagy pontosságot, valós idejű elemzés és többnyelvű támogatás. Ráadásul még több fejlett eszközt szabadíthat fel munkája védelmére és javítására!