Language Detection API

Smodin oznamuje vydání své novinky API pro detekci jazyka podpora 176 jazyků

Protože ke zdokonalení našich aplikací byl potřeba jazykový detektor, rozhodli jsme se najít řešení.

Zpočátku jsme si mysleli, že to bude snadné, protože díky Googlu to vypadá tak snadno, ale jak jsme zjistili, nebyl to snadný úkol, naopak detekce jazyka byla vždy obtížný úkol.

Při hledání nejlepší možnosti předpovídání jazyka z textu, který nevyžadoval velký model strojového učení, jsme zjistili, že nejlepším řešením byl předem natrénovaný model identifikace jazyka, který zabírá méně než 1 MB paměti, zatímco je schopen klasifikovat tisíce dokumentů za sekundu.

Po mnoha vylepšeních a vylepšeních jsme vyvinuli nástroj, který může s jistotou poskytnout dobrou míru přesnosti pro každý jazyk.

Poskytuje opravdu dobré hodnocení přesnosti, a nejen to, ale také vysokou a spolehlivou rychlostí. Zde je seznam přesnosti pro každou zemi.

99% přesné jazyky*: francouzština (fr), angličtina (en), němčina (de), portugalština (pt), turečtina (tr), holandština (nl), italština (it), španělština (es), maďarština (hu) , Esperanto (eo), polština (pl), finština (fi), ruština (ru), makedonština (mk), ukrajinština (britská), litevština (lt), vietnamština (vi), řečtina (el), maráthština (mr) , Arabština (ar), hebrejština (he), hindština (hi), ujgurština (ug), japonština (ja), gruzínština (ka), bengálština (bn), urdština (ur), thajština (th), čínština (zh) , Arménština (hy), malajálamština (ml), korejština (ko), Khmer (km), barmština (my), tamilština (ta), kannadština (kn), telugština (te), panjabi (pa), lao (lo) , Gujarati (gu), Tibetan Standard (bo), Divehi (dv), Sinhala (si), Amharic (am).

90% přesné jazyky*: dánština (da), rumunština (ro), švédština (sv), latina (la), bulharština (bg), čeština (cs), tagalog (tl), indonéština (id), tatarština (tt) , Islandština (is), běloruština (be), baskičtina (eu), bretonština (br), kazašština (kk), lotyština (lv), estonština (et), irština (ga), čuvaš (cv), baškir (ba) , Osetie (os), Tádžik (tg).

*Informace jsou uvedeny v pořadí většiny testovacích dat. Data byly věty o délce 30–250 znaků. Testování bylo provedeno pouze v nejpopulárnějších 100 jazycích. Testování ukázalo téměř 99% přesnost u většiny vět o délce 300 znaků nebo více.

Ačkoli nemůžete dosáhnout dokonalých výsledků, nejlepší přesnost (99%+ pro mnoho jazyků, i těch méně známých) je vidět na 300 nebo více znaků. Bez ohledu na délku textu, čím delší, tím lepší.

Jak uvádí Wiki: jazyková identifikace nebo hádání jazyků je problémem určení, ve kterém přirozeném jazyce je daný obsah. Výpočtové přístupy k tomuto problému jej považují za zvláštní případ kategorizace textu, řešený různými statistickými metodami.

Služby zjišťování jazyka mohou být použity různými způsoby, například by mohly být použity k identifikaci jazyka obchodních textů, jako je chat a e -mail.
Služba dokáže identifikovat jazyk textu a části textu, kde se jazyk změnil, až na úroveň slova.
Pomocí služeb zjišťování jazyků může Surveillance Insights zvýrazňovat a přidávat poznámky k jazyku používanému v textu a pomáhat identifikovat potenciálně podezřelé aktivity.

Obchodní texty, jako je e -mail nebo chat, mohou být v různých jazycích. Klíčovou součástí kanálu zpracování přirozeného jazyka je určit, který jazyk je primárním jazykem, aby bylo možné každý text zpracovat prostřednictvím souvisejících kroků specifických pro daný jazyk.
V některých případech mohou lidé změnit jazyk používaný v chatech, aby se vyhnuli sledování nebo skrývání nezákonných aktivit. Určení bodu, ve kterém se jazyk chatu přepne, je velmi užitečné pro zjištění, zda nedošlo k podezřelé aktivitě.

pokud byste chtěli použít naše API, kliknutím na něj získáte další informace o něm a jeho cenách ZDE

Kromě poskytování služby API jsme se také rozhodli vydat ji jako open-source.
Toto je naše první otevřené vydání zdroje! Jazyk detektor open source, k dispozici ZDE