Смодин најављује издавање свог новог АПИ за откривање језика подржава 176 језика

Пошто је детектор језика био потребан за побољшање наших апликација, одлучили смо да пронађемо решење.

У почетку смо мислили да ће бити лако јер Гоогле чини да изгледа тако лако, али како смо открили, то није био лак задатак, напротив, откривање језика је одувек било тежак задатак.

У потрази за најбољом опцијом за предвиђање језика из текста за који није био потребан велики модел машинског учења, открили смо да је најбоље решење унапред обучени модел идентификације језика који заузима мање од 1 МБ меморије док је у могућности да класификује хиљаде докумената у секунди.

Након многих подешавања и побољшања, развили смо алат који поуздано може пружити добре стопе тачности за сваки језик.

Пружајући заиста добре оцене тачности, и не само то, већ и великом и поузданом брзином. Ево листе тачности по земљи.

99% тачни језици*: француски (фр), енглески (ен), немачки (де), португалски (пт), турски (тр), холандски (нл), италијански (ит), шпански (ес), мађарски (ху) , Есперанто (ео), пољски (пл), фински (фи), руски (ру), македонски (мк), украјински (ук), литвански (лт), вијетнамски (ви), грчки (ел), марати (мр) , Арапски (ар), хебрејски (он), хинди (здраво), ујгурски (уг), јапански (ја), грузијски (ка), бенгалски (бн), урду (ур), тајландски (тх), кинески (зх) , Јерменски (хи), малајаламски (мл), корејски (ко), кмерски (км), бурмански (мој), тамилски (та), канада (кн), телугу (те), пањаби (па), лао (ло) , Гуџарати (гу), тибетански стандард (бо), дивехи (дв), синхала (си), амхарски (ам).

90% тачни језици*: дански (да), румунски (ро), шведски (св), латински (ла), бугарски (бг), чешки (цс), тагалошки (тл), индонежански (ид), татарски (тт) , Исландски (је), белоруски (бити), баскијски (еу), бретонски (бр), казахстански (кк), летонски (лв), естонски (ет), ирски (га), чувашки (цв), башкирски (ба) , Осетски (ос), таџички (тг).

*Подаци су приказани редоследом већине тестних података. Подаци су биле реченице дужине 30-250 знакова. Тестирање је вршено само на најпопуларнијих 100 језика. Тестирање је показало тачност од 99% за већину реченица дужине или више од 300 знакова.

Иако не можете постићи савршене резултате, најбоља тачност (99%+ за многе језике, чак и мање познате) се види на 300 знакова или више. Без обзира на дужину текста, што дуже, то боље.

Као што Вики напомиње: идентификација језика или погађање језика проблем је утврђивања у којем се природном језику налази дати садржај. Рачунарски приступи овом проблему посматрају га као посебан случај категоризације текста, решен различитим статистичким методама.

Услуге откривања језика могу се користити на различите начине, на пример, могу се користити за идентификацију језика пословних текстова, као што су ћаскање и е -пошта.
Услуга може идентификовати језик текста и делове текста у којима се језик променио, до нивоа речи.
Користећи услуге откривања језика, Сурвеилланце Инсигхтс може означити и означити језик који се користи у тексту и помоћи у идентификацији потенцијално сумњивих активности.

Пословни текстови као што су е -пошта или ћаскање могу бити на различитим језицима. Кључни део процеса обраде природног језика је да се утврди који је језик примарни језик, тако да се сваки текст може обрадити кроз повезане кораке специфичне за језик.
У неким случајевима, људи могу променити језик који се користи у ћаскању како би избегли праћење или сакривање нелегалних активности. Одређивање тачке у којој се мења језик ћаскања је веома корисно за утврђивање да ли је дошло до сумњиве активности.

ако желите да користите наш АПИ, можете добити више информација о њему и његовим ценама кликом на ОВДЕ

Осим пружања АПИ услуге, одлучили смо и да је објавимо као отворени извор.
Ово је наше прво издање отвореног кода! Отворени извор за детектор језика, доступан ОВДЕ