Smodin обявява пускането на своя нов API за откриване на език поддържа 176 езика

Тъй като за подобряване на нашите приложения беше необходим езиков детектор, решихме да намерим решение.

Отначало мислехме, че ще бъде лесно, тъй като Google го прави толкова лесно, но както разбрахме, това не беше лесна задача, напротив, откриването на език винаги е било трудна задача.

В търсене на най-добрия вариант за предсказване на език от текст, който не изисква голям модел за машинно обучение, установихме, че най-доброто решение е предварително обучен модел за идентификация на език, който отнема по-малко от 1 MB памет, като същевременно е в състояние да класифицирайте хиляди документи в секунда.

След много ощипвания и подобрения, ние разработихме инструмент, който може уверено да осигури добри нива на точност за всеки език.

Осигуряване на наистина добри оценки на точност и не само това, но и с бърза и надеждна скорост. Ето списък на точността за всяка държава.

99% точни езици*: френски (fr), английски (en), немски (de), португалски (pt), турски (tr), холандски (nl), италиански (it), испански (и), унгарски (hu) , Есперанто (eo), полски (pl), финландски (fi), руски (ru), македонски (mk), украински (uk), литовски (lt), виетнамски (vi), гръцки (el), маратхи (mr) , Арабски (ar), иврит (той), хинди (здравей), уйгурски (ug), японски (ja), грузински (ka), бенгалски (bn), урду (ur), тайландски (th), китайски (zh) , Арменски (hy), малаялам (ml), корейски (ko), кхмерски (km), бирмански (my), тамилски (ta), каннада (kn), телугу (te), панджаби (pa), лаоски (lo) , Гуджарати (gu), тибетски стандарт (bo), дивехи (dv), синхалски (si), амхарски (am).

90% точни езици*: датски (da), румънски (ro), шведски (sv), латински (la), български (bg), чешки (cs), тагалог (tl), индонезийски (id), татарски (tt) , Исландски (е), беларуски (бъде), баски (eu), бретонски (br), казахски (kk), латвийски (lv), естонски (et), ирландски (ga), чувашки (cv), башкирски (ba) , Осетински (os), таджикски (tg).

*Информацията е представена в реда на повечето тестови данни. Данните са изречения с дължина 30-250 знака. Тестването беше направено само на най -популярните 100 езика. Тестването показа близо 99% точност за повечето изречения с дължина или над 300 знака.

Въпреки че не можете да получите перфектни резултати, най-добрата точност (99%+ за много езици, дори и по-малко известните) се наблюдава при 300 знака или повече. Независимо от дължината на текста, колкото по -дълго, толкова по -добре.

Както споменава Wiki: идентифицирането на езика или познаването на езика е проблемът за определяне на естествения език на дадено съдържание. Изчислителните подходи към този проблем го разглеждат като специален случай на категоризация на текст, решен с различни статистически методи.

Услугите за откриване на език могат да се използват по различни начини, например, те могат да се използват за идентифициране на езика на бизнес текстове, като чат и имейл.
Услугата може да идентифицира езика на текста и частите от текста, където езикът се е променил, до нивото на думата.
Използвайки услуги за откриване на език, Surveillance Insights може да подчертае и анотира езика, използван в текста, и да помогне за идентифициране на потенциално подозрителни дейности.

Бизнес текстовете като имейл или чат могат да бъдат на различни езици. Ключова част от конвейера за обработка на естествен език е да се определи кой език е основният език, така че всеки текст да може да бъде обработен чрез свързани със специфични за езика стъпки.
В някои случаи хората могат да променят езика, използван в чатовете, за да избегнат наблюдение или скриване на незаконни дейности. Определянето на момента, в който езикът на чата се превключва, е много полезно за определяне дали е възникнала подозрителна дейност.

ако искате да използвате нашия API, можете да получите повече информация за него и неговите цени, като щракнете върху ТУК

Освен предоставяне на API услуга, ние също решихме да я пуснем като отворен код.
Това е първата ни версия с отворен код! Езиков детектор с отворен код, наличен ТУК