Smodin объявляет о выпуске нового API для определения языка, поддерживающего 176 языков

Поскольку для улучшения наших приложений требовался детектор языка, мы решили найти решение.

Сначала мы думали, что это будет легко, ведь google так просто это преподносит, но, как мы выяснили, это не такая уж простая задача, наоборот, определение языка всегда было сложной задачей.

В поисках оптимального варианта предсказания языка по тексту, не требующего большой модели машинного обучения, мы обнаружили, что лучшим решением является предварительно обученная модель идентификации языка, которая занимает менее 1 МБ памяти и при этом способна классифицировать тысячи документов в секунду.

После многочисленных доработок и улучшений мы создали инструмент, который уверенно обеспечивает высокую точность для каждого языка.

Обеспечивает действительно хорошие показатели точности, и не только это, но и быструю и надежную скорость. Вот список точности по странам.

99% точности Языки*: Французский (fr), английский (en), немецкий (de), португальский (pt), турецкий (tr), голландский (nl), итальянский (it), испанский (es), венгерский (hu), эсперанто (eo), польский (pl), Финский (fi), русский (ru), македонский (mk), украинский (uk), литовский (lt), вьетнамский (vi), греческий (el), маратхи (mr), арабский (ar), иврит (he), хинди (hi), уйгурский (ug), японский (ja), грузинский (ka), бенгальский (bn), урду (ur), тайский (th), китайский (zh), армянский (hy), малаялам (ml), корейский (ko), кхмерский (km), бирманский (my), тамильский (ta), каннада (kn), телугу (te), панджаби (pa), лаосский (lo), гуджарати (gu), тибетский стандарт (bo), дивехи (dv), сингальский (si), амхарский (am).

Точность 90% Языки*: Датский (da), румынский (ro), шведский (sv), латинский (la), болгарский (bg), чешский (cs), тагальский (tl), индонезийский (id), татарский (tt), исландский (is), Белорусский (be), баскский (eu), бретонский (br), казахский (kk), латышский (lv), эстонский (et), ирландский (ga), чувашский (cv), башкирский (ba), осетинский (os), таджикский (tg).

*Информация представлена в порядке возрастания количества тестовых данных. Данные представляли собой предложения длиной 30-250 символов. Тестирование проводилось только на 100 наиболее популярных языках. Тестирование показало точность около 99 % для большинства предложений длиной не менее 300 символов.

Хотя идеальных результатов добиться невозможно, наилучшая точность (99 %+ для многих языков, даже малоизвестных) наблюдается при длине текста от 300 символов. Независимо от длины текста, чем длиннее, тем лучше.

Как упоминает Wiki: идентификация языка или угадывание языка - это проблема определения того, на каком естественном языке написано данное содержание. Вычислительные подходы к этой проблеме рассматривают ее как частный случай категоризации текста, решаемый с помощью различных статистических методов.

Сервисы определения языка могут использоваться по-разному, например, для определения языка деловых текстов, таких как чат и электронная почта.
Служба может определить язык текста и части текста, в которых язык был изменен, вплоть до уровня слов.
Используя службы обнаружения языка, Surveillance Insights может выделять и аннотировать язык, используемый в тексте, и помогать выявлять потенциально подозрительные действия.

Деловые тексты, такие как электронная почта или чат, могут быть на разных языках. Ключевой частью конвейера обработки естественного языка является определение того, какой язык является основным, чтобы каждый текст мог быть обработан на соответствующих этапах, учитывающих специфику языка.
В некоторых случаях люди могут менять язык, используемый в чатах, чтобы избежать контроля или скрыть незаконную деятельность. Определение момента переключения языка чата очень полезно для определения подозрительной активности.

Если вы хотите использовать наш API, вы можете получить более подробную информацию о нем и его стоимости, нажав ЗДЕСЬ

Помимо предоставления API-сервиса, мы также решили выпустить его с открытым исходным кодом.
Это наш первый релиз с открытым исходным кодом! Детектор языка с открытым исходным кодом, доступен ЗДЕСЬ