Смодин объявляет о выпуске своего нового API определения языка поддержка 176 языков

Поскольку для улучшения наших приложений был необходим детектор языка, мы решили найти решение.

Сначала мы думали, что это будет легко, потому что Google делает это таким простым, но, как мы выяснили, это была непростая задача, наоборот, определение языка всегда было сложной задачей.

В поисках наилучшего варианта предсказания языка по тексту, который не требовал большой модели машинного обучения, мы обнаружили, что лучшим решением была предварительно обученная модель идентификации языка, которая занимает менее 1 МБ памяти и при этом может классифицируйте тысячи документов в секунду.

После множества настроек и улучшений мы разработали инструмент, который может с уверенностью обеспечивать хорошие показатели точности для каждого языка.

Обеспечивает действительно хорошие показатели точности, и не только это, но и на быстрой и надежной скорости. Вот список точности для каждой страны.

Языки с точностью 99% *: французский (fr), английский (en), немецкий (de), португальский (pt), турецкий (tr), голландский (nl), итальянский (it), испанский (es), венгерский (hu) , Эсперанто (eo), польский (pl), финский (fi), русский (ru), македонский (mk), украинский (uk), литовский (lt), вьетнамский (vi), греческий (el), маратхи (mr) , Арабский (ar), иврит (he), хинди (hi), уйгурский (ug), японский (ja), грузинский (ka), бенгальский (bn), урду (ur), тайский (th), китайский (zh) , Армянский (hy), малаялам (ml), корейский (ko), кхмерский (km), бирманский (my), тамильский (ta), каннада (kn), телугу (te), панджаби (pa), лаосский (lo) , Гуджарати (гу), тибетский стандартный (бо), дивехи (дв), сингальский (си), амхарский (ам).

90% точность языков *: датский (da), румынский (ro), шведский (sv), латинский (la), болгарский (bg), чешский (cs), тагальский (tl), индонезийский (id), татарский (tt) , Исландский (is), белорусский (be), баскский (eu), бретонский (br), казахский (kk), латышский (lv), эстонский (et), ирландский (ga), чувашский (cv), башкирский (ba) , Осетинский (os), таджикский (tg).

* Информация представлена ​​в порядке большинства данных испытаний. Данные представляли собой предложения длиной от 30 до 250 символов. Тестирование проводилось только на 100 самых популярных языках. Тестирование показало почти 99% точности для большинства предложений длиной не менее 300 символов.

Хотя вы не можете получить идеальных результатов, лучшая точность (99% + для многих языков, даже менее известных) наблюдается при 300 символах и более. Независимо от длины текста, чем он длиннее, тем лучше.

Как упоминает Wiki: идентификация языка или угадывание языка - это проблема определения того, на каком естественном языке находится данный контент. Вычислительные подходы к этой проблеме рассматривают ее как частный случай категоризации текста, решаемый с помощью различных статистических методов.

Службы определения языка можно использовать по-разному, например, они могут использоваться для определения языка деловых текстов, таких как чат и электронная почта.
Сервис может определять язык текста и части текста, в которых язык был изменен, вплоть до уровня слова.
Используя службы определения языка, Surveillance Insights может выделять и комментировать язык, используемый в тексте, и помогать выявлять потенциально подозрительные действия.

Деловые тексты, такие как электронная почта или чат, могут быть на разных языках. Ключевой частью конвейера обработки естественного языка является определение того, какой язык является основным, чтобы каждый текст можно было обрабатывать с помощью связанных этапов, зависящих от языка.
В некоторых случаях люди могут изменить язык, используемый в чатах, чтобы избежать отслеживания или сокрытия незаконных действий. Определение точки, в которой язык чата переключается, очень полезно для определения того, произошла ли подозрительная активность.

если вы хотите использовать наш API, вы можете получить дополнительную информацию о нем и его ценах, нажав ВОТ

Помимо предоставления службы API, мы также решили выпустить ее с открытым исходным кодом.
Это наш первый релиз с открытым исходным кодом! Детектор языка с открытым исходным кодом, доступен ВОТ