Smodin оголошує про випуск нового API визначення мови, що підтримує 176 мов

Оскільки для покращення наших додатків потрібен був детектор мов, ми вирішили знайти рішення.

Спочатку ми думали, що це буде легко, адже в Google це виглядає так просто, але, як виявилося, це не було легким завданням, навпаки, визначення мови завжди було складним завданням.

У пошуках найкращого варіанту передбачення мови за текстом, який не потребував би великої моделі машинного навчання, ми з'ясували, що найкращим рішенням є попередньо навчена модель ідентифікації мови, яка займає менше 1 МБ пам'яті, але при цьому здатна класифікувати тисячі документів за секунду.

Після багатьох налаштувань і вдосконалень ми розробили інструмент, який впевнено забезпечує хороші показники точності для кожної мови.

Забезпечуючи дійсно хороші показники точності, і не тільки це, але й швидку та надійну швидкість. Ось список точності для кожної країни.

99% точних мов*: Французька (fr), англійська (en), німецька (de), португальська (pt), турецька (tr), нідерландська (nl), італійська (it), іспанська (es), угорська (hu), есперанто (eo), польська (pl), фінська (fi), російська (ru), македонська (mk), українська (uk), литовська (lt), в'єтнамська (vi), грецька (el), маратхі (mr), арабська (ar), іврит (he), гінді (hi), уйгурська (ug), японська (ja), грузинська (ka), бенгальська (bn), урду (ur), тайська (th), китайська (zh), вірменська (hy), малаялам (ml), корейська (ko), кхмерська (km), бірманська (my), тамільська (ta), каннада (kn), телугу (te), панджабі (pa), лаоська (lo), гуджараті (gu), тибетський стандарт (bo), дивехі (dv), сингальська (si), амхарська (am).

90% точних мов*: Данська (da), румунська (ro), шведська (sv), латинська (la), болгарська (bg), чеська (cs), тагальська (tl), індонезійська (id), татарська (tt), ісландська (is), білоруська (be), баскська (eu), бретонська (br), казахська (kk), латиська (lv), естонська (et), ірландська (ga), чуваська (cv), башкирська (ba), осетинська (os), таджицька (tg).

*Інформацію подано в порядку зростання кількості тестових даних. Дані являли собою речення довжиною 30-250 символів. Тестування проводилося лише на 100 найпопулярніших мовах. Тестування показало точність близько 99% для більшості речень довжиною 300 символів і більше.

Хоча ви не можете отримати ідеальних результатів, найкраща точність (99%+ для багатьох мов, навіть маловідомих) спостерігається при довжині тексту 300 символів і більше. Незалежно від довжини тексту, чим довше, тим краще.

Як зазначено у Вікі: ідентифікація мови або вгадування мови - це проблема визначення того, якою природною мовою написаний даний контент. Обчислювальні підходи до цієї проблеми розглядають її як окремий випадок категоризації тексту, що вирішується за допомогою різних статистичних методів.

Сервіси визначення мови можна використовувати по-різному, наприклад, для визначення мови ділових текстів, таких як чат і електронна пошта.
Сервіс може ідентифікувати мову тексту і частини тексту, в яких мова була змінена, аж до рівня слів.
Використовуючи служби виявлення мови, Surveillance Insights може виділяти і коментувати мову, яка використовується в тексті, і допомагати виявляти потенційно підозрілі дії.

Ділові тексти, такі як електронні листи або чати, можуть бути різними мовами. Ключовою частиною конвеєра обробки природної мови є визначення того, яка мова є основною, щоб кожен текст можна було обробити за допомогою відповідних кроків для конкретної мови.
У деяких випадках люди можуть змінювати мову, яка використовується в чатах, щоб уникнути моніторингу або приховати незаконну діяльність. Визначення моменту зміни мови чату є дуже корисним для визначення того, чи мала місце підозріла активність.

якщо ви бажаєте скористатися нашим API, ви можете отримати більше інформації про нього та його вартість, натиснувши ТУТ

Окрім надання сервісу API, ми також вирішили випустити його з відкритим вихідним кодом.
Це наш перший реліз з відкритим вихідним кодом! Мовний детектор з відкритим вихідним кодом, доступний ТУТ