Smodin оголошує про випуск нового API визначення мови, що підтримує 176 мов
Оскільки для покращення наших додатків потрібен був детектор мов, ми вирішили знайти рішення.
Спочатку ми думали, що це буде легко, адже в Google це виглядає так просто, але, як виявилося, це не було легким завданням, навпаки, визначення мови завжди було складним завданням.
У пошуках найкращого варіанту передбачення мови за текстом, який не потребував би великої моделі машинного навчання, ми з'ясували, що найкращим рішенням є попередньо навчена модель ідентифікації мови, яка займає менше 1 МБ пам'яті, але при цьому здатна класифікувати тисячі документів за секунду.
Після багатьох налаштувань і вдосконалень ми розробили інструмент, який впевнено забезпечує хороші показники точності для кожної мови.
Забезпечуючи дійсно хороші показники точності, і не тільки це, але й швидку та надійну швидкість. Ось список точності для кожної країни.
99% точних мов*: Французька (fr), англійська (en), німецька (de), португальська (pt), турецька (tr), нідерландська (nl), італійська (it), іспанська (es), угорська (hu), есперанто (eo), польська (pl), фінська (fi), російська (ru), македонська (mk), українська (uk), литовська (lt), в'єтнамська (vi), грецька (el), маратхі (mr), арабська (ar), іврит (he), гінді (hi), уйгурська (ug), японська (ja), грузинська (ka), бенгальська (bn), урду (ur), тайська (th), китайська (zh), вірменська (hy), малаялам (ml), корейська (ko), кхмерська (km), бірманська (my), тамільська (ta), каннада (kn), телугу (te), панджабі (pa), лаоська (lo), гуджараті (gu), тибетський стандарт (bo), дивехі (dv), сингальська (si), амхарська (am).
90% точних мов*: Данська (da), румунська (ro), шведська (sv), латинська (la), болгарська (bg), чеська (cs), тагальська (tl), індонезійська (id), татарська (tt), ісландська (is), білоруська (be), баскська (eu), бретонська (br), казахська (kk), латиська (lv), естонська (et), ірландська (ga), чуваська (cv), башкирська (ba), осетинська (os), таджицька (tg).
*Інформацію подано в порядку зростання кількості тестових даних. Дані являли собою речення довжиною 30-250 символів. Тестування проводилося лише на 100 найпопулярніших мовах. Тестування показало точність близько 99% для більшості речень довжиною 300 символів і більше.
Хоча ви не можете отримати ідеальних результатів, найкраща точність (99%+ для багатьох мов, навіть маловідомих) спостерігається при довжині тексту 300 символів і більше. Незалежно від довжини тексту, чим довше, тим краще.
Як зазначено у Вікі: ідентифікація мови або вгадування мови - це проблема визначення того, якою природною мовою написаний даний контент. Обчислювальні підходи до цієї проблеми розглядають її як окремий випадок категоризації тексту, що вирішується за допомогою різних статистичних методів.
Сервіси визначення мови можна використовувати по-різному, наприклад, для визначення мови ділових текстів, таких як чат і електронна пошта.
Сервіс може ідентифікувати мову тексту та частини тексту, де мова була змінена, аж до рівня слів.
У сучасному цифровому світі доступність контенту важлива як ніколи, особливо коли йдеться про відео. Для таких платформ, як YouTube, перекладач субтитрів для YouTube може мати величезне значення, допомагаючи авторам охопити ширшу глобальну аудиторію. Точний переклад субтитрів руйнує мовні бар'єри і гарантує, що відео буде цікавим для глядачів з усього світу.
Використовуючи служби виявлення мови, Surveillance Insights може виділяти і коментувати мову, яка використовується в тексті, і допомагати виявляти потенційно підозрілі дії.
Ділові тексти, такі як електронна пошта або чат, можуть бути різними мовами.
Для компаній, які працюють у різних регіонах, багатомовний перекладач може бути неймовірно корисним. Впроваджуючи цю технологію, компанії можуть підвищити свою здатність ефективно спілкуватися кількома мовами, покращуючи якість обслуговування клієнтів і розширюючи свою глобальну присутність. Зважаючи на зростаючу потребу в локалізації, надійний багатомовний перекладач може надати істотну підтримку в створенні контенту, який резонує з різними аудиторіями.
Ключовою частиною конвеєра обробки природної мови є визначення того, яка мова є основною, щоб кожен текст можна було обробити за допомогою відповідних кроків для конкретної мови.
У деяких випадках люди можуть змінювати мову, яка використовується в чатах, щоб уникнути моніторингу або приховати незаконну діяльність. Визначення моменту зміни мови чату є дуже корисним для визначення того, чи відбулася підозріла активність.
Якщо ви бажаєте скористатися нашим API, ви можете отримати більше інформації про нього та його вартість, натиснувши ТУТ
Окрім надання сервісу API, ми також вирішили випустити його з відкритим вихідним кодом.
Це наш перший реліз з відкритим вихідним кодом! Мовний детектор з відкритим вихідним кодом, доступний ТУТ