API de détection de langue

Smodin annonce la sortie de son nouveau API de détection de langue prenant en charge 176 langues

Puisqu'un détecteur de langue était nécessaire pour améliorer nos applications, nous avons décidé de trouver une solution.

Au début, nous pensions que ce serait facile puisque Google le rend si facile, mais comme nous l'avons découvert, ce n'était pas une tâche facile, au contraire, la détection de la langue a toujours été une tâche difficile.

Dans la recherche de la meilleure option pour prédire une langue à partir d'un texte qui ne nécessitait pas un grand modèle d'apprentissage automatique, nous avons découvert que la meilleure solution était un modèle d'identification de langue pré-entraîné qui prend moins de 1 Mo de mémoire tout en étant capable de classer des milliers de documents par seconde.

Après de nombreux ajustements et améliorations, nous avons développé un outil qui peut fournir en toute confiance de bons taux de précision pour chaque langue.

Fournir de très bonnes notes de précision, et pas seulement cela, mais aussi à une vitesse rapide et fiable. Voici une liste de précision par pays.

Langues précises à 99 %* : français (fr), anglais (en), allemand (de), portugais (pt), turc (tr), néerlandais (nl), italien (it), espagnol (es), hongrois (hu) , espéranto (eo), polonais (pl), finnois (fi), russe (ru), macédonien (mk), ukrainien (uk), lituanien (lt), vietnamien (vi), grec (el), marathi (mr) , arabe (ar), hébreu (he), hindi (hi), ouïghour (ug), japonais (ja), géorgien (ka), bengali (bn), ourdou (ur), thaï (th), chinois (zh) , arménien (hy), malayalam (ml), coréen (ko), khmer (km), birman (my), tamoul (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo) , Gujarati (gu), Tibétain Standard (bo), Divehi (dv), Cinghalais (si), Amharique (am).

90% Langues précises* : danois (da), roumain (ro), suédois (sv), latin (la), bulgare (bg), tchèque (cs), tagalog (tl), indonésien (id), tatar (tt) , islandais (is), biélorusse (be), basque (eu), breton (br), kazakh (kk), letton (lv), estonien (et), irlandais (ga), tchouvache (cv), bachkir (ba) , Ossète (os), Tadjik (tg).

*Les informations sont présentées dans l'ordre de la plupart des données de test. Les données étaient des phrases de 30 à 250 caractères. Les tests n'ont été effectués que sur les 100 langues les plus populaires. Les tests ont montré une précision proche de 99% pour la majorité des phrases de 300 caractères ou plus.

Bien que vous ne puissiez pas obtenir des résultats parfaits, la meilleure précision (plus de 99 % pour de nombreuses langues, même les moins connues) est de 300 caractères ou plus. Quelle que soit la longueur du texte, plus c'est long, mieux c'est.

Comme le mentionne Wiki: l'identification de la langue ou la devinette de la langue est le problème de déterminer dans quelle langue naturelle se trouve un contenu donné. Les approches informatiques de ce problème le considèrent comme un cas particulier de catégorisation de texte, résolu avec diverses méthodes statistiques.

Les services de détection de langue peuvent être utilisés de différentes manières, par exemple, ils pourraient être utilisés pour identifier la langue de textes commerciaux, tels que le chat et le courrier électronique.
Le service peut identifier la langue du texte et les parties du texte où la langue a changé, jusqu'au niveau du mot.
À l'aide des services de détection de la langue, Surveillance Insights peut mettre en évidence et annoter la langue utilisée dans le texte et aider à identifier les activités potentiellement suspectes.

Les textes commerciaux tels que les e-mails ou le chat peuvent être dans différentes langues. Un élément clé du pipeline de traitement du langage naturel consiste à déterminer quelle langue est la langue principale afin que chaque texte puisse être traité via des étapes spécifiques à la langue.
Dans certains cas, les gens peuvent changer la langue utilisée dans les chats pour éviter de surveiller ou de cacher des activités illégales. Déterminer le moment où la langue de discussion est commutée est très utile pour déterminer si une activité suspecte s'est produite.

si vous souhaitez utiliser notre API, vous pouvez obtenir plus d'informations à son sujet et sa tarification en cliquant sur ICI

En plus de fournir un service API, nous avons également décidé de le publier en open source.
Ceci est notre première version open source ! Détecteur de langue open source, disponible ICI