API de détection des langues - Guide d'écriture

Table des matières

Smodin annonce la sortie de sa nouvelle API de détection des langues, qui prend en charge 176 langues

Comme un détecteur de langue était nécessaire pour améliorer nos applications, nous avons décidé de trouver une solution.

Au début, nous pensions que ce serait facile puisque Google le fait paraître si facile, mais nous avons découvert que ce n'était pas une tâche facile, au contraire, la détection de la langue a toujours été une tâche difficile.

En cherchant la meilleure option pour prédire une langue à partir d'un texte sans avoir besoin d'un grand modèle d'apprentissage automatique, nous avons découvert que la meilleure solution était un modèle d'identification de langue pré-entraîné qui prend moins de 1 Mo de mémoire tout en étant capable de classer des milliers de documents par seconde.

Après de nombreux ajustements et améliorations, nous avons mis au point un outil capable de fournir en toute confiance de bons taux de précision pour chaque langue.

Il fournit de très bons taux de précision, et ce, à une vitesse rapide et fiable. Voici une liste des taux de précision par pays.

99% de langues exactes* : Français (fr), Anglais (en), Allemand (de), Portugais (pt), Turc (tr), Néerlandais (nl), Italien (it), Espagnol (es), Hongrois (hu), Espéranto (eo), Polonais (pl), finnois (fi), russe (ru), macédonien (mk), ukrainien (uk), lituanien (lt), vietnamien (vi), grec (el), marathi (mr), arabe (ar), hébreu (he), hindi (hi), Ouïghour (ug), Japonais (ja), Géorgien (ka), Bengali (bn), Urdu (ur), Thaï (th), Chinois (zh), Arménien (hy), Malayalam (ml), Coréen (ko), Khmer (km), birman (my), tamoul (ta), kannada (kn), télougou (te), panjabi (pa), lao (lo), gujarati (gu), tibétain standard (bo), divehi (dv), cinghalais (si), amharique (am).

90% de langues exactes* : Danois (da), Roumain (ro), Suédois (sv), Latin (la), Bulgare (bg), Tchèque (cs), Tagalog (tl), Indonésien (id), Tatar (tt), Islandais (is), biélorusse (be), basque (eu), breton (br), kazakh (kk), letton (lv), estonien (et), irlandais (ga), tchouvache (cv), bachkir (ba), ossète (os), tadjik (tg).

*Les informations sont présentées dans l'ordre des données de test les plus nombreuses. Les données étaient des phrases de 30 à 250 caractères. Les tests n'ont porté que sur les 100 langues les plus populaires. Les tests ont montré une précision proche de 99 % pour la majorité des phrases de 300 caractères ou plus.

Bien qu'il ne soit pas possible d'obtenir des résultats parfaits, la meilleure précision (99%+ pour de nombreuses langues, même les moins connues) est obtenue à partir de 300 caractères. Quelle que soit la longueur du texte, plus il est long, mieux c'est.

Comme le mentionne Wiki : l'identification de la langue ou la devinette de la langue est le problème de la détermination de la langue naturelle d'un contenu donné. Les approches informatiques de ce problème le considèrent comme un cas particulier de catégorisation de texte, résolu à l'aide de diverses méthodes statistiques.

Les services de détection de la langue peuvent être utilisés de différentes manières, par exemple pour identifier la langue des textes professionnels, tels que le chat et le courrier électronique.
Le service peut identifier la langue du texte et les parties du texte où la langue a changé, jusqu'au niveau du mot.

Dans le monde numérique d'aujourd'hui, il est plus important que jamais de rendre le contenu accessible, en particulier lorsqu'il s'agit de vidéos. Pour des plateformes comme YouTube, un traducteur de sous-titres YouTube peut faire une énorme différence, en aidant les créateurs à atteindre un public plus large et mondial. Des traductions de sous-titres précises permettent d'éliminer les barrières linguistiques et de s'assurer que les vidéos attirent des spectateurs du monde entier.

Grâce à des services de détection linguistique, Surveillance Insights peut mettre en évidence et annoter le langage utilisé dans les textes et aider à identifier les activités potentiellement suspectes.

Les textes professionnels tels que le courrier électronique ou le chat peuvent être rédigés dans différentes langues.

Pour les entreprises qui opèrent dans plusieurs régions, un traducteur multilingue peut s'avérer extrêmement utile. En intégrant cette technologie, les entreprises peuvent améliorer leur capacité à communiquer efficacement dans plusieurs langues, ce qui leur permet d'améliorer l'expérience de leurs clients et d'élargir leur champ d'action à l'échelle mondiale. Avec le besoin croissant de localisation, un traducteur multilingue fiable peut apporter une aide essentielle à la diffusion de contenus qui trouvent un écho auprès de publics divers.

Une partie essentielle du pipeline de traitement du langage naturel consiste à déterminer quelle est la langue principale afin que chaque texte puisse être traité par des étapes spécifiques à la langue.

Dans certains cas, les gens changent la langue utilisée dans les chats pour éviter d'être surveillés ou pour dissimuler des activités illégales. Déterminer le moment où la langue du chat est changée est très utile pour savoir si une activité suspecte s'est produite.

Si vous souhaitez utiliser notre API, vous pouvez obtenir plus d'informations à son sujet et sur sa tarification en cliquant ICI

En plus de fournir un service d'API, nous avons également décidé de le publier en tant que source ouverte.
Il s'agit de notre première version open source ! Détecteur de langue open source, disponible ICI