Smodin anuncia el lanzamiento de su nueva API de detección de idiomas compatible con 176 idiomas

Como necesitábamos un detector de idiomas para mejorar nuestras aplicaciones, hemos decidido buscar una solución.

Al principio, pensamos que sería fácil ya que google lo hace parecer tan fácil, pero como descubrimos, no era una tarea fácil, al contrario, la detección de idiomas siempre ha sido una tarea difícil.

En la búsqueda de la mejor opción para predecir un idioma a partir de un texto que no requiriera un gran modelo de aprendizaje automático, descubrimos que la mejor solución era un modelo de identificación de idiomas preentrenado que ocupara menos de 1 MB de memoria y fuera capaz de clasificar miles de documentos por segundo.

Tras muchos ajustes y mejoras, hemos desarrollado una herramienta que puede proporcionar con seguridad buenos índices de precisión para cada lengua.

Proporcionando índices de precisión realmente buenos, y no sólo eso, sino también a una velocidad rápida y fiable. Aquí tienes una lista de precisión por país.

99% de precisión en idiomas*: Francés (fr), inglés (en), alemán (de), portugués (pt), turco (tr), neerlandés (nl), italiano (it), español (es), húngaro (hu), esperanto (eo), polaco (pl), finés (fi), ruso (ru), macedonio (mk), ucraniano (uk), lituano (lt), vietnamita (vi), griego (el), marathi (mr), árabe (ar), hebreo (he), hindi (hi), uigur (ug), japonés (ja), georgiano (ka), bengalí (bn), urdu (ur), tailandés (th), chino (zh), armenio (hy), malayalam (ml), coreano (ko), jemer (km), birmano (my), tamil (ta), canarés (kn), telugu (te), panyabí (pa), lao (lo), gujarati (gu), tibetano estándar (bo), divehi (dv), cingalés (si), amárico (am).

90% de precisión en idiomas*: Danés (da), Rumano (ro), Sueco (sv), Latín (la), Búlgaro (bg), Checo (cs), Tagalo (tl), Indonesio (id), Tártaro (tt), Islandés (is), bielorruso (be), vasco (eu), bretón (br), kazajo (kk), letón (lv), estonio (et), irlandés (ga), chuvash (cv), baskir (ba), osetio (os), tayiko (tg).

*La información se presenta por orden de mayor número de datos de prueba. Los datos eran frases de 30-250 caracteres de longitud. Las pruebas sólo se realizaron en las 100 lenguas más populares. Las pruebas mostraron una precisión cercana al 99% en la mayoría de las frases de 300 caracteres o más.

Aunque no se pueden obtener resultados perfectos, la mayor precisión (99%+ para muchos idiomas, incluso los menos conocidos) se observa a partir de 300 caracteres. Independientemente de la longitud del texto, cuanto más largo, mejor.

Como menciona Wiki: la identificación del lenguaje o adivinación del lenguaje es el problema de determinar en qué lenguaje natural está un contenido dado. Los enfoques computacionales de este problema lo consideran un caso especial de categorización de textos, que se resuelve con diversos métodos estadísticos.

Los servicios de detección de idiomas pueden utilizarse de varias maneras, por ejemplo, para identificar el idioma de textos comerciales, como chats y correos electrónicos.
El servicio puede identificar el idioma del texto y las partes del texto en las que el idioma ha cambiado, hasta el nivel de la palabra.
Mediante los servicios de detección de lenguaje, Surveillance Insights puede resaltar y anotar el lenguaje utilizado en el texto y ayudar a identificar actividades potencialmente sospechosas.

Los textos comerciales, como el correo electrónico o el chat, pueden estar en distintos idiomas. Una parte clave del proceso de procesamiento del lenguaje natural es determinar cuál es el idioma principal para poder procesar cada texto siguiendo los pasos específicos de cada idioma.
En algunos casos, las personas pueden cambiar el idioma utilizado en los chats para evitar la vigilancia u ocultar actividades ilegales. Determinar el momento en que se cambia el idioma del chat es muy útil para determinar si se ha producido una actividad sospechosa.

si desea utilizar nuestra API, puede obtener más información sobre ella y sus precios haciendo clic AQUÍ

Además de ofrecer un servicio de API, también hemos decidido publicarlo como código abierto.
¡Esta es nuestra primera versión de código abierto! Detector de lenguaje de código abierto, disponible AQUÍ