Smodin anuncia el lanzamiento de su nuevo API de detección de idioma soportando 176 idiomas

Dado que se necesitaba un detector de idiomas para mejorar nuestras aplicaciones, hemos decidido encontrar una solución.

Al principio pensamos que sería fácil ya que google hace que parezca tan fácil, pero como descubrimos, no fue una tarea fácil, al contrario, la detección de idiomas siempre ha sido una tarea difícil.

En la búsqueda de la mejor opción para predecir un idioma a partir del texto que no requiriera un gran modelo de aprendizaje automático, descubrimos que la mejor solución era un modelo de identificación de idiomas previamente entrenado que ocupa menos de 1 MB de memoria y al mismo tiempo puede clasifica miles de documentos por segundo.

Después de muchos ajustes y mejoras, hemos desarrollado una herramienta que puede proporcionar con confianza buenos índices de precisión para cada idioma.

Proporcionando índices de precisión realmente buenos, y no solo eso, sino también a una velocidad rápida y confiable. Aquí hay una lista de precisión por país.

99% de idiomas precisos *: francés (fr), inglés (en), alemán (de), portugués (pt), turco (tr), holandés (nl), italiano (it), español (es), húngaro (hu) , Esperanto (eo), polaco (pl), finlandés (fi), ruso (ru), macedonio (mk), ucraniano (reino unido), lituano (lt), vietnamita (vi), griego (el), marathi (mr) , Árabe (ar), hebreo (he), hindi (hi), uigur (ug), japonés (ja), georgiano (ka), bengalí (bn), urdu (ur), tailandés (th), chino (zh) , Armenio (hy), malayalam (ml), coreano (ko), jemer (km), birmano (my), tamil (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo) , Gujarati (gu), estándar tibetano (bo), divehi (dv), cingalés (si), amárico (am).

90% de idiomas precisos *: danés (da), rumano (ro), sueco (sv), latín (la), búlgaro (bg), checo (cs), tagalo (tl), indonesio (id), tártaro (tt) , Islandés (es), bielorruso (be), vasco (eu), bretón (br), kazajo (kk), letón (lv), estonio (et), irlandés (ga), chuvash (cv), bashkir (ba) , Osetio (os), tayiko (tg).

* La información se presenta en el orden de la mayoría de los datos de prueba. Los datos fueron frases de 30 a 250 caracteres de longitud. Las pruebas solo se realizaron en los 100 idiomas más populares. Las pruebas mostraron una precisión cercana al 99% para la mayoría de las oraciones de 300 caracteres o más de longitud.

Aunque no puede obtener resultados perfectos, la mejor precisión (más del 99% para muchos idiomas, incluso los menos conocidos) se ve en 300 caracteres o más. Independientemente de la longitud del texto, cuanto más largo, mejor.

Como menciona Wiki: la identificación del lenguaje o la adivinación del lenguaje es el problema de determinar en qué lenguaje natural se encuentra el contenido dado. Los enfoques computacionales para este problema lo ven como un caso especial de categorización de texto, resuelto con varios métodos estadísticos.

Los servicios de detección de idioma se pueden utilizar de diversas formas, por ejemplo, se pueden utilizar para identificar el idioma de los textos comerciales, como el chat y el correo electrónico.
El servicio puede identificar el idioma del texto y las partes del texto en las que el idioma ha cambiado, hasta el nivel de las palabras.
Al utilizar los servicios de detección de idioma, Surveillance Insights puede resaltar y anotar el idioma utilizado en el texto y ayudar a identificar actividades potencialmente sospechosas.

Los textos comerciales, como el correo electrónico o el chat, pueden estar en diferentes idiomas. Una parte clave del proceso de procesamiento del lenguaje natural es determinar qué idioma es el idioma principal para que cada texto pueda procesarse a través de pasos relacionados específicos del idioma.
En algunos casos, las personas pueden cambiar el idioma utilizado en los chats para evitar monitorear u ocultar actividades ilegales. Determinar el punto en el que se cambia el idioma del chat es muy útil para determinar si se ha producido una actividad sospechosa.

Si desea utilizar nuestra API, puede obtener más información sobre ella y sus precios haciendo clic en AQUÍ

Además de proporcionar un servicio de API, también hemos decidido lanzarlo como código abierto.
¡Este es nuestro primer lanzamiento de código abierto! Detector de idioma de código abierto, disponible AQUÍ