API de detección de idiomas - Guía de escritura

Índice

Smodin anuncia el lanzamiento de su nueva API de detección de idiomas compatible con 176 idiomas

Como necesitábamos un detector de idiomas para mejorar nuestras aplicaciones, hemos decidido buscar una solución.

Al principio, pensamos que sería fácil ya que google lo hace parecer tan fácil, pero como descubrimos, no era una tarea fácil, al contrario, la detección de idiomas siempre ha sido una tarea difícil.

En la búsqueda de la mejor opción para predecir un idioma a partir de un texto que no requiriera un gran modelo de aprendizaje automático, descubrimos que la mejor solución era un modelo de identificación de idiomas preentrenado que ocupara menos de 1 MB de memoria y fuera capaz de clasificar miles de documentos por segundo.

Tras muchos ajustes y mejoras, hemos desarrollado una herramienta que puede proporcionar con seguridad buenos índices de precisión para cada lengua.

Proporcionando índices de precisión realmente buenos, y no sólo eso, sino también a una velocidad rápida y fiable. Aquí tienes una lista de precisión por país.

99% de precisión en idiomas*: Francés (fr), inglés (en), alemán (de), portugués (pt), turco (tr), neerlandés (nl), italiano (it), español (es), húngaro (hu), esperanto (eo), polaco (pl), finés (fi), ruso (ru), macedonio (mk), ucraniano (uk), lituano (lt), vietnamita (vi), griego (el), marathi (mr), árabe (ar), hebreo (he), hindi (hi), uigur (ug), japonés (ja), georgiano (ka), bengalí (bn), urdu (ur), tailandés (th), chino (zh), armenio (hy), malayalam (ml), coreano (ko), jemer (km), birmano (my), tamil (ta), canarés (kn), telugu (te), panyabí (pa), lao (lo), gujarati (gu), tibetano estándar (bo), divehi (dv), cingalés (si), amárico (am).

90% de precisión en idiomas*: Danés (da), Rumano (ro), Sueco (sv), Latín (la), Búlgaro (bg), Checo (cs), Tagalo (tl), Indonesio (id), Tártaro (tt), Islandés (is), bielorruso (be), vasco (eu), bretón (br), kazajo (kk), letón (lv), estonio (et), irlandés (ga), chuvash (cv), baskir (ba), osetio (os), tayiko (tg).

*La información se presenta por orden de mayor número de datos de prueba. Los datos eran frases de 30-250 caracteres de longitud. Las pruebas sólo se realizaron en las 100 lenguas más populares. Las pruebas mostraron una precisión cercana al 99% en la mayoría de las frases de 300 caracteres o más.

Aunque no se pueden obtener resultados perfectos, la mayor precisión (99%+ para muchos idiomas, incluso los menos conocidos) se observa a partir de 300 caracteres. Independientemente de la longitud del texto, cuanto más largo, mejor.

Como menciona Wiki: la identificación del lenguaje o adivinación del lenguaje es el problema de determinar en qué lenguaje natural está un contenido dado. Los enfoques computacionales de este problema lo consideran un caso especial de categorización de textos, que se resuelve con diversos métodos estadísticos.

Los servicios de detección de idiomas pueden utilizarse de varias maneras, por ejemplo, para identificar el idioma de textos comerciales, como chats y correos electrónicos.
El servicio puede identificar el idioma del texto y las partes del texto en las que el idioma ha cambiado, hasta el nivel de palabra.

En el mundo digital actual, hacer que los contenidos sean accesibles es más importante que nunca, especialmente cuando se trata de vídeos. Para plataformas como YouTube, un traductor de subtítulos de YouTube puede suponer una gran diferencia, ya que ayuda a los creadores a llegar a un público más amplio y global. Las traducciones precisas de subtítulos rompen las barreras lingüísticas y garantizan que los vídeos atraigan a espectadores de todo el mundo.

Mediante los servicios de detección de lenguaje, Surveillance Insights puede resaltar y anotar el lenguaje utilizado en el texto y ayudar a identificar actividades potencialmente sospechosas.

Los textos comerciales, como el correo electrónico o el chat, pueden estar en distintos idiomas.

Para las empresas que operan en varias regiones, un traductor multilingüe puede ser increíblemente beneficioso. Al incorporar esta tecnología, las empresas pueden mejorar su capacidad para comunicarse eficazmente en varios idiomas, mejorando la experiencia del cliente y ampliando su alcance global. Con la creciente necesidad de localización, un traductor multilingüe fiable puede proporcionar una ayuda esencial a la hora de ofrecer contenidos que resuenen entre públicos diversos.

Una parte fundamental del proceso de procesamiento del lenguaje natural consiste en determinar cuál es la lengua principal, de modo que cada texto pueda procesarse siguiendo los pasos específicos de cada lengua.

En algunos casos, las personas pueden cambiar el idioma utilizado en los chats para evitar la vigilancia u ocultar actividades ilegales. Determinar el momento en el que se cambia el idioma del chat es muy útil para determinar si se ha producido una actividad sospechosa.

Si desea utilizar nuestra API, puede obtener más información sobre ella y sus precios haciendo clic AQUÍ.

Además de ofrecer un servicio de API, también hemos decidido publicarlo como código abierto.
¡Esta es nuestra primera versión de código abierto! Detector de lenguaje de código abierto, disponible AQUÍ