Smodin anuncia el llançament del seu nou producte API de detecció d’idiomes donant suport a 176 idiomes

Com que es necessitava un detector d'idioma per millorar les nostres aplicacions, hem decidit trobar una solució.

Al principi, vam pensar que seria fàcil, ja que Google fa que sembli tan fàcil, però, tal com vam descobrir, no va ser una tasca fàcil, al contrari, la detecció d’idioma sempre ha estat una tasca difícil.

En la cerca de la millor opció per predir un idioma a partir de text que no requeria un gran model d’aprenentatge automàtic, hem descobert que la millor solució era un model d’identificació de llenguatge pre-entrenat que necessita menys d’1 MB de memòria mentre es pot classificar milers de documents per segon.

Després de molts ajustos i millores, hem desenvolupat una eina que pot proporcionar confiança bones taxes de precisió per a cada idioma.

Proporcionar valoracions de precisió molt bones, i no només això, sinó també a una velocitat ràpida i fiable. Aquí teniu una llista de precisió per país.

Idiomes exactes del 99% *: francès (fr), anglès (en), alemany (de), portuguès (pt), turc (tr), holandès (nl), italià (it), espanyol (es), hongarès (hu) , Esperanto (eo), polonès (pl), finès (fi), rus (ru), macedoni (mk), ucraïnès (uk), lituà (lt), vietnamita (vi), grec (el), marathi (mr) , Àrab (ar), hebreu (he), hindi (hi), uigur (ug), japonès (ja), georgià (ka), bengalí (bn), urdú (ur), tailandès (th), xinès (zh) ; , Gujarati (gu), estàndard tibetà (bo), divehi (dv), cingalès (si), amhàric (am).

90% d’idiomes exactes *: danès (da), romanès (ro), suec (sv), llatí (la), búlgar (bg), txec (cs), tagalog (tl), indonesi (id), tàtar (tt) , Islandès (és), bielorús (ser), basc (eu), bretó (br), kazakh (kk), letó (lv), estonià (et), irlandès (ga), txuvaix (cv), baskir (ba) , Osset (os), tadjik (tg).

* La informació es presenta per ordre de la majoria de dades de proves. Les dades eren frases de 30 a 250 caràcters. Les proves només es van fer en els 100 idiomes més populars. Les proves van mostrar gairebé un 99% de precisió per a la majoria de frases de 300 caràcters o més.

Tot i que no es poden obtenir resultats perfectes, la millor precisió (99% + en molts idiomes, fins i tot en els menys coneguts) es veu en 300 caràcters o més. Independentment de la longitud del text, com més llarg millor.

Com esmenta Wiki: la identificació del llenguatge o la conjectura del llenguatge és el problema de determinar en quin contingut natural es troba el llenguatge natural. Els enfocaments computacionals d’aquest problema el consideren un cas especial de categorització de textos, resolt amb diversos mètodes estadístics.

Els serveis de detecció d’idiomes es poden utilitzar de diverses maneres, per exemple, es podrien utilitzar per identificar l’idioma dels textos empresarials, com ara el xat i el correu electrònic.
El servei pot identificar l'idioma del text i les parts del text on l'idioma ha canviat, fins al nivell de la paraula.
Mitjançant serveis de detecció d’idiomes, Surveillance Insights pot ressaltar i anotar l’idioma utilitzat en el text i ajudar a identificar activitats potencialment sospitoses.

Els textos empresarials com ara el correu electrònic o el xat poden estar en diferents idiomes. Una part clau de la canalització de processament del llenguatge natural és determinar quin idioma és l’idioma principal perquè cada text es pugui processar mitjançant passos específics relacionats amb l’idioma.
En alguns casos, la gent pot canviar l'idioma que s'utilitza als xats per evitar controlar o amagar activitats il·legals. Determinar el punt en què es canvia l'idioma del xat és molt útil per determinar si s'ha produït una activitat sospitosa.

si voleu utilitzar la nostra API, podeu obtenir més informació sobre ella i els seus preus fent clic AQUÍ

A més de proporcionar un servei API, també hem decidit llançar-lo com a codi obert.
Aquesta és la nostra primera versió de codi obert. Detector d'idiomes de codi obert, disponible AQUÍ