API di rilevamento della lingua

Smodin annuncia l'uscita del suo nuovo API di rilevamento della lingua supporta 176 lingue

Poiché era necessario un rilevatore di lingua per migliorare le nostre applicazioni, abbiamo deciso di trovare una soluzione.

All'inizio, pensavamo che sarebbe stato facile, visto che Google lo fa sembrare così facile, ma come abbiamo scoperto, non è stato un compito facile, al contrario, il rilevamento della lingua è sempre stato un compito difficile.

Nella ricerca dell'opzione migliore per prevedere una lingua dal testo che non richiedesse un modello di apprendimento automatico di grandi dimensioni, abbiamo scoperto che la soluzione migliore era un modello di identificazione della lingua pre-addestrato che richiede meno di 1 MB di memoria pur essendo in grado di classificare migliaia di documenti al secondo.

Dopo molte modifiche e miglioramenti, abbiamo sviluppato uno strumento in grado di fornire con sicurezza buoni tassi di accuratezza per ogni lingua.

Fornire valutazioni di precisione davvero buone, e non solo, ma anche a una velocità rapida e affidabile. Ecco un elenco di precisione per paese.

Precisione al 99% Lingue*: francese (fr), inglese (en), tedesco (de), portoghese (pt), turco (tr), olandese (nl), italiano (it), spagnolo (es), ungherese (hu) , esperanto (eo), polacco (pl), finlandese (fi), russo (ru), macedone (mk), ucraino (uk), lituano (lt), vietnamita (vi), greco (el), marathi (mr) , arabo (ar), ebraico (he), hindi (hi), uiguro (ug), giapponese (ja), georgiano (ka), bengalese (bn), urdu (ur), tailandese (th), cinese (zh) , armeno (hy), malayalam (ml), coreano (ko), khmer (km), birmano (my), tamil (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo) , gujarati (gu), standard tibetano (bo), divehi (dv), singalese (si), amarico (am).

Lingue accurate al 90%*: danese (da), rumeno (ro), svedese (sv), latino (la), bulgaro (bg), ceco (cs), tagalog (tl), indonesiano (id), tataro (tt) , islandese (is), bielorusso (be), basco (eu), bretone (br), kazako (kk), lettone (lv), estone (et), irlandese (ga), ciuvascio (cv), baschiro (ba) , osseto (os), tagico (tg).

*Le informazioni sono presentate nell'ordine della maggior parte dei dati dei test. I dati erano frasi di 30-250 caratteri di lunghezza. I test sono stati eseguiti solo sulle 100 lingue più popolari. I test hanno mostrato una precisione vicina al 99% per la maggior parte delle frasi di lunghezza pari o superiore a 300 caratteri.

Sebbene non sia possibile ottenere risultati perfetti, la migliore precisione (99%+ per molte lingue, anche quelle meno conosciute) si ottiene a 300 caratteri o più. Indipendentemente dalla lunghezza del testo, più lungo è, meglio è.

Come menziona Wiki: l'identificazione della lingua o l'indovinare la lingua è il problema di determinare in quale linguaggio naturale si trova il contenuto. Gli approcci computazionali a questo problema lo vedono come un caso speciale di categorizzazione del testo, risolto con vari metodi statistici.

I servizi di rilevamento della lingua possono essere utilizzati in vari modi, ad esempio potrebbero essere utilizzati per identificare la lingua dei testi aziendali, come chat ed e-mail.
Il servizio può identificare la lingua del testo e le parti del testo in cui la lingua è cambiata, fino al livello di parola.
Utilizzando i servizi di rilevamento della lingua, Surveillance Insights può evidenziare e annotare la lingua utilizzata nel testo e aiutare a identificare attività potenzialmente sospette.

I testi aziendali come e-mail o chat possono essere in diverse lingue. Una parte fondamentale della pipeline di elaborazione del linguaggio naturale consiste nel determinare quale lingua è la lingua principale in modo che ogni testo possa essere elaborato attraverso passaggi specifici della lingua correlati.
In alcuni casi, le persone possono cambiare la lingua utilizzata nelle chat per evitare di monitorare o nascondere attività illegali. Determinare il punto in cui la lingua della chat viene cambiata è molto utile per determinare se si è verificata un'attività sospetta.

se desideri utilizzare la nostra API, puoi ottenere maggiori informazioni su di essa e sui suoi prezzi facendo clic su QUI

Oltre a fornire un servizio API, abbiamo anche deciso di rilasciarlo come open-source.
Questa è la nostra prima versione open source! Rilevatore di lingua open source, disponibile QUI