Language Detection API

Smodin kunngjør lanseringen av den nye Språkdeteksjons-API støtter 176 språk

Siden en språkdetektor var nødvendig for å forbedre applikasjonene våre, har vi bestemt oss for å finne en løsning.

Til å begynne med trodde vi at det ville være enkelt siden google får det til å se så enkelt ut, men som vi fant ut, var det ikke en lett oppgave, tvert imot, språkoppdagelse har alltid vært en vanskelig oppgave.

I søket etter det beste alternativet for å forutsi et språk fra tekst som ikke krevde en stor maskinlæringsmodell, fant vi ut at den beste løsningen var en forhåndsutdannet språkidentifikasjonsmodell som tar mindre enn 1 MB minne mens du kan klassifisere tusenvis av dokumenter per sekund.

Etter mange justeringer og forbedringer har vi utviklet et verktøy som trygt kan gi gode nøyaktighetshastigheter for hvert språk.

Gir virkelig gode nøyaktighetsvurderinger, og ikke bare det, men også med en rask og pålitelig hastighet. Her er en nøyaktighetsliste per land.

99% nøyaktige språk*: fransk (fr), engelsk (en), tysk (de), portugisisk (pt), tyrkisk (tr), nederlandsk (nl), italiensk (it), spansk (es), ungarsk (hu) , Esperanto (eo), polsk (pl), finsk (fi), russisk (ru), makedonsk (mk), ukrainsk (Storbritannia), litauisk (lt), vietnamesisk (vi), gresk (el), marathi (mr) , Arabisk (ar), hebraisk (he), hindi (hei), uigur (ug), japansk (ja), georgisk (ka), bengali (bn), urdu (ur), thai (th), kinesisk (zh) , Armensk (hy), malayalam (ml), koreansk (ko), khmer (km), burmesisk (min), tamil (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo) , Gujarati (gu), tibetansk standard (bo), Divehi (dv), singalesisk (si), amharisk (am).

90% nøyaktige språk*: dansk (da), rumensk (ro), svensk (sv), latin (la), bulgarsk (bg), tsjekkisk (cs), tagalog (tl), indonesisk (id), tatarisk (tt) , Islandsk (is), hviterussisk (be), baskisk (eu), bretonsk (br), kasakhisk (kk), latvisk (lv), estisk (et), irsk (ga), Chuvash (cv), basjkir (ba) , Ossetiansk (os), tadsjikisk (tg).

*Informasjonen presenteres i rekkefølge av de fleste testdataene. Data var setninger på 30-250 tegn i lengde. Testing ble bare utført på de mest populære 100 språkene. Testingen viste nesten 99% nøyaktighet for de fleste setninger på 300 tegn eller lengre.

Selv om du ikke kan få perfekte resultater, er den beste nøyaktigheten (99%+ for mange språk, selv de mindre kjente) sett med 300 tegn eller mer. Uansett tekstlengde, jo lengre jo bedre.

Som Wiki nevner: språkidentifikasjon eller språkgjetting er problemet med å bestemme hvilket naturlig språk gitt innhold er i. Beregningsmetoder for dette problemet ser på det som et spesielt tilfelle av tekstkategorisering, løst med forskjellige statistiske metoder.

Språkdeteksjonstjenester kan brukes på forskjellige måter, for eksempel kan de brukes til å identifisere språket i forretningstekster, for eksempel chat og e -post.
Tjenesten kan identifisere språk i teksten og delene av teksten der språket har endret seg, ned til ordnivå.
Ved å bruke språkoppdagelsestjenester kan Surveillance Insights markere og kommentere språket som brukes i tekst, og hjelpe til med å identifisere potensielt mistenkelige aktiviteter.

Forretningstekster som e -post eller chat kan være på forskjellige språk. En sentral del av den naturlige språkbehandlingsrøret er å bestemme hvilket språk som er hovedspråket, slik at hver tekst kan behandles gjennom relaterte språkspesifikke trinn.
I noen tilfeller kan folk endre språket som brukes i chatter for å unngå å overvåke eller skjule ulovlige aktiviteter. Å bestemme punktet der chattespråket byttes er svært nyttig for å avgjøre om en mistenkelig aktivitet har skjedd.

Hvis du ønsker å bruke vårt API, kan du få mer informasjon om det og prisene ved å klikke HER

I tillegg til å tilby en API-tjeneste, har vi også besluttet å gi den ut som åpen kildekode.
Dette er vår første open source -utgivelse! Språkdetektor åpen kildekode, tilgjengelig HER