Smodin annoncerer udgivelsen af ​​sin nye Sprogdetekterings -API understøtter 176 sprog

Da en sprogdetektor var nødvendig for at forbedre vores applikationer, har vi besluttet at finde en løsning.

Først troede vi, at det ville være let, da google får det til at se så let ud, men som vi fandt ud af, var det ikke en let opgave, tværtimod har sprogregistrering altid været en vanskelig opgave.

I søgen efter den bedste mulighed for at forudsige et sprog fra tekst, som ikke krævede en stor maskinindlæringsmodel, fandt vi ud af, at den bedste løsning var en præ-uddannet sprogidentifikationsmodel, der tager mindre end 1 MB hukommelse, mens den kan klassificere tusindvis af dokumenter i sekundet.

Efter mange justeringer og forbedringer har vi udviklet et værktøj, der trygt kan levere gode nøjagtighedshastigheder for hvert sprog.

Giver virkelig gode nøjagtighedsvurderinger, og ikke kun det, men også med en hurtig og pålidelig hastighed. Her er en nøjagtighedsliste pr. Land.

99% nøjagtige sprog*: fransk (fr), engelsk (en), tysk (de), portugisisk (pt), tyrkisk (tr), hollandsk (nl), italiensk (it), spansk (es), ungarsk (hu) , Esperanto (eo), polsk (pl), finsk (fi), russisk (ru), makedonsk (mk), ukrainsk (uk), litauisk (lt), vietnamesisk (vi), græsk (el), marathi (mr) , Arabisk (ar), hebraisk (he), hindi (hi), uigur (ug), japansk (ja), georgisk (ka), bengali (bn), urdu (ur), thai (th), kinesisk (zh) , Armensk (hy), malayalam (ml), koreansk (ko), khmer (km), burmesisk (min), tamil (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo) , Gujarati (gu), tibetansk standard (bo), Divehi (dv), singalesisk (si), amharisk (am).

90% nøjagtige sprog*: dansk (da), rumænsk (ro), svensk (sv), latin (la), bulgarsk (bg), tjekkisk (cs), tagalog (tl), indonesisk (id), tatarisk (tt) , Islandsk (is), hviderussisk (be), baskisk (eu), bretonsk (br), kasakhisk (kk), lettisk (lv), estisk (et), irsk (ga), Chuvash (cv), basjkir (ba) , Ossetiansk (os), tadsjikisk (tg).

*Oplysningerne præsenteres i rækkefølge efter de fleste testdata. Data var sætninger på 30-250 tegn i længden. Test blev kun udført på de mest populære 100 sprog. Test viste næsten 99% nøjagtighed for de fleste sætninger med en længde på eller over 300 tegn.

Selvom du ikke kan få perfekte resultater, ses den bedste nøjagtighed (99%+ for mange sprog, selv de mindre kendte) med 300 tegn eller mere. Uanset tekstlængde, jo længere jo bedre.

Som Wiki nævner: sprogidentifikation eller sproggætning er problemet med at afgøre, hvilket naturligt sprog givet indhold er i. Beregningsmetoder til dette problem ser det som et særligt tilfælde af tekstkategorisering, løst med forskellige statistiske metoder.

Sprogdetekteringstjenester kan bruges på forskellige måder, for eksempel kan de bruges til at identificere sproget i virksomhedstekster, såsom chat og e -mail.
Tjenesten kan identificere tekstens sprog og de dele af teksten, hvor sproget har ændret sig, ned til ordniveau.
Ved hjælp af sprogdetekteringstjenester kan Surveillance Insights fremhæve og kommentere det sprog, der bruges i tekst, og hjælpe med at identificere potentielt mistænkelige aktiviteter.

Virksomhedstekster som f.eks. E -mail eller chat kan være på forskellige sprog. En vigtig del af den naturlige sprogbehandlingspipeline er at bestemme, hvilket sprog der er det primære sprog, så hver tekst kan behandles gennem relaterede sprogspecifikke trin.
I nogle tilfælde kan folk ændre det sprog, der bruges i chats for at undgå at overvåge eller skjule ulovlige aktiviteter. At bestemme det tidspunkt, hvor chatsproget skiftes, er meget nyttigt til at afgøre, om en mistænkelig aktivitet har fundet sted.

hvis du gerne vil bruge vores API, kan du få flere oplysninger om det og dets priser ved at klikke HER

Udover at levere en API-service, har vi også besluttet at frigive den som open-source.
Dette er vores første open source -udgivelse! Sprogdetektor open source, tilgængelig HER