Smodin tillkännager lanseringen av sin nya Språkdetektions-API stödjer 176 språk

Eftersom en språkdetektor behövdes för att förbättra våra applikationer har vi bestämt oss för att hitta en lösning.

Till en början trodde vi att det skulle vara enkelt eftersom Google får det att se så enkelt ut, men som vi fick reda på var det inte en lätt uppgift, tvärtom har språkidentifiering alltid varit en svår uppgift.

I sökandet efter det bästa alternativet för att förutsäga ett språk från text som inte krävde en stor maskininlärningsmodell fann vi att den bästa lösningen var en förutbildad språkidentifieringsmodell som tar mindre än 1 MB minne samtidigt som man kan klassificera tusentals dokument per sekund.

Efter många justeringar och förbättringar har vi utvecklat ett verktyg som med säkerhet kan ge bra noggrannhet för varje språk.

Ger riktigt bra noggrannhetsbetyg, och inte bara det utan också med en snabb och pålitlig hastighet. Här är en noggrannhetslista per land.

99% exakta språk*: franska (fr), engelska (en), tyska (de), portugisiska (pt), turkiska (tr), nederländska (nl), italienska (it), spanska (es), ungerska (hu) , Esperanto (eo), polska (pl), finska (fi), ryska (ru), makedonska (mk), ukrainska (Storbritannien), litauiska (lt), vietnamesiska (vi), grekiska (el), marathi (mr) , Arabiska (ar), hebreiska (he), hindi (hi), uyghur (ug), japanska (ja), georgiska (ka), bengali (bn), urdu (ur), thailändska (th), kinesiska (zh) , Armeniska (hy), malayalam (ml), koreanska (ko), khmer (km), burmesiska (my), tamil (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo) , Gujarati (gu), Tibetan Standard (bo), Divehi (dv), Sinhala (si), Amharic (am).

90% exakta språk*: danska (da), rumänska (ro), svenska (sv), latin (la), bulgariska (bg), tjeckiska (cs), tagalog (tl), indonesiska (id), tatariska (tt) , Isländska (is), vitryska (be), baskiska (eu), bretonska (br), kasakiska (kk), lettiska (lv), estniska (et), irländska (ga), chuvash (cv), basjkir (ba) , Ossetiska (os), tadzjikiska (tg).

*Informationen presenteras i ordning efter de flesta testdata. Data var meningar med 30-250 tecken i längd. Testning gjordes bara på de mest populära 100 språken. Testet visade nästan 99% noggrannhet för de flesta meningar med en längd på eller över 300 tecken.

Även om du inte kan få perfekta resultat, är den bästa noggrannheten (99%+ för många språk, även de mindre kända) sett med 300 tecken eller mer. Oavsett textlängd, ju längre desto bättre.

Som Wiki nämner: språkidentifiering eller språkgissning är problemet med att avgöra vilket naturligt språk givet innehåll finns i. Beräkningsmetoder för detta problem ser det som ett speciellt fall av textkategorisering, löst med olika statistiska metoder.

Språkdetekteringstjänster kan användas på olika sätt, till exempel kan de användas för att identifiera språket i företagstexter, till exempel chatt och e -post.
Tjänsten kan identifiera textens språk och de delar av texten där språket har ändrats, ner till ordnivå.
Med hjälp av språkidentifieringstjänster kan Surveillance Insights markera och kommentera det språk som används i text och hjälpa till att identifiera potentiellt misstänkta aktiviteter.

Företagstexter som e -post eller chatt kan vara på olika språk. En viktig del av den naturliga språkbehandlingsrörledningen är att avgöra vilket språk som är huvudspråket så att varje text kan bearbetas genom relaterade språkspecifika steg.
I vissa fall kan människor ändra språket som används i chattar för att undvika att övervaka eller dölja olagliga aktiviteter. Att bestämma punkten då chattspråket byts är mycket användbart för att avgöra om en misstänkt aktivitet har inträffat.

om du vill använda vårt API kan du få mer information om det och dess prissättning genom att klicka HÄR

Förutom att tillhandahålla en API-tjänst har vi också beslutat att släppa den som öppen källkod.
Detta är vår första open source -release! Språkdetektor öppen källkod, tillgänglig HÄR