Smodin lanserar sitt nya API för språkdetektering med stöd för 176 språk
Eftersom vi behövde en språkdetektor för att förbättra våra applikationer, bestämde vi oss för att hitta en lösning.
Först trodde vi att det skulle vara enkelt eftersom Google får det att se så enkelt ut, men som vi upptäckte var det inte en lätt uppgift, tvärtom har språkdetektering alltid varit en svår uppgift.
I sökandet efter det bästa alternativet för att förutsäga ett språk från text som inte kräver en stor maskininlärningsmodell, upptäckte vi att den bästa lösningen var en förtränad språkidentifieringsmodell som tar mindre än 1 MB minne samtidigt som den kan klassificera tusentals dokument per sekund.
Efter många justeringar och förbättringar har vi utvecklat ett verktyg som med säkerhet kan ge bra träffsäkerhet för varje språk.
Tillhandahåller riktigt bra noggrannhetsbetyg, och inte bara det utan också med en snabb och pålitlig hastighet. Här är en noggrannhetslista per land.
99% korrekta språk*: Franska (fr), engelska (en), tyska (de), portugisiska (pt), turkiska (tr), nederländska (nl), italienska (it), spanska (es), ungerska (hu), esperanto (eo), polska (pl), Finska (fi), Ryska (ru), Makedonska (mk), Ukrainska (uk), Litauiska (lt), Vietnamesiska (vi), Grekiska (el), Marathi (mr), Arabiska (ar), Hebreiska (he), Hindi (hi), uyghur (ug), japanska (ja), georgiska (ka), bengali (bn), urdu (ur), thai (th), kinesiska (zh), armeniska (hy), malayalam (ml), koreanska (ko), khmer (km), burmesiska (my), tamil (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo), gujarati (gu), tibetansk standard (bo), divehi (dv), singalesiska (si), amhariska (am).
90% korrekta språk*: Danska (da), rumänska (ro), svenska (sv), latin (la), bulgariska (bg), tjeckiska (cs), tagalog (tl), indonesiska (id), tatariska (tt), isländska (is), vitryska (be), baskiska (eu), bretonska (br), kazakiska (kk), lettiska (lv), estniska (et), iriska (ga), tjuvasjiska (cv), basjkiriska (ba), ossetiska (os), tadzjikiska (tg).
*Informationen presenteras i ordning efter flest testdata. Data var meningar med en längd på 30-250 tecken. Testning gjordes endast på de 100 mest populära språken. Testerna visade en noggrannhet på nära 99% för majoriteten av meningarna på eller över 300 tecken.
Det går inte att få perfekta resultat, men den bästa träffsäkerheten (99 %+ för många språk, även de mindre kända) uppnås vid 300 tecken eller mer. Oavsett textlängd gäller att ju längre desto bättre.
Som Wiki nämner: språkidentifiering eller språkgissning är problemet med att bestämma vilket naturligt språk ett givet innehåll är på. Beräkningsmässiga tillvägagångssätt för detta problem ser det som ett specialfall av textkategorisering, löst med olika statistiska metoder.
Språkdetekteringstjänster kan användas på olika sätt, t.ex. för att identifiera språket i affärstexter, som chatt och e-post.
Tjänsten kan identifiera språket i texten och de delar av texten där språket har ändrats, ända ner på ordnivå.
Med hjälp av språkdetekteringstjänster kan Surveillance Insights markera och kommentera det språk som används i text och hjälpa till att identifiera potentiellt misstänkta aktiviteter.
Affärstexter som e-post eller chatt kan vara på olika språk. En viktig del av pipelinen för bearbetning av naturligt språk är att avgöra vilket språk som är det primära språket så att varje text kan bearbetas genom relaterade språkspecifika steg.
I vissa fall kan personer ändra det språk som används i chattar för att undvika övervakning eller dölja olagliga aktiviteter. Att avgöra vid vilken tidpunkt chattspråket byts är mycket användbart för att avgöra om en misstänkt aktivitet har ägt rum.
om du vill använda vårt API kan du få mer information om det och dess priser genom att klicka HÄR
Förutom att tillhandahålla en API-tjänst har vi också beslutat att släppa den som öppen källkod.
Detta är vår första release med öppen källkod! Språkdetektor öppen källkod, tillgänglig HÄR