API för språkdetektering - Skrivguide

Innehållsförteckning

Smodin lanserar sitt nya API för språkdetektering med stöd för 176 språk

Eftersom vi behövde en språkdetektor för att förbättra våra applikationer, bestämde vi oss för att hitta en lösning.

Först trodde vi att det skulle vara enkelt eftersom Google får det att se så enkelt ut, men som vi upptäckte var det inte en lätt uppgift, tvärtom har språkdetektering alltid varit en svår uppgift.

I sökandet efter det bästa alternativet för att förutsäga ett språk från text som inte kräver en stor maskininlärningsmodell, upptäckte vi att den bästa lösningen var en förtränad språkidentifieringsmodell som tar mindre än 1 MB minne samtidigt som den kan klassificera tusentals dokument per sekund.

Efter många justeringar och förbättringar har vi utvecklat ett verktyg som med säkerhet kan ge bra träffsäkerhet för varje språk.

Tillhandahåller riktigt bra noggrannhetsbetyg, och inte bara det utan också med en snabb och pålitlig hastighet. Här är en noggrannhetslista per land.

99% korrekta språk*: Franska (fr), engelska (en), tyska (de), portugisiska (pt), turkiska (tr), nederländska (nl), italienska (it), spanska (es), ungerska (hu), esperanto (eo), polska (pl), Finska (fi), Ryska (ru), Makedonska (mk), Ukrainska (uk), Litauiska (lt), Vietnamesiska (vi), Grekiska (el), Marathi (mr), Arabiska (ar), Hebreiska (he), Hindi (hi), uyghur (ug), japanska (ja), georgiska (ka), bengali (bn), urdu (ur), thai (th), kinesiska (zh), armeniska (hy), malayalam (ml), koreanska (ko), khmer (km), burmesiska (my), tamil (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo), gujarati (gu), tibetansk standard (bo), divehi (dv), singalesiska (si), amhariska (am).

90% korrekta språk*: Danska (da), rumänska (ro), svenska (sv), latin (la), bulgariska (bg), tjeckiska (cs), tagalog (tl), indonesiska (id), tatariska (tt), isländska (is), vitryska (be), baskiska (eu), bretonska (br), kazakiska (kk), lettiska (lv), estniska (et), iriska (ga), tjuvasjiska (cv), basjkiriska (ba), ossetiska (os), tadzjikiska (tg).

*Informationen presenteras i ordning efter flest testdata. Data var meningar med en längd på 30-250 tecken. Testning gjordes endast på de 100 mest populära språken. Testerna visade en noggrannhet på nära 99% för majoriteten av meningarna på eller över 300 tecken.

Det går inte att få perfekta resultat, men den bästa träffsäkerheten (99 %+ för många språk, även de mindre kända) uppnås vid 300 tecken eller mer. Oavsett textlängd gäller att ju längre desto bättre.

Som Wiki nämner: språkidentifiering eller språkgissning är problemet med att bestämma vilket naturligt språk ett givet innehåll är på. Beräkningsmässiga tillvägagångssätt för detta problem ser det som ett specialfall av textkategorisering, löst med olika statistiska metoder.

Språkdetekteringstjänster kan användas på olika sätt, t.ex. för att identifiera språket i affärstexter, som chatt och e-post.
Tjänsten kan identifiera språket i texten och de delar av texten där språket har ändrats, ända ner på ordnivå.

I dagens digitala värld är det viktigare än någonsin att göra innehåll tillgängligt, särskilt när det gäller videor. För plattformar som YouTube kan en översättare av YouTube-undertexter göra stor skillnad och hjälpa skapare att nå en bredare, global publik. Exakta översättningar av undertexter bryter ner språkbarriärer och säkerställer att videor engagerar tittare från hela världen.

Med hjälp av språkdetekteringstjänster kan Surveillance Insights markera och kommentera det språk som används i text och hjälpa till att identifiera potentiellt misstänkta aktiviteter.

Affärstexter som e-post eller chatt kan vara på olika språk.

För företag som är verksamma i olika regioner kan en flerspråkig översättare vara till stor nytta. Genom att införliva denna teknik kan företag förbättra sin förmåga att kommunicera effektivt på flera språk, förbättra kundupplevelsen och bredda sin globala räckvidd. Med det ökande behovet av lokalisering kan en pålitlig flerspråkig översättare vara ett viktigt stöd när det gäller att leverera innehåll som når ut till olika målgrupper.

En viktig del av pipelinen för bearbetning av naturligt språk är att avgöra vilket språk som är huvudspråket så att varje text kan bearbetas genom relaterade språkspecifika steg.

I vissa fall kan personer ändra det språk som används i chattar för att undvika övervakning eller dölja olagliga aktiviteter. Att avgöra vid vilken tidpunkt chattspråket byts är mycket användbart för att avgöra om en misstänkt aktivitet har ägt rum.

Om du vill använda vårt API kan du få mer information om det och dess priser genom att klicka HÄR

Förutom att tillhandahålla en API-tjänst har vi också beslutat att släppa den som öppen källkod.
Detta är vår första release med öppen källkod! Språkdetektor öppen källkod, tillgänglig HÄR