Smodin kondigt de release aan van zijn nieuwe Taaldetectie-API ondersteunt 176 talen

Omdat er een taaldetector nodig was om onze applicaties te verbeteren, hebben we besloten een oplossing te zoeken.

In eerste instantie dachten we dat het gemakkelijk zou zijn omdat Google het zo gemakkelijk laat lijken, maar zoals we ontdekten, was het geen gemakkelijke taak, integendeel, taaldetectie is altijd een moeilijke taak geweest.

Bij het zoeken naar de beste optie voor het voorspellen van een taal uit tekst waarvoor geen groot machine learning-model nodig was, kwamen we erachter dat de beste oplossing een vooraf getraind taalidentificatiemodel was dat minder dan 1 MB geheugen in beslag nam terwijl het in staat was om classificeer duizenden documenten per seconde.

Na veel tweaks en verbeteringen hebben we een tool ontwikkeld die met vertrouwen goede nauwkeurigheidspercentages kan bieden voor elke taal.

Biedt echt goede nauwkeurigheidsbeoordelingen, en niet alleen dat, maar ook met een snelle en betrouwbare snelheid. Hier is een nauwkeurigheidslijst per land.

99% nauwkeurige talen*: Frans (fr), Engels (en), Duits (de), Portugees (pt), Turks (tr), Nederlands (nl), Italiaans (it), Spaans (es), Hongaars (hu) , Esperanto (eo), Pools (pl), Fins (fi), Russisch (ru), Macedonisch (mk), Oekraïens (uk), Litouws (lt), Vietnamees (vi), Grieks (el), Marathi (mr) , Arabisch (ar), Hebreeuws (he), Hindi (hi), Oeigoers (ug), Japans (ja), Georgisch (ka), Bengaals (bn), Urdu (ur), Thai (th), Chinees (zh) , Armeens (hy), Malayalam (ml), Koreaans (ko), Khmer (km), Birmaans (my), Tamil (ta), Kannada (kn), Telugu (te), Panjabi (pa), Lao (lo) , Gujarati (gu), Tibetaanse standaard (bo), Divehi (dv), Sinhala (si), Amhaars (am).

90% nauwkeurige talen*: Deens (da), Roemeens (ro), Zweeds (sv), Latijn (la), Bulgaars (bg), Tsjechisch (cs), Tagalog (tl), Indonesisch (id), Tataars (tt) , IJslands (is), Wit-Russisch (be), Baskisch (eu), Bretons (br), Kazachs (kk), Lets (lv), Ests (et), Iers (ga), Chuvash (cv), Bashkir (ba) , Ossetisch (os), Tadzjieks (tg).

*De informatie wordt weergegeven in volgorde van de meeste testgegevens. De gegevens waren zinnen van 30-250 tekens lang. Er werd alleen getest op de meest populaire 100 talen. Tests toonden een nauwkeurigheid van bijna 99% voor de meeste zinnen met een lengte van 300 tekens of meer.

Hoewel u geen perfecte resultaten kunt krijgen, wordt de beste nauwkeurigheid (99%+ voor veel talen, zelfs de minder bekende) gezien bij 300 tekens of meer. Ongeacht de lengte van de tekst, hoe langer hoe beter.

Zoals Wiki vermeldt: taalidentificatie of taalgissing is het probleem om te bepalen in welke natuurlijke taal bepaalde inhoud zich bevindt. Computationele benaderingen van dit probleem beschouwen het als een speciaal geval van tekstcategorisatie, opgelost met verschillende statistische methoden.

Taaldetectiediensten kunnen op verschillende manieren worden gebruikt, ze kunnen bijvoorbeeld worden gebruikt om de taal van zakelijke teksten, zoals chat en e-mail, te identificeren.
De service kan de taal van de tekst identificeren en de delen van de tekst waar de taal is veranderd, tot op woordniveau.
Met behulp van taaldetectieservices kan Surveillance Insights de taal die in tekst wordt gebruikt markeren en annoteren en helpen bij het identificeren van mogelijk verdachte activiteiten.

Zakelijke teksten zoals e-mail of chat kunnen in verschillende talen zijn. Een belangrijk onderdeel van de pijplijn voor natuurlijke taalverwerking is om te bepalen welke taal de primaire taal is, zodat elke tekst kan worden verwerkt via gerelateerde taalspecifieke stappen.
In sommige gevallen kunnen mensen de taal die wordt gebruikt in chats veranderen om te voorkomen dat illegale activiteiten worden gecontroleerd of verborgen. Het bepalen van het punt waarop de chattaal wordt omgeschakeld, is erg handig om te bepalen of er een verdachte activiteit heeft plaatsgevonden.

als u onze API wilt gebruiken, kunt u er meer informatie over krijgen en de prijzen door te klikken op HIER

Naast het leveren van een API-service, hebben we besloten deze ook als open source uit te brengen.
Dit is onze eerste open source-release! Taaldetector open source, beschikbaar HIER