Taaldetectie API - Schrijfgids

Inhoudsopgave

Smodin kondigt de release aan van zijn nieuwe Language Detection API die 176 talen ondersteunt

Omdat we een taaldetector nodig hadden om onze toepassingen te verbeteren, hebben we besloten om een oplossing te vinden.

In eerste instantie dachten we dat het makkelijk zou zijn omdat google het zo makkelijk laat lijken, maar zoals we ontdekten was het geen gemakkelijke taak, integendeel, taaldetectie is altijd een moeilijke taak geweest.

In de zoektocht naar de beste optie voor het voorspellen van een taal uit tekst waarvoor geen groot machine learning model nodig was, ontdekten we dat de beste oplossing een vooraf getraind taalidentificatiemodel was dat minder dan 1MB geheugen in beslag nam en toch duizenden documenten per seconde kon classificeren.

Na veel aanpassingen en verbeteringen hebben we een tool ontwikkeld die met vertrouwen goede nauwkeurigheidspercentages kan bieden voor elke taal.

Ze bieden echt goede nauwkeurigheidsbeoordelingen, en dat niet alleen, maar ook met een snelle en betrouwbare snelheid. Hier is een nauwkeurigheidslijst per land.

99% nauwkeurige talen*: Frans (fr), Engels (en), Duits (de), Portugees (pt), Turks (tr), Nederlands (nl), Italiaans (it), Spaans (es), Hongaars (hu), Esperanto (eo), Pools (pl), Fins (fi), Russisch (ru), Macedonisch (mk), Oekraïens (uk), Litouws (lt), Vietnamees (vi), Grieks (el), Marathi (mr), Arabisch (ar), Hebreeuws (he), Hindi (hi), Oeigoer (ug), Japans (ja), Georgisch (ka), Bengaals (bn), Urdu (ur), Thai (th), Chinees (zh), Armeens (hy), Malayalam (ml), Koreaans (ko), Khmer (km), Birmaans (my), Tamil (ta), Kannada (kn), Telugu (te), Panjabi (pa), Lao (lo), Gujarati (gu), Tibetaans standaard (bo), Divehi (dv), Sinhala (si), Amhaars (am).

90% nauwkeurige talen*: Deens (da), Roemeens (ro), Zweeds (sv), Latijn (la), Bulgaars (bg), Tsjechisch (cs), Tagalog (tl), Indonesisch (id), Tataars (tt), IJslands (is), Wit-Russisch (be), Baskisch (eu), Bretoens (br), Kazachs (kk), Lets (lv), Ests (et), Iers (ga), Tsjoevasj (cv), Basjkir (ba), Ossetisch (os), Tadzjiek (tg).

*Informatie wordt gepresenteerd in volgorde van de meeste testgegevens. De gegevens waren zinnen van 30-250 tekens lang. Er is alleen getest in de 100 populairste talen. Tests toonden een nauwkeurigheid van bijna 99% voor de meerderheid van de zinnen met een lengte van 300 tekens of meer.

Hoewel je geen perfecte resultaten kunt krijgen, wordt de beste nauwkeurigheid (99%+ voor veel talen, zelfs de minder bekende) gezien bij 300 tekens of meer. Ongeacht de lengte van de tekst, hoe langer hoe beter.

Zoals Wiki vermeldt: taalidentificatie of taal raden is het probleem van het bepalen in welke natuurlijke taal bepaalde inhoud zich bevindt. Computationele benaderingen van dit probleem zien het als een speciaal geval van tekstcategorisatie, opgelost met verschillende statistische methoden.

Taaldetectiediensten kunnen op verschillende manieren worden gebruikt, bijvoorbeeld om de taal van zakelijke teksten te identificeren, zoals chats en e-mails.
De service kan de taal van de tekst identificeren en de delen van de tekst waar de taal is veranderd, tot op woordniveau.

In de huidige digitale wereld is het belangrijker dan ooit om content toegankelijk te maken, vooral als het om video's gaat. Voor platforms als YouTube kan een YouTube-ondertitelvertaler een enorm verschil maken en makers helpen een breder, wereldwijd publiek te bereiken. Nauwkeurige ondertitelvertalingen doorbreken taalbarrières en zorgen ervoor dat video's kijkers van over de hele wereld aanspreken.

Met behulp van taaldetectiediensten kan Surveillance Insights het taalgebruik in tekst markeren en annoteren en zo potentieel verdachte activiteiten helpen identificeren.

Zakelijke teksten zoals e-mail of chat kunnen in verschillende talen zijn.

Voor bedrijven die in verschillende regio's actief zijn, kan een meertalige vertaler ongelooflijk nuttig zijn. Door deze technologie in te zetten, kunnen bedrijven hun vermogen om effectief in meerdere talen te communiceren vergroten, waardoor de klantervaring verbetert en hun wereldwijde bereik toeneemt. Met de toenemende behoefte aan lokalisatie kan een betrouwbare meertalige vertaler essentiële ondersteuning bieden bij het leveren van inhoud die aanslaat bij een divers publiek.

Een belangrijk onderdeel van de natuurlijke taalverwerkingspijplijn is het bepalen welke taal de primaire taal is, zodat elke tekst via gerelateerde taalspecifieke stappen kan worden verwerkt.

In sommige gevallen veranderen mensen de taal die wordt gebruikt in chats om controle te vermijden of illegale activiteiten te verbergen. Het bepalen van het punt waarop de chattaal wordt gewijzigd is erg nuttig om te bepalen of er een verdachte activiteit heeft plaatsgevonden.

Als je onze API wilt gebruiken, kun je HIER klikken voor meer informatie en prijzen.

Naast het aanbieden van een API-service, hebben we ook besloten om het vrij te geven als open-source.
Dit is onze eerste open-source release! Taaldetector open-source, HIER beschikbaar