Spracherkennungs-API - Anleitung zum Schreiben

Inhaltsübersicht

Smodin kündigt die Veröffentlichung seiner neuen Spracherkennungs-API an, die 176 Sprachen unterstützt

Da wir zur Verbesserung unserer Anwendungen einen Sprachdetektor benötigten, haben wir beschlossen, eine Lösung zu finden.

Zuerst dachten wir, dass es einfach sein würde, da Google es so einfach aussehen lässt, aber wie wir herausfanden, war es keine einfache Aufgabe, im Gegenteil, die Spracherkennung war schon immer eine schwierige Aufgabe.

Auf der Suche nach der besten Option für die Vorhersage einer Sprache aus einem Text, die kein großes maschinelles Lernmodell erfordert, fanden wir heraus, dass die beste Lösung ein vortrainiertes Spracherkennungsmodell ist, das weniger als 1 MB Speicherplatz benötigt und gleichzeitig in der Lage ist, Tausende von Dokumenten pro Sekunde zu klassifizieren.

Nach vielen Optimierungen und Verbesserungen haben wir ein Tool entwickelt, das für jede Sprache gute Trefferquoten liefern kann.

Sie bieten wirklich gute Genauigkeitsbewertungen, und nicht nur das, sondern auch mit einer schnellen und zuverlässigen Geschwindigkeit. Hier ist eine Liste der Genauigkeit pro Land.

99% Genaue Sprachen*: Französisch (fr), Englisch (en), Deutsch (de), Portugiesisch (pt), Türkisch (tr), Niederländisch (nl), Italienisch (it), Spanisch (es), Ungarisch (hu), Esperanto (eo), Polnisch (pl), Finnisch (fi), Russisch (ru), Mazedonisch (mk), Ukrainisch (uk), Litauisch (lt), Vietnamesisch (vi), Griechisch (el), Marathi (mr), Arabisch (ar), Hebräisch (he), Hindi (hi), Uigurisch (ug), Japanisch (ja), Georgisch (ka), Bengalisch (bn), Urdu (ur), Thai (th), Chinesisch (zh), Armenisch (hy), Malayalam (ml), Koreanisch (ko), Khmer (km), Birmanisch (my), Tamil (ta), Kannada (kn), Telugu (te), Panjabi (pa), Laotisch (lo), Gujarati (gu), Tibetisch Standard (bo), Divehi (dv), Singhalesisch (si), Amharisch (am).

90% Genaue Sprachen*: Dänisch (da), Rumänisch (ro), Schwedisch (sv), Latein (la), Bulgarisch (bg), Tschechisch (cs), Tagalog (tl), Indonesisch (id), Tatarisch (tt), Isländisch (is), Weißrussisch (be), Baskisch (eu), Bretonisch (br), Kasachisch (kk), Lettisch (lv), Estnisch (et), Irisch (ga), Tschuwaschisch (cv), Baschkirisch (ba), Ossetisch (os), Tadschikisch (tg).

*Die Informationen werden in der Reihenfolge der meisten Testdaten dargestellt. Die Daten waren Sätze mit einer Länge von 30-250 Zeichen. Die Tests wurden nur mit den 100 beliebtesten Sprachen durchgeführt. Die Tests ergaben eine Genauigkeit von nahezu 99 % für die Mehrheit der Sätze mit einer Länge von 300 Zeichen oder mehr.

Perfekte Ergebnisse sind zwar nicht möglich, aber die beste Genauigkeit (99 % und mehr für viele Sprachen, auch für die weniger bekannten) wird bei 300 Zeichen oder mehr erreicht. Unabhängig von der Textlänge gilt: je länger, desto besser.

Wie Wiki erwähnt: Sprachidentifikation oder Sprachermittlung ist das Problem der Bestimmung, in welcher natürlichen Sprache ein bestimmter Inhalt vorliegt. Computergestützte Ansätze zu diesem Problem betrachten es als einen Spezialfall der Textkategorisierung, der mit verschiedenen statistischen Methoden gelöst wird.

Spracherkennungsdienste können auf verschiedene Weise eingesetzt werden, z. B. zur Erkennung der Sprache von Geschäftstexten, wie Chats und E-Mails.
Der Dienst kann die Sprache des Textes und die Teile des Textes, in denen sich die Sprache geändert hat, bis hin zur Wortebene ermitteln.

In der heutigen digitalen Welt ist es wichtiger denn je, Inhalte zugänglich zu machen, vor allem, wenn es um Videos geht. Für Plattformen wie YouTube kann ein YouTube-Untertitel-Übersetzer einen großen Unterschied machen und den Urhebern helfen, ein größeres, globales Publikum zu erreichen. Präzise Untertitelübersetzungen überwinden Sprachbarrieren und sorgen dafür, dass Videos Zuschauer aus der ganzen Welt ansprechen.

Mithilfe von Spracherkennungsdiensten kann Surveillance Insights die in Texten verwendete Sprache hervorheben und kommentieren und so dazu beitragen, potenziell verdächtige Aktivitäten zu erkennen.

Geschäftliche Texte wie E-Mails oder Chats können in verschiedenen Sprachen verfasst sein.

Für Unternehmen, die in verschiedenen Regionen tätig sind, kann ein mehrsprachiger Übersetzer von großem Nutzen sein. Durch die Integration dieser Technologie können Unternehmen ihre Fähigkeit verbessern, effektiv in mehreren Sprachen zu kommunizieren, die Kundenerfahrung zu verbessern und ihre globale Reichweite zu vergrößern. Angesichts des zunehmenden Bedarfs an Lokalisierung kann ein zuverlässiger Mehrsprachenübersetzer eine wesentliche Unterstützung bei der Bereitstellung von Inhalten bieten, die bei unterschiedlichen Zielgruppen Anklang finden.

Ein wichtiger Teil der Pipeline für die Verarbeitung natürlicher Sprache ist die Bestimmung der Primärsprache, damit jeder Text durch entsprechende sprachspezifische Schritte verarbeitet werden kann.

In manchen Fällen ändern Personen die in Chats verwendete Sprache, um einer Überwachung zu entgehen oder illegale Aktivitäten zu verbergen. Die Bestimmung des Zeitpunkts, an dem die Chatsprache gewechselt wird, ist sehr nützlich, um festzustellen, ob eine verdächtige Aktivität stattgefunden hat.

Wenn Sie unsere API nutzen möchten, können Sie HIER weitere Informationen über sie und ihre Preise erhalten.

Neben der Bereitstellung eines API-Dienstes haben wir uns auch entschlossen, diesen als Open-Source zu veröffentlichen.
Dies ist unser erstes Open Source Release! Sprachdetektor Open Source, verfügbar HIER