Language Detection API - Przewodnik pisania

Spis treści

Smodin ogłasza wydanie nowego interfejsu API do wykrywania języków obsługującego 176 języków

Ponieważ detektor języka był potrzebny do ulepszenia naszych aplikacji, zdecydowaliśmy się znaleźć rozwiązanie.

Na początku myśleliśmy, że będzie to łatwe, ponieważ Google sprawia, że wygląda to tak łatwo, ale jak się przekonaliśmy, nie było to łatwe zadanie, wręcz przeciwnie, wykrywanie języka zawsze było trudnym zadaniem.

W poszukiwaniu najlepszej opcji przewidywania języka z tekstu, która nie wymagałaby dużego modelu uczenia maszynowego, odkryliśmy, że najlepszym rozwiązaniem był wstępnie wytrenowany model identyfikacji języka, który zajmuje mniej niż 1 MB pamięci, a jednocześnie jest w stanie klasyfikować tysiące dokumentów na sekundę.

Po wielu poprawkach i ulepszeniach opracowaliśmy narzędzie, które może z pewnością zapewnić dobre wskaźniki dokładności dla każdego języka.

Zapewnia naprawdę dobre oceny dokładności, a także szybką i niezawodną prędkość. Oto lista dokładności dla poszczególnych krajów.

99% dokładnych języków*: francuski (fr), angielski (en), niemiecki (de), portugalski (pt), turecki (tr), niderlandzki (nl), włoski (it), hiszpański (es), węgierski (hu), esperanto (eo), polski (pl), fiński (fi), rosyjski (ru), macedoński (mk), ukraiński (uk), litewski (lt), wietnamski (vi), grecki (el), marathi (mr), arabski (ar), hebrajski (he), hindi (hi), ujgurski (ug), japoński (ja), gruziński (ka), bengalski (bn), urdu (ur), tajski (th), chiński (zh), ormiański (hy), malajalam (ml), koreański (ko), khmerski (km), birmański (my), tamilski (ta), kannada (kn), telugu (te), panjabi (pa), laotański (lo), gudżarati (gu), tybetański standardowy (bo), divehi (dv), syngaleski (si), amharski (am).

90% dokładności języków*: duński (da), rumuński (ro), szwedzki (sv), łacina (la), bułgarski (bg), czeski (cs), tagalski (tl), indonezyjski (id), tatarski (tt), islandzki (is), białoruski (be), baskijski (eu), bretoński (br), kazachski (kk), łotewski (lv), estoński (et), irlandzki (ga), czuwaski (cv), baszkirski (ba), osetyjski (os), tadżycki (tg).

*Informacje są prezentowane w kolejności od najbardziej testowych danych. Dane stanowiły zdania o długości 30-250 znaków. Testy przeprowadzono tylko na najpopularniejszych 100 językach. Testy wykazały prawie 99% dokładność dla większości zdań o długości 300 znaków lub większej.

Chociaż nie można uzyskać idealnych wyników, najlepsza dokładność (99% + dla wielu języków, nawet tych mniej znanych) jest widoczna przy 300 znakach lub więcej. Niezależnie od długości tekstu, im dłuższy, tym lepiej.

Jak wspomina Wiki: identyfikacja języka lub zgadywanie języka to problem polegający na określeniu, w jakim języku naturalnym znajduje się dana treść. Podejścia obliczeniowe do tego problemu traktują go jako szczególny przypadek kategoryzacji tekstu, rozwiązywany za pomocą różnych metod statystycznych.

Usługi wykrywania języka mogą być wykorzystywane na różne sposoby, na przykład do identyfikacji języka tekstów biznesowych, takich jak czat i wiadomości e-mail.
Usługa może zidentyfikować język tekstu i części tekstu, w których język uległ zmianie, aż do poziomu słowa.

W dzisiejszym cyfrowym świecie udostępnianie treści jest ważniejsze niż kiedykolwiek, zwłaszcza jeśli chodzi o filmy. W przypadku platform takich jak YouTube, tłumacz napisów YouTube może mieć ogromne znaczenie, pomagając twórcom dotrzeć do szerszej, globalnej publiczności. Dokładne tłumaczenia napisów przełamują bariery językowe i zapewniają, że filmy angażują widzów z całego świata.

Korzystając z usług wykrywania języka, Surveillance Insights może wyróżniać i opisywać język używany w tekście oraz pomagać w identyfikacji potencjalnie podejrzanych działań.

Teksty biznesowe, takie jak wiadomości e-mail lub czat, mogą być w różnych językach.

Dla firm, które działają w różnych regionach, tłumacz wielojęzyczny może być niezwykle korzystny. Dzięki zastosowaniu tej technologii firmy mogą zwiększyć swoją zdolność do skutecznej komunikacji w wielu językach, poprawiając jakość obsługi klienta i poszerzając swój globalny zasięg. Wraz z rosnącą potrzebą lokalizacji, niezawodny tłumacz wielo języczny może zapewnić niezbędne wsparcie w dostarczaniu treści, które rezonują z różnymi odbiorcami.

Kluczową częścią potoku przetwarzania języka naturalnego jest określenie, który język jest językiem podstawowym, tak aby każdy tekst mógł być przetwarzany w powiązanych krokach specyficznych dla danego języka.

W niektórych przypadkach ludzie mogą zmienić język używany w czatach, aby uniknąć monitorowania lub ukryć nielegalne działania. Określenie momentu zmiany języka czatu jest bardzo przydatne do ustalenia, czy wystąpiła podejrzana aktywność.

Jeśli chcesz skorzystać z naszego API, możesz uzyskać więcej informacji na jego temat i jego ceny, klikając TUTAJ.

Oprócz dostarczania usługi API, zdecydowaliśmy się również wydać ją jako open-source.
To nasze pierwsze wydanie open source! Detektor języka open source, dostępny TUTAJ