Smodin zapowiada premierę swojego nowego Interfejs API wykrywania języka obsługa 176 języków

Ponieważ do ulepszania naszych aplikacji potrzebny był detektor języka, postanowiliśmy znaleźć rozwiązanie.

Początkowo myśleliśmy, że będzie to łatwe, ponieważ google sprawia, że ​​wygląda to tak łatwo, ale jak się przekonaliśmy, nie było to łatwe zadanie, wręcz przeciwnie, wykrywanie języka zawsze było trudnym zadaniem.

W poszukiwaniu najlepszej opcji przewidywania języka na podstawie tekstu, który nie wymagał dużego modelu uczenia maszynowego, stwierdziliśmy, że najlepszym rozwiązaniem jest wstępnie wytrenowany model identyfikacji języka, który zajmuje mniej niż 1 MB pamięci, a jednocześnie jest w stanie klasyfikuj tysiące dokumentów na sekundę.

Po wielu poprawkach i ulepszeniach opracowaliśmy narzędzie, które z pewnością zapewnia dobre wskaźniki dokładności dla każdego języka.

Zapewnia naprawdę dobre oceny dokładności i nie tylko to, ale także przy dużej i niezawodnej prędkości. Oto lista dokładności według kraju.

99% Dokładne języki*: francuski (fr), angielski (en), niemiecki (de), portugalski (pt), turecki (tr), holenderski (nl), włoski (it), hiszpański (es), węgierski (hu) , esperanto (eo), polski (pl), fiński (fi), rosyjski (ru), macedoński (mk), ukraiński (uk), litewski (lt), wietnamski (vi), grecki (el), marathi (mr) , arabski (ar), hebrajski (he), hindi (hi), ujgurski (ug), japoński (ja), gruziński (ka), bengalski (bn), urdu (ur), tajski (th), chiński (zh) , ormiański (hy), malajalam (ml), koreański (ko), khmerski (km), birmański (my), tamilski (ta), kannada (kn), telugu (te), panjabi (pa), laotański (lo) , gudżarati (gu), tybetański standard (bo), diwehi (dv), syngaleski (si), amharski (am).

90% Dokładne języki*: duński (da), rumuński (ro), szwedzki (sv), łacina (la), bułgarski (bg), czeski (cs), tagalog (tl), indonezyjski (id), tatarski (tt) , islandzki (is), białoruski (be), baskijski (eu), bretoński (br), kazachski (kk), łotewski (lv), estoński (et), irlandzki (ga), czuwaski (cv), baszkirski (ba) , osetyjski (os), tadżycki (tg).

*Informacje są prezentowane w kolejności większości danych testowych. Dane były zdaniami o długości 30-250 znaków. Testy przeprowadzono tylko na 100 najpopularniejszych językach. Testy wykazały prawie 99% dokładności w przypadku większości zdań o długości 300 znaków lub większej.

Chociaż nie można uzyskać doskonałych wyników, najlepszą dokładność (99%+ dla wielu języków, nawet tych mniej znanych) uzyskuje się przy 300 znakach lub więcej. Niezależnie od długości tekstu im dłużej tym lepiej.

Jak wspomina Wiki: identyfikacja języka lub odgadywanie języka to problem określenia, w jakim języku naturalnym jest dana treść. Podejścia obliczeniowe do tego problemu traktują go jako szczególny przypadek kategoryzacji tekstu, rozwiązywanego różnymi metodami statystycznymi.

Usługi wykrywania języka mogą być wykorzystywane na różne sposoby, na przykład do identyfikacji języka tekstów biznesowych, takich jak czat i e-mail.
Usługa może zidentyfikować język tekstu i części tekstu, w których język się zmienił, aż do poziomu słowa.
Korzystając z usług wykrywania języka, Surveillance Insights może podświetlać i opisywać język używany w tekście oraz pomagać w identyfikacji potencjalnie podejrzanych działań.

Teksty biznesowe, takie jak e-mail lub czat, mogą być w różnych językach. Kluczową częścią potoku przetwarzania języka naturalnego jest określenie, który język jest językiem podstawowym, aby każdy tekst mógł być przetwarzany za pomocą powiązanych kroków specyficznych dla języka.
W niektórych przypadkach ludzie mogą zmienić język używany na czacie, aby uniknąć monitorowania lub ukrywania nielegalnych działań. Określenie punktu, w którym następuje zmiana języka czatu, jest bardzo przydatne do określenia, czy doszło do podejrzanej aktywności.

jeśli chcesz skorzystać z naszego API, możesz uzyskać więcej informacji na jego temat i jego wycenę klikając TUTAJ

Oprócz świadczenia usługi API, zdecydowaliśmy się również udostępnić ją jako open-source.
To jest nasze pierwsze wydanie open source! Wykrywacz języka open source, dostępny TUTAJ