Smodin anuncia o lançamento de seu novo API de detecção de linguagem suportando 176 idiomas

Como um detector de idioma era necessário para melhorar nossos aplicativos, decidimos encontrar uma solução.

A princípio pensamos que seria fácil já que o google faz com que pareça tão fácil, mas como descobrimos não foi uma tarefa fácil, pelo contrário, detectar o idioma sempre foi uma tarefa difícil.

Na busca pela melhor opção para prever um idioma a partir de um texto que não exigisse um grande modelo de aprendizado de máquina, descobrimos que a melhor solução era um modelo de identificação de idioma pré-treinado que ocupa menos de 1 MB de memória e é capaz de classificar milhares de documentos por segundo.

Após muitos ajustes e melhorias, desenvolvemos uma ferramenta que pode fornecer com segurança boas taxas de precisão para cada idioma.

Fornecendo classificações de precisão realmente boas, e não apenas isso, mas também a uma velocidade rápida e confiável. Aqui está uma lista de precisão por país.

99% de idiomas precisos *: francês (fr), inglês (en), alemão (de), português (pt), turco (tr), holandês (nl), italiano (it), espanhol (es), húngaro (hu) , Esperanto (e o), polonês (pl), finlandês (fi), russo (ru), macedônio (mk), ucraniano (reino unido), lituano (lt), vietnamita (vi), grego (el), marati (mr) , Árabe (ar), hebraico (he), hindi (hi), uyghur (ug), japonês (ja), georgiano (ka), bengali (bn), urdu (ur), tailandês (th), chinês (zh) , Armênio (hy), Malayalam (ml), Coreano (ko), Khmer (km), Birmanês (my), Tamil (ta), Kannada (kn), Telugu (te), Panjabi (pa), Lao (lo) , Gujarati (gu), Padrão Tibetano (bo), Divehi (dv), Sinhala (si), Amárico (am).

90% de idiomas precisos *: dinamarquês (da), romeno (ro), sueco (sv), latim (la), búlgaro (bg), tcheco (cs), tagalo (tl), indonésio (id), tártaro (tt) , Islandês (é), bielorrusso (be), basco (eu), bretão (br), cazaque (kk), letão (lv), estoniano (et), irlandês (ga), chuvash (cv), bashkir (ba) , Ossétia (os), Tadjique (tg).

* As informações são apresentadas na ordem da maioria dos dados de teste. Os dados eram sentenças de 30-250 caracteres de comprimento. O teste foi feito apenas nas 100 línguas mais populares. Os testes mostraram uma precisão de quase 99% para a maioria das sentenças com 300 caracteres ou mais de comprimento.

Embora você não consiga resultados perfeitos, a melhor precisão (99% + para muitos idiomas, mesmo os menos conhecidos) é observada em 300 caracteres ou mais. Independentemente do tamanho do texto, quanto mais longo, melhor.

Como o Wiki menciona: a identificação da linguagem ou adivinhação da linguagem é o problema de determinar em qual linguagem natural um determinado conteúdo está. As abordagens computacionais para esse problema o veem como um caso especial de categorização de texto, resolvido com vários métodos estatísticos.

Os serviços de detecção de idioma podem ser usados ​​de várias maneiras, por exemplo, eles podem ser usados ​​para identificar o idioma de textos de negócios, como bate-papo e e-mail.
O serviço pode identificar o idioma do texto e as partes do texto em que o idioma foi alterado, até o nível da palavra.
Usando serviços de detecção de idioma, o Surveillance Insights pode destacar e anotar o idioma usado no texto e ajudar a identificar atividades potencialmente suspeitas.

Os textos comerciais, como e-mail ou bate-papo, podem estar em diferentes idiomas. Uma parte importante do pipeline de processamento de linguagem natural é determinar qual idioma é o idioma principal para que cada texto possa ser processado por meio de etapas específicas do idioma relacionadas.
Em alguns casos, as pessoas podem alterar o idioma usado nos bate-papos para evitar monitorar ou ocultar atividades ilegais. Determinar o ponto em que o idioma do bate-papo é alterado é muito útil para determinar se ocorreu uma atividade suspeita.

se desejar usar nossa API, você pode obter mais informações sobre ela e seus preços clicando em AQUI

Além de fornecer um serviço de API, também decidimos lançá-lo como código-fonte aberto.
Este é o nosso primeiro lançamento de código aberto! Detector de idioma de código aberto, disponível AQUI