Smodin anuncia o lançamento de seu novo API de detecção de linguagem suportando 176 idiomas
Como um detector de idioma era necessário para melhorar nossos aplicativos, decidimos encontrar uma solução.
A princípio pensamos que seria fácil já que o google faz com que pareça tão fácil, mas como descobrimos não foi uma tarefa fácil, pelo contrário, detectar o idioma sempre foi uma tarefa difícil.
Na busca pela melhor opção para prever um idioma a partir de um texto que não exigisse um grande modelo de aprendizado de máquina, descobrimos que a melhor solução era um modelo de identificação de idioma pré-treinado que ocupa menos de 1 MB de memória e é capaz de classificar milhares de documentos por segundo.
Após muitos ajustes e melhorias, desenvolvemos uma ferramenta que pode fornecer com segurança boas taxas de precisão para cada idioma.
Fornecendo classificações de precisão realmente boas, e não apenas isso, mas também a uma velocidade rápida e confiável. Aqui está uma lista de precisão por país.
99% de idiomas precisos *: francês (fr), inglês (en), alemão (de), português (pt), turco (tr), holandês (nl), italiano (it), espanhol (es), húngaro (hu) , Esperanto (e o), polonês (pl), finlandês (fi), russo (ru), macedônio (mk), ucraniano (reino unido), lituano (lt), vietnamita (vi), grego (el), marati (mr) , Árabe (ar), hebraico (he), hindi (hi), uyghur (ug), japonês (ja), georgiano (ka), bengali (bn), urdu (ur), tailandês (th), chinês (zh) , Armênio (hy), Malayalam (ml), Coreano (ko), Khmer (km), Birmanês (my), Tamil (ta), Kannada (kn), Telugu (te), Panjabi (pa), Lao (lo) , Gujarati (gu), Padrão Tibetano (bo), Divehi (dv), Sinhala (si), Amárico (am).
90% de idiomas precisos *: dinamarquês (da), romeno (ro), sueco (sv), latim (la), búlgaro (bg), tcheco (cs), tagalo (tl), indonésio (id), tártaro (tt) , Islandês (é), bielorrusso (be), basco (eu), bretão (br), cazaque (kk), letão (lv), estoniano (et), irlandês (ga), chuvash (cv), bashkir (ba) , Ossétia (os), Tadjique (tg).
* As informações são apresentadas na ordem da maioria dos dados de teste. Os dados eram sentenças de 30-250 caracteres de comprimento. O teste foi feito apenas nas 100 línguas mais populares. Os testes mostraram uma precisão de quase 99% para a maioria das sentenças com 300 caracteres ou mais de comprimento.
Embora você não consiga resultados perfeitos, a melhor precisão (99% + para muitos idiomas, mesmo os menos conhecidos) é observada em 300 caracteres ou mais. Independentemente do tamanho do texto, quanto mais longo, melhor.
Como o Wiki menciona: a identificação da linguagem ou adivinhação da linguagem é o problema de determinar em qual linguagem natural um determinado conteúdo está. As abordagens computacionais para esse problema o veem como um caso especial de categorização de texto, resolvido com vários métodos estatísticos.
Os serviços de detecção de idioma podem ser usados de várias maneiras, por exemplo, eles podem ser usados para identificar o idioma de textos de negócios, como bate-papo e e-mail.
O serviço pode identificar o idioma do texto e as partes do texto em que o idioma foi alterado, até o nível da palavra.
Usando serviços de detecção de idioma, o Surveillance Insights pode destacar e anotar o idioma usado no texto e ajudar a identificar atividades potencialmente suspeitas.
Os textos comerciais, como e-mail ou bate-papo, podem estar em diferentes idiomas. Uma parte importante do pipeline de processamento de linguagem natural é determinar qual idioma é o idioma principal para que cada texto possa ser processado por meio de etapas específicas do idioma relacionadas.
Em alguns casos, as pessoas podem alterar o idioma usado nos bate-papos para evitar monitorar ou ocultar atividades ilegais. Determinar o ponto em que o idioma do bate-papo é alterado é muito útil para determinar se ocorreu uma atividade suspeita.
se desejar usar nossa API, você pode obter mais informações sobre ela e seus preços clicando em AQUI
Além de fornecer um serviço de API, também decidimos lançá-lo como código-fonte aberto.
Este é o nosso primeiro lançamento de código aberto! Detector de idioma de código aberto, disponível AQUI