API de deteção de idiomas

Sep 18, 2021 - 4 min read

Smodin anuncia o lançamento da sua nova API de deteção de idiomas que suporta 176 idiomas

Uma vez que era necessário um detetor de línguas para melhorar as nossas aplicações, decidimos encontrar uma solução.

No início, pensámos que seria fácil, uma vez que o Google faz com que pareça tão fácil, mas, como descobrimos, não foi uma tarefa fácil, pelo contrário, a deteção de línguas sempre foi uma tarefa difícil.

Na procura da melhor opção para prever um idioma a partir de um texto que não exigisse um modelo de aprendizagem automática de grandes dimensões, descobrimos que a melhor solução era um modelo de identificação de idiomas pré-treinado que ocupasse menos de 1 MB de memória e fosse capaz de classificar milhares de documentos por segundo.

Após muitos ajustes e melhorias, desenvolvemos uma ferramenta que pode fornecer com confiança boas taxas de precisão para cada língua.

Proporcionando classificações de precisão realmente boas, e não só isso, mas também a uma velocidade rápida e fiável. Aqui está uma lista de precisão por país.

99% de exatidão em idiomas*: Francês (fr), Inglês (en), Alemão (de), Português (pt), Turco (tr), Neerlandês (nl), Italiano (it), Espanhol (es), Húngaro (hu), Esperanto (eo), Polaco (pl), finlandês (fi), russo (ru), macedónio (mk), ucraniano (uk), lituano (lt), vietnamita (vi), grego (el), marata (mr), árabe (ar), hebraico (he), hindi (hi), uigur (ug), japonês (ja), georgiano (ka), bengali (bn), urdu (ur), tailandês (th), chinês (zh), arménio (hy), malaiala (ml), coreano (ko), khmer (km), birmanês (my), tâmil (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo), gujarati (gu), tibetano padrão (bo), divehi (dv), cingalês (si), amárico (am).

90% de exatidão nas línguas*: Dinamarquês (da), Romeno (ro), Sueco (sv), Latim (la), Búlgaro (bg), Checo (cs), Tagalo (tl), Indonésio (id), Tártaro (tt), Islandês (is), bielorrusso (be), basco (eu), bretão (br), cazaque (kk), letão (lv), estónio (et), irlandês (ga), chuvash (cv), bashkir (ba), osseta (os), tajique (tg).

*As informações são apresentadas por ordem de maior número de dados de teste. Os dados eram frases com 30-250 caracteres de comprimento. Os testes foram efectuados apenas nas 100 línguas mais populares. Os testes mostraram uma precisão de quase 99% para a maioria das frases com 300 caracteres ou mais.

Embora não seja possível obter resultados perfeitos, a melhor precisão (99%+ para muitas línguas, mesmo as menos conhecidas) é observada com 300 caracteres ou mais. Independentemente do tamanho do texto, quanto mais longo, melhor.

Como refere a Wiki: a identificação da língua ou adivinhação da língua é o problema de determinar em que língua natural se encontra um determinado conteúdo. As abordagens computacionais a este problema consideram-no como um caso especial de categorização de texto, resolvido com vários métodos estatísticos.

Os serviços de deteção linguística podem ser utilizados de várias formas, por exemplo, para identificar a língua dos textos comerciais, como o chat e o correio eletrónico.
O serviço pode identificar a língua do texto e as partes do texto em que a língua foi alterada, até ao nível da palavra.

No mundo digital atual, tornar os conteúdos acessíveis é mais importante do que nunca, especialmente quando se trata de vídeos. Para plataformas como o YouTube, um tradutor de legendas do YouTube pode fazer uma enorme diferença, ajudando os criadores a alcançar um público mais vasto e global. As traduções exactas de legendas quebram as barreiras linguísticas e garantem que os vídeos envolvem espectadores de todo o mundo.

Utilizando serviços de deteção de linguagem, o Surveillance Insights pode destacar e anotar a linguagem utilizada no texto e ajudar a identificar actividades potencialmente suspeitas.

Os textos comerciais, como o correio eletrónico ou o chat, podem estar em diferentes línguas.

Para as empresas que operam em várias regiões, um tradutor multilingue pode ser incrivelmente benéfico. Ao incorporar esta tecnologia, as empresas podem melhorar a sua capacidade de comunicar eficazmente em vários idiomas, melhorando a experiência do cliente e alargando o seu alcance global. Com a crescente necessidade de localização, um tradutor multilingue fiável pode fornecer um apoio essencial para a apresentação de conteúdos que se adaptem a diversos públicos.

Uma parte fundamental do pipeline de processamento de linguagem natural é determinar qual é a língua principal para que cada texto possa ser processado através de passos específicos para cada língua.

Em alguns casos, as pessoas podem alterar o idioma utilizado nas conversas para evitar a monitorização ou ocultar actividades ilegais. Determinar o momento em que o idioma da conversação é alterado é muito útil para determinar se ocorreu uma atividade suspeita.

Se pretender utilizar a nossa API, pode obter mais informações sobre a mesma e o respetivo preço clicando AQUI

Para além de fornecer um serviço API, decidimos também lançá-lo como código aberto.
Este é o nosso primeiro lançamento de código aberto! Detetor de linguagem de código aberto, disponível AQUI


Ferramentas de IA

Ferramentas populares de IA

Reescritor de IA gratuito
Experimente agora
Verificador de plágio de IA
Experimente agora
Removedor de deteção de conteúdo de IA
Experimente agora

BLOGS

Escolhas da equipa

Artigos mais lidos

Tudo sobre conteúdo e redação

Os professores podem detetar o Quillbot? Um guia detalhado

A utilização de ferramentas de IA como o QuillBot pode ser benéfica para a sua escrita. Podem ajudar a planear, pesquisar, parafrasear e...

Imagem do autor
Equipa editorial Smodin 13 de janeiro de 2025

Guia geral sobre conteúdo e redação

Como treinar a IA para escrever na voz da sua marca

Toda a gente fala de automatização de conteúdos. Mas ninguém fala sobre como manter a voz da sua marca quando a IA é a...

Imagem do autor
Equipa editorial Smodin 24 de outubro de 2025

Instruções passo a passo para escrever, Guia do aluno para escrever

Como escrever ensaios informativos e obter as melhores notas

Precisa de ajuda para obter a nota mais alta da turma no seu próximo ensaio informativo? Vamos partilhar as estratégias...

Imagem do autor
Equipa editorial Smodin 5 de novembro de 2024

Instruções passo a passo para escrever, Guia do aluno para escrever

Como escrever ensaios informativos e obter as melhores notas

Precisa de ajuda para obter a nota mais alta da turma no seu próximo ensaio informativo? Vamos partilhar as estratégias...

Imagem do autor
Equipa editorial Smodin 5 de novembro de 2024
Pronto para ir?
Proteja o seu conteúdo com a ferramenta de verificação de IA da Smodin

Pronto para garantir que o seu conteúdo permanece autêntico e livre de IA? Não corra o risco de o seu trabalho árduo ser confundido com texto gerado por IA. Registe-se hoje mesmo no Smodin para aceder ao nosso detetor de conteúdo de IA e tirar partido de alta precisão, análise em tempo real e suporte multilingue. Além disso, desbloqueie ferramentas ainda mais avançadas para proteger e melhorar o seu trabalho!