API de deteção de idioma - Guia de escrita

Índice

Smodin anuncia o lançamento da sua nova API de deteção de idiomas que suporta 176 idiomas

Uma vez que era necessário um detetor de línguas para melhorar as nossas aplicações, decidimos encontrar uma solução.

No início, pensámos que seria fácil, uma vez que o Google faz com que pareça tão fácil, mas, como descobrimos, não foi uma tarefa fácil, pelo contrário, a deteção de línguas sempre foi uma tarefa difícil.

Na procura da melhor opção para prever um idioma a partir de um texto que não exigisse um modelo de aprendizagem automática de grandes dimensões, descobrimos que a melhor solução era um modelo de identificação de idiomas pré-treinado que ocupasse menos de 1 MB de memória e fosse capaz de classificar milhares de documentos por segundo.

Após muitos ajustes e melhorias, desenvolvemos uma ferramenta que pode fornecer com confiança boas taxas de precisão para cada língua.

Proporcionando classificações de precisão realmente boas, e não só isso, mas também a uma velocidade rápida e fiável. Aqui está uma lista de precisão por país.

99% de exatidão em idiomas*: Francês (fr), Inglês (en), Alemão (de), Português (pt), Turco (tr), Neerlandês (nl), Italiano (it), Espanhol (es), Húngaro (hu), Esperanto (eo), Polaco (pl), finlandês (fi), russo (ru), macedónio (mk), ucraniano (uk), lituano (lt), vietnamita (vi), grego (el), marata (mr), árabe (ar), hebraico (he), hindi (hi), uigur (ug), japonês (ja), georgiano (ka), bengali (bn), urdu (ur), tailandês (th), chinês (zh), arménio (hy), malaiala (ml), coreano (ko), khmer (km), birmanês (my), tâmil (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo), gujarati (gu), tibetano padrão (bo), divehi (dv), cingalês (si), amárico (am).

90% de exatidão nas línguas*: Dinamarquês (da), Romeno (ro), Sueco (sv), Latim (la), Búlgaro (bg), Checo (cs), Tagalo (tl), Indonésio (id), Tártaro (tt), Islandês (is), bielorrusso (be), basco (eu), bretão (br), cazaque (kk), letão (lv), estónio (et), irlandês (ga), chuvash (cv), bashkir (ba), osseta (os), tajique (tg).

*As informações são apresentadas por ordem de maior número de dados de teste. Os dados eram frases com 30-250 caracteres de comprimento. Os testes foram efectuados apenas nas 100 línguas mais populares. Os testes mostraram uma precisão de quase 99% para a maioria das frases com 300 caracteres ou mais.

Embora não seja possível obter resultados perfeitos, a melhor precisão (99%+ para muitas línguas, mesmo as menos conhecidas) é observada com 300 caracteres ou mais. Independentemente do tamanho do texto, quanto mais longo, melhor.

Como refere a Wiki: a identificação da língua ou adivinhação da língua é o problema de determinar em que língua natural se encontra um determinado conteúdo. As abordagens computacionais a este problema consideram-no como um caso especial de categorização de texto, resolvido com vários métodos estatísticos.

Os serviços de deteção linguística podem ser utilizados de várias formas, por exemplo, para identificar a língua dos textos comerciais, como o chat e o correio eletrónico.
O serviço pode identificar a língua do texto e as partes do texto em que a língua foi alterada, até ao nível da palavra.

No mundo digital atual, tornar os conteúdos acessíveis é mais importante do que nunca, especialmente quando se trata de vídeos. Para plataformas como o YouTube, um tradutor de legendas do YouTube pode fazer uma enorme diferença, ajudando os criadores a alcançar um público mais vasto e global. As traduções exactas de legendas quebram as barreiras linguísticas e garantem que os vídeos envolvem espectadores de todo o mundo.

Utilizando serviços de deteção de linguagem, o Surveillance Insights pode destacar e anotar a linguagem utilizada no texto e ajudar a identificar actividades potencialmente suspeitas.

Os textos comerciais, como o correio eletrónico ou o chat, podem estar em diferentes línguas.

Para as empresas que operam em várias regiões, um tradutor multilingue pode ser incrivelmente benéfico. Ao incorporar esta tecnologia, as empresas podem melhorar a sua capacidade de comunicar eficazmente em vários idiomas, melhorando a experiência do cliente e alargando o seu alcance global. Com a crescente necessidade de localização, um tradutor multilingue fiável pode fornecer um apoio essencial para a apresentação de conteúdos que se adaptem a diversos públicos.

Uma parte fundamental do pipeline de processamento de linguagem natural é determinar qual é a língua principal para que cada texto possa ser processado através de passos específicos para cada língua.

Em alguns casos, as pessoas podem alterar o idioma utilizado nas conversas para evitar a monitorização ou ocultar actividades ilegais. Determinar o momento em que o idioma da conversação é alterado é muito útil para determinar se ocorreu uma atividade suspeita.

Se pretender utilizar a nossa API, pode obter mais informações sobre a mesma e o respetivo preço clicando AQUI

Para além de fornecer um serviço API, decidimos também lançá-lo como código aberto.
Este é o nosso primeiro lançamento de código aberto! Detetor de linguagem de código aberto, disponível AQUI