Smodin 宣布发布新的 语言检测API 支持 176 种语言

由于需要语言检测器来改进我们的应用程序,因此我们决定寻找解决方案。

起初,我们认为这会很容易,因为 google 使它看起来如此简单,但正如我们发现的那样,这不是一件容易的事,相反,语言检测一直是一项艰巨的任务。

在寻找不需要大型机器学习模型的文本中预测语言的最佳选择时,我们发现最佳解决方案是预训练的语言识别模型,它占用的内存不到 1MB,同时能够每秒对数千个文档进行分类。

经过多次调整和改进,我们开发了一种工具,可以自信地为每种语言提供良好的准确率。

提供非常好的准确率,不仅如此,而且速度快且可靠。 这是每个国家/地区的准确度列表。

99% 准确的语言*:法语 (fr)、英语 (en)、德语 (de)、葡萄牙语 (pt)、土耳其语 (tr)、荷兰语 (nl)、意大利语 (it)、西班牙语 (es)、匈牙利语 (hu) , 世界语 (eo), 波兰语 (pl), 芬兰语 (fi), 俄语 (ru), 马其顿语 (mk), 乌克兰语 (uk), 立陶宛语 (lt), 越南语 (vi), 希腊语 (el), 马拉地语 (mr) , 阿拉伯语 (ar), 希伯来语 (he), 印地语 (hi), 维吾尔语 (ug), 日语 (ja), 格鲁吉亚语 (ka), 孟加拉语 (bn), 乌尔都语 (ur), 泰语 (th), 中文 (zh) 、亚美尼亚语 (hy)、马拉雅拉姆语 (ml)、韩语 (ko)、高棉语 (km)、缅甸语 (my)、泰米尔语 (ta)、卡纳达语 (kn)、泰卢固语 (te)、旁遮普语 (pa)、老挝语 (lo) 、古吉拉特语(gu)、藏标语(bo)、迪维希语(dv)、僧伽罗语(si)、阿姆哈拉语(am)。

90% 准确的语言*:丹麦语 (da)、罗马尼亚语 (ro)、瑞典语 (sv)、拉丁语 (la)、保加利亚语 (bg)、捷克语 (cs)、他加禄语 (tl)、印度尼西亚语 (id)、鞑靼语 (tt) 、冰岛语(is)、白俄罗斯语(be)、巴斯克语(eu)、布列塔尼语(br)、哈萨克语(kk)、拉脱维亚语(lv)、爱沙尼亚语(et)、爱尔兰语(ga)、楚瓦什语(cv)、巴什基尔语(ba) 、奥塞梯(os)、塔吉克(tg)。

*信息按大多数测试数据的顺序显示。 数据是长度为 30-250 个字符的句子。 仅对最流行的 100 种语言进行了测试。 测试表明,大多数长度在 99 个字符或以上的句子的准确率接近 300%。

尽管您无法获得完美的结果,但在 99 个字符或更多字符时可以看到最佳准确率(许多语言,甚至是鲜为人知的语言,均在 300% 以上)。 无论文本长度如何,越长越好。

正如 Wiki 所提到的:语言识别或语言猜测是确定给定内容属于哪种自然语言的问题。这个问题的计算方法将其视为文本分类的一个特例,用各种统计方法解决。

语言检测服务可以以多种方式使用,例如,它们可用于识别业务文本的语言,例如聊天和电子邮件。
该服务可以识别文本的语言以及语言已更改的文本部分,直至单词级别。
使用语言检测服务,Surveillance Insights 可以突出显示和注释文本中使用的语言,并帮助识别潜在的可疑活动。

电子邮件或聊天等业务文本可以使用不同的语言。 自然语言处理管道的一个关键部分是确定哪种语言是主要语言,以便每个文本都可以通过相关的特定于语言的步骤进行处理。
在某些情况下,人们可能会更改聊天中使用的语言,以避免监视或隐藏非法活动。 确定聊天语言的切换点对于确定是否发生了可疑活动非常有用。

如果您想使用我们的 API,您可以通过单击获取有关它及其定价的更多信息 点击这里

除了提供 API 服务外,我们还决定将其作为开源发布。
这是我们的第一个开源版本! 语言检测器开源,可用 点击这里