Smodin 宣布发布支持 176 种语言的新语言检测 API

由于需要一个语言检测器来改进我们的应用程序,我们决定找到一个解决方案。

起初,我们以为这很容易,因为谷歌让它看起来很容易,但我们发现,这并不是一件容易的事,相反,语言检测一直是一项艰巨的任务。

在寻找不需要大型机器学习模型就能从文本中预测语言的最佳方案时,我们发现最好的解决方案是预先训练好的语言识别模型,它占用的内存不到 1MB,而每秒却能对数千份文档进行分类。

经过多次调整和改进,我们已经开发出一种工具,可以自信地为每种语言提供良好的准确率。

不仅准确率高,而且速度快,值得信赖。以下是每个国家的准确率列表。

99% 准确率的语言*:法语 (fr)、英语 (en)、德语 (de)、葡萄牙语 (pt)、土耳其语 (tr)、荷兰语 (nl)、意大利语 (it)、西班牙语 (es)、匈牙利语 (hu)、世界语 (eo)、波兰语 (pl)、芬兰语 (fi)、俄语 (ru)、马其顿语 (mk)、乌克兰语 (uk)、立陶宛语 (lt)、越南语 (vi)、希腊语 (el)、马拉地语 (mr)、阿拉伯语 (ar)、希伯来语 (he)、印地语 (hi)、维吾尔语 (ug)、日语 (ja)、格鲁吉亚语 (ka)、孟加拉语 (bn)、乌尔都语 (ur)、泰语 (th)、汉语 (zh)、亚美尼亚语 (hy)、马拉雅拉姆语 (ml)、朝鲜语 (ko)、高棉语 (km)、缅甸语 (my)、泰米尔语 (ta)、卡纳达语 (kn)、泰卢固语 (te)、潘贾比语 (pa)、老挝语 (lo)、古吉拉特语 (gu)、藏语标准语 (bo)、迪维希语 (dv)、僧伽罗语 (si)、阿姆哈拉语 (am)。

90% 准确率的语言*:丹麦语 (da)、罗马尼亚语 (ro)、瑞典语 (sv)、拉丁语 (la)、保加利亚语 (bg)、捷克语 (cs)、他加禄语 (tl)、印尼语 (id)、鞑靼语 (tt)、冰岛语 (is)、白俄罗斯语 (be)、巴斯克语 (eu)、布列塔尼语 (br)、哈萨克语 (kk)、拉脱维亚语 (lv)、爱沙尼亚语 (et)、爱尔兰语 (ga)、楚瓦什语 (cv)、巴什基尔语 (ba)、奥塞梯语 (os)、塔吉克语 (tg)。

*信息按测试数据最多的顺序排列。数据长度为 30-250 个字符的句子。仅对最流行的 100 种语言进行了测试。测试结果显示,长度在 300 个字符或以上的大多数句子的准确率接近 99%。

虽然无法获得完美的结果,但 300 个字符或更长的文本准确率最高(许多语言的准确率在 99% 以上,即使是不太知名的语言)。无论文本长度如何,都是越长越好。

维基提到:语言识别或语言猜测是确定给定内容使用哪种自然语言的问题。解决这一问题的计算方法将其视为文本分类的一个特例,并通过各种统计方法加以解决。

语言检测服务有多种用途,例如,可用于识别聊天和电子邮件等商务文本的语言。
该服务可以识别文本的语言,以及文本中语言发生变化的部分,直至单词级别。
使用语言检测服务,Surveillance Insights 可以突出显示和注释文本中使用的语言,并帮助识别潜在的可疑活动。

电子邮件或聊天等商业文本可以使用不同的语言。自然语言处理管道的一个关键部分是确定哪种语言是主要语言,以便通过相关的特定语言步骤处理每个文本。
在某些情况下,人们可能会改变聊天中使用的语言,以逃避监控或隐藏非法活动。确定聊天语言的切换点对于判断是否发生了可疑活动非常有用。

如果您想使用我们的应用程序接口,请点击此处了解更多信息和价格。

除了提供 API 服务,我们还决定将其作为开源软件发布。
这是我们的首个开源版本! 语言探测器开源,请点击此处