Smodin 宣布發布新的 語言檢測API 支持 176 種語言

由於需要語言檢測器來改進我們的應用程序,因此我們決定尋找解決方案。

起初,我們認為這會很容易,因為 google 使它看起來如此簡單,但正如我們發現的那樣,這不是一件容易的事,相反,語言檢測一直是一項艱鉅的任務。

在尋找不需要大型機器學習模型的文本中預測語言的最佳選擇時,我們發現最佳解決方案是預訓練的語言識別模型,它佔用的內存不到 1MB,同時能夠每秒對數千個文檔進行分類。

經過多次調整和改進,我們開發了一種工具,可以自信地為每種語言提供良好的準確率。

提供非常好的準確率,不僅如此,而且速度快且可靠。 這是每個國家/地區的準確度列表。

99% 準確的語言*:法語 (fr)、英語 (en)、德語 (de)、葡萄牙語 (pt)、土耳其語 (tr)、荷蘭語 (nl)、意大利語 (it)、西班牙語 (es)、匈牙利語 (hu) , 世界語 (eo), 波蘭語 (pl), 芬蘭語 (fi), 俄語 (ru), 馬其頓語 (mk), 烏克蘭語 (uk), 立陶宛語 (lt), 越南語 (vi), 希臘語 (el), 馬拉地語 (mr) 、阿拉伯語 (ar)、希伯來語 (he)、印地語 (hi)、維吾爾語 (ug)、日語 (ja)、格魯吉亞語 (ka)、孟加拉語 (bn)、烏爾都語 (ur)、泰語 (th)、中文 (zh) 、亞美尼亞語 (hy)、馬拉雅拉姆語 (ml)、韓語 (ko)、高棉語 (km)、緬甸語 (my)、泰米爾語 (ta)、卡納達語 (kn)、泰盧固語 (te)、旁遮普語 (pa)、老撾語 (lo) 、古吉拉特語(gu)、藏標語(bo)、迪維希語(dv)、僧伽羅語(si)、阿姆哈拉語(am)。

90% 準確的語言*:丹麥語 (da)、羅馬尼亞語 (ro)、瑞典語 (sv)、拉丁語 (la)、保加利亞語 (bg)、捷克語 (cs)、他加祿語 (tl)、印度尼西亞語 (id)、韃靼語 (tt) 、冰島語(is)、白俄羅斯語(be)、巴斯克語(eu)、布列塔尼語(br)、哈薩克語(kk)、拉脫維亞語(lv)、愛沙尼亞語(et)、愛爾蘭語(ga)、楚瓦什語(cv)、巴什基爾語(ba) 、奧塞梯(os)、塔吉克(tg)。

*信息按大多數測試數據的順序顯示。 數據是長度為 30-250 個字符的句子。 僅對最流行的 100 種語言進行了測試。 測試表明,大多數長度在 99 個字符或以上的句子的準確率接近 300%。

儘管您無法獲得完美的結果,但在 99 個字符或更多字符時可以看到最佳準確率(許多語言,甚至是鮮為人知的語言,均在 300% 以上)。 無論文本長度如何,越長越好。

正如 Wiki 所提到的:語言識別或語言猜測是確定給定內容屬於哪種自然語言的問題。這個問題的計算方法將其視為文本分類的一個特例,用各種統計方法解決。

語言檢測服務可以以多種方式使用,例如,它們可用於識別業務文本的語言,例如聊天和電子郵件。
該服務可以識別文本的語言以及語言已更改的文本部分,直至單詞級別。
使用語言檢測服務,Surveillance Insights 可以突出顯示和註釋文本中使用的語言,並幫助識別潛在的可疑活動。

電子郵件或聊天等業務文本可以使用不同的語言。 自然語言處理管道的一個關鍵部分是確定哪種語言是主要語言,以便每個文本都可以通過相關的特定於語言的步驟進行處理。
在某些情況下,人們可能會更改聊天中使用的語言,以避免監視或隱藏非法活動。 確定聊天語言的切換點對於確定是否發生了可疑活動非常有用。

如果您想使用我們的 API,您可以通過單擊獲取有關它及其定價的更多信息 立即申請

除了提供 API 服務外,我們還決定將其作為開源發布。
這是我們的第一個開源版本! 語言檢測器開源,可用 立即申請