Smodinは新しいリリースを発表しました 言語検出API 176言語をサポート

アプリケーションを改善するために言語検出器が必要だったため、解決策を見つけることにしました。

最初はグーグルがとても簡単に見えるので簡単だと思っていましたが、私たちが知ったように、それは簡単な作業ではなく、逆に言語検出は常に難しい作業でした。

大規模な機械学習モデルを必要としないテキストから言語を予測するための最良のオプションを探したところ、最良の解決策は、1MB未満のメモリを使用しながら、事前にトレーニングされた言語識別モデルであることがわかりました。 XNUMX秒あたり数千のドキュメントを分類します。

多くの調整と改善を経て、各言語に自信を持って優れた精度を提供できるツールを開発しました。

非常に優れた精度評価を提供し、それだけでなく、高速で信頼性の高い速度を提供します。 これが国ごとの精度リストです。

99%正確な言語*:フランス語(fr)、英語(en)、ドイツ語(de)、ポルトガル語(pt)、トルコ語(tr)、オランダ語(nl)、イタリア語(it)、スペイン語(es)、ハンガリー語(hu) 、エスペラント(eo)、ポーランド語(pl)、フィンランド語(fi)、ロシア語(ru)、マケドニア語(mk)、ウイグル語(uk)、リトアニア語(lt)、ベトナム語(vi)、ギリシャ語(el)、マラティ語(mr) 、アラビア語(ar)、ヘブライ語(he)、ヒンディー語(hi)、ウイグル語(ug)、日本語(ja)、グルジア語(ka)、ベンガリ語(bn)、ウルドゥ語(ur)、タイ語(th)、中国語(zh) 、アルメニア語(hy)、マラヤラム語(ml)、韓国語(ko)、クメール語(km)、ビルマ語(my)、タミル語(ta)、カンナダ語(kn)、テルグ語(te)、パンジャビ語(pa)、ラオス語(lo) 、グジャラティ語(gu)、チベット語標準(bo)、ディベヒ語(dv)、シンハラ語(si)、アムハリック語(am)。

90%正確な言語*:デンマーク語(da)、ルーマニア語(ro)、スウェーデン語(sv)、ラテン語(la)、ブルガリア語(bg)、チェコ語(cs)、タガログ語(tl)、インドネシア語(id)、タタール語(tt) 、アイスランド語(is)、ベラルーシ語(be)、バスク語(eu)、ブルトン語(br)、カザフ語(kk)、ラトビア語(lv)、エストニア語(et)、アイルランド語(ga)、チュヴァシ語(cv)、バシキール語(ba) 、オセット語(os)、タジク語(tg)。

*情報はほとんどのテストデータの順に表示されます。 データは30〜250文字の長さの文でした。 テストは、最も人気のある100言語でのみ行われました。 テストでは、長さが99文字以上の大部分の文で300%近くの精度が示されました。

完璧な結果を得ることができませんが、最高の精度(多くの言語で99%以上、あまり知られていない言語でも)は300文字以上で見られます。 テキストの長さに関係なく、長いほど良いです。

Wikiが言及しているように、言語の識別または言語の推測は、コンテンツがどの自然言語に含まれるかを判断する問題です。この問題への計算アプローチは、さまざまな統計的手法で解決されるテキスト分類の特殊なケースと見なします。

言語検出サービスはさまざまな方法で使用できます。たとえば、チャットや電子メールなどのビジネステキストの言語を識別するために使用できます。
このサービスは、テキストの言語と、言語が変更されたテキストの部分を単語レベルまで識別できます。
Surveillance Insightsは、言語検出サービスを使用して、テキストで使用されている言語を強調表示して注釈を付け、疑わしい可能性のあるアクティビティを特定するのに役立ちます。

電子メールやチャットなどのビジネステキストは、さまざまな言語にすることができます。 自然言語処理パイプラインの重要な部分は、各テキストを関連する言語固有の手順で処理できるように、どの言語が第一言語であるかを判別することです。
場合によっては、違法行為の監視や非表示を避けるために、チャットで使用される言語を変更することがあります。 チャット言語が切り替わるポイントを特定することは、疑わしいアクティビティが発生したかどうかを判断するのに非常に役立ちます。

APIを使用する場合は、をクリックしてAPIとその価格に関する詳細情報を入手できます。 こちら

APIサービスの提供に加えて、オープンソースとしてリリースすることも決定しました。
これは私たちの最初のオープンソースリリースです! 言語検出器のオープンソース、利用可能 こちら