Smodin yeni sürümünün yayınlandığını duyurdu Dil Algılama API'sı 176 dili destekliyor

Uygulamalarımızı geliştirmek için bir dil algılayıcıya ihtiyaç duyulduğundan bir çözüm bulmaya karar verdik.

İlk başta google bu kadar kolay görünmesini sağladığı için kolay olacağını düşündük, ancak öğrendiğimize göre kolay bir iş değildi, aksine dil tespiti her zaman zor bir iş oldu.

Büyük bir makine öğrenimi modeli gerektirmeyen metinden bir dili tahmin etmek için en iyi seçeneği ararken, en iyi çözümün, 1MB'den daha az bellek alan önceden eğitilmiş bir dil tanımlama modeli olduğunu bulduk. Saniyede binlerce belgeyi sınıflandırın.

Birçok ince ayar ve iyileştirmeden sonra, her dil için güvenle iyi doğruluk oranları sağlayabilen bir araç geliştirdik.

Gerçekten iyi doğruluk derecelendirmeleri sağlamakla kalmıyor, aynı zamanda hızlı ve güvenilir bir hızda. İşte ülke başına bir doğruluk listesi.

%99 Doğru Diller*: Fransızca (fr), İngilizce (tr), Almanca (de), Portekizce (pt), Türkçe (tr), Felemenkçe (nl), İtalyanca (it), İspanyolca (es), Macarca (hu) , Esperanto (eo), Lehçe (pl), Fince (fi), Rusça (ru), Makedonca (mk), Ukraynaca (ingiltere), Litvanca (lt), Vietnamca (vi), Yunanca (el), Marathi (mr) , Arapça (ar), İbranice (he), Hintçe (merhaba), Uygurca (ug), Japonca (ja), Gürcüce (ka), Bengalce (bn), Urduca (ur), Tayca (th), Çince (zh) , Ermenice (hy), Malayalam (ml), Korece (ko), Khmer (km), Birmanca (my), Tamilce (ta), Kannada (kn), Telugu (te), Panjabi (pa), Lao (lo) , Gujarati (gu), Tibet Standardı (bo), Divehi (dv), Sinhala (si), Amharca (am).

%90 Doğru Diller*: Danca (da), Rumence (ro), İsveççe (sv), Latince (la), Bulgarca (bg), Çekçe (cs), Tagalogca (tl), Endonezyaca (id), Tatarca (tt) , İzlandaca (is), Belarusça (be), Baskça (ab), Bretonca (br), Kazakça (kk), Letonca (lv), Estonca (et), İrlandaca (ga), Çuvaşça (cv), Başkurtça (ba) , Osetçe (os), Tacikçe (tg).

*Bilgiler çoğu test verisine göre verilmiştir. Veriler 30-250 karakter uzunluğunda cümlelerdi. Test sadece en popüler 100 dilde yapıldı. Testler, 99 karakter veya daha uzun olan cümlelerin çoğu için %300'a yakın bir doğruluk gösterdi.

Mükemmel sonuçlar elde edemeseniz de, en iyi doğruluk (birçok dil için, hatta daha az bilinenler için bile %99+) 300 karakter veya daha fazla karakterde görülür. Metin uzunluğundan bağımsız olarak, ne kadar uzun olursa o kadar iyidir.

Wiki'nin belirttiği gibi: dil tanımlama veya dil tahmini, verilen içeriğin hangi doğal dilde olduğunu belirleme sorunudur. Bu soruna yönelik hesaplamalı yaklaşımlar, onu çeşitli istatistiksel yöntemlerle çözülen metin sınıflandırmasının özel bir durumu olarak görür.

Dil algılama hizmetleri çeşitli şekillerde kullanılabilir, örneğin sohbet ve e-posta gibi iş metinlerinin dilini tanımlamak için kullanılabilirler.
Hizmet, metnin dilini ve dilin değiştiği metnin bölümlerini kelime düzeyine kadar tanımlayabilir.
Surveillance Insights, dil algılama hizmetlerini kullanarak metinde kullanılan dili vurgulayıp açıklama ekleyebilir ve olası şüpheli etkinliklerin belirlenmesine yardımcı olabilir.

E-posta veya sohbet gibi iş metinleri farklı dillerde olabilir. Doğal dil işleme hattının önemli bir parçası, her metnin ilgili dile özgü adımlarla işlenebilmesi için hangi dilin birincil dil olduğunu belirlemektir.
Bazı durumlarda, insanlar yasa dışı faaliyetleri izlemekten veya gizlemekten kaçınmak için sohbetlerde kullanılan dili değiştirebilir. Sohbet dilinin değiştirildiği noktanın belirlenmesi, şüpheli bir aktivitenin oluşup oluşmadığını belirlemek için oldukça faydalıdır.

API'mizi kullanmak isterseniz, tıklayarak API ve fiyatlandırması hakkında daha fazla bilgi alabilirsiniz. İŞTE

Bir API hizmeti sağlamanın yanı sıra, onu açık kaynak olarak yayınlamaya da karar verdik.
Bu bizim ilk açık Kaynak Yayınımız! Dil dedektörü açık kaynak, mevcut İŞTE