Smodin 176 dili destekleyen yeni Dil Algılama API 'sini yayınladığını duyurdu

Uygulamalarımızı geliştirmek için bir dil dedektörüne ihtiyaç duyulduğundan, bir çözüm bulmaya karar verdik.

İlk başta, google bunu çok kolay gösterdiği için kolay olacağını düşündük, ancak öğrendiğimiz gibi, kolay bir iş değildi, aksine, dil tespiti her zaman zor bir iş olmuştur.

Metinden dil tahmini yapmak için büyük bir makine öğrenimi modeli gerektirmeyen en iyi seçeneği ararken, en iyi çözümün saniyede binlerce belgeyi sınıflandırabilirken 1 MB'tan daha az bellek kullanan önceden eğitilmiş bir dil tanımlama modeli olduğunu gördük.

Birçok ince ayar ve iyileştirmeden sonra, her dil için güvenle iyi doğruluk oranları sağlayabilen bir araç geliştirdik.

Gerçekten iyi doğruluk dereceleri sağlıyor ve sadece bu değil, aynı zamanda hızlı ve güvenilir bir hızda. İşte ülke başına bir doğruluk listesi.

99 Doğru Diller*: Fransızca (fr), İngilizce (en), Almanca (de), Portekizce (pt), Türkçe (tr), Hollandaca (nl), İtalyanca (it), İspanyolca (es), Macarca (hu), Esperanto (eo), Lehçe (pl), Fince (fi), Rusça (ru), Makedonca (mk), Ukraynaca (uk), Litvanca (lt), Vietnamca (vi), Yunanca (el), Marathi (mr), Arapça (ar), İbranice (he), Hintçe (hi), Uygurca (ug), Japonca (ja), Gürcüce (ka), Bengalce (bn), Urduca (ur), Tayca (th), Çince (zh), Ermenice (hy), Malayalamca (ml), Korece (ko), Khmerce (km), Birmanca (my), Tamilce (ta), Kannada (kn), Telugu (te), Panjabi (pa), Lao (lo), Gujarati (gu), Tibet Standardı (bo), Divehi (dv), Sinhala (si), Amharca (am).

90 Doğru Diller*: Danca (da), Romence (ro), İsveççe (sv), Latince (la), Bulgarca (bg), Çekçe (cs), Tagalogca (tl), Endonezce (id), Tatarca (tt), İzlandaca (is), Belarusça (be), Baskça (eu), Bretonca (br), Kazakça (kk), Letonca (lv), Estonca (et), İrlandaca (ga), Çuvaşça (cv), Başkurtça (ba), Osetçe (os), Tacikçe (tg).

*Bilgiler en çok test verisi sırasına göre sunulmuştur. Veriler 30-250 karakter uzunluğunda cümlelerdir. Testler yalnızca en popüler 100 dil üzerinde yapılmıştır. Testler, 300 karakter uzunluğundaki veya üzerindeki cümlelerin çoğunluğu için %99'a yakın bir doğruluk oranı göstermiştir.

Mükemmel sonuçlar elde edemeseniz de, en iyi doğruluk (daha az bilinen diller de dahil olmak üzere birçok dil için %99+) 300 karakter veya daha fazlasında görülür. Metin uzunluğu ne olursa olsun, ne kadar uzun olursa o kadar iyidir.

Wiki'de belirtildiği gibi: dil tanımlama veya dil tahmin etme, verilen içeriğin hangi doğal dilde olduğunu belirleme problemidir. Bu probleme yönelik hesaplamalı yaklaşımlar, onu çeşitli istatistiksel yöntemlerle çözülen metin kategorizasyonunun özel bir durumu olarak görür.

Dil algılama hizmetleri çeşitli şekillerde kullanılabilir; örneğin, sohbet ve e-posta gibi iş metinlerinin dilini belirlemek için kullanılabilirler.
Hizmet, metnin dilini ve metnin dilin değiştiği kısımlarını kelime seviyesine kadar belirleyebilir.
Dil algılama hizmetlerini kullanan Surveillance Insights, metinde kullanılan dili vurgulayıp açıklama ekleyebilir ve potansiyel olarak şüpheli faaliyetlerin belirlenmesine yardımcı olabilir.

E-posta veya sohbet gibi iş metinleri farklı dillerde olabilir. Doğal dil işleme hattının önemli bir parçası, her metnin ilgili dile özgü adımlarla işlenebilmesi için hangi dilin birincil dil olduğunu belirlemektir.
Bazı durumlarda, insanlar yasadışı faaliyetlerin izlenmesini veya gizlenmesini önlemek için sohbetlerde kullanılan dili değiştirebilir. Sohbet dilinin değiştirildiği noktayı belirlemek, şüpheli bir faaliyetin gerçekleşip gerçekleşmediğini belirlemek için çok yararlıdır.

API'mizi kullanmak isterseniz, BURAYA tıklayarak API ve fiyatlandırması hakkında daha fazla bilgi edinebilirsiniz

Bir API hizmeti sunmanın yanı sıra, bunu açık kaynak olarak yayınlamaya da karar verdik.
Bu bizim ilk açık kaynak sürümümüz! Dil dedektörü açık kaynak, BURADAN ulaşabilirsiniz