Smodin 176 dili destekleyen yeni Dil Algılama API 'sini yayınladığını duyurdu

Uygulamalarımızı geliştirmek için bir dil dedektörüne ihtiyaç duyulduğundan, bir çözüm bulmaya karar verdik.

İlk başta, google bunu çok kolay gösterdiği için kolay olacağını düşündük, ancak öğrendiğimiz gibi, kolay bir iş değildi, aksine, dil tespiti her zaman zor bir iş olmuştur.

Metinden dil tahmini yapmak için büyük bir makine öğrenimi modeli gerektirmeyen en iyi seçeneği ararken, en iyi çözümün saniyede binlerce belgeyi sınıflandırabilirken 1 MB'tan daha az bellek kullanan önceden eğitilmiş bir dil tanımlama modeli olduğunu gördük.

Birçok ince ayar ve iyileştirmeden sonra, her dil için güvenle iyi doğruluk oranları sağlayabilen bir araç geliştirdik.

Gerçekten iyi doğruluk dereceleri sağlıyor ve sadece bu değil, aynı zamanda hızlı ve güvenilir bir hızda. İşte ülke başına bir doğruluk listesi.

99 Doğru Diller*: Fransızca (fr), İngilizce (en), Almanca (de), Portekizce (pt), Türkçe (tr), Hollandaca (nl), İtalyanca (it), İspanyolca (es), Macarca (hu), Esperanto (eo), Lehçe (pl), Fince (fi), Rusça (ru), Makedonca (mk), Ukraynaca (uk), Litvanca (lt), Vietnamca (vi), Yunanca (el), Marathi (mr), Arapça (ar), İbranice (he), Hintçe (hi), Uygurca (ug), Japonca (ja), Gürcüce (ka), Bengalce (bn), Urduca (ur), Tayca (th), Çince (zh), Ermenice (hy), Malayalamca (ml), Korece (ko), Khmerce (km), Birmanca (my), Tamilce (ta), Kannada (kn), Telugu (te), Panjabi (pa), Lao (lo), Gujarati (gu), Tibet Standardı (bo), Divehi (dv), Sinhala (si), Amharca (am).

90 Doğru Diller*: Danca (da), Romence (ro), İsveççe (sv), Latince (la), Bulgarca (bg), Çekçe (cs), Tagalogca (tl), Endonezce (id), Tatarca (tt), İzlandaca (is), Belarusça (be), Baskça (eu), Bretonca (br), Kazakça (kk), Letonca (lv), Estonca (et), İrlandaca (ga), Çuvaşça (cv), Başkurtça (ba), Osetçe (os), Tacikçe (tg).

*Bilgiler en çok test verisi sırasına göre sunulmuştur. Veriler 30-250 karakter uzunluğunda cümlelerdir. Testler yalnızca en popüler 100 dil üzerinde yapılmıştır. Testler, 300 karakter uzunluğundaki veya üzerindeki cümlelerin çoğunluğu için %99'a yakın bir doğruluk oranı göstermiştir.

Mükemmel sonuçlar elde edemeseniz de, en iyi doğruluk (daha az bilinen diller de dahil olmak üzere birçok dil için %99+) 300 karakter veya daha fazlasında görülür. Metin uzunluğu ne olursa olsun, ne kadar uzun olursa o kadar iyidir.

Wiki'de belirtildiği gibi: dil tanımlama veya dil tahmin etme, verilen içeriğin hangi doğal dilde olduğunu belirleme problemidir. Bu probleme yönelik hesaplamalı yaklaşımlar, onu çeşitli istatistiksel yöntemlerle çözülen metin kategorizasyonunun özel bir durumu olarak görür.

Dil algılama hizmetleri çeşitli şekillerde kullanılabilir; örneğin, sohbet ve e-posta gibi iş metinlerinin dilini belirlemek için kullanılabilirler.
Hizmet, metnin dilini ve metnin dilin değiştiği kısımlarını kelime seviyesine kadar belirleyebilir.

Günümüzün dijital dünyasında, özellikle videolar söz konusu olduğunda, içeriği erişilebilir kılmak her zamankinden daha önemli. YouTube gibi platformlar için, bir YouTube altyazı çevirmeni büyük bir fark yaratarak içerik oluşturucuların daha geniş, küresel bir kitleye ulaşmasına yardımcı olabilir. Doğru altyazı çevirileri dil engellerini ortadan kaldırır ve videoların dünyanın her yerinden izleyicilerin ilgisini çekmesini sağlar.

Dil algılama hizmetlerini kullanan Surveillance Insights, metinde kullanılan dili vurgulayıp açıklama ekleyebilir ve potansiyel olarak şüpheli faaliyetlerin belirlenmesine yardımcı olabilir.

E-posta veya sohbet gibi iş metinleri farklı dillerde olabilir.

Çeşitli bölgelerde faaliyet gösteren işletmeler için çok dilli bir çevirmen son derece faydalı olabilir. Şirketler bu teknolojiyi kullanarak birden fazla dilde etkili iletişim kurma becerilerini geliştirebilir, müşteri deneyimini iyileştirebilir ve küresel erişimlerini genişletebilirler. Yerelleştirmeye duyulan ihtiyacın artmasıyla birlikte, güvenilir bir çok dilli çevirmen, farklı kitlelerde yankı uyandıran içeriklerin sunulmasında önemli bir destek sağlayabilir.

Doğal dil işleme hattının önemli bir parçası, her metnin ilgili dile özgü adımlarla işlenebilmesi için hangi dilin birincil dil olduğunu belirlemektir.

Bazı durumlarda, insanlar yasadışı faaliyetlerin izlenmesini veya gizlenmesini önlemek için sohbetlerde kullanılan dili değiştirebilirler. Sohbet dilinin değiştirildiği noktayı belirlemek, şüpheli bir faaliyetin gerçekleşip gerçekleşmediğini belirlemek için çok yararlıdır.

API'mizi kullanmak isterseniz, BURAYA tıklayarak API ve fiyatı hakkında daha fazla bilgi alabilirsiniz.

Bir API hizmeti sunmanın yanı sıra, bunu açık kaynak olarak yayınlamaya da karar verdik.
Bu bizim ilk açık kaynak sürümümüz! Dil dedektörü açık kaynak, BURADAN ulaşabilirsiniz