واجهة برمجة تطبيقات اكتشاف اللغة

Smodin تعلن عن إصدارها الجديد واجهة برمجة تطبيقات اكتشاف اللغة دعم 176 لغة

نظرًا لأن هناك حاجة إلى كاشف اللغة لتحسين تطبيقاتنا ، فقد قررنا إيجاد حل.

في البداية ، اعتقدنا أنه سيكون سهلاً لأن Google تجعل الأمر يبدو سهلاً للغاية ، ولكن كما اكتشفنا ، لم تكن مهمة سهلة ، على العكس من ذلك ، كان اكتشاف اللغة دائمًا مهمة صعبة.

في البحث عن أفضل خيار للتنبؤ بلغة ما من النص الذي لا يتطلب نموذجًا كبيرًا للتعلم الآلي ، اكتشفنا أن الحل الأفضل هو نموذج تعريف لغة مُدرَّب مسبقًا ويستغرق أقل من 1 ميغا بايت من الذاكرة مع القدرة على ذلك تصنيف آلاف الوثائق في الثانية.

بعد العديد من التعديلات والتحسينات ، قمنا بتطوير أداة يمكنها بثقة توفير معدلات دقة جيدة لكل لغة.

توفير تقييمات دقة جيدة حقًا ، وليس ذلك فحسب ، بل أيضًا بسرعة عالية وموثوقة. فيما يلي قائمة الدقة لكل بلد.

99٪ لغات دقيقة *: الفرنسية (fr) ، الإنجليزية (en) ، الألمانية (de) ، البرتغالية (pt) ، التركية (tr) ، الهولندية (nl) ، الإيطالية (it) ، الإسبانية (es) ، الهنغارية (hu) ، الإسبرانتو (eo) ، البولندية (pl) ، الفنلندية (fi) ، الروسية (ru) ، المقدونية (mk) ، الأوكرانية (المملكة المتحدة) ، الليتوانية (lt) ، الفيتنامية (السادس) ، اليونانية (el) ، المهاراتية (السيد) ، العربية (ar) ، العبرية (he) ، الهندية (hi) ، الأويغور (ug) ، اليابانية (ja) ، الجورجية (ka) ، البنغالية (مليار) ، الأردية (ur) ، التايلاندية (th) ، الصينية (zh) ، الأرمينية (hy) ، المالايالامية (ml) ، الكورية (ko) ، الخمير (km) ، البورمية (my) ، التاميل (ta) ، الكانادا (kn) ، التيلجو (te) ، البنجابية (pa) ، اللاو (lo) ، الغوجاراتية (غو) ، المعيار التبتي (bo) ، الديفيهي (dv) ، السنهالية (si) ، الأمهرية (صباحًا).

90٪ لغات دقيقة *: الدنماركية (da) ، الرومانية (ro) ، السويدية (sv) ، اللاتينية (la) ، البلغارية (bg) ، التشيكية (cs) ، التغالوغ (tl) ، الإندونيسية (id) ، التتار (tt) ، الأيسلندية (is) ، البيلاروسية (be) ، الباسك (eu) ، بريتون (br) ، الكازاخستانية (kk) ، اللاتفية (lv) ، الإستونية (et) ، الأيرلندية (ga) ، Chuvash (cv) ، Bashkir (ba) ، Ossetian (os)، Tajik (tg).

* يتم تقديم المعلومات بترتيب معظم بيانات الاختبار. كانت البيانات عبارة عن جمل يتراوح طولها بين 30 و 250 حرفًا. تم إجراء الاختبار على أكثر 100 لغة شيوعًا فقط. أظهر الاختبار دقة تقارب 99٪ لمعظم الجمل التي يبلغ طولها 300 حرفًا أو يزيد عنها.

على الرغم من أنه لا يمكنك الحصول على نتائج مثالية ، فإن أفضل دقة (99٪ + للعديد من اللغات ، حتى الأقل شهرة منها) تظهر في 300 حرف أو أكثر. بغض النظر عن طول النص ، كلما كان ذلك أفضل.

كما يذكر Wiki: تحديد اللغة أو التخمين اللغوي هو مشكلة تحديد اللغة الطبيعية الموجودة في المحتوى المعطى. تنظر المناهج الحسابية لهذه المشكلة على أنها حالة خاصة لتصنيف النص ، يتم حلها باستخدام طرق إحصائية مختلفة.

يمكن استخدام خدمات اكتشاف اللغة بطرق مختلفة ، على سبيل المثال ، يمكن استخدامها لتحديد لغة النصوص التجارية ، مثل الدردشة والبريد الإلكتروني.
يمكن للخدمة تحديد لغة النص وأجزاء النص التي تغيرت فيها اللغة ، وصولاً إلى مستوى الكلمة.
باستخدام خدمات الكشف عن اللغة ، يمكن لـ Surveillance Insights تمييز اللغة المستخدمة في النص والتعليق عليها والمساعدة في تحديد الأنشطة التي يُحتمل أن تكون مشبوهة.

يمكن أن تكون النصوص التجارية مثل البريد الإلكتروني أو الدردشة بلغات مختلفة. يتمثل جزء أساسي من مسار معالجة اللغة الطبيعية في تحديد اللغة التي هي اللغة الأساسية بحيث يمكن معالجة كل نص من خلال الخطوات ذات الصلة الخاصة باللغة.
في بعض الحالات ، قد يغير الأشخاص اللغة المستخدمة في الدردشات لتجنب مراقبة الأنشطة غير القانونية أو إخفائها. يعد تحديد النقطة التي يتم فيها تبديل لغة الدردشة مفيدًا جدًا لتحديد ما إذا كان هناك نشاط مشبوه قد حدث أم لا.

إذا كنت ترغب في استخدام API الخاص بنا ، يمكنك الحصول على مزيد من المعلومات حولها وأسعارها بالنقر فوق هنا

إلى جانب توفير خدمة API ، قررنا أيضًا إصدارها كمصدر مفتوح.
هذا هو أول إصدار مفتوح المصدر لدينا! كاشف اللغة مفتوح المصدر متاح هنا