سموڈن نے اپنے نئے کی ریلیز کا اعلان کیا۔ زبان کی شناخت API 176 زبانوں کی حمایت

چونکہ ہماری ایپلی کیشنز کو بہتر بنانے کے لیے لینگویج ڈیٹیکٹر کی ضرورت تھی ، اس لیے ہم نے ایک حل تلاش کرنے کا فیصلہ کیا ہے۔

پہلے تو ہم نے سوچا کہ یہ آسان ہوگا کیونکہ گوگل اسے بہت آسان دکھاتا ہے ، لیکن جیسا کہ ہمیں پتہ چلا ، یہ آسان کام نہیں تھا ، اس کے برعکس ، زبان کا پتہ لگانا ہمیشہ ایک مشکل کام رہا ہے۔

متن سے کسی زبان کی پیشن گوئی کرنے کے لیے بہترین آپشن کی تلاش میں جس میں مشین لرننگ کے بڑے ماڈل کی ضرورت نہیں تھی ، ہمیں پتہ چلا کہ بہترین حل پہلے سے تربیت یافتہ زبان کی شناخت کا ماڈل تھا جو کہ 1MB سے کم میموری لیتا ہے ہزاروں دستاویزات فی سیکنڈ میں درجہ بندی کریں۔

بہت سے موافقت اور بہتری کے بعد ، ہم نے ایک ایسا آلہ تیار کیا ہے جو اعتماد کے ساتھ ہر زبان کے لیے درست درستگی کی شرح فراہم کر سکتا ہے۔

واقعی اچھی درستگی کی درجہ بندی فراہم کرنا ، اور نہ صرف یہ بلکہ تیز اور قابل اعتماد رفتار سے۔ یہاں ہر ملک کی درستگی کی فہرست ہے۔

99٪ درست زبانیں*: فرانسیسی (fr) ، انگریزی (en) ، جرمن (de) ، پرتگالی (pt) ، ترکی (tr) ، ڈچ (nl) ، اطالوی (it) ، ہسپانوی (es) ، ہنگری (hu) ، ایسپرانٹو (ای او) ، پولش (پی ایل) ، فینیش (فائی) ، روسی (آر یو) ، مقدونیہ (ایم کے) ، یوکرائنی (برطانیہ) ، لتھوانیائی (ایل ٹی) ، ویتنامی (vi) ، یونانی (ایل) ، مراٹھی (ایم آر) عربي ، آرمینیائی (hy) ، ملیالم (ml) ، کورین (ko) ، خمیر (کلومیٹر) ، برمی (my) ، تمل (ta) ، کنڑا (kn) ، تیلگو (te) ، پنجابی (pa) ، لاؤ (lo) ، گجراتی (gu) ، تبتی سٹینڈرڈ (بو) ، دیوھی (dv) ، سنہالا (si) ، امہاری (am)۔

90٪ درست زبانیں*: ڈینش (da) ، رومانیہ (ro) ، سویڈش (sv) ، لاطینی (la) ، بلغاریہ (bg) ، چیک (cs) ، Tagalog (tl) ، انڈونیشین (id) ، تاتار (tt) ، آئس لینڈک (ہے) ، بیلاروسی (ہونا) ، باسکی (یورپی یونین) ، بریٹن (بر) ، قازق (کے کے) ، لیٹوین (ایل وی) ، ایسٹونین (ایٹ) ، آئرش (جی اے) ، چوواش (سی وی) ، بشکیر (بی اے) ، اوسیشین (او ایس) ، تاجک (ٹی جی)۔

*معلومات زیادہ تر ٹیسٹ ڈیٹا کی ترتیب میں پیش کی جاتی ہیں۔ ڈیٹا کی لمبائی 30-250 حروف کی تھی۔ ٹیسٹنگ صرف مقبول ترین 100 زبانوں پر کی گئی۔ ٹیسٹنگ نے جملوں کی اکثریت کی لمبائی میں 99 حروف یا اس سے زیادہ کے لیے 300 فیصد درستگی ظاہر کی۔

اگرچہ آپ کامل نتائج حاصل نہیں کر سکتے ، بہترین درستگی (99++ بہت سی زبانوں کے لیے ، یہاں تک کہ کم معروف بھی) 300 حروف یا اس سے زیادہ پر دیکھی جاتی ہے۔ متن کی لمبائی سے قطع نظر ، جتنا لمبا بہتر ہوگا۔

جیسا کہ وکی نے ذکر کیا ہے: زبان کی شناخت یا زبان کا اندازہ اس بات کا تعین کرنے کا مسئلہ ہے کہ کون سی قدرتی زبان دی گئی ہے۔

زبان کا پتہ لگانے کی خدمات کو مختلف طریقوں سے استعمال کیا جا سکتا ہے ، مثال کے طور پر ، ان کا استعمال کاروباری متن کی زبان کی شناخت کے لیے کیا جا سکتا ہے ، جیسے چیٹ اور ای میل۔
سروس متن کی زبان اور متن کے ان حصوں کی شناخت کر سکتی ہے جہاں زبان بدل گئی ہے ، لفظ کی سطح تک۔
زبان کا پتہ لگانے کی خدمات کا استعمال کرتے ہوئے ، نگرانی کی بصیرت متن میں استعمال ہونے والی زبان کو اجاگر اور تشریح کر سکتی ہے اور ممکنہ طور پر مشکوک سرگرمیوں کی شناخت میں مدد کر سکتی ہے۔

کاروباری تحریریں جیسے ای میل یا چیٹ مختلف زبانوں میں ہوسکتی ہیں۔ قدرتی زبان پروسیسنگ پائپ لائن کا ایک اہم حصہ یہ طے کرنا ہے کہ کون سی زبان بنیادی زبان ہے تاکہ ہر متن پر متعلقہ زبان کے مخصوص اقدامات کے ذریعے عمل کیا جا سکے۔
کچھ معاملات میں، لوگ غیر قانونی سرگرمیوں کی نگرانی یا چھپانے سے بچنے کے لیے چیٹس میں استعمال ہونے والی زبان کو تبدیل کر سکتے ہیں۔ اس مقام کا تعین کرنا جس پر چیٹ کی زبان کو تبدیل کیا گیا ہے اس بات کا تعین کرنے کے لیے بہت مفید ہے کہ آیا کوئی مشکوک سرگرمی ہوئی ہے۔

اگر آپ ہمارے API کو استعمال کرنا چاہتے ہیں تو ، آپ اس کے بارے میں اور اس کی قیمتوں کے بارے میں مزید معلومات حاصل کر کے کلک کر سکتے ہیں۔ HERE

ایک API سروس فراہم کرنے کے علاوہ ، ہم نے اسے اوپن سورس کے طور پر جاری کرنے کا بھی فیصلہ کیا ہے۔
یہ ہماری پہلی اوپن سورس ریلیز ہے! زبان کا پتہ لگانے والا اوپن سورس ، دستیاب ہے۔ HERE