স্মডিন তার নতুন প্রকাশের ঘোষণা দিয়েছে ভাষা সনাক্তকরণ API 176 টি ভাষা সমর্থন করে

যেহেতু আমাদের অ্যাপ্লিকেশনগুলিকে উন্নত করার জন্য একটি ভাষা আবিষ্কারক প্রয়োজন ছিল, তাই আমরা একটি সমাধান খুঁজে বের করার সিদ্ধান্ত নিয়েছি।

প্রথমে, আমরা ভেবেছিলাম এটি সহজ হবে যেহেতু গুগল এটিকে এত সহজ দেখায়, কিন্তু আমরা যেমন জানতে পেরেছি, এটি একটি সহজ কাজ ছিল না, বিপরীতভাবে, ভাষা সনাক্তকরণ সবসময় একটি কঠিন কাজ ছিল।

পাঠ্য থেকে একটি ভাষা পূর্বাভাস দেওয়ার জন্য সর্বোত্তম বিকল্পের সন্ধানে, যার জন্য একটি বড় মেশিন লার্নিং মডেলের প্রয়োজন হয় না, আমরা খুঁজে পেয়েছি যে সর্বোত্তম সমাধানটি একটি প্রাক-প্রশিক্ষিত ভাষা সনাক্তকরণ মডেল যা সক্ষম হওয়ার সময় 1MB এর কম মেমরি নেয় প্রতি সেকেন্ডে হাজার হাজার নথির শ্রেণিবিন্যাস।

অনেক পরিবর্তন এবং উন্নতির পরে, আমরা এমন একটি সরঞ্জাম তৈরি করেছি যা আত্মবিশ্বাসের সাথে প্রতিটি ভাষার জন্য ভাল নির্ভুলতার হার প্রদান করতে পারে।

সত্যিই ভাল নির্ভুলতা রেটিং প্রদান, এবং শুধু তাই নয় একটি দ্রুত এবং নির্ভরযোগ্য গতিতে। এখানে প্রতি দেশ একটি নির্ভুলতার তালিকা।

99% সঠিক ভাষা*: ফরাসি (fr), ইংরেজি (en), জার্মান (de), পর্তুগিজ (pt), তুর্কি (tr), ডাচ (nl), ইতালিয়ান (it), স্প্যানিশ (es), হাঙ্গেরীয় (hu) , এস্পেরান্তো (eo), পোলিশ (pl), ফিনিশ (fi), রাশিয়ান (ru), ম্যাসেডোনিয়ান (mk), ইউক্রেনীয় (uk), লিথুয়ানিয়ান (lt), ভিয়েতনামী (vi), গ্রীক (el), মারাঠি (mr) , আরবি (আর), হিব্রু (সে), হিন্দি (হাই), উইঘুর (ইউজি), জাপানি (জেএ), জর্জিয়ান (কা), বাংলা (বিএন), উর্দু (উর), থাই (থ), চীনা (জেডএইচ) , আর্মেনিয়ান (hy), মালায়ালাম (ml), কোরিয়ান (ko), খেমার (কিমি), বার্মিজ (আমার), তামিল (ta), কন্নড় (kn), তেলেগু (te), পাঞ্জাবি (pa), লাও (lo) , গুজরাটি (gu), তিব্বতীয় মান (bo), দিবেহি (dv), সিংহলা (si), আমহারিক (am)।

90% সঠিক ভাষা*: ডেনিশ (দা), রোমানিয়ান (রো), সুইডিশ (এসভি), ল্যাটিন (লা), বুলগেরিয়ান (বিজি), চেক (সিএস), তাগালগ (টিএল), ইন্দোনেশিয়ান (আইডি), তাতার (টিটি) , আইসল্যান্ডিক (হল), বেলারুশিয়ান (হতে), বাস্ক (ইইউ), ব্রেটন (ব্র), কাজাখ (কেকে), লাটভিয়ান (এলভি), এস্তোনিয়ান (এটি), আইরিশ (গা), চুওয়াশ (সিভি), বাশকির (বা) , ওসেটিয়ান (ওএস), তাজিক (টিজি)।

*তথ্য বেশিরভাগ পরীক্ষার ডেটার ক্রমে উপস্থাপন করা হয়। ডেটা দৈর্ঘ্যে 30-250 অক্ষরের বাক্য ছিল। শুধুমাত্র সবচেয়ে জনপ্রিয় 100 টি ভাষায় পরীক্ষা করা হয়েছিল। পরীক্ষায় sentences% অক্ষরের কাছাকাছি sentences০০ অক্ষর নির্ভুলতা দেখা গেছে।

যদিও আপনি নিখুঁত ফলাফল পেতে পারেন না, সেরা নির্ভুলতা (99%+ অনেক ভাষার জন্য, এমনকি কম পরিচিতদেরও) 300 অক্ষর বা তার বেশি দেখা যায়। টেক্সটের দৈর্ঘ্য যাই হোক না কেন, দীর্ঘতর।

উইকি যেমন উল্লেখ করেছে: ভাষা সনাক্তকরণ বা ভাষা অনুমান কোন প্রাকৃতিক ভাষায় প্রদত্ত বিষয়বস্তু আছে তা নির্ধারণের সমস্যা। এই সমস্যাটির কম্পিউটেশনাল পন্থাগুলি এটি পাঠ্য শ্রেণীকরণের একটি বিশেষ কেস হিসাবে দেখে, বিভিন্ন পরিসংখ্যান পদ্ধতি দ্বারা সমাধান করা হয়।

ভাষা সনাক্তকরণ পরিষেবাগুলি বিভিন্ন উপায়ে ব্যবহার করা যেতে পারে, উদাহরণস্বরূপ, সেগুলি ব্যবসায়িক পাঠ্যগুলির ভাষা, যেমন চ্যাট এবং ইমেইল চিহ্নিত করার জন্য ব্যবহার করা যেতে পারে।
পরিষেবাটি পাঠ্যের ভাষা এবং পাঠ্যের অংশগুলি যেখানে ভাষা পরিবর্তিত হয়েছে, শব্দ স্তরের নিচে চিহ্নিত করতে পারে।
ভাষা সনাক্তকরণ পরিষেবাগুলি ব্যবহার করে, নজরদারি অন্তর্দৃষ্টিগুলি পাঠ্যে ব্যবহৃত ভাষাকে হাইলাইট এবং টীকা দিতে পারে এবং সম্ভাব্য সন্দেহজনক কার্যকলাপ সনাক্ত করতে সহায়তা করে।

ব্যবসায়িক পাঠ্য যেমন ইমেইল বা চ্যাট বিভিন্ন ভাষায় হতে পারে। প্রাকৃতিক ভাষা প্রক্রিয়াকরণ পাইপলাইনের একটি গুরুত্বপূর্ণ অংশ হল কোন ভাষাটি প্রাথমিক ভাষা তা নির্ধারণ করা যাতে প্রতিটি পাঠ্য সংশ্লিষ্ট ভাষা-নির্দিষ্ট পদক্ষেপের মাধ্যমে প্রক্রিয়া করা যায়।
কিছু ক্ষেত্রে, লোকেরা অবৈধ কার্যকলাপ পর্যবেক্ষণ বা লুকানো এড়াতে চ্যাটে ব্যবহৃত ভাষা পরিবর্তন করতে পারে। কোন সন্দেহজনক কার্যকলাপ ঘটেছে কিনা তা নির্ধারণের জন্য চ্যাট ভাষাটি যে বিন্দুতে পরিবর্তন করা হয়েছে তা নির্ধারণ করা খুবই কার্যকর।

আপনি যদি আমাদের API ব্যবহার করতে চান, তাহলে আপনি এটি এবং এর মূল্য সম্পর্কে আরও তথ্য ক্লিক করে পেতে পারেন এখানে

একটি API পরিষেবা প্রদানের পাশাপাশি, আমরা এটিকে ওপেন সোর্স হিসাবে প্রকাশ করার সিদ্ধান্ত নিয়েছি।
এটি আমাদের প্রথম ওপেন সোর্স রিলিজ! ভাষা আবিষ্কারক ওপেন সোর্স, উপলব্ধ এখানে