लैंग्वेज डिटेक्शन एपीआई

स्मोडिन ने अपनी नई रिलीज की घोषणा की लैंग्वेज डिटेक्शन एपीआई 176 भाषाओं का समर्थन

चूँकि हमारे अनुप्रयोगों को बेहतर बनाने के लिए भाषा संसूचक की आवश्यकता थी, इसलिए हमने एक समाधान खोजने का निर्णय लिया है।

पहले तो हमने सोचा कि यह आसान होगा क्योंकि Google इसे इतना आसान बनाता है, लेकिन जैसा कि हमने पाया, यह आसान काम नहीं था, इसके विपरीत, भाषा का पता लगाना हमेशा एक कठिन काम रहा है।

पाठ से भाषा की भविष्यवाणी करने के लिए सबसे अच्छे विकल्प की खोज में, जिसके लिए एक बड़े मशीन लर्निंग मॉडल की आवश्यकता नहीं थी, हमने पाया कि सबसे अच्छा समाधान एक पूर्व-प्रशिक्षित भाषा पहचान मॉडल था जो सक्षम होने के दौरान 1MB से कम मेमोरी लेता है। प्रति सेकंड हजारों दस्तावेजों को वर्गीकृत करें।

कई बदलावों और सुधारों के बाद, हमने एक ऐसा उपकरण विकसित किया है जो आत्मविश्वास से प्रत्येक भाषा के लिए अच्छी सटीकता दर प्रदान कर सकता है।

वास्तव में अच्छी सटीकता रेटिंग प्रदान करना, और केवल इतना ही नहीं बल्कि तेज और विश्वसनीय गति से भी। यहां प्रति देश सटीकता सूची दी गई है।

99% सटीक भाषाएँ*: फ़्रेंच (fr), अंग्रेज़ी (en), जर्मन (de), पुर्तगाली (pt), तुर्की (tr), डच (nl), इतालवी (it), स्पैनिश (es), हंगेरियन (hu) , एस्पेरांतो (ईओ), पोलिश (पीएल), फिनिश (फाई), रूसी (आरयू), मैसेडोनियन (एमके), यूक्रेनी (यूके), लिथुआनियाई (एलटी), वियतनामी (vi), ग्रीक (एल), मराठी (एमआर) , अरबी (ar), हिब्रू (he), हिंदी (hi), उइघुर (ug), जापानी (ja), जॉर्जियाई (ka), बंगाली (bn), उर्दू (उर), थाई (th), चीनी (zh) , अर्मेनियाई (हाई), मलयालम (एमएल), कोरियाई (को), खमेर (किमी), बर्मी (माई), तमिल (टा), कन्नड़ (केएन), तेलुगु (ते), पंजाबी (पीए), लाओ (लो) , गुजराती (गुजरात), तिब्बती मानक (बीओ), दिवेही (डीवी), सिंहल (सी), अम्हारिक (एएम)।

90% सटीक भाषाएं*: डेनिश (दा), रोमानियाई (आरओ), स्वीडिश (एसवी), लैटिन (ला), बल्गेरियाई (बीजी), चेक (सीएस), तागालोग (टीएल), इंडोनेशियाई (आईडी), तातार (टीटी) , आइसलैंडिक (है), बेलारूसी (बी), बास्क (ईयू), ब्रेटन (बीआर), कज़ाख (केके), लातवियाई (एलवी), एस्टोनियाई (एट), आयरिश (जीए), चुवाश (सीवी), बश्किर (बीए) , ओस्सेटियन (ओएस), ताजिक (टीजी)।

* अधिकांश परीक्षण डेटा के क्रम में जानकारी प्रस्तुत की जाती है। डेटा लंबाई में 30-250 वर्णों के वाक्य थे। परीक्षण केवल सबसे लोकप्रिय 100 भाषाओं पर किया गया था। परीक्षण में ३०० वर्णों या उससे अधिक के अधिकांश वाक्यों के लिए ९९% सटीकता के करीब दिखाया गया है।

यद्यपि आप पूर्ण परिणाम प्राप्त नहीं कर सकते हैं, सर्वोत्तम सटीकता (99%+ कई भाषाओं के लिए, यहां तक कि कम-ज्ञात वाली भी) 300 वर्णों या अधिक पर देखी जाती है। पाठ की लंबाई के बावजूद, बेहतर है।

जैसा कि विकी उल्लेख करता है: भाषा की पहचान या भाषा अनुमान यह निर्धारित करने की समस्या है कि कौन सी प्राकृतिक भाषा दी गई सामग्री है। इस समस्या के कम्प्यूटेशनल दृष्टिकोण इसे पाठ वर्गीकरण के एक विशेष मामले के रूप में देखते हैं, जिसे विभिन्न सांख्यिकीय विधियों के साथ हल किया जाता है।

भाषा खोज सेवाओं का उपयोग विभिन्न तरीकों से किया जा सकता है, उदाहरण के लिए, उनका उपयोग व्यावसायिक पाठों की भाषा की पहचान करने के लिए किया जा सकता है, जैसे चैट और ईमेल।
सेवा पाठ की भाषा और पाठ के उन हिस्सों की पहचान कर सकती है जहां भाषा बदल गई है, शब्द स्तर तक।
भाषा पहचान सेवाओं का उपयोग करते हुए, निगरानी अंतर्दृष्टि पाठ में प्रयुक्त भाषा को हाइलाइट और एनोटेट कर सकती है और संभावित संदिग्ध गतिविधियों की पहचान करने में मदद कर सकती है।

ईमेल या चैट जैसे व्यावसायिक टेक्स्ट विभिन्न भाषाओं में हो सकते हैं। प्राकृतिक भाषा प्रसंस्करण पाइपलाइन का एक महत्वपूर्ण हिस्सा यह निर्धारित करना है कि कौन सी भाषा प्राथमिक भाषा है ताकि प्रत्येक पाठ को संबंधित भाषा-विशिष्ट चरणों के माध्यम से संसाधित किया जा सके।
कुछ मामलों में, लोग गैर-कानूनी गतिविधियों की निगरानी या छिपाने से बचने के लिए चैट में इस्तेमाल की जाने वाली भाषा बदल सकते हैं। जिस बिंदु पर चैट भाषा स्विच की जाती है उसका निर्धारण यह निर्धारित करने के लिए बहुत उपयोगी है कि कोई संदिग्ध गतिविधि हुई है या नहीं।

यदि आप हमारे एपीआई का उपयोग करना चाहते हैं, तो आप इसके बारे में और इसकी कीमत के बारे में अधिक जानकारी क्लिक करके प्राप्त कर सकते हैं यहाँ

एपीआई सेवा प्रदान करने के अलावा, हमने इसे ओपन-सोर्स के रूप में जारी करने का भी निर्णय लिया है।
यह हमारी पहली ओपन सोर्स रिलीज़ है! भाषा डिटेक्टर खुला स्रोत, उपलब्ध यहाँ