സ്മോഡിൻ അതിന്റെ പുതിയ പ്രകാശനം പ്രഖ്യാപിക്കുന്നു ഭാഷ കണ്ടെത്തൽ API 176 ഭാഷകളെ പിന്തുണയ്ക്കുന്നു

ഞങ്ങളുടെ ആപ്ലിക്കേഷനുകൾ മെച്ചപ്പെടുത്തുന്നതിന് ഒരു ഭാഷാ ഡിറ്റക്ടർ ആവശ്യമായിരുന്നതിനാൽ, ഒരു പരിഹാരം കണ്ടെത്താൻ ഞങ്ങൾ തീരുമാനിച്ചു.

ആദ്യം, ഗൂഗിൾ ഇത് വളരെ എളുപ്പമുള്ളതാക്കുന്നതിനാൽ ഇത് എളുപ്പമാണെന്ന് ഞങ്ങൾ കരുതി, പക്ഷേ ഞങ്ങൾ കണ്ടെത്തിയതുപോലെ, ഇത് എളുപ്പമുള്ള കാര്യമല്ല, മറിച്ച്, ഭാഷ കണ്ടെത്തൽ എല്ലായ്പ്പോഴും ബുദ്ധിമുട്ടുള്ള കാര്യമാണ്.

ഒരു വലിയ മെഷീൻ ലേണിംഗ് മോഡൽ ആവശ്യമില്ലാത്ത ടെക്സ്റ്റിൽ നിന്ന് ഒരു ഭാഷ പ്രവചിക്കുന്നതിനുള്ള മികച്ച ഓപ്ഷനുള്ള തിരയലിൽ, മികച്ച പരിഹാരം 1MB- യിൽ താഴെ മെമ്മറി എടുക്കുന്ന ഒരു മുൻകൂട്ടി പരിശീലിപ്പിച്ച ഭാഷാ തിരിച്ചറിയൽ മോഡലാണെന്ന് ഞങ്ങൾ കണ്ടെത്തി. ഒരു സെക്കൻഡിൽ ആയിരക്കണക്കിന് രേഖകൾ തരംതിരിക്കുക.

നിരവധി മാറ്റങ്ങൾക്കും മെച്ചപ്പെടുത്തലുകൾക്കും ശേഷം, ഓരോ ഭാഷയ്ക്കും നല്ല കൃത്യത നിരക്ക് ആത്മവിശ്വാസത്തോടെ നൽകാൻ കഴിയുന്ന ഒരു ഉപകരണം ഞങ്ങൾ വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട്.

നല്ല കൃത്യതയുള്ള റേറ്റിംഗുകൾ നൽകുന്നു, മാത്രമല്ല, വേഗതയേറിയതും വിശ്വസനീയവുമായ വേഗതയിൽ. ഓരോ രാജ്യത്തിനും കൃത്യതയുടെ പട്ടിക ഇതാ.

99% കൃത്യമായ ഭാഷകൾ*: ഫ്രഞ്ച് (fr), ഇംഗ്ലീഷ് (en), ജർമ്മൻ (de), പോർച്ചുഗീസ് (pt), ടർക്കിഷ് (tr), ഡച്ച് (nl), ഇറ്റാലിയൻ (ഇത്), സ്പാനിഷ് (es), ഹംഗേറിയൻ (hu) , എസ്പെരാന്റോ (eo), പോളിഷ് (pl), ഫിന്നിഷ് (fi), റഷ്യൻ (ru), മാസിഡോണിയൻ (mk), ഉക്രേനിയൻ (uk), ലിത്വാനിയൻ (lt), വിയറ്റ്നാമീസ് (vi), ഗ്രീക്ക് (എൽ), മറാത്തി (ശ്രീ) , അറബിക് (ar), ഹീബ്രു (അവൻ), ഹിന്ദി (ഹായ്), ഉയ്ഗൂർ (ug), ജാപ്പനീസ് (ja), ജോർജിയൻ (ka), ബംഗാളി (bn), ഉർദു (urർ), തായ് (th), ചൈനീസ് (zh) , അർമേനിയൻ (ഹൈ), മലയാളം (ml), കൊറിയൻ (ko), ഖെമർ (km), ബർമീസ് (my), തമിഴ് (ta), കന്നഡ (kn), തെലുങ്ക് (te), പഞ്ചാബി (pa), ലാവോ (ലോ) , ഗുജറാത്തി (gu), ടിബറ്റൻ സ്റ്റാൻഡേർഡ് (ബോ), ദിവേഹി (dv), സിംഹള (si), അംഹാരിക് (am).

90% കൃത്യമായ ഭാഷകൾ*: ഡാനിഷ് (da), റൊമാനിയൻ (ro), സ്വീഡിഷ് (sv), ലാറ്റിൻ (la), ബൾഗേറിയൻ (bg), ചെക്ക് (cs), ടാഗലോഗ് (tl), ഇന്തോനേഷ്യൻ (id), ടാറ്റർ (tt) , ഐസ്ലാൻഡിക് (ആണ്), ബെലാറഷ്യൻ (be), ബാസ്ക് (eu), ബ്രെട്ടൻ (br), കസാഖ് (kk), ലാത്വിയൻ (lv), എസ്റ്റോണിയൻ (et), ഐറിഷ് (ga), ചുവാഷ് (cv), ബഷ്കിർ (ba) , ഒസ്സീഷ്യൻ (os), താജിക് (tg).

*മിക്ക ടെസ്റ്റ് ഡാറ്റയുടെയും ക്രമത്തിലാണ് വിവരങ്ങൾ അവതരിപ്പിച്ചിരിക്കുന്നത്. ഡാറ്റ 30-250 പ്രതീകങ്ങളുടെ ദൈർഘ്യമുള്ള വാചകങ്ങളായിരുന്നു. ഏറ്റവും പ്രശസ്തമായ 100 ഭാഷകളിൽ മാത്രമാണ് പരിശോധന നടത്തിയത്. 99 അക്ഷരങ്ങളോ അതിൽ കൂടുതലോ നീളമുള്ള ഭൂരിഭാഗം വാചകങ്ങൾക്കും ടെസ്റ്റിംഗ് 300% കൃത്യത കാണിക്കുന്നു.

നിങ്ങൾക്ക് മികച്ച ഫലങ്ങൾ നേടാൻ കഴിയില്ലെങ്കിലും, മികച്ച കൃത്യത (പല ഭാഷകൾക്കും 99%+ അധികം അറിയപ്പെടാത്തവ പോലും) 300 പ്രതീകങ്ങളിലോ അതിൽ കൂടുതലോ കാണപ്പെടുന്നു. ടെക്സ്റ്റ് ദൈർഘ്യം പരിഗണിക്കാതെ, കൂടുതൽ ദൈർഘ്യമേറിയതാണ്.

വിക്കി പരാമർശിക്കുന്നതുപോലെ: ഭാഷ തിരിച്ചറിയൽ അല്ലെങ്കിൽ ഭാഷാ essഹിക്കൽ എന്നത് ഏത് സ്വാഭാവിക ഭാഷയാണ് ഉള്ളടക്കം എന്ന് നിർണ്ണയിക്കുന്നതിനുള്ള പ്രശ്നമാണ്. ഈ പ്രശ്നത്തിന്റെ കണക്കുകൂട്ടൽ സമീപനങ്ങൾ, വിവിധ സ്റ്റാറ്റിസ്റ്റിക്കൽ രീതികൾ ഉപയോഗിച്ച് പരിഹരിച്ച ടെക്സ്റ്റ് വർഗ്ഗീകരണത്തിന്റെ ഒരു പ്രത്യേക കേസായി ഇതിനെ കാണുന്നു.

ഭാഷ കണ്ടെത്തൽ സേവനങ്ങൾ വിവിധ രീതികളിൽ ഉപയോഗിക്കാം, ഉദാഹരണത്തിന്, ചാറ്റ്, ഇമെയിൽ തുടങ്ങിയ ബിസിനസ്സ് ടെക്സ്റ്റുകളുടെ ഭാഷ തിരിച്ചറിയാൻ അവ ഉപയോഗിക്കാം.
സേവനത്തിന് ടെക്സ്റ്റിന്റെ ഭാഷയും ഭാഷ മാറിയ ടെക്സ്റ്റിന്റെ ഭാഗങ്ങളും വേഡ് ലെവൽ വരെ തിരിച്ചറിയാൻ കഴിയും.
ഭാഷ കണ്ടെത്തൽ സേവനങ്ങൾ ഉപയോഗിച്ച്, നിരീക്ഷണ ഇൻസൈറ്റുകൾക്ക് ടെക്സ്റ്റിൽ ഉപയോഗിച്ചിരിക്കുന്ന ഭാഷ ഹൈലൈറ്റ് ചെയ്യാനും വ്യാഖ്യാനിക്കാനും സംശയാസ്പദമായ പ്രവർത്തനങ്ങൾ തിരിച്ചറിയാനും സഹായിക്കും.

ഇമെയിൽ അല്ലെങ്കിൽ ചാറ്റ് പോലുള്ള ബിസിനസ്സ് ടെക്സ്റ്റുകൾ വ്യത്യസ്ത ഭാഷകളിൽ ആകാം. സ്വാഭാവിക ഭാഷ പ്രോസസ്സിംഗ് പൈപ്പ്ലൈനിന്റെ ഒരു പ്രധാന ഭാഗം ഏത് ഭാഷയാണ് പ്രാഥമിക ഭാഷ എന്ന് നിർണ്ണയിക്കുക എന്നതാണ്, അതിനാൽ ഓരോ വാചകവും ബന്ധപ്പെട്ട ഭാഷാ നിർദ്ദിഷ്ട ഘട്ടങ്ങളിലൂടെ പ്രോസസ്സ് ചെയ്യാൻ കഴിയും.
ചില സന്ദർഭങ്ങളിൽ, നിയമവിരുദ്ധ പ്രവർത്തനങ്ങൾ നിരീക്ഷിക്കുകയോ മറയ്ക്കുകയോ ചെയ്യാതിരിക്കാൻ ആളുകൾ ചാറ്റുകളിൽ ഉപയോഗിക്കുന്ന ഭാഷ മാറ്റിയേക്കാം. സംശയാസ്പദമായ പ്രവർത്തനം നടന്നിട്ടുണ്ടോ എന്ന് നിർണ്ണയിക്കാൻ ചാറ്റ് ഭാഷ മാറുന്ന പോയിന്റ് നിർണ്ണയിക്കുന്നത് വളരെ ഉപയോഗപ്രദമാണ്.

നിങ്ങൾക്ക് ഞങ്ങളുടെ API ഉപയോഗിക്കാൻ താൽപ്പര്യമുണ്ടെങ്കിൽ, അതിനെക്കുറിച്ചും അതിന്റെ വിലനിർണ്ണയത്തെക്കുറിച്ചും ക്ലിക്കുചെയ്യുന്നതിലൂടെ നിങ്ങൾക്ക് കൂടുതൽ വിവരങ്ങൾ ലഭിക്കും ഇവിടെ

ഒരു API സേവനം നൽകുന്നതിനു പുറമേ, അത് ഓപ്പൺ സോഴ്സായി റിലീസ് ചെയ്യാനും ഞങ്ങൾ തീരുമാനിച്ചു.
ഇത് ഞങ്ങളുടെ ആദ്യത്തെ ഓപ്പൺ സോഴ്സ് റിലീസ് ആണ്! ലാംഗ്വേജ് ഡിറ്റക്ടർ ഓപ്പൺ സോഴ്സ് ലഭ്യമാണ് ഇവിടെ