Wika ng Pagtuklas ng Wika

Ipinahayag ng Smodin ang paglabas ng bago nito Wika ng Pagtuklas ng API pagsuporta sa 176 mga wika

Dahil kailangan ng isang detektor ng wika upang mapabuti ang aming mga application, nagpasya kaming maghanap ng solusyon.

Sa una, naisip namin na magiging madali dahil sa napakadali ng google, ngunit sa nalaman namin, hindi ito isang madaling gawain, sa kabaligtaran, ang pagtuklas ng wika ay palaging isang mahirap na gawain.

Sa paghahanap para sa pinakamahusay na pagpipilian para sa paghula ng isang wika mula sa teksto na hindi nangangailangan ng isang malaking modelo ng pag-aaral ng makina, nalaman namin na ang pinakamahusay na solusyon ay isang pre-sanay na modelo ng pagkakakilanlan ng wika na tumatagal ng mas mababa sa 1MB ng memorya habang nagagawa pag-uri-uriin ang libu-libong mga dokumento bawat segundo.

Matapos ang maraming mga pag-aayos at pagpapabuti, gumawa kami ng isang tool na tiwala na makapagbibigay ng mahusay na mga rate ng katumpakan para sa bawat wika.

Nagbibigay ng talagang mahusay na mga rating ng katumpakan, at hindi lamang iyon ngunit din sa isang mabilis at maaasahang bilis. Narito ang isang listahan ng katumpakan bawat bansa.

99% Mga Wastong Wika *: Pranses (fr), Ingles (en), Aleman (de), Portuges (pt), Turkish (tr), Dutch (nl), Italyano (ito), Espanyol (es), Hungarian (hu) , Esperanto (eo), Polish (pl), Finnish (fi), Russian (ru), Macedonian (mk), Ukrainian (uk), Lithuanian (lt), Vietnamese (vi), Greek (el), Marathi (mr) , Arabic (ar), Hebrew (he), Hindi (hi), Uyghur (ug), Japanese (ja), Georgian (ka), Bengali (bn), Urdu (ur), Thai (th), Chinese (zh) , Armenian (hy), Malayalam (ml), Korean (ko), Khmer (km), Burmese (my), Tamil (ta), Kannada (kn), Telugu (te), Panjabi (pa), Lao (lo) , Gujarati (gu), Tibetan Standard (bo), Divehi (dv), Sinhala (si), Amharic (am).

90% Tumpak na Mga Wika *: Danish (da), Romanian (ro), Sweden (sv), Latin (la), Bulgarian (bg), Czech (cs), Tagalog (tl), Indonesian (id), Tatar (tt) , Icelandic (ay), Belarusian (be), Basque (eu), Breton (br), Kazakh (kk), Latvian (lv), Estonian (et), Irish (ga), Chuvash (cv), Bashkir (ba) , Ossetian (os), Tajik (tg).

* Ang impormasyon ay ipinakita sa pagkakasunud-sunod ng karamihan sa data ng pagsubok. Ang data ay mga pangungusap na may haba na 30-250 na mga character. Ang pagsubok ay ginawa lamang sa pinakatanyag na 100 mga wika. Ipinakita ang pagsubok malapit sa isang 99% kawastuhan para sa karamihan ng mga pangungusap sa o higit sa 300 mga character ang haba.

Bagaman hindi ka makakakuha ng mga perpektong resulta, ang pinakamahusay na kawastuhan (99% + para sa maraming mga wika, kahit na ang hindi gaanong kilala) ay makikita sa 300 mga character o higit pa. Hindi alintana ang haba ng teksto, mas matagal ang mas mahusay.

Tulad ng nabanggit sa Wiki: ang pagkakakilanlan ng wika o paghula ng wika ang problema ng pagtukoy kung aling nilalaman ng likas na wika ang nilalaman. Ang mga diskarte sa pagkalkutwal sa problemang ito ay tinitingnan ito bilang isang espesyal na kaso ng kategorya ng teksto, na nalutas sa iba't ibang mga pamamaraang istatistika.

Maaaring magamit ang mga serbisyo sa pagtuklas ng wika sa iba't ibang paraan, halimbawa, maaari silang magamit upang makilala ang wika ng mga teksto ng negosyo, tulad ng chat at email.
Maaaring kilalanin ng serbisyo ang wika ng teksto at ang mga bahagi ng teksto kung saan nagbago ang wika, hanggang sa antas ng salita.
Gamit ang mga serbisyo sa pagtuklas ng wika, maaaring i-highlight at i-annotate ng Mga Pananaw ng Surveillance ang wikang ginamit sa teksto at makakatulong na makilala ang mga potensyal na kahina-hinalang aktibidad.

Ang mga teksto ng negosyo tulad ng email o chat ay maaaring nasa iba't ibang mga wika. Ang isang pangunahing bahagi ng pipeline ng natural na pagproseso ng wika ay upang matukoy kung aling wika ang pangunahing wika upang maproseso ang bawat teksto sa pamamagitan ng mga kaugnay na hakbang na tukoy sa wika.
Sa ilang mga kaso, maaaring baguhin ng mga tao ang wikang ginagamit sa mga chat upang maiwasan ang pagsubaybay o pagtatago ng mga ilegal na aktibidad. Ang pagtukoy sa punto kung saan inililipat ang wika ng chat ay lubhang kapaki-pakinabang para sa pagtukoy kung may naganap na kahina-hinalang aktibidad.

kung nais mong gamitin ang aming API, maaari kang makakuha ng karagdagang impormasyon tungkol dito at ang pagpepresyo nito sa pamamagitan ng pag-click HERE

Bukod sa pagbibigay ng isang serbisyo sa API, napagpasyahan din naming ilabas ito bilang open-source.
Ito ang aming unang bukas na Paglabas ng Pinagmulan! Bukas na mapagkukunan ng detektor ng wika, magagamit HERE