Smodin anoncas la eldonon de sia nova API pri Lingva Detekto subtenante 176 lingvojn

Ĉar lingva detektilo necesis por plibonigi niajn programojn, ni decidis trovi solvon.

Unue ni pensis, ke ĝi estos facila, ĉar google aspektas tiel facila, sed kiel ni eksciis, ĝi ne estis facila tasko, male, lingva detekto ĉiam estis malfacila tasko.

En la serĉo pri la plej bona elekto por antaŭdiri lingvon el teksto, kiu ne postulis grandan maŝinlernan modelon, ni eksciis, ke la plej bona solvo estis antaŭ-trejnita lingva identiga modelo, kiu bezonas malpli ol 1MB da memoro dum ĝi kapablas. klasifiki milojn da dokumentoj sekunde.

Post multaj plibonigoj kaj plibonigoj, ni disvolvis ilon, kiu povas memfide doni bonajn precizecajn indicojn por ĉiu lingvo.

Provizante vere bonajn precizajn taksojn, kaj ne nur tion, sed ankaŭ kun rapida kaj fidinda rapido. Jen preciza listo por lando.

99% Precizaj Lingvoj *: Franca (fr), Angla (en), Germana (de), Portugala (pt), Turka (tr), Nederlanda (nl), Itala (it), Hispana (es), Hungara (hu) , Esperanto (eo), pola (pl), finna (fi), rusa (ru), makedona (mk), ukraina (uk), litova (lt), vjetnama (vi), greka (el), marata (s-ro) , Araba (ar), hebrea (li), hinda (hi), ujgura (ug), japana (ja), kartvela (ka), bengala (bn), urdua (ur), taja (th), ĉina (zh) , Armena (hy), malajala (ml), korea (ko), Khmeroj (km), birma (mia), tamila (ta), kanara (kn), telugua (te), panĝaba (pa), Lao (lo) , Gujaratio (gu), tibeta normo (bo), divehi (dv), sinhala (si), amhara (am).

90% Precizaj Lingvoj *: dana (da), rumana (ro), sveda (sv), latina (la), bulgara (bg), ĉe Czecha (cs), tagaloga (tl), indonezia (id), tatara (tt) , Islanda (estas), belorusa (esti), eŭska (eu), bretona (br), kaza Kazakha (kk), latva (lv), estona (et), irlanda (ga), ĉuvaŝa (cv), baŝkira (ba) , Oseta (os), Taĝika (tg).

* Informoj estas prezentitaj laŭ la plej multaj testaj datumoj. Datumoj estis frazoj kun 30-250 signoj. Testado estis farita nur ĉe la plej popularaj 100 lingvoj. Testado montris preskaŭ 99% precizecon por la plimulto de frazoj longaj aŭ pli ol 300 signoj.

Kvankam vi ne povas akiri perfektajn rezultojn, la plej bona precizeco (99% + por multaj lingvoj, eĉ la malpli konataj) videblas je 300 signoj aŭ pli. Sendepende de tekstolongo, ju pli longa des pli bone.

Kiel Vikio mencias: lingva identigo aŭ lingva divenado estas la problemo por determini en kiu natura lingvo estas donita enhavo. Komputaj aliroj al ĉi tiu problemo rigardas ĝin kiel specialan kazon de tekstokategoriigo, solvita per diversaj statistikaj metodoj.

Lingvaj detektaj servoj povas esti uzataj diversmaniere, ekzemple, ili povus esti uzataj por identigi la lingvon de komercaj tekstoj, kiel babilejo kaj retpoŝto.
La servo povas identigi la lingvon de la teksto kaj la tekstopartojn, kie la lingvo ŝanĝiĝis, ĝis la vortnivelo.
Uzante lingvajn detektajn servojn, Surveillance Insights povas reliefigi kaj komenti la lingvon uzatan en teksto kaj helpi identigi eblajn suspektindajn agadojn.

Komercaj tekstoj kiel retpoŝto aŭ babilejo povas esti en diversaj lingvoj. Kerna parto de la naturlingva prilaborado-dukto estas determini, kiu lingvo estas la ĉefa lingvo, por ke ĉiu teksto estu prilaborata per rilataj lingvospecifaj paŝoj.
En iuj kazoj, homoj povas ŝanĝi la lingvon uzatan en babilejoj por eviti monitoradon aŭ kaŝi kontraŭleĝajn agadojn. Determini la punkton, ĉe kiu la babillingvo estas ŝanĝita, estas tre utila por determini ĉu suspektinda agado okazis.

se vi ŝatus uzi nian API, vi povas akiri pli da informoj pri ĝi kaj ĝiaj prezoj alklakante TIE

Krom provizi API-servon, ni ankaŭ decidis liberigi ĝin kiel malfermfontecon.
Jen nia unua liberfonta eldono! Lingva detektilo malfermfonteco, disponebla TIE