Smodin julkistaa uuden versionsa Language Detection API tukee 176 kieltä

Koska kielitunnistinta tarvittiin sovellustemme parantamiseen, olemme päättäneet löytää ratkaisun.

Aluksi ajattelimme, että se olisi helppoa, koska google saa sen näyttämään niin helpolta, mutta kuten huomasimme, se ei ollut helppo tehtävä, päinvastoin, kielen havaitseminen on aina ollut vaikea tehtävä.

Etsiessään parasta vaihtoehtoa kielen ennustamiseen tekstistä, joka ei vaatinut suurta koneoppimismallia, huomasimme, että paras ratkaisu oli esikoulutettu kielen tunnistusmalli, joka vie alle 1 Mt muistia ja pystyy luokitella tuhansia asiakirjoja sekunnissa.

Monien parannusten ja parannusten jälkeen olemme kehittäneet työkalun, joka pystyy luottavaisesti tarjoamaan hyvän tarkkuuden jokaiselle kielelle.

Tarjoaa todella hyviä tarkkuusarvioita, eikä vain sitä, vaan myös nopealla ja luotettavalla nopeudella. Tässä on tarkkuusluettelo maittain.

99% tarkat kielet*: ranska (fr), englanti (en), saksa (de), portugali (pt), turkki (tr), hollanti (nl), italia (it), espanja (es), unkari (hu) , Esperanto (eo), puola (pl), suomi (fi), venäjä (ru), makedonia (mk), ukraina (uk), liettua (lt), vietnam (vi), kreikka (el), marathi (mr) , Arabia (ar), heprea (he), hindi (hei), uiguuri (ug), japani (ja), georgialainen (ka), bengali (bn), urdu (ur), thai (th), kiina (zh) , Armenialainen (hy), malajalam (ml), korea (ko), khmer (km), burma (my), tamili (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo) , Gujarati (gu), Tiibetin standardi (bo), Divehi (dv), sinhala (si), amhara (am).

90% tarkat kielet*: tanska (da), romania (ro), ruotsi (sv), latina (la), bulgaria (bg), tšekki (cs), tagalog (tl), indonesia (id), tataari (tt) , Islanti (is), valkovenäjä (be), baski (eu), bretoni (br), kazakstan (kk), latvia (lv), viro (et), irlanti (ga), chuvash (cv), baskiiri (ba) , Ossetian (os), Tadžikistan (tg).

*Tiedot esitetään useimpien testitietojen järjestyksessä. Tiedot olivat 30–250 merkin pituisia lauseita. Testaus tehtiin vain 100 suosituimmalla kielellä. Testaus osoitti lähes 99%: n tarkkuuden suurimmalle osalle 300 merkin pituisia tai sitä suurempia lauseita.

Vaikka et voi saada täydellisiä tuloksia, paras tarkkuus (99%+ monilla kielillä, jopa vähemmän tunnetuilla) on vähintään 300 merkkiä. Tekstin pituudesta riippumatta, mitä pidempi, sen parempi.

Kuten Wiki mainitsee: kielen tunnistaminen tai kielen arvaaminen on ongelma määritettäessä, millä luonnollisella kielellä sisältö on. Laskentamenetelmät tähän ongelmaan pitävät sitä tekstin luokittelun erityistapauksena, joka ratkaistaan ​​erilaisilla tilastollisilla menetelmillä.

Kielitunnistuspalveluja voidaan käyttää monin tavoin, esimerkiksi niiden avulla voidaan tunnistaa yritystekstien, kuten chatin ja sähköpostin, kieli.
Palvelu voi tunnistaa tekstin kielen ja tekstin osat, joissa kieli on muuttunut, sanatasolle asti.
Kielitunnistuspalvelujen avulla Surveillance Insights voi korostaa ja merkitä tekstissä käytetyn kielen ja auttaa tunnistamaan mahdollisesti epäilyttävät toiminnot.

Yritystekstit, kuten sähköposti tai chat, voivat olla eri kielillä. Keskeinen osa luonnollisen kielen käsittelyprosessia on määrittää, mikä kieli on ensisijainen kieli, jotta jokainen teksti voidaan käsitellä liittyvien kielikohtaisten vaiheiden avulla.
Joissakin tapauksissa ihmiset voivat vaihtaa chatissa käytettyä kieltä välttääkseen laittoman toiminnan valvontaa tai piilottamista. Keskustelun kielen vaihtopisteen määrittäminen on erittäin hyödyllistä määritettäessä, onko epäilyttävää toimintaa tapahtunut.

Jos haluat käyttää sovellusliittymäämme, saat lisätietoja siitä ja sen hinnoittelusta napsauttamalla TÄÄLTÄ

API-palvelun tarjoamisen lisäksi olemme myös päättäneet julkaista sen avoimen lähdekoodin muodossa.
Tämä on ensimmäinen avoimen lähdekoodin julkaisumme! Kielitunnistimen avoin lähdekoodi, saatavilla TÄÄLTÄ