Το Smodin ανακοινώνει την κυκλοφορία του νέου του API ανίχνευσης γλώσσας υποστηρίζει 176 γλώσσες

Δεδομένου ότι χρειάστηκε ένας ανιχνευτής γλώσσας για τη βελτίωση των εφαρμογών μας, αποφασίσαμε να βρούμε μια λύση.

Αρχικά, πιστεύαμε ότι θα ήταν εύκολο, καθώς το google το κάνει να φαίνεται τόσο εύκολο, αλλά όπως διαπιστώσαμε, δεν ήταν εύκολη υπόθεση, αντίθετα, η ανίχνευση γλώσσας ήταν πάντα μια δύσκολη εργασία.

Στην αναζήτηση της καλύτερης επιλογής για την πρόβλεψη μιας γλώσσας από κείμενο που δεν απαιτούσε μεγάλο μοντέλο μηχανικής εκμάθησης, διαπιστώσαμε ότι η καλύτερη λύση ήταν ένα προ-εκπαιδευμένο μοντέλο αναγνώρισης γλωσσών που απαιτεί λιγότερο από 1MB μνήμης ενώ είναι σε θέση να ταξινομήστε χιλιάδες έγγραφα ανά δευτερόλεπτο.

Μετά από πολλές τροποποιήσεις και βελτιώσεις, έχουμε αναπτύξει ένα εργαλείο που μπορεί να παρέχει με σιγουριά καλά ποσοστά ακρίβειας για κάθε γλώσσα.

Παρέχει πραγματικά καλές αξιολογήσεις ακρίβειας, και όχι μόνο αυτό, αλλά και με γρήγορη και αξιόπιστη ταχύτητα. Ακολουθεί μια λίστα ακρίβειας ανά χώρα.

99% Ακριβείς Γλώσσες*: Γαλλικά (fr), Αγγλικά (en), Γερμανικά (de), Πορτογαλικά (pt), Τουρκικά (tr), Ολλανδικά (nl), Ιταλικά (it), Ισπανικά (es), Ουγγρικά (hu) , Εσπεράντο (eo), Πολωνικά (pl), Φινλανδικά (fi), Ρωσικά (ru), Μακεδονικά (mk), Ουκρανικά (uk), Λιθουανικά (lt), Βιετναμέζικα (vi), Ελληνικά (el), Μαράθι (mr) , Αραβικά (ar), Εβραϊκά (he), Χίντι (hi), Uyghur (ug), Ιαπωνικά (ja), Γεωργιανά (ka), Bengali (bn), Urdu (ur), Thai (th), Chinese (zh) , Αρμενικά (hy), Malayalam (ml), Κορεάτικα (ko), Khmer (km), Burmese (my), Tamil (ta), Kannada (kn), Telugu (te), Panjabi (pa), Lao (lo) , Gujarati (gu), Tibetan Standard (bo), Divehi (dv), Sinhala (si), Amharic (am).

90% Ακριβείς Γλώσσες*: Δανέζικα (da), Ρουμανικά (ro), Σουηδικά (sv), Λατινικά (la), Βουλγαρικά (bg), Τσεχικά (cs), Tagalog (tl), Ινδονησιακά (id), Ταταρικά (tt) , Ισλανδικά (είναι), Λευκορωσικά (be), Βασκικά (eu), Breton (br), Kazakh (kk), Latvian (lv), Estonian (et), Irish (ga), Chuvash (cv), Bashkir (ba) , Οσετί (os), Τατζικ (tg).

*Οι πληροφορίες παρουσιάζονται με τη σειρά των περισσότερων δεδομένων δοκιμής. Τα δεδομένα ήταν προτάσεις μήκους 30-250 χαρακτήρων. Οι δοκιμές έγιναν μόνο στις πιο δημοφιλείς 100 γλώσσες. Οι δοκιμές έδειξαν σχεδόν 99% ακρίβεια για την πλειονότητα των προτάσεων σε μήκος ή πάνω από 300 χαρακτήρες σε μήκος.

Παρόλο που δεν μπορείτε να έχετε τέλεια αποτελέσματα, η καλύτερη ακρίβεια (99%+ για πολλές γλώσσες, ακόμη και τις λιγότερο γνωστές) εμφανίζεται με 300 χαρακτήρες ή περισσότερους. Ανεξάρτητα από το μήκος του κειμένου, όσο περισσότερο τόσο το καλύτερο.

Όπως αναφέρει το Wiki: η ταυτοποίηση της γλώσσας ή η εικασία γλώσσας είναι το πρόβλημα του προσδιορισμού της φυσικής γλώσσας που περιέχει το περιεχόμενο. Οι υπολογιστικές προσεγγίσεις σε αυτό το πρόβλημα το θεωρούν ως μια ειδική περίπτωση κατηγοριοποίησης κειμένου, που επιλύεται με διάφορες στατιστικές μεθόδους.

Οι υπηρεσίες ανίχνευσης γλώσσας μπορούν να χρησιμοποιηθούν με διάφορους τρόπους, για παράδειγμα, θα μπορούσαν να χρησιμοποιηθούν για τον προσδιορισμό της γλώσσας των επιχειρηματικών κειμένων, όπως η συνομιλία και το email.
Η υπηρεσία μπορεί να προσδιορίσει τη γλώσσα του κειμένου και τα μέρη του κειμένου όπου η γλώσσα έχει αλλάξει, μέχρι το επίπεδο της λέξης.
Χρησιμοποιώντας υπηρεσίες ανίχνευσης γλώσσας, το Surveillance Insights μπορεί να επισημάνει και να σχολιάσει τη γλώσσα που χρησιμοποιείται στο κείμενο και να βοηθήσει στον εντοπισμό δυνητικά ύποπτων δραστηριοτήτων.

Τα επιχειρηματικά κείμενα όπως το email ή η συνομιλία μπορούν να είναι σε διαφορετικές γλώσσες. Ένα βασικό μέρος του αγωγού επεξεργασίας φυσικής γλώσσας είναι να καθοριστεί ποια γλώσσα είναι η κύρια γλώσσα, έτσι ώστε κάθε κείμενο να μπορεί να υποβληθεί σε επεξεργασία μέσω σχετικών βημάτων για τη συγκεκριμένη γλώσσα.
Σε ορισμένες περιπτώσεις, τα άτομα ενδέχεται να αλλάξουν τη γλώσσα που χρησιμοποιείται στις συνομιλίες για να αποφύγουν την παρακολούθηση ή την απόκρυψη παράνομων δραστηριοτήτων. Ο προσδιορισμός του σημείου στο οποίο γίνεται εναλλαγή της γλώσσας συνομιλίας είναι πολύ χρήσιμος για τον προσδιορισμό του εάν έχει συμβεί μια ύποπτη δραστηριότητα.

εάν θέλετε να χρησιμοποιήσετε το API μας, μπορείτε να λάβετε περισσότερες πληροφορίες σχετικά με αυτό και τις τιμές του κάνοντας κλικ ΕΔΏ

Εκτός από την παροχή μιας υπηρεσίας API, αποφασίσαμε επίσης να την κυκλοφορήσουμε ως ανοιχτού κώδικα.
Αυτή είναι η πρώτη μας έκδοση ανοιχτού κώδικα! Ανιχνευτής γλώσσας ανοιχτού κώδικα, διαθέσιμος ΕΔΏ