Smodin Thông báo về việc phát hành API phát hiện ngôn ngữ hỗ trợ 176 ngôn ngữ

Vì cần có trình phát hiện ngôn ngữ để cải thiện các ứng dụng của chúng tôi, chúng tôi đã quyết định tìm ra giải pháp.

Lúc đầu, chúng tôi nghĩ rằng nó sẽ dễ dàng vì google làm cho nó trông rất dễ dàng, nhưng khi chúng tôi phát hiện ra, đó không phải là một nhiệm vụ dễ dàng, ngược lại, phát hiện ngôn ngữ luôn là một nhiệm vụ khó khăn.

Trong quá trình tìm kiếm tùy chọn tốt nhất để dự đoán ngôn ngữ từ văn bản không yêu cầu mô hình học máy lớn, chúng tôi phát hiện ra rằng giải pháp tốt nhất là mô hình nhận dạng ngôn ngữ được đào tạo trước chỉ chiếm ít hơn 1MB bộ nhớ trong khi có thể phân loại hàng nghìn tài liệu mỗi giây.

Sau nhiều lần chỉnh sửa và cải tiến, chúng tôi đã phát triển một công cụ có thể tự tin cung cấp tỷ lệ chính xác tốt cho từng ngôn ngữ.

Cung cấp xếp hạng độ chính xác thực sự tốt và không chỉ vậy mà còn ở tốc độ nhanh và đáng tin cậy. Đây là danh sách độ chính xác cho mỗi quốc gia.

Ngôn ngữ chính xác 99% *: Pháp (fr), Anh (en), Đức (de), Bồ Đào Nha (pt), Thổ Nhĩ Kỳ (tr), Hà Lan (nl), Ý (it), Tây Ban Nha (es), Hungary (hu) , Esperanto (eo), Ba Lan (pl), Phần Lan (fi), Nga (ru), Macedonian (mk), Ukraina (uk), Litva (lt), Việt (vi), Hy Lạp (el), Marathi (mr) , Ả Rập (ar), Hebrew (he), Hindi (hi), Uyghur (ug), Japanese (ja), Georgia (ka), Bengali (bn), Urdu (ur), Thai (th), Chinese (zh) , Tiếng Armenia (hy), tiếng Malayalam (ml), tiếng Hàn (ko), tiếng Khmer (km), tiếng Miến Điện (tôi), tiếng Tamil (ta), tiếng Kannada (kn), tiếng Telugu (te), tiếng Panjabi (pa), tiếng Lào (lo) , Gujarati (gu), Tiêu chuẩn Tây Tạng (bo), Divehi (dv), Sinhala (si), Amharic (am).

90% ngôn ngữ chính xác *: Đan Mạch (da), Rumani (ro), Thụy Điển (sv), Latinh (la), Bungari (bg), Séc (cs), Tagalog (tl), Indonesia (id), Tatar (tt) , Tiếng Iceland (là), Belarus (be), Basque (eu), Breton (br), Kazakh (kk), Latvia (lv), Estonian (et), Ireland (ga), Chuvash (cv), Bashkir (ba) , Ossetian (os), Tajik (tg).

* Thông tin được trình bày theo thứ tự của hầu hết các dữ liệu thử nghiệm. Dữ liệu là các câu có độ dài từ 30-250 ký tự. Thử nghiệm chỉ được thực hiện trên 100 ngôn ngữ phổ biến nhất. Thử nghiệm cho thấy độ chính xác gần như 99% đối với phần lớn các câu có độ dài từ 300 ký tự trở lên.

Mặc dù bạn không thể nhận được kết quả hoàn hảo, nhưng độ chính xác tốt nhất (hơn 99% đối với nhiều ngôn ngữ, ngay cả những ngôn ngữ ít được biết đến hơn) là 300 ký tự trở lên. Bất kể độ dài văn bản, càng dài càng tốt.

Như Wiki đã đề cập: xác định ngôn ngữ hoặc đoán ngôn ngữ là vấn đề xác định nội dung được đưa ra bằng ngôn ngữ tự nhiên nào. Các phương pháp tính toán cho vấn đề này xem nó như một trường hợp đặc biệt của phân loại văn bản, được giải quyết bằng các phương pháp thống kê khác nhau.

Dịch vụ phát hiện ngôn ngữ có thể được sử dụng theo nhiều cách khác nhau, ví dụ, chúng có thể được sử dụng để xác định ngôn ngữ của văn bản kinh doanh, chẳng hạn như trò chuyện và email.
Dịch vụ có thể xác định ngôn ngữ của văn bản và các phần của văn bản mà ngôn ngữ đã thay đổi, xuống cấp độ từ.
Bằng cách sử dụng các dịch vụ phát hiện ngôn ngữ, Thông tin chi tiết về giám sát có thể đánh dấu và chú thích ngôn ngữ được sử dụng trong văn bản và giúp xác định các hoạt động có khả năng đáng ngờ.

Các văn bản công việc như email hoặc trò chuyện có thể bằng các ngôn ngữ khác nhau. Một phần quan trọng của quy trình xử lý ngôn ngữ tự nhiên là xác định ngôn ngữ nào là ngôn ngữ chính để mỗi văn bản có thể được xử lý thông qua các bước liên quan theo ngôn ngữ cụ thể.
Trong một số trường hợp, mọi người có thể thay đổi ngôn ngữ được sử dụng trong các cuộc trò chuyện để tránh bị theo dõi hoặc che giấu các hoạt động bất hợp pháp. Việc xác định thời điểm chuyển đổi ngôn ngữ trò chuyện rất hữu ích để xác định xem một hoạt động đáng ngờ đã xảy ra hay chưa.

nếu bạn muốn sử dụng API của chúng tôi, bạn có thể biết thêm thông tin về nó và giá cả của nó bằng cách nhấp vào nhấp vào ĐÂY

Bên cạnh việc cung cấp dịch vụ API, chúng tôi cũng đã quyết định phát hành nó dưới dạng mã nguồn mở.
Đây là bản phát hành mã nguồn mở đầu tiên của chúng tôi! Trình dò ​​ngôn ngữ nguồn mở, có sẵn nhấp vào ĐÂY