Smodin công bố phát hành API phát hiện ngôn ngữ mới hỗ trợ 176 ngôn ngữ
Vì cần có trình phát hiện ngôn ngữ để cải thiện ứng dụng nên chúng tôi quyết định tìm giải pháp.
Lúc đầu, chúng tôi nghĩ rằng việc này sẽ dễ dàng vì Google làm cho nó có vẻ dễ dàng, nhưng khi chúng tôi phát hiện ra, đó không phải là một nhiệm vụ dễ dàng, ngược lại, việc phát hiện ngôn ngữ luôn là một nhiệm vụ khó khăn.
Trong quá trình tìm kiếm giải pháp tốt nhất để dự đoán ngôn ngữ từ văn bản mà không yêu cầu mô hình máy học lớn, chúng tôi phát hiện ra rằng giải pháp tốt nhất là mô hình nhận dạng ngôn ngữ được đào tạo trước, chiếm chưa đến 1 MB bộ nhớ nhưng vẫn có thể phân loại hàng nghìn tài liệu mỗi giây.
Sau nhiều lần điều chỉnh và cải tiến, chúng tôi đã phát triển một công cụ có thể tự tin cung cấp tỷ lệ chính xác cao cho từng ngôn ngữ.
Cung cấp xếp hạng độ chính xác thực sự tốt, không chỉ vậy mà còn ở tốc độ nhanh và đáng tin cậy. Sau đây là danh sách độ chính xác theo từng quốc gia.
Ngôn ngữ chính xác 99%*: Tiếng Pháp (fr), Tiếng Anh (en), Tiếng Đức (de), Tiếng Bồ Đào Nha (pt), Tiếng Thổ Nhĩ Kỳ (tr), Tiếng Hà Lan (nl), Tiếng Ý (it), Tiếng Tây Ban Nha (es), Tiếng Hungary (hu), Tiếng Esperanto (eo), Tiếng Ba Lan (pl), Tiếng Phần Lan (fi), Tiếng Nga (ru), Tiếng Macedonia (mk), Tiếng Ukraina (uk), Tiếng Litva (lt), Tiếng Việt (vi), Tiếng Hy Lạp (el), Tiếng Marathi (mr), Tiếng Ả Rập (ar), Tiếng Hebrew (he), Tiếng Hindi (hi), Tiếng Uyghur (ug), Tiếng Nhật (ja), Tiếng Gruzia (ka), Tiếng Bengal (bn), Tiếng Urdu (ur), Tiếng Thái (th), Tiếng Trung (zh), Tiếng Armenia (hy), Tiếng Malayalam (ml), Tiếng Hàn (ko), Tiếng Khmer (km), Tiếng Miến Điện (my), Tiếng Tamil (ta), Tiếng Kannada (kn), Tiếng Telugu (te), Tiếng Panjabi (pa), Tiếng Lào (lo), Tiếng Gujarati (gu), Tiếng Tây Tạng chuẩn (bo), Tiếng Divehi (dv), Tiếng Sinhala (si), Tiếng Amharic (am).
Ngôn ngữ chính xác 90%*: Tiếng Đan Mạch (da), Tiếng Rumani (ro), Tiếng Thụy Điển (sv), Tiếng Latin (la), Tiếng Bulgaria (bg), Tiếng Séc (cs), Tiếng Tagalog (tl), Tiếng Indonesia (id), Tiếng Tatar (tt), Tiếng Iceland (is), Tiếng Belarus (be), Tiếng Basque (eu), Tiếng Breton (br), Tiếng Kazakh (kk), Tiếng Latvia (lv), Tiếng Estonia (et), Tiếng Ireland (ga), Tiếng Chuvash (cv), Tiếng Bashkir (ba), Tiếng Ossetia (os), Tiếng Tajik (tg).
*Thông tin được trình bày theo thứ tự của hầu hết dữ liệu thử nghiệm. Dữ liệu là các câu có độ dài từ 30-250 ký tự. Thử nghiệm chỉ được thực hiện trên 100 ngôn ngữ phổ biến nhất. Thử nghiệm cho thấy độ chính xác gần 99% đối với phần lớn các câu có độ dài từ 300 ký tự trở lên.
Mặc dù bạn không thể có được kết quả hoàn hảo, độ chính xác tốt nhất (99%+ đối với nhiều ngôn ngữ, ngay cả những ngôn ngữ ít được biết đến) được thấy ở 300 ký tự trở lên. Bất kể độ dài văn bản, càng dài càng tốt.
Như Wiki đã đề cập: nhận dạng ngôn ngữ hoặc đoán ngôn ngữ là vấn đề xác định nội dung được cung cấp thuộc ngôn ngữ tự nhiên nào. Các phương pháp tính toán cho vấn đề này coi nó là một trường hợp đặc biệt của phân loại văn bản, được giải quyết bằng nhiều phương pháp thống kê khác nhau.
Dịch vụ phát hiện ngôn ngữ có thể được sử dụng theo nhiều cách khác nhau, ví dụ, chúng có thể được sử dụng để xác định ngôn ngữ của văn bản kinh doanh, chẳng hạn như trò chuyện và email.
Dịch vụ này có thể xác định ngôn ngữ của văn bản và những phần văn bản có ngôn ngữ đã thay đổi, thậm chí đến từng từ.
Bằng cách sử dụng dịch vụ phát hiện ngôn ngữ, Surveillance Insights có thể làm nổi bật và chú thích ngôn ngữ được sử dụng trong văn bản và giúp xác định các hoạt động có khả năng đáng ngờ.
Văn bản kinh doanh như email hoặc trò chuyện có thể ở nhiều ngôn ngữ khác nhau. Một phần quan trọng của quy trình xử lý ngôn ngữ tự nhiên là xác định ngôn ngữ nào là ngôn ngữ chính để mỗi văn bản có thể được xử lý thông qua các bước cụ thể theo ngôn ngữ liên quan.
Trong một số trường hợp, mọi người có thể thay đổi ngôn ngữ được sử dụng trong các cuộc trò chuyện để tránh theo dõi hoặc che giấu các hoạt động bất hợp pháp. Xác định thời điểm chuyển đổi ngôn ngữ trò chuyện rất hữu ích để xác định xem có xảy ra hoạt động đáng ngờ hay không.
nếu bạn muốn sử dụng API của chúng tôi, bạn có thể biết thêm thông tin về API và giá cả bằng cách nhấp vào ĐÂY
Bên cạnh việc cung cấp dịch vụ API, chúng tôi cũng quyết định phát hành nó dưới dạng mã nguồn mở.
Đây là bản phát hành mã nguồn mở đầu tiên của chúng tôi! Trình phát hiện ngôn ngữ mã nguồn mở, có sẵn TẠI ĐÂY