ממשק API לזיהוי שפות

סמודין מכריזה על השקת החדש שלה ממשק API לזיהוי שפות תומך ב- 176 שפות

מכיוון שנדרש גלאי שפות לשיפור היישומים שלנו, החלטנו למצוא פתרון.

בהתחלה חשבנו שזה יהיה קל מכיוון ש- Google גורמת לזה להיראות כל כך קל, אך כפי שגילינו, זו לא הייתה משימה קלה, להיפך, גילוי שפות תמיד היה משימה קשה.

בחיפוש אחר האפשרות הטובה ביותר לחיזוי שפה מטקסט שאינה דורשת מודל למידת מכונה גדול, גילינו שהפתרון הטוב ביותר הוא מודל זיהוי שפות שהוכשר מראש ולוקח פחות מ- 1MB זיכרון תוך יכולת לסווג אלפי מסמכים בשנייה.

לאחר שיפורים רבים ושיפורים, פיתחנו כלי שיכול לספק בביטחון שיעורי דיוק טובים לכל שפה.

מתן דירוג דיוק ממש טוב, ולא רק זה אלא גם במהירות מהירה ואמינה. להלן רשימת דיוק לכל מדינה.

99% שפות מדויקות*: צרפתית (fr), אנגלית (en), גרמנית (de), פורטוגזית (pt), טורקית (tr), הולנדית (nl), איטלקית (it), ספרדית (ים), הונגרית (hu) , אספרנטו (eo), פולנית (pl), פינית (fi), רוסית (ru), מקדונית (mk), אוקראינית (בריטניה), ליטאית (lt), וייטנאמית (vi), יוונית (el), מראתית (mr) , ערבית (ar), עברית (הוא), הינדית (היי), אוגור (ug), יפנית (ja), גרוזינית (ka), בנגלית (bn), אורדו (ur), תאילנדית (th), סינית (zh) , ארמנית (hy), מלאית (מ"ל), קוריאנית (ko), חמר (ק"מ), בורמזית (שלי), טמילית (ta), קנאדה (kn), טלוגו (te), פנג'אבי (pa), לאו (lo) , גוג'ראטי (gu), תקן טיבטי (bo), דיווהי (dv), סינהלה (si), אמהרית (am).

90% שפות מדויקות*: דנית (da), רומנית (ro), שוודית (sv), לטינית (la), בולגרית (bg), צ'כית (cs), טגלוג (tl), אינדונזית (id), טטרית (tt) , איסלנדית (is), בלארוסית (be), באסקית (eu), ברטונית (br), קזחית (kk), לטבית (lv), אסטונית (et), אירית (ga), צ'ובאש (cv), בשקיר (ba) , אוסטיאן (אוס), טג'יקית (tg).

*המידע מוצג לפי מרבית נתוני הבדיקה. הנתונים היו משפטים באורך של 30-250 תווים. הבדיקה בוצעה רק על 100 השפות הפופולריות ביותר. הבדיקה הראתה כמעט 99% דיוק לרוב המשפטים באורך של 300 תווים ומעלה.

למרות שאינך יכול להשיג תוצאות מושלמות, הדיוק הטוב ביותר (99%+ לשפות רבות, אפילו השפות הפחות מוכרות) נראה ב -300 תווים או יותר. ללא קשר לאורך הטקסט, כמה שיותר ארוך יותר טוב יותר.

כפי שמזכיר ויקי: זיהוי שפה או ניחוש שפה היא הבעיה לקבוע באיזו תוכן נתון שפה טבעית. גישות חישוביות לבעיה זו רואות בה מקרה מיוחד של סיווג טקסט, הנפתר בשיטות סטטיסטיות שונות.

ניתן להשתמש בשירותי זיהוי שפות בדרכים שונות, למשל, באמצעותם ניתן לזהות את השפה של טקסטים עסקיים, כגון צ'אט ודוא"ל.
השירות יכול לזהות את שפת הטקסט ואת חלקי הטקסט שבהם השפה השתנתה, עד לרמת המילה.
באמצעות שירותי זיהוי שפות, Surveillance Insights יכול להדגיש ולערות את השפה המשמשת בטקסט ולעזור לזהות פעילויות שעלולות להיות חשודות.

טקסטים עסקיים כגון דוא"ל או צ'אט יכולים להיות בשפות שונות. חלק מרכזי בצינור עיבוד השפה הטבעית הוא לקבוע איזו שפה היא השפה העיקרית כך שניתן לעבד כל טקסט באמצעות שלבים ספציפיים לשפה הקשורה להם.
במקרים מסוימים, אנשים עשויים לשנות את השפה המשמשת בצ'אטים כדי להימנע ממעקב או הסתרה של פעילויות לא חוקיות. קביעת הנקודה בה משתנה שפת הצ'אט היא שימושית מאוד לקביעה אם התרחשה פעילות חשודה.

אם תרצה להשתמש בממשק ה- API שלנו, תוכל לקבל מידע נוסף אודותיו ותמחורו על ידי לחיצה כאן

מלבד מתן שירות API, החלטנו גם לפרסם אותו כקוד פתוח.
זהו מהדורת הקוד הפתוח הראשונה שלנו! גלאי שפות קוד פתוח, זמין כאן