Smodin, 신제품 출시 발표 언어 감지 API 176개 언어 지원

애플리케이션을 개선하기 위해 언어 감지기가 필요했기 때문에 솔루션을 찾기로 결정했습니다.

처음에는 구글이 만들어줘서 쉬울 거라고 생각했는데 막상 해보니 쉬운 일이 아니라 언어탐색이 늘 어려운 일이었다.

큰 기계 학습 모델이 필요하지 않은 텍스트에서 언어를 예측하기 위한 최상의 옵션을 찾는 과정에서 최상의 솔루션은 1MB 미만의 메모리를 사용하면서 초당 수천 개의 문서를 분류합니다.

많은 수정과 개선을 거친 끝에 각 언어에 대해 자신 있게 좋은 정확도를 제공할 수 있는 도구를 개발했습니다.

정말 좋은 정확도 등급을 제공할 뿐만 아니라 빠르고 안정적인 속도로 제공됩니다. 다음은 국가별 정확도 목록입니다.

99% 정확한 언어*: 프랑스어(fr), 영어(en), 독일어(de), 포르투갈어(pt), 터키어(tr), 네덜란드어(nl), 이탈리아어(it), 스페인어(es), 헝가리어(hu) , 에스페란토(eo), 폴란드어(pl), 핀란드어(fi), 러시아어(ru), 마케도니아어(mk), 우크라이나어(uk), 리투아니아어(lt), 베트남어(vi), 그리스어(el), 마라티어(mr) , 아랍어(ar), 히브리어(he), 힌디어(hi), 위구르어(ug), 일본어(ja), 그루지야어(ka), 벵골어(bn), 우르두어(ur), 태국어(th), 중국어(zh) , 아르메니아어(hy), 말라얄람어(ml), 한국어(ko), 크메르어(km), 버마어(my), 타밀어(ta), 칸나다어(kn), 텔루구어(te), 판자비어(pa), 라오스어(lo) , 구자라트어(gu), 티베트 표준어(bo), 디베히어(dv), 싱할라어(si), 암하라어(am).

90% 정확한 언어*: 덴마크어(da), 루마니아어(ro), 스웨덴어(sv), 라틴어(la), 불가리아어(bg), 체코어(cs), 타갈로그어(tl), 인도네시아어(id), 타타르어(tt) , 아이슬란드어(is), 벨로루시어(be), 바스크어(eu), 브르타뉴어(br), 카자흐어(kk), 라트비아어(lv), 에스토니아어(et), 아일랜드어(ga), 추바시어(cv), 바쉬키르어(ba) , 오세티아어(os), 타직어(tg).

*정보는 대부분의 테스트 데이터 순으로 제시됩니다. 데이터는 30-250자 길이의 문장이었습니다. 테스트는 가장 인기 있는 100개 언어에 대해서만 수행되었습니다. 테스트 결과 길이가 99자 이상인 대부분의 문장에 대해 거의 300%의 정확도를 보였습니다.

완벽한 결과를 얻을 수는 없지만 최고의 정확도(많은 언어의 경우 99% 이상, 덜 알려진 언어도 포함)는 300자 이상에서 볼 수 있습니다. 텍스트 길이에 관계없이 길수록 좋습니다.

Wiki가 언급했듯이 언어 식별 또는 언어 추측은 주어진 콘텐츠가 어떤 자연어에 포함되어 있는지 결정하는 문제입니다. 이 문제에 대한 계산적 접근 방식은 다양한 통계적 방법으로 해결된 텍스트 분류의 특수한 경우로 봅니다.

언어 감지 서비스는 다양한 방식으로 사용할 수 있습니다. 예를 들어 채팅 및 이메일과 같은 비즈니스 텍스트의 언어를 식별하는 데 사용할 수 있습니다.
서비스는 텍스트의 언어와 언어가 변경된 텍스트 부분을 단어 수준까지 식별할 수 있습니다.
Surveillance Insights는 언어 감지 서비스를 사용하여 텍스트에 사용된 언어를 강조 표시하고 주석을 달 수 있으며 잠재적으로 의심스러운 활동을 식별하는 데 도움이 됩니다.

이메일이나 채팅과 같은 비즈니스 텍스트는 다른 언어로 사용할 수 있습니다. 자연어 처리 파이프라인의 핵심 부분은 관련 언어별 단계를 통해 각 텍스트를 처리할 수 있도록 기본 언어인 언어를 결정하는 것입니다.
경우에 따라 불법 활동을 모니터링하거나 숨기기 위해 채팅에 사용되는 언어를 변경할 수 있습니다. 채팅 언어가 전환되는 시점을 확인하는 것은 의심스러운 활동이 발생했는지 여부를 확인하는 데 매우 유용합니다.

API를 사용하려면 다음을 클릭하여 API 및 해당 가격에 대한 자세한 정보를 얻을 수 있습니다. 여기를 클릭하십시오.

API 서비스를 제공하는 것 외에도 오픈 소스로 출시하기로 결정했습니다.
이것은 우리의 첫 번째 오픈 소스 릴리스입니다! 언어 감지기 오픈 소스, 사용 가능 여기를 클릭하십시오.