우리가 사실에 직면 한 것은본문은 우리가 모르는 언어로 쓰여졌습니다. 이해할 수없는 언어로 작성된 수입 물품에 대해서는 진부한 태도이지만 제품의 구성 인 제품에 대해 알고 싶습니다. 우리가 쉽게 구별 할 수있는 언어를 알고 있다는 것은 분명합니다. 그것은 영어, 독일어를 의미합니다. 그런 다음 처음으로 그러한 기호로 만나는 경우 텍스트의 언어를 결정하는 방법에 대한 질문이 있습니다.

물론 전문가에게 물어볼 수 있습니다.세계의 다른 언어를 이해합니다. 그러나 왜 모든 사람이 인터넷에 연결되어 있다면 자동 언어 감지기를 찾을 수 있습니다. 이것은 텍스트의 언어를 결정하는 특수 프로그램을 의미합니다. 그렇다면 프로그램에서 텍스트에 사용 된 언어는 어떻게 결정합니까? 우리는 행동의 알고리즘, 즉 프로그램이 어떻게 특정 언어를 정의 하는지를 설명하려고 노력할 것입니다.

입력 된 여러 단어에 따라 언어의 식별자단어, 언어 이름을 지정할 수 있습니다. 이것은 프로그램에 포함 된 사전과 단어를 일치시킴으로써 이루어집니다. 예를 들어, 프로그램 필드에 입력 한 텍스트가 단어로 나뉘어 정의가 다른 언어의 단어와 일치하도록 전달됩니다. 결과적으로 최대화 된 하나 이상의 언어 목록이 포함 된 알림이 전송됩니다 적합하다. 물론 이러한 프로그램의 작업은 언뜻보기에 그렇게 간단하지 않습니다. 텍스트의 어휘 작성, 문장 구성을 고려해야하기 때문에 이러한 프로그램은 텍스트의 대략적인 분석에만 사용할 수 있습니다. 다음은 가장 자주 사용되는 프로그램입니다 : "Polyglot 3000", "Xerox", "TextCat".

이제 특수 프로그램을 사용하여 텍스트의 언어를 정의하는 방법을 알았습니다.

댓글 0