Pan-Art Pedagogy. Theory & Practice Philology. Theory & Practice Manuscript

Archive of Scientific Articles

ISSUE:    Philology. Theory & Practice. 2015. Issue 12-2
COLLECTION:    Varia

All issues

License Agreement on scientific materials use.

THE WAYS OF IDENTIFICATION OF TEXT LANGUAGE

Sergei Nikolaevich Kalegin
Moscow Scientific Research Television Institute


Submitted: November 30, 2015
Abstract. The article aims at presenting the current state of the problem of identification of the text language in the form of the review of the known ways of its solutions with the indication of their advantages and disadvantages. Most of these ways can be used either with computers (machine processing) or without them. This review shows clearly the strengths and weaknesses of each method indicating the conditions of its use. Besides, the emphasis is put on the mathematical ways for identifying the linguistic belonging of the text. In conclusion the author proposes his own version of the linguistic identification of the text.
Key words and phrases:
способ определения языка
языковая идентификация текста
машинная обработка текста
определение языковой группы текста
языковая принадлежность текста
way of language identification
linguistic identification of the text
machine processing of the text
identification of linguistic group of the text
linguistic belonging of the text
Reader Open the whole article in PDF format. Free PDF-files viewer can be downloaded here.
References:
  1. Анисимович К. В., Терещенко В. В., Рыбкин В. Ю., Аби Софтвер. Способ автоматического определения языка распознаваемого текста при многоязычном распознавании: патент № 2251737 РФ, G06K9/68 / Лтд. (CY). Опубл. 10.05.2005.
  2. Лапшин В. А., Пшехотская Е. А., Перов Д. В. Способ автоматизированного определения языка и (или) кодировки текстового документа: патент № 2500024 РФ, G06F17/00 / «Центр Инноваций Натальи Касперской» (RU). Опубл. 27.11.2013.
  3. Селезнев К. Обработка текстов на естественном языке [Электронный ресурс] // Открытые системы. 2003. № 12. URL: http://www.osp.ru/os/2003/12/183694/ (дата обращения: 31.10.2015).
  4. Al-Karmi, Abdel Naser, Shamsher S., Baldev Singh. Optical character recognition of handwritten or cursive text in multiple languages (Оптическое распознавание символов рукописного или курсивного многоязычного текста): патент № 6370269 США / International Business Machines Corporation (USA). Опубл. 09.04.2002.
All issues


© 2006-2024 GRAMOTA Publishing