Использование машинного обучения для тематической разметки текстовых материалов корпуса устной речи

Архив научных статей

Аннотация. Цель исследования состоит в выявлении эффективности тезаурусного метода для формирования списка тематических классов при использовании машинного обучения для тематической классификации текстовых материалов социолингвистических интервью. В статье рассматриваются возможности применения машинного обучения в тематической разметке материалов лингвистического корпуса. Политематичность анализируемого материала обусловлена его жанровой принадлежностью к диалогической речи. Иерархическая структура тем, выявленная в результате предварительного интроспективного анализа текстов, может быть описана с помощью тезауруса. Обсуждаются результаты применения метода машинного обучения без учителя с использованием двух наборов названий тематических классов: списка тем, задействованного при ручной разметке текстов, и расширенного списка микротем, названия которых были отобраны из тезауруса русского языка. Научная новизна работы состоит в том, что впервые предложен тезаурусный метод подбора тематических лейблов для zero-shot классификации слабоструктурированных текстов на русском языке. Полученные результаты показали, что использование более подробного лексического описания для тематических классов даёт улучшение результата классификации.