Лицензионное соглашение об использовании научных материалов.
|
|
Использование машинного обучения для тематической разметки текстовых материалов корпуса устной речи
|
Погодаева Елена Николаевна
Томский государственный университет
|
Дата поступления рукописи в редакцию:
25 апреля 2024
г.
|
Аннотация.
Цель исследования состоит в выявлении эффективности тезаурусного метода для формирования списка тематических классов при использовании машинного обучения для тематической классификации текстовых материалов социолингвистических интервью. В статье рассматриваются возможности применения машинного обучения в тематической разметке материалов лингвистического корпуса. Политематичность анализируемого материала обусловлена его жанровой принадлежностью к диалогической речи. Иерархическая структура тем, выявленная в результате предварительного интроспективного анализа текстов, может быть описана с помощью тезауруса. Обсуждаются результаты применения метода машинного обучения без учителя с использованием двух наборов названий тематических классов: списка тем, задействованного при ручной разметке текстов, и расширенного списка микротем, названия которых были отобраны из тезауруса русского языка. Научная новизна работы состоит в том, что впервые предложен тезаурусный метод подбора тематических лейблов для zero-shot классификации слабоструктурированных текстов на русском языке. Полученные результаты показали, что использование более подробного лексического описания для тематических классов даёт улучшение результата классификации.
|
Ключевые слова и фразы:
лингвистический корпус
машинное обучение
тематическая классификация
разметка данных
диалогическая речь
linguistic corpus
machine learning
topic classification
data annotation
dialogical speech
|
|
Открыть
полный текст статьи в формате PDF. Бесплатный просмотрщик PDF-файлов можно скачать здесь.
|
|
Список литературы:
- Баранов А. Н., Добровольский Д. О. Корпусная модель идиостиля Достоевского. М.: ЛЕКСРУС, 2021.
- Захаров В. П., Богданова С. Ю. Корпусная лингвистика. СПб.: Изд-во С.-Петерб. ун-та, 2020.
- Казакевич О. А. О принципах построения функциональной типологии малых языков (на материале малых автохтонных языков Сибири и Дальнего Востока) // Функциональное развитие языков в полиэтнических странах мира (Россия – Вьетнам): материалы международного круглого стола. М.: Азбуковник, 2015.
- Лукашевич Н. В. Тезаурусы в задачах информационного поиска. М., 2010.
- Ляшевская О. Н. Корпусные инструменты в грамматических исследованиях русского языка. М.: Издательский дом ЯСК; Рукописные памятники Древней Руси, 2016.
- Резанова З. И. Корпус устной речи русско-тюркских билингвов Южной Сибири: разметка отклонений от речевого стандарта // Вопросы лексикографии. 2019. № 15.
- Резанова З. И. Подкорпус устной речи русско-тюркских билингвов Южной Сибири: типологически релевантные признаки // Вопросы лексикографии. 2017. № 11.
- Bhambhoria R., Chen L., Zhu X. A Simple and Effective Framework for Strict Zero-Shot Hierarchical Classification // arXiv. 2023. Art. 2305.15282. https://doi.org/10.48550/arXiv.2305.15282
- Marian V., Blumenfeld H. K., Kaushanskaya M. The Language Experience and Proficiency Questionnaire (LEAP-Q): Assessing Language Profiles in Bilinguals and Multilinguals // Journal of Speech, Language, and Hearing Research. 2007. Vol. 50 (4).
- Plaza-del-Arco F., Nozza D., Hovy D. Wisdom of Instruction-Tuned Language Model Crowds. Exploring Model Label Variation // arXiv. 2023. Art. 2307.12973. https://doi.org/10.48550/arXiv.2307.12973.
- Rothman D. Transformers for Natural Language Processing and Computer Vision. Birmingham: Packt Publishing, 2024.
- Singh J. Natural Language Processing in the Real World: Text Processing, Analytics, and Classification. 1st ed. N. Y.: Chapman and Hall, 2023.
- Song Y., Upadhyay S., Peng H., Mayhew S., Roth D. Toward Any-Language Zero-Shot Topic Classification of Textual Documents // Artificial Intelligence. 2019. Vol. 274.
- Wang Z., Pang Y., Lin Y. Large Language Models Are Zero-Shot Text Classifiers // arXiv. 2023. Art. 2312.01044. https://doi.org/10.48550/arXiv.2312.01044
- Zhang Y., Yang R., Xu X., Xiao J., Shen J., Han J. TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision // arXiv. 2024. Art. 2403.00165. https://doi.org/10.48550/arXiv.2403.00165
|
|