|
License Agreement on scientific materials use.
|
|
|
Theoretical and methodological foundations for the development of a linguistic corpus (current status and prospects)
|
Alexey Ivanovich Gorozhanov
Moscow State Linguistic University
|
|
Submitted:
December 30, 2025
|
|
Abstract.
The aim of this study is to verify the current state of corpus software development at the Laboratory of Fundamental and Applied Issues of Virtual Education at Moscow State Linguistic University. The scientific novelty of this work lies in its first reflection on the current experience of corpus research and the formulation of points for a program for the development of corpus linguistics in the medium term. As a result, provisions were formulated summarizing the opinions of corpus linguists on the state of the field, an assessment of the “Balanced Linguistic Corpus Generator and Corpus Manager” software package for compliance with established scientific and technological trends was conducted, and theoretical and methodological principles were developed for the further development of the software package, as well as similar software.
|
Key words and phrases:
корпусная лингвистика
теоретико-методологические основы
корпусный менеджер
программа-генератор
отечественное программное обеспечение
corpus linguistics
theoretical and methodological foundations
corpus manager
generator program
domestic software
|
|
Open
the whole article in PDF format. Free PDF-files viewer can be downloaded here.
|
|
References:
- Авдеев А. А. Роль корпусных технологий в процессе изучения языковых дисциплин и их методические свойства // Известия Воронежского государственного педагогического университета. 2025. № 2 (307).
- Бахтигозина В. С. Проблема поиска фразеологизмов в лингвистическом корпусе, сформированном по правилам Spacy // Человек – язык – компьютер. Исследователи будущего: материалы научно-практической (заочной) конференции с международным участием, Москва, 25 декабря 2023 г. М.: Московский государственный лингвистический университет, 2024.
- Бахтигозина В. С. Репрезентация фразеологизмов с колоронимом “rot” (красный) в современных немецкоязычных СМИ на материале текстов журнала Spiegel // Филологические науки в XXI веке: актуальность, многополярность, перспективы развития: сборник научных трудов. Краснодар: Кубанский государственный университет, 2025.
- Богоявленская Ю. В., Палийчук Д. А. Коллокации с адъективным колоративным компонентом bleu во французском языке (на материале лексикографических и корпусных данных) // Научный диалог. 2025. Т. 14. № 5. https://doi.org/10.24224/2227-1295-2025-14-5-29-50
- Бонч-Осмоловская А. А. Национальный корпус русского языка 2.0: корпусная платформа, инструменты анализа, нейросетевые модели разметки данных (полная версия) // Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2025», 23-25 апреля 2025 г. 2025. https://dialogue-conf.org/wp-content/uploads/2025/06/Bonch-OsmolovskayaAAetal.093F.pdf
- Васильева Е. В., Тиллабаева А. А., Шеметова Д. И. Корпус фольклорных текстов: от идеи до разметки // «Цифра» в социально-гуманитарных исследованиях: метод, поле, реальность: материалы научной конференции молодых ученых, Иркутск, 15-18 ноября 2023 г. Иркутск: Иркутский государственный университет, 2024.
- Гончаров А. А. Развитие структуры надкорпусных баз данных // Системы и средства информатики. 2024. Т. 34. № 4. https://doi.org/10.14357/08696527240406
- Горожанов А. И. Экспериментальное моделирование базы данных сбалансированного лингвистического корпуса // Филологические науки. Вопросы теории и практики. 2022. Т. 15. № 10. https://doi.org/10.30853/phil20220563
- Груздев Д. Ю., Коджебаш Д. О., Макаренко А. С. Стратегии поиска лингвистической информации в электронном корпусе текстов // Военно-филологический журнал. 2022. № 3.
- Егорова Е. В., Шахназарян К. А. Корпусный подход к отбору лексического материала для подготовки к экзамену по иностранному языку // Сибирский учитель. 2025. № 3 (160).
- Желтов В. П., Желтов П. В. Средства разработки интернет-портала национального корпуса чувашского языка // Программные системы и вычислительные методы. 2019. № 1. https://doi.org/10.7256/2454-0714.2019.1.28131
- Жолобов О. Ф., Баранов В. А. Трансформации лексического ряда животъ – жизнь – житие: опыт лингвостатистического описания // Вопросы языкознания. 2022. № 2. https://doi.org/10.31857/0373-658X.2022.2.65-101
- Инькова О. Ю. Определения дискурсивных отношений: опыт Надкорпусной базы данных коннекторов // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог», Москва, 16-19 июня 2021 г. М.: Российский государственный гуманитарный университет, 2021. Вып. 20.
- Котюрова И. А. Генератор индивидуальных упражнений и тестов на основе корпуса студенческих работ «Пакт» // Педагогические мастерские: сборник научных трудов. Киров: Межрегиональный центр инновационных технологий в образовании, 2025.
- Котюрова И. А. Применение образовательных данных в предметном обучении в вузе // Вестник Российского университета дружбы народов. Серия: Информатизация образования. 2024. Т. 21. № 2. https://doi.org/10.22363/2312-8631-2024-21-2-227-241
- Кружков М. Г. Концепция построения надкорпусных баз данных // Системы и средства информатики. 2021. Т. 31. № 3. https://doi.org/10.14357/08696527210309
- Кукушкина О. В. Из опыта работы над созданием авторских корпусов текстов // Труды института русского языка им. В. В. Виноградова. 2024. № 1. https://doi.org/10.31912/pvrli-2024.1.6
- Махмудов М. А. Особенности составления частотных словарей // Актуальные проблемы исследования И преподавания тюркских языков И литературы: BEYNƏLXALQ ELMİ KONFRANS, Sumqayıt, 20-21 мая 2021 г. Sumqayit: Сумгаитский государственный университет, 2021. Т. 4.
- Морозов Д. А., Смаль И. А. Машинное обучение и внутритекстовая разметка для нужд корпусной лингвистики: краткий обзор актуального состояния // Коммуникативные исследования. 2025. Т. 12. № 4.
- Мухин М. Ю. Антонимы в прозе XIX в.: количественный анализ и его идиостилевая интерпретация // Известия Уральского федерального университета. Серия 2: Гуманитарные науки. 2024. Т. 26. № 2. https://doi.org/10.15826/izv2.2024.26.2.021
- Писарик О. И. Репрезентация сферы «культура и искусство» в корпусе современных средств массовой информации ФРГ // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2024. № 11 (892).
- Плунгян В. А. Корпусная лингвистика на современном этапе // Вестник Российской академии наук. 2024. Т. 94. № 9. https://doi.org/10.31857/S0869587324090018
- Раева С. Р. Идеология Вселенной «звездного пути»: корпусный анализ оппозиций “war – peace”, “freedom – slavery” // Филологические науки в XXI веке: актуальность, многополярность, перспективы развития: сборник научных трудов. Краснодар: Кубанский государственный университет, 2025.
- Раева С. Р., Степанова Д. В. Феномен бортового журнала в сериале «Звездный путь» // Социальные и гуманитарные науки. Отечественная и зарубежная литература. Серия 6: Языкознание. 2025. № 4.
- Салахов Р. Д., Ланин В. В. Разработка компонента поиска в корпусе текстов для систем лингвистических исследований // Математика и междисциплинарные исследования – 2021: материалы Всероссийской научно-практической конференции молодых ученых с международным участием, Пермь, 18-20 октября 2021 г. / гл. ред. А. П. Шкарапута. Пермь: Пермский государственный национальный исследовательский университет, 2021.
- Се Ж. Высокочастотные слова в спонтанных монологах-описаниях: методика создания частотного списка для лексического анализа // Вестник Донецкого национального университета. Серия Д: Филология и психология. 2025. № 3.
- Солнышкина М. И., Гатиятуллина Г. М. История развития корпусной лингвистики (на примере англоязычных корпусов) // Вестник Томского государственного университета. Филология. 2020. № 63. https://doi.org/10.17223/19986645/63/8
- Степанова Д. В. Разработка метода генерации лингвистического корпуса инструментами обработки естественного языка – ход и результаты международного проекта // Язык – Семиотика – Культура: сборник научных статей по итогам международной научной конференции: в 2 ч., Минск, 20-21 ноября 2023 г. Мн.: Минский государственный лингвистический университет, 2024.
- Фещенко В. В. Язык – дискурс – корпус: ключевые векторы лингвистической прагматики // Terra Linguistica. 2025. Т. 16. № 3. https://doi.org/10.18721/JHSS.16301
- Чилингарян К. П. Корпусная лингвистика: теория vs методология // Вестник Российского университета дружбы народов. Серия: Теория языка. Семиотика. Семантика. 2021. Т. 12. № 1. https://doi.org/10.22363/2313-2299-2021-12-1-196-218
- Abbamonte L., Hughes B. Solastalgia: A comparative corpus-based study of environmental lexicon // Russian Journal of Linguistics. 2025. Vol. 29. № 1.
- Bogdanova V. P. Choosing lexical items for Teaching English to ESP groups of students // Профессиональная коммуникация: актуальные вопросы лингвистики и методики. 2025. № 18-3.
- Gorozhanov A. I., Stepanova D. V. Corpus-Based Generation of Foreign Language Learning Materials // Contemporary Approaches to Linguistics and Teaching Methods in Business and Professional Communication / ed. E. N. Malyuga. Cham, 2025.
- Roelli Ph. An introduction and a status-report on the Latin database Corpus Corporum // Indo-European Linguistics and Classical Philology. 2025. № 29-2. https://doi.org/10.30842/ielcp2306901529092
|
|