License Agreement on scientific materials use.
|
|
Linguistic profiles of hidden communities: A morphosyntactic aspect
|
Ivan Dmitrievich Mamaev
Baltic State Technical University “Voenmekh” named after D. F. Ustinov; Saint Petersburg State University, St. Petersburg
|
Submitted:
April 16, 2024
|
Abstract.
The aim of the research is to identify quantitative regularities in the functioning of morphosyntactic parameters in the texts by users of hidden online communities. Through statistical methods, the paper attempts to confirm the “cohesion” of the main morphosyntactic features, the information about which was obtained using the Profiling-UD linguistic processor. The scientific novelty of the research lies in the following: based on a corpus of Russian-language social media texts, an experiment is conducted on the correlation analysis of morphosyntactic characteristics, which could become part of the future linguistic profile of hidden communities. Such profiles could be used in modern social media to enhance the functionality of recommendation systems. As a result, the research found that significant positive correlations with moderate statistical significance were identified for over 55% of hidden communities. By applying the proposed methodology, the linguistic profile of hidden communities can be further expanded with syntactic and lexical parameters, allowing for cluster analysis of communities and identification of the homogeneity/heterogeneity of the use of the characteristics across different linguistic levels in user posts from hidden communities.
|
Key words and phrases:
лингвистическое профилирование
корпус русскоязычных социальных сетей
морфосинтаксические характеристики постов
скрытые сообщества
linguistic profiling
corpus of Russian-language social media
morphosyntactic characteristics of posts
hidden communities
|
|
Open
the whole article in PDF format. Free PDF-files viewer can be downloaded here.
|
|
References:
- Бодрова Т., Тукмакова Н. Определение коэффициента ранговой корреляции частей речи в русских и чувашских газетных текстах // Мовознавчий вісник. 2012. № 14-15.
- Конюшкевич М. Преобразование предложно-падежной синтаксемы в предикативную единицу: корреляция предлога и показателя связи сложного предложения // Лінгвістичні студії. 2013. № 26.
- Корниенко Е. Р. Идиолект и идиостиль: к вопросу о соотнесении понятий // Филология: научные исследования. 2019. № 1.
- Мамаев И. Д., Митрофанова О. А. Лингвистические параметры для идентификации скрытых сетевых сообществ // Terra Linguistica. 2024. Т. 15. № 1.
- Мартыненко Г. Я., Гребенников А. О. Основы стилеметрии: учеб.-метод. пособие. СПб.: Изд-во С.-Петерб. ун-та, 2018.
- Потебня А. А. Из записок по русской грамматике: в 4-х т. М.: Учпедгиз, 1958. Т. 1-2.
- Русская грамматика / гл. ред. Н. Ю. Шведова. М.: Наука, 1980. Т. 1. Фонетика. Фонология. Ударение. Интонация. Словообразование. Морфология.
- Тукмакова Н. П. Определение коэффициента взаимной сопряженности в русских и чувашских газетных текстах // Филологические науки. Вопросы теории и практики. 2020. Т. 13. Вып. 7.
- Хохлова М. В., Рубинер В. И. К вопросу о количественном анализе предложно-падежных сочетаний в русском языке на примере законодательных текстов // Корпусная лингвистика – 2019: труды международной конференции. СПб., 2019.
- Baumes J., Goldberg M., Magdon-Ismail M., Wallace W. A. Discovering hidden groups in communication networks // International Conference on Intelligence and Security Informatics. Berlin – Heidelberg: Springer Berlin Heidelberg, 2004.
- Brunato D., Cimino A., Dell’Orletta F., Venturi G., Montemagni S. Profiling-UD: A tool for linguistic profiling of texts // Proceedings of the 12th Language Resources and Evaluation Conference. Marseille, 2020.
- Curtotti M., McCreath E. C. A corpus of Australian Contract Language: Description, profiling and analysis // Proceedings of the 13th International Conference on Artificial Intelligence and Law. 2011. http://dx.doi.org/10.2139/ssrn.2304652
- Hengeveld K. Parts-of-speech systems and morphological types // ACLC Working Papers. 2007. Vol. 2.
- Lilliefors H. W. On the Kolmogorov-Smirnov test for normality with mean and variance unknown // Journal of the American Statistical Association. 1967. Vol. 62. No. 318.
- Litvinova T., Sboev A., Panicheva P. Profiling the age of Russian bloggers // Conference on Artificial Intelligence and Natural Language. Cham: Springer International Publishing, 2018.
- Mishra N., Schreiber R., Stanton I., Tarjan R. E. Clustering social networks // International Workshop on Algorithms and Models for the Web-Graph. Berlin – Heidelberg: Springer Berlin Heidelberg, 2007.
- Panicheva P., Litvinova T. Authorship attribution in Russian in real-world forensics scenario // International Conference on Statistical Language and Speech Processing. Cham: Springer International Publishing, 2019.
|
|