Статья опубликована в рамках: Научного журнала «Студенческий» № 27(323)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3
МОДЕЛИ И МЕТОДЫ АНАЛИЗА КОМПЬЮТЕРНЫХ СОЦИАЛЬНЫХ СЕТЕЙ С ИСПОЛЬЗОВАНИЕМ МАШИННОГО ОБУЧЕНИЯ
MODELS AND METHODS FOR ANALYZING COMPUTER SOCIAL NETWORKS USING MACHINE LEARNING
Iskaliyev Nurlan Rakhmetuly
Student, Department of Regional and Sectoral Development Strategies, Al-Farabi Kazakh National University,
Almaty, Kazakhstan
Issakhov Alibek Abdiashimovic
Scientific Supervisor, Doctor of Physical and Mathematical Sciences, Professor, Kazakh-British Technical University,
Almaty, Kazakhstan
АННОТАЦИЯ
В статье представлены методы анализа коротких текстов из социальных сетей с применением логистической регрессии и сверточных нейронных сетей. Реализованы математические модели, визуализированы ошибки и проведена сравнительная оценка метрик. Работа ориентирована на задачи мониторинга общественного мнения.
ABSTRACT
The article presents methods for analysing short texts from social networks using logistic regression and convolutional neural networks. Mathematical models have been implemented, errors have been visualised, and a comparative evaluation of the metrics has been provided. The work is focused on tasks related to public opinion monitoring.
Ключевые слова: машинное обучение; логистическая регрессия; CNN; классификация текстов; социальные сети; Казахстан.
Keywords: machine learning; logistic regression; CNN; text classification; social networks; Kazakhstan.
1. Постановка задачи
Тематическая классификация пользовательских сообщений – это процесс автоматического присвоения тексту одной или нескольких категорий. В анализе социальных сетей задача классификации позволяет группировать сообщения по темам: образование, экология, торговля и других, что вычисляется следующей формулой:
где X – множество текстов (векторных представлений), а Y – конечное множество тем.
Алгоритм классификации обучается на размеченной выборке , где
– текст,
– соответствующая тема. Цель – минимизировать ошибку предсказания на новых примерах:
Задача усложняется при работе с короткими, шумными и мультиязычными сообщениями, что особенно актуально для казахстанского сегмента социальных сетей.
Перед подачей текстов в классификатор их необходимо преобразовать в числовой вид. Это достигается с помощью методов векторизации.
TF-IDF (Term Frequency – Inverse Document Frequency) – это взвешенная модель, отражающая важность термина t в документе d относительно корпуса D:
где:
– частота термина t в документе d,
– число документов, содержащих t,
N – общее число документов в корпусе.
TF-IDF прост в реализации и эффективен для коротких текстов, но не учитывает семантическую близость слов.
FastText – модель, предложенная Facebook AI Meta (социальная сеть, запрещенная на территории РФ, как продукт организации Meta, признанной экстремистской – прим.ред.) [3; 15], позволяет строить векторные представления слов с учетом морфологических признаков (субслов). FastText обучается на задаче предсказания контекста (CBOW или Skip-gram), и каждое слово представляется как сумма векторов его n-грамм:
где:
– множество n-грамм, входящих в слово
.
Преимущества FastText:
- устойчивость к орфографическим ошибкам;
- поддержка неизвестных слов;
- высокая применимость в мультиязычной среде.
В настоящей работе TF-IDF используется в связке с логистической регрессией, а FastText – для подачи в нейросетевую модель CNN.
2. Логистическая регрессия как базовая модель
Основная идея модели заключается в оценке вероятности принадлежности объекта к классу с использованием логистической функции (сигмоида). Модель принимает вектор признаков $x$ и вычисляет отклик по формуле:
где:
– вектор признаков (например, TF-IDF),
– веса модели,
– смещение (bias),
– целевая метка.
Обучение модели происходит путём минимизации логистической функции потерь (log-loss) [11], отражающей степень расхождения между предсказанными вероятностями и фактическими метками классов:
В данной работе логистическая регрессия используется как базовая модель для сравнения с более сложными архитектурами. Преимущества ее применения:
- высокая скорость обучения,
- устойчивость к переобучению при наличии регуляризации,
- простота интерпретации результатов.
Однако при анализе коротких, неструктурированных и шумных текстов логистическая регрессия ограничена в способности учитывать контекст и зависимость слов.
3. Сверточная нейронная сеть (CNN)
Для текстов входом в сеть служит матрица размерности , где
– длина предложения (в словах), а
– размерность векторного представления слова (например, из FastText). Каждый текст представляется как последовательность эмбеддингов:
Далее применяется сверточный фильтр , скользящий по строкам матрицы
. На каждом шаге производится операция свёртки:
где:
– окно из $h$ слов (эмбеддингов),
– функция активации (ReLU, tanh),
– смещение,
– результат свёртки.
После получения карты признаков применяется пулинг (чаще max-pooling), уменьшающий размерность и извлекающий наиболее значимые признаки. В данной работе используется предложенная модификация – dynamic k-max pooling, позволяющая учитывать не только максимум, но и несколько топ-значений в каждом фильтре:
Результат передается в полносвязный слой и классифицируется через softmax или сигмовидную функцию.
Проведенное исследование показало:
- CNN с FastText обеспечивает более высокую точность классификации (F1 = 0.868);
- логистическая регрессия эффективна для простых задач и ограниченных ресурсов;
- глубокие модели лучше адаптируются к мультиязычным коротким текстам социальных сетей.
Перспектива дальнейших исследований заключается в том, что происходит интеграция трансформеров (BERT, XLM-R) и гибридных архитектур для улучшения обработки.
Список литературы:
- Баранов П. Автоматическая классификация пользовательских текстов в социальных сетях // Вестник МГУ. Серия 15. – 2020. – № 3. – С. 42–49.
- Касимова Л. Модели машинного обучения в анализе казахско-язычных текстов // Цифровизация Казахстана. – Алматы, 2023.
- Bojanowski P. Enriching Word Vectors with Subword Information // Transactions of the Association for Computational Linguistics. – 2017.
- Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer // Journal of Machine Learning Research. − 2020. – Vol. 21(140). − Pp. 1−67.
- Datareportal. Digital 2025 Kazakhstan – [Retrieved from]. URL: https://datareportal.com/reports/digital-2025-kazakhstan (accessed date: 01.05.2025).
- Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Journal of Intelligent Learning Systems and Applications. – Vol.16. – No.4. – 2018.
- Hao Wang, Dogan Can, Abe Kazemzadeh, François Bar, and Shrikanth Narayanan. Real-time Twitter sentiment analysis of the 2012 U.S. presidential election // Proceedings of the ACL 2012 System Demonstrations. – 2012. – Pp. 115–120.
- Joachims T. Text categorization with Support Vector Machines: Learning with many relevant features // Machine Learning: ECML- 98. – Springer, 1998. – Рр. 137–142.
- Kalchbrenner N., Grefenstette E., Blunsom P. A convolutional neural network for modelling sentences // Journal of Computer and Communications. – 2018. – Vol.6. – No.11.
- Kasymov A., Zhumagaliyeva G. NLP for Kazakh Texts: Challenges and Approaches // Proceedings of Eurasian Conferences. – 2021.
- KazBERT – [Retrieved from] URL: https://huggingface.co/ai4kz/kazbertbase (accessed date: 02.05.2025).
- Kim Y. Convolutional Neural Networks for Sentence Classification // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). – 2014. – Doha. – Pp. 1746–1751. https://doi.org/10.3115/v1/D14-1181
- Liu Y. RoBERTa: A Robustly Optimized BERT Pretraining Approach // Open Access Library Journal. – 2021. – Vol.8. – No.7. – July 1.
- Manning C.D., Raghavan P., Sch¨utze H. Introduction to Information Retrieval. – Cambridge University Press, 2008. – 482 р.
- Mikolov T. Distributed Representations of Words and Phrases // Neural Information Processing Systems. – 2013.
- Pak A., Paroubek P. Twitter as a corpus for sentiment analysis and opinion mining // Louisiana Real Estate Commission. – 2010.
- Satubaldin A., Beissenov S. Sentiment analysis for Kazakh and Russian texts: comparative study // Lecture Notes in Computer Science. – Springer, 2022.
- Statista. Number of social media users worldwide 2023. – [Retrieved from]. URL: https://www.statista.com/statistics/278414/number-of-worldwide-social-network-users/ (accessed date: 01.05.2025).
- Tang D., Bing Q., Ting L. Document modeling with gated recurrent neural networks // Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. – 2015. – Pp. 1422–1432
- Vaswani A. Attention is All You Need // Neural Information Processing Systems. – 2017.
- Weller K., Bruns A., Burgess J., Mahrt M., Puschmann C. (Eds.). Twitter and Society. – New York: Peter Lang, 2014. – Pp. 425–432.
Оставить комментарий