Статья опубликована в рамках: Научного журнала «Студенческий» № 17(313)
Рубрика журнала: Информационные технологии
КОНТЕКСТНОЕ ХРАНЕНИЕ В СОВРЕМЕННЫХ СИСТЕМАХ ИИ: ОТ ВЕКТОРНЫХ БАЗ ДАННЫХ ДО RAG-ТЕХНОЛОГИЙ
CONTEXTUAL STORAGE IN MODERN AI SYSTEMS: FROM VECTOR DATABASES TO RAG TECHNOLOGIES
Nikita Sakhno
student, Computer Engineering and Software Engineering, Penza State University,
Russia, Penza
Alexander Novoseltsev
student, Computer Engineering and Software Engineering, Penza State University,
Russia, Penza
АННОТАЦИЯ
В настоящее время нейронные сети активно проникают в каждую область нашей жизни. Несмотря на их высокую скорость развития и возможности, позволяющие им заменить во многих моментах человека, они так и остаются лишь инструментом, позволяющим повысить продуктивность работы в разы.
Чтобы понять, как правильно пользоваться этим инструментом нужно знать, как он устроен. В рамках данной статьи предлагается рассмотреть такую сторону нейросетей как долговременное запоминание контекста в общении с пользователем.
ABSTRACT
Currently, neural networks are rapidly expanding into every area of our lives. Despite their high development speed and capabilities, which allow them to replace humans in many tasks, they remain merely a tool that can increase productivity many times over.
To understand how to use this tool correctly, one must know how it works. This article explores one aspect of neural networks—long-term context retention in user interactions.
Ключевые слова: нейросеть; RAG; векторная база данных.
Keywords: neural network; RAG; vector database.
Представьте диалог без контекста: человек интересуется погодой в Берлине, а затем спрашивает: «Что посоветуешь надеть завтра?» — и вместо рекомендации подходящей одежды получает список ресторанов. Без контекстуальной связи даже самая совершенная нейросеть будет выдавать разрозненные, не связанные между собой ответы. Связность информации через контекст превращает отдельные запросы в осмысленную коммуникацию [1].
Стандартные нейросетевые модели обладают ограниченными возможностями запоминания информации. Их способность эффективно сохранять и использовать данные определяется несколькими факторами: архитектурой системы, выбранными методами управления контекстом и интеграцией с внешними инструментами. Среди инновационных подходов к расширению контекстуальной памяти особое место занимают векторные базы данных и технология Retrieval-Augmented Generation (RAG), существенно расширяющие функциональность современных ИИ-систем [2].
Наиболее примитивный метод сохранения контекста — ограничение «окна» памяти модели последними N токенами. Например, модель GPT3 обрабатывала до 2048 токенов (слов или сочетаний символов) одновременно [1]. Позднее модели, такие как GPT-4 и Claude 3, увеличили размер контекстного окна до 32k и более токенов, а некоторые экспериментальные версии даже до 128k токенов. Тем не менее, линейное увеличение окна приводит к росту вычислительных затрат (O(n²) для большинства трансформеров), что делает подобный подход мало практичным для широкого использования. Также, в длительных диалогах информация из ранних этапов неизбежно теряется, когда размер диалога превышает лимит токенов. Подобные методы приемлемы для коротких взаимодействий, но они не решают фундаментальных проблем персонализации или обработки объемных данных.
Также одна из актуальных задач для компаний в сфере ИИ - это поиск и генерация ответов по внутренней документации. На первый взгляд кажется, что решение простое: 'скормить' документы большой языковой модели (LLM) и получать ответы. На практике же технические решения оказываются далеко не такими эффективными и качественными, как хотелось бы [2]. В этом контексте особую ценность приобретает подход RAG (Retrieval-Augmented Generation), предложенный в 2020 году [3], сочетающий два ключевых этапа:
1. Поиск (Retrieval): система извлекает релевантные фрагменты информации из векторной базы данных.
2. Генерация (Generation): на основе найденной информации формируется структурированный ответ.
Основная идея RAG заключается в использовании внешней памяти в виде базы знаний для дополнения ограниченного контекста модели. Это позволяет эффективно отвечать на вопросы, опираясь на информацию, не содержащуюся напрямую в параметрах модели. Методы поиска могут быть двух типов: Sparse Retrieval — классический поиск по словам (например, BM25) и Dense Retrieval — семантический поиск с использованием эмбеддингов, полученных через нейронные сети (например, DPR), причем последний показал лучшие результаты в задачах открытого поиска информации [4].
Векторные базы данных кодируют объекты (тексты, изображения) в виде многомерных векторов. Поиск по смысловому сходству осуществляется через вычисление расстояний между векторами.
На практике используются специализированные библиотеки: FAISS, Milvus, Pinecone, Weaviate, LangChain.
Алгоритмы поиска ближайших соседей, такие как HNSW и IVF, позволяют эффективно управлять большими коллекциями данных [5, 6].
Рассмотрим типичный процесс поиска:
- Вопрос пользователя преобразуется в вектор (query embedding) с помощью энкодера типа Sentence-BERT.
- Производится поиск близких векторов в базе.
- Найденные фрагменты передаются генеративной модели для формирования ответа.
Такой подход обеспечивает масштабируемость системы при одновременном сохранении высокого качества ответов.
Несмотря на эффективность RAG, технология имеет ограничения: drift между retrieval и generation - иногда сгенерированный текст отклоняется от реально найденной информации. Для борьбы с этим разрабатываются reranker-модели, например, ColBERT [7]. Также ошибки в базе данных приводят к снижению качества ответа.
Будущие направления развития включают многоступенчатый поиск (multi-hop retrieval), улучшение семантического сопоставления и интеграцию retrieval-механизмов на этапе обучения моделей.
Способность искусственного интеллекта эффективно управлять контекстом становится решающим фактором в создании действительно интеллектуальных систем. Векторные базы данных и технология RAG открывают новые возможности в таких областях, как персонализированное обучение, где требуется учет индивидуального прогресса, или медицина, где история пациента имеет критическое значение для постановки диагноза. Будущее развитие нейросетевых технологий заключается не только в наращивании количества параметров моделей, но и в совершенствовании методов работы с контекстом, превращающих разрозненные данные в осмысленные и практически полезные решения.
Список литературы:
- Jiawei Chen, Hongyu Lin, Xianpei Han1, Le Sun Benchmarking Large Language Models in Retrieval-Augmented Generation // Proceedings of the AAAI Conference on Artificial Intelligence. — 2024. — №. 38. — С. 17754-17762.
- Накорми языковую модель документами // Хабр. URL: https://habr.com/ru/articles/898938/ (дата обращения: 22.04.2025).
- Patrick Lewis, Ethan Perez, Aleksandra Piktus и др. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks // Advances in Neural Information Processing Systems. — 2020. — № 33. — С. 9459–9474.
- Vladimir Karpukhin, Barlas Oguz, Sewon Min и др. Dense Passage Retrieval for Open-Domain Question Answering // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). — 2020. — С. 6769–6781.
- Jeff Johnson, Matthijs Douze, Hervé Jégou. Billion-Scale Similarity Search with GPUs // IEEE Transactions on Big Data. — 2019. — № 7. — С. 535–547.
- Yu A. Malkov, D. A. Yashunin. Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2020. — № 42.— С. 824–836.
- Omar Khattab, Matei Zaharia. ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT // Proceedings of the 43rd International ACM SIGIR Conference. — 2020. — С. 39–48.
Оставить комментарий