Статья опубликована в рамках: Научного журнала «Студенческий» № 21(275)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7, скачать журнал часть 8, скачать журнал часть 9
ГЕНЕРАЦИЯ С ДОПОЛНЕННЫМ ПОИСКОМ ДЛЯ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ
АННОТАЦИЯ
Большие языковые модели (LLM) демонстрируют впечатляющие возможности, однако сталкиваются с такими проблемами, как галлюцинации, устаревшие знания и непрозрачные процессы рассуждения. Генерация с дополненным поиском (RAG) появилась как многообещающее решение за счет включения знаний из внешних баз данных. Она повышает точность и достоверность ответа, особенно для наукоемких задач, и позволяет постоянно обновлять знания и интегрировать информацию, специфичную для конкретной предметной области. В этой работе подробно рассматривается развитие парадигм RAG, охватывающих Наивный RAG, Продвинутый RAG и Модульную архитектуру RAG. В ней тщательно изучаются основы фреймворков RAG, который включает в себя методы поиска, генерации и расширения. В документе освещаются самые современные технологии, встроенные в каждый из этих важнейших компонентов, обеспечивающих глубокое понимание достижений в системах RAG.
ABSTRACT
Large Language Models (LLMs) demonstrate impressive capabilities, but face problems such as hallucinations, outdated knowledge, and opaque reasoning processes. Augmented Search Generation (RAG) has emerged as a promising solution by incorporating knowledge from external databases. It increases the accuracy and reliability of the response, especially for knowledge-intensive tasks, and allows you to constantly update knowledge and integrate information specific to a specific subject area. This paper examines in detail the development of REG paradigms covering Naive RAG, Advanced REG and Modular RAG Architecture. It thoroughly examines the basics of RAG frameworks, which includes search, generation and extension methods. The document highlights the state-of-the-art technologies embedded in each of these critical components, providing a deep understanding of advances in RAG systems.
Ключевые слова: RAG, LLM, генерация, базы данных, эмбеддинги, fine-tuning.
Keywords: RAG, LM, generation, databases, embedding, fine-tuning.
Введение
Большие языковые модели (LLM) достигли значительных успехов, но сталкиваются с ограничениями в предметно-ориентированных или наукоемких задачах [1], вызывая "галлюцинации" при обработке запросов за пределами их обучающих данных или требующих актуальной информации. Генерация с дополненным поиском (RAG) улучшает LLM, извлекая соответствующие фрагменты из внешней базы знаний через семантическое сходство.
Создание RAG совпало с появлением архитектуры Transformer, где совершенствование языковых моделей достигалось включением дополнительных знаний с помощью предварительно обученных моделей (PTM).
Появление ChatGPT стало поворотным моментом, демонстрируя мощные возможности контекстного обучения (ICL). Исследования RAG сосредоточились на предоставлении лучшей информации для решения сложных задач, что ускорило развитие RAG.
Исследование описывает процесс RAG, его эволюцию и будущие пути, с акцентом на интеграцию RAG в LLM. В статье рассматриваются технические парадигмы, методы исследования, обобщаются три основные парадигмы и анализируются ключевые технологии на этапах «Поиска», «Генерации» и «Дополнения».
1. Обзор RAG
Пример применения RAG: пользователь задает вопрос в ChatGPT о недавней новости. Поскольку ChatGPT зависит от данных, использованных при его обучении, он не может предоставлять обновленную информацию о последних событиях. RAG решает эту проблему, извлекая и включая знания из внешних баз данных. Он собирает релевантные новостные статьи, связанные с запросом пользователя, и использует их вместе с исходным вопросом для создания всеобъемлющей подсказки, позволяющей LLM подготовить обоснованный ответ.
Парадигму исследования RAG можно разделить на три этапа: наивный RAG, продвинутый RAG и модульный RAG. Несмотря на то, что метод RAG экономически эффективен и превосходит по эффективности обычные LLM, он имеет ряд ограничений. Разработка продвинутого RAG и модульного RAG является решением этих специфических недостатков наивного RAG.
2. Наивный RAG
Парадигма наивного RAG представляет собой самую раннюю методологию, которая получила известность вскоре после появления ChatGPT. Наивный RAG включает индексацию, извлечение и генерацию, который также характеризуется как фреймворк “Извлечение-чтение” [2].
Индексирование начинается с очистки и извлечения данных в различных форматах, таких как PDF, HTML, Word и Markdown, которые затем преобразуются в единый текстовый формат. Текст разбивается на более мелкие фрагменты, чтобы учесть контекстные ограничения языковых моделей. Эти фрагменты кодируются в векторные представления с помощью модели встраивания и сохраняются в векторной базе данных.
После получения пользовательского запроса система RAG использует ту же модель кодирования, что и на этапе индексации, для преобразования запроса в векторное представление. Затем она вычисляет оценки сходства между вектором запроса и векторами фрагментов. Система приоритизирует и извлекает фрагменты с наибольшим сходством к запросу. Эти фрагменты используются как расширенный контекст в промпте.
Заданный запрос и выбранные документы синтезируются в подсказку, на которую большой языковой модели поручено сформулировать ответ. Модель может варьировать свой подход к ответам в зависимости от критериев задачи, либо опираясь на свои параметрические знания, либо ограничиваясь информацией из документов.
Однако наивный RAG имеет заметные недостатки:
- На этапе поиска часто возникают проблемы с точностью и запоминанием, что приводит к отбору несогласованных или нерелевантных фрагментов и отсутствию важной информации.
- При генерации ответов модель может столкнуться с галлюцинациями, когда она выдает контент, не подтвержденный извлеченным контекстом.
- Интеграция полученной информации с другой задачей может быть сложной, иногда приводящей к разрозненным или бессвязным результатам. Процесс также может столкнуться с избыточностью, когда аналогичная информация извлекается из нескольких источников, что приводит к повторяющимся ответам.
Более того, существует опасение, что модели генерации могут чрезмерно полагаться на дополненную информацию, что приведет к получению результатов, которые просто повторяют извлеченный контент без добавления подробной или синтезированной информации.
3. Продвинутый RAG
Продвинутый RAG внедряет улучшения для преодоления ограничений наивного RAG. Он улучшает качество поиска, применяя стратегии предварительного и последующего поиска. Для решения проблем с индексацией использует скользящее окно, детальную сегментацию и включение метаданных.
Процесс предварительного поиска
На этом этапе основное внимание уделяется оптимизации структуры индексации и исходного запроса. Цель оптимизации индексации - повышение качества индексируемого контента, включая стратегии повышения детализации данных, оптимизации структур индексов, добавления метаданных и смешанного поиска. Цель оптимизации запроса - улучшение понимания исходного вопроса пользователя, чтобы он лучше соответствовал задаче поиска.
Процесс последующего извлечения
После получения релевантного контекста крайне важно эффективно соотнести его с запросом. Основные методы последующего извлечения включают повторную проверку фрагментов и сжатие контекста. Ключевая стратегия - повторное ранжирование информации для перемещения наиболее релевантного контента. Эту концепцию реализуют фреймворки, такие как LlamaIndex, Langchain и HayStack. Подача всех документов непосредственно в LLMs может привести к информационной перегрузке, отвлекая от ключевых деталей. Усилия по последующему поиску сосредотачиваются на отборе необходимой информации, выделении критических разделов и сокращении контекста.
4. Модульный RAG
Модульная архитектура RAG выходит за рамки предыдущих парадигм RAG, предлагая повышенную адаптивность и универсальность. Она включает в себя различные стратегии улучшения компонентов, включая добавление поискового модуля для поиска сходства и тонкую настройку ретривера через fine-tuning.
Все более распространенным становится переход к модульному подходу RAG, поддерживающему как последовательную обработку, так и комплексное сквозное обучение всех его компонентов [3]. Несмотря на свою оригинальность, модульный RAG основан на базовых принципах продвинутого и наивного RAG.
Модульная платформа RAG Framework включает дополнительные специализированные компоненты для расширения возможностей поиска и обработки данных. Модуль поиска адаптируется к различным сценариям, позволяя осуществлять прямой поиск по различным источникам данных, таким как поисковые системы, базы данных и графы знаний. RAG Fusion преодолевает традиционные ограничения поиска, используя стратегию с несколькими запросами, которая расширяет запросы пользователей в различные промпты. Это достигается за счет параллельного векторного поиска и интеллектуального повторного ранжирования для выявления как явных, так и преобразующих знаний.
Модуль памяти использует память LLM для управления поиском, создавая неограниченный пул памяти, который более точно соотносится с распределением данных через итеративное самосовершенствование. Маршрутизация в системе RAG навигирует по различным источникам данных, выбирая оптимальный путь для запроса, будь то обобщение, поиск по конкретной базе данных или объединение информационных потоков. Модуль предсказания снижает избыточность и шум, генерируя контекст непосредственно через LLM, обеспечивая релевантность и точность.
Модульный RAG обладает адаптивностью, позволяя заменять или реконфигурировать модули для решения конкретных задач. Это выходит за рамки структур наивного и продвинутого RAG, характеризующихся простым механизмом «Извлечения» и «Чтения».
Инновации, такие как модель перезаписи-извлечения-чтения, используют возможности LLM для уточнения поисковых запросов с помощью модуля перезаписи и механизма обратной связи, что повышает производительность задачи. Гибридные стратегии поиска объединяют поиск по ключевым словам, семантический поиск и векторный поиск для удовлетворения различных запросов.
Гибкая организация модульного RAG Flow демонстрирует преимущества адаптивного поиска с помощью методов, таких как Flare и Self-RAG. Еще одним преимуществом гибкой архитектуры является легкая интеграция системы RAG с другими технологиями, такими как точная настройка или обучение с подкреплением. Например, это может включать тонкую настройку ретривера для улучшения результатов поиска, генератора для более персонализированных результатов или участие в объединенной тонкой настройке.
5. RAG или Fine-tuning
Увеличение числа LLMs привлекло значительное внимание в связи с их растущей распространенностью. Среди методов оптимизации для LLMs, RAG часто сравнивают с тонкой настройкой (Fine-tuning) и промпт-инжинирингом.
Промпт-инжиниринг использует внутренние возможности модели при минимальной зависимости от внешних знаний и адаптации модели. RAG можно рассматривать как предоставление модели индивидуального учебника по поиску информации, идеально подходящего для задач поиска. Напротив, Fine-tuning аналогичен процессу обучения студента со временем, что идеально для сценариев, требующих воспроизведения определенных структур, стилей или форматов.
RAG превосходен в динамичных средах, обновляя знания в реальном времени и эффективно используя внешние источники с высокой интерпретируемостью. Fine-tuning, напротив, более статичен и требует повторного обучения обновлениям, но позволяет глубоко настраивать поведение и стиль модели. Хотя это может уменьшить галлюцинации, Fine-tuning требует значительных вычислительных ресурсов для подготовки данных и обучения, и может столкнуться с проблемами при работе с незнакомыми данными.
В результате многочисленных оценок эффективности при различных наукоемких задачах было обнаружено, что RAG превосходит Fine-tuning как по уже имеющимся знаниям, так и по новым. Кроме того, LLMs с трудом усваивают новую фактическую информацию через Fine-tuning. Выбор между RAG и Fine-tuning зависит от динамики данных, настройки и вычислительных возможностей в контексте приложения. RAG и Fine-tuning не исключают друг друга и могут дополняться, расширяя возможности модели. Их совместное использование может привести к оптимальной производительности, но процесс оптимизации может потребовать нескольких итераций.
Заключение
RAG расширяет возможности LLMs путем объединения параметризованных знаний из языковых моделей с обширными непараметризованными данными из внешних баз знаний. Этот обзор иллюстрирует эволюцию технологий RAG и их применение в различных задачах. Описываются три парадигмы развития RAG: Наивная, Продвинутая и Модульная, каждая из которых представляет собой прогрессивное усовершенствование. Интеграция RAG с другими методологиями искусственного интеллекта, такими как точная настройка и обучение с подкреплением, дополнительно расширяет его возможности.
Несмотря на прогресс в технологии RAG, есть исследовательские возможности для улучшения ее надежности и способности обрабатывать более широкие контексты. Область применения RAG расширяется до мультимодальных областей, что позволяет ей интерпретировать и обрабатывать разнообразные формы данных, такие как изображения, видео и код. Рост приложений искусственного интеллекта, ориентированных на RAG, и развитие вспомогательных инструментов свидетельствуют о растущей экосистеме RAG. С расширением сферы применения RAG возникает необходимость в совершенствовании методов оценки, чтобы отражать ее развитие. Точная и репрезентативная оценка эффективности играет ключевую роль в учете вклада RAG в область исследований и разработок в области искусственного интеллекта.
Список литературы:
- Large language models struggle to learn long-tail knowledge. Proceedings of Machine Learning Research / N. Kandpal, H. Deng, A. Roberts [и др.] – United States : Cambridge MA: JMLR, 2023. – С. 15 696-15 707 – ISBN 2640-3498.
- arXiv : архив научных статей : сайт / Query Rewriting for Retrieval-Augmented Large Language Models. – URL: https://arxiv.org/abs/2305.14283 (дата обращения: 29.05.2024).
- Improving the domain adaptation of retrieval augmented generation (rag) models for open domain question answering. Transactions of the Association for Computational Linguistics / S. Siriwardhana, R. Weerasekera, E. Wen [и др.] – United States : MIT Press Journals, 2023. – С. 1-17 – ISBN 9781627483940.
Оставить комментарий