Статья опубликована в рамках: CII Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 26 июня 2024 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Белова Т.Э., Яремова Е.В. ИЕРАРХИЧЕСКАЯ ДЕКОМПОЗИЦИЯ ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ // Экспериментальные и теоретические исследования в современной науке: сб. ст. по матер. CII междунар. науч.-практ. конф. № 6(94). – Новосибирск: СибАК, 2024. – С. 6-22.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

ИЕРАРХИЧЕСКАЯ ДЕКОМПОЗИЦИЯ ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ

Белова Татьяна Эдуардовна

студент, Институт Кибербезопасности и Цифровых Технологий, МИРЭА - Российский технологический университет,

РФ, г. Москва

Яремова Елизавета Васильевна

студент, Институт Кибербезопасности и Цифровых Технологий, МИРЭА - Российский технологический университет,

РФ, г. Москва

HIERARHIC DECOMPOSITION OF IMAGES USING LARGE LANGUAGE MODELS

Tatyana Belova

Student, Institute of Cybersecurity and Digital Technologies, Russian Technological University MIREA,

Russia, Moscow

Yaremova Elizaveta

Student, Institute of Cybersecurity and Digital Technologies, Russian Technological University MIREA,

Russia, Moscow

АННОТАЦИЯ

Рассмотрена проблема интерпретируемости схем анализа изображений, основанных на применении современных методов машинного обучения, преимущественно предобученных нейросетей. Рассматривается подход к решению этой проблемы путем иерархической декомпозиции и сегментации изображений с использованием больших языковых моделей

ABSTRACT

The problem of interpretability of image analysis schemes based on the use of modern machine learning methods, mainly pre-trained neural networks, is considered. An approach to solving this problem by hierarchical decomposition and segmentation of images using large language models is considered

Ключевые слова: сегментация изображений, архитектура CLIP, иерархическая декомпозиция изображений, задачи преобразования изображения в текст, большие языковые модели

Keywords: image segmentation, CLIP architecture, hierarchic image decomposition, vision-text tasks, Large Language Models (LLM)

Введение

Последние достижения в области интерпретируемых моделей, применяемых для решения задач преобразования изображений в текст их описания, позволяют говорить о конкурентном уровне качества. Однако интерпретация изображений с помощью больших языковых моделей в применяемых схемах имеет ряд недостатков, связанных с неструктурированностью текстовых описаний, которые выдают LLM. Это вносит случайные искажения в процесс интерпретации изображений и снижает как прозрачность механизма интерпретации, так и надежность, которые равно необходимы для обеспечения эффективности данных алгоритмов в составе система искусственного интеллекта (ИИ).

Для решения указанных проблем может быть использован подход иерархической декомпозиции изображений, который состоит как в сегментации изображений и интерпретации их сегментов, так и в иерархической декомпозиции описаний, создаваемых большой языковой моделью при интерпретации изображений. Такой способ повышения интерпретируемости модели может рассматриваться структурированного концептуального анализа.

Рассматриваемый подход состоит из двух основных компонентов:

(1) Использование GPT-4 для разложения входного изображения в структурированную иерархию визуальных концепций, что позволяет сформировать концептуальное дерево описания изображения.

(2) Использование ансамбля простых линейных классификаторов, которые работают с концепт-специфическими признаками, полученными при выполнении классификации с помощью архитектуры CLIP [1-4].

Данный подход не только не снижает эффективность современных интерпретируемых моделей, но и повышает прозрачность, предоставляя четкие идеи для процесса принятия решений и подчеркивая важность и взаимосвязь различных используемых концепций. Это позволяет провести детальный анализ потенциально возможных режимов отказа и улучшает компактность модели, что устанавливает новый ориентир в повышении интерпретируемости без ущерба для точности.

Рассмотрим для примера использование интерпретируемых моделей при обработке изображений и видеофайлов в экологических исследованиях, когда исследователям нужна модель для классификации видов по изображениям с камеры. Биологу, возможно, потребуется понять, какие конкретные шаблоны использует модель для идентификации определенных изображений вида животных, которым угрожает исчезновение, - основан ли вывод на различиях в цвете меха, форме тела или, возможно, на путанице элементов фона с изображением животного? Аналогичным образом, корректировка входных данных модели путем уточнения, что визуальный признак является растением, а не частью животного, может в принципе изменить его классификацию. Кроме того, если появится новая входная информация, такая как неожиданные осадки в месте съемки, при которых определенные животные меняют цвет своего меха, необходимо оценить, как это может изменить прогнозы модели. Отсутствие четкой, структурированной интерпретируемости не только препятствует эффективному взаимодействию между экспертами-людьми и системами искусственного интеллекта, но также уменьшает доверие к системам ИИ и не позволяет эффективно управлять использованием этих инструментов в динамичных реальных условиях. Это особенно важно в тех сценариях, когда на вход подаются мелкозернистые изображения, анализ которых требует выявления тонких различий между аналогичными подкатегориями изображений в рамках одной категории [5].

Существует два основных подхода к повышению интерпретируемости модели: объяснения постфактум, которые часто не отражают фактические процессы принятия решений в модели [6], и использование моделей, в которые интерпретируемая структура заложена при разработке. Модели последнего типа ограничены присущим им компромиссом между интерпретируемостью и производительностью [7]. Современные интерпретируемые модели для решения задач преобразования изображения в описательный текст используют неструктурированные и стохастические текстовые выходные данные, полученные от LLM [8-12]. Несмотря на свою эффективность, присущая случайность и отсутствие структуры могут скрыть механизм принятия решений, используемый в моделях, уменьшить удобочитаемость и усложнить процесс отладки и анализ ошибок [13]. Более того, им часто не хватает гибкости, необходимой для адаптации к сценариям, выходящим за рамки обучающих датасетов. Например, рассмотрим изображение самолета, сделанное сзади. Такие черты изображения, как лобовое стекло, не видны, что делает типичные атрибуты изображения, применяемые для идентификации подкласса, неприменимыми. Также, если самолет поврежден, стандартные визуальные индикаторы также могут оказаться неприменимыми, что подчеркивает негибкость современных интерпретируемых подходов к учету различий такого рода изображений с изображениями из обучающего датасета.

Рассматриваемый подход повышает интерпретируемость посредством иерархической декомпозиции понятий в сочетании с использованием ансамбля простых линейных классификаторов, которые легко отлаживать, а результаты их работы могут быть однозначно интерпретированы. В отличие от традиционных методов, которые генерируют случайные визуальные подсказки и выбирают из них оптимальные на основе сложных, непрозрачных метрик, предложенный алгоритм генерации концепций представляет категорию входных объектов в виде четкого иерархического дерева визуальных компонентов и связанных с ними атрибутов.

Такого рода декомпозиция предусматривает единое согласование для различных образцов (изображений), относящихся к одной и той же категории и подаваемых на вход интерпретируемой модели. При этом все пути в указанном иерархическом дереве «от корня к листу» при вычислении признаков для классификации изображений рассматриваются совместно. Такой комплексный подход обеспечивает учет, в том числе, нестандартных сценариев и сложных случаев. После этого каждый классификатор в ансамбле принимает решения на основе особенностей конкретного визуального компонента из состава иерархического дерева. Окончательный прогноз осуществляется на основе голосования с участием решений всех классификаторов.

Описанный структурированный метод не только проясняет, какие компоненты изображений являются ключевыми для классификации, но также показывает, почему определенные особенности изображений имеют решающее значение для различения положительных и отрицательных примеров изображений при принятии решения о принадлежности изображения тому или иному классу (категории), при этом повышая как прозрачность, так и надежность интерпретируемых моделей.

Структура системы представлена на рисунке 1.

Рисунок 1. Структура системы улучшения интерпретируемых моделей преобразования изображений в их текстовые описания

Рассмотрим с описанных позиций проблемы и недостатки других решений, предложенных на данный момент.

Системы преобразования изображений в тексты описаний, использующие большие языковые модели (LLM). В настоящее время имеется ряд результатов по интеграции больших языковых моделей (LLM) в задачи преобразования изображений в тексты их описаний с целью использования эффективности LLM в обработке языка для повышения производительности и интерпретируемости мультимодальных приложений.

Например, одни исследователи использовали LLM в качестве обширных баз знаний для расширения систем Visual Question Answering (VQA) [14]. Другие применили LLM для улучшения субтитров изображений в моделях VQA [15] для непосредственного решения задач VQA [16, 17]. Перспективным также представляется интеграция LLM в процедуры обучения интерпретируемых моделей с целью создания мультимодальных LLM, специально адаптированных для решения задач VQA [18, 19]. Несмотря на то, что указанные подходы демонстрируют определенную перспективность, они часто не обеспечивают четкой интерпретируемости моделей, особенно в прояснении процессов принятия решений. Более того, присущая случайность и неструктурированный характер ответов усложняют удобочитаемость, отладку и анализ ошибок этих систем [13].

Модели, в которые интерпретируемая структура заложена при разработке. Как уже отмечалось выше, для повышения интерпретируемости моделей для преобразования изображений в описывающие их тексты, не относящихся к типу VQA, используются две основные стратегии: постфактум-объяснения и модели, в которые интерпретируемая структура заложена при разработке.

Постфактум-объяснения применяются после разработки модели, как правило, с помощью различных методов генерации объяснений [20-23]. Однако эти методы не увеличивают интерпретируемость самой модели - базовая модель остается «черным ящиком», а сами постфакутм-объяснения часто процессы принятия решений в модели [6].

Напротив, модели, в которые интерпретируемая структура заложена при разработке, явно построены так, чтобы быть понятными. Важным типом моделей в этой категории являются модели, основанные на концепции «бутылочного горла» (Concept Bottleneck Models, CBMs). Эти модели используют высокоуровневые, понятные для человека, концепции в качестве промежуточного слоя. Для прогнозирования результатов модели используются линейные комбинации таких концепций. Например, в одном из вариантов CBM использовался линейный слой для интеграции оценок, полученных с помощью архитектуры CLIP с концепциями, разработанными экспертами. На выходе были получены оценки эффективности CLIP обосновании концепций [24]. Были предприняты усилия для улучшения читаемости МД людьми путем включения понятного текстового руководства [25-27]. Поскольку большие языковые модели (LLM) стали более распространенными, современные интерпретируемые зрительные языковые модели часто полагаются на стохастические и неструктурированные текстовые выходные данные от LLM, что создает новые проблемы.

Также заметным недостатком моделей типа CBM является их высокая зависимость от дорогостоящих и ненадежных аннотаций, составляемых «вручную», что обычно приводит к более низкой производительности по сравнению с более непрозрачными (т.е. менее хорошо интерпретируемыми) моделями. Одним из путей решения такой проблемы является замена традиционной базы знаний набором концепций, сгенерированным LLM, что в определенных пределах улучшило как интерпретируемость, так и производительность моделей [8].

Тем не менее, получаемые с помощью перечисленных моделей концепции описания изображений часто остаются неструктурированными и неоднозначными, что ограничивает эффективность определения как самих атрибутов изображения, относящихся к каждому классифицированному изображению, так и значений этих атрибутов для конкретных изображений – представителей подклассов (подкатегорий).

Вопрос о производительности модели остается важным, особенно для применения в системах реального времени. «Успешная» модель должна иметь производительность, сопоставимую как с интерпретируемыми моделями преобразования изображений в тексты описаний, так и с традиционными моделями классификации изображений SOTA [28, 29].

Отметим, что существует предельный уровень декомпозиции изображений в рамках рассматриваемой схемы иерархической декомпозиции, который определяется с одной стороны фактическим разрешением анализируемого (классифицируемого) изображения, а также требованиями по быстродействию системы, тем более, если речь идет о применениях данной схемы в системах реального времени. С другой стороны недостаточно детальная декомпозиция может привести к смешению подклассов и потере устойчивости модели в части выводимых результатов (прогнозов). При этом «широта» набора атрибутов может компенсировать недостаточную «глубину» представления объектов в модели.

Обратимся к формальному описанию.

Формальное описание интерпретируемой модели

Для каждой пары «изображение-метка» (i, y), где i - необработанное изображение, а y ∈ Y - подкласс из множества похожих подклассов в одном и том же домене K, сначала преобразуется необработанное изображение в представление признака x = g (i) ∈ X – множеству признаков. Затем модель классификации предсказывает метку подкласса, к которому относится изображение i: yˆ = f (x). Во время обучения целью модели является минимизация расхождения между прогнозируемым выходом и фактической меткой L(ˆy, y). Во время применения модели прогнозное значение метки подкласса yˆ используется непосредственно для классификации анализируемых изображений.

Графически формальное описание интерпретируемой модели может быть проиллюстрировано следующей схемой (рисунок 2).

Рисунок 2. Схема формального описания интерпретируемой модели преобразования изображений в тексты их описаний

В контексте классификации мелкозернистых изображений с помощью языка, где используется модель, подобная CLIP, каждая выборка дополняется текстовым описанием, образуя триплет (i, t, y). Это вводит дополнительный компонент для проектирования функций с использованием текстовых данных. Признаки изображения xi получаются с помощью кодирования изображений xi = EI (i) ∈ Rd, где d - размерность вложений изображения. Аналогично, текстовые признаки xt выводятся с помощью кодирования текста xt = Et (t) ∈ Rd, при условии, что текстовые вложения имеют ту же размерность, что и вложения изображений. Конечные признаки x формируются путем интегрирования графических и текстовых вложений, x = g (xi, xt). Этот расширенный набор признаков используется для предсказания подкласса yˆ = f (x).

Наряду с текстовыми описаниями изображений, полученных с помощью CLIP, в вектор признаков анализируемого изображения могут быть добавлены и некоторые количественные признаки, вычисляемые (оцениваемые) CLIP на некотором наборе «близких» изображений, таких, например, как «косинусное расстояние» между объектами (рисунок 3).

Рисунок 3. CLIP оценивает «косинусное расстояние» между изображениями из одного подкласса

Метод рассматриваемый в данной работе направлен на повышение как интерпретируемости, так и производительности за счет улучшения качества текстовых признаков xt и уточнения компонента моделирования f (x). Этот подход охватывает два основных элемента: декомпозицию концептуального дерева и классификацию концепций. Чтобы прояснить обсуждение, мы определяем три ключевых термина, которые широко используются в этом разделе.

Визуальная часть: Это относится к различимому физическому сегменту объекта, видимого человеческим глазом. Например, в категории собак «голова» является визуальной частью, «рот» - частью головы, а «язык» - частью рта. Это обозначается как p ∈ P, где P обозначает набор всех возможных визуальных частей для конкретной области класса.

Визуальный атрибут: Это наблюдаемые характеристики визуальной части, такие как размер, форма, цвет, материал, отделка и сложность дизайна. Например, визуальные атрибуты переднего бампера автомобиля могут включать его цвет и материал. Это обозначается как ∈ Ap, где Ap обозначает набор всех возможных визуальных атрибутов для конкретной визуальной части p.

Значение атрибута - это конкретное проявление визуального атрибута. Например, атрибут цвета основных признаков американской вороны будет черным, а атрибут формы ее глаз - округленным. Это обозначается как v ∈ Va, где V обозначает набор всех возможных визуальных атрибутов для конкретного визуального атрибута a.

Предполагается, что все подклассы имеют одинаковые визуальные части и визуальные атрибуты и различаются значениями атрибутов. Поэтому все подклассы совместно используют один и тот же P и один и тот же набор Ap для каждого p ∈ P.

Сегментация изображений

Традиционная сегментация изображения требует явных целевых объектов или предварительного определения категорий для классификации на пиксельном уровне. Однако широкий спектр приложений для практического использования в реальном мире требует, чтобы система сегментации понимала и взаимодействовала с более сложными человеческими инструкциями Это важно для использования в таких технических системах как домашние роботы [30], самоуправляемые технологические комплексы [31] и дополненная реальность [32].

В последние годы разработка предварительно обученных на языке зрения моделей, таких как CLIP, позволила перейти от сегментации изображений с закрытым набором категорий, когда объекты должны принадлежать к заранее определенному набору категорий, к сегментации с открытым словарем, позволяющей адаптироваться к неизвестным категориям.

Объединяя текст и изображение в одни и те же пространства признаков, эти модели значительно снижают затраты на обучение по новым наборам данных, тем самым расширяя применимость задач сегментации изображений. Тем не менее, объем сегментации по открытому словарю остается ограниченным словарным запасом или уровнем фразы, не позволяя понять длинные и сложные текстовые подсказки.

Недавний успех больших языковых моделей (LLM) [33-37] открывает новые возможности для определения цели сегментации. Современные модели LLM, такие как ChatGPT и LLama [38], демонстрируют невероятные способности к рассуждениям и могут отвечать на сложные вопросы. Чтобы перенести способность LLM к рассуждениям на сегментацию изображений, в [39] предложена сегментация с рассуждениями.

Эта новая задача сегментации изображений требует от модели сегментировать объект на основе вопроса, заданного человеком. Сегментации на основе рассуждений - более сложная задача, поскольку она требует усиленной способности к рассуждению для определения цели сегментации, а также нечеткой гранулярности цели. Однако применение сегментации на основе рассуждений является более широким и динамичным.

В этой работе предлагается LLM-Seg: двухэтапный метод, который объединяет языковую модель зрения (VLM) и базовые модели зрения. Данный метод определяется как двухэтапный, потому что он разделяет процессы быстрого понимания и сегментация изображения. В LLM-Seg замороженный сегмент Anything Model используется для генерации серии предложений масок.

В данной работе используется LLaVA, который является одним из самых современных VLM, для получения запроса от пользователя и выбора из предложений по маске. Применяется двухэтапный метод, а не сквозной метод, как в [39], по следующим причинам. Во-первых, модели фундамента текущего видения, на примере модели Segment Anything Model (SAM) [40], были обучены с использованием обширных наборов данных и значительных ресурсов GPU.

Следовательно, точная настройка таких моделей с ограниченными данными может нанести ущерб их производительности и общности. Во-вторых, двухэтапный метод более гибок в выборе компонентов. Наконец, разделение части рассуждений и сегментации может упростить цель обучения, что приведет к ускорению сходимости в процессе обучения.

Одной из проблем для исследования сегментации рассуждений является нехватка наборов данных. В ответ на эту проблему дополнительно предлагается новый метод, который использует ChatGPT-4 для обработки существующей семантической сегментации наборы данных и автоматически генерировать набор данных, адаптированный для рассуждения сегментации. Использование API ChatGPT-4 позволяет генерировать качественные вопросы для обучения и оценка. Кроме того, повторное использование существующих наборов данных семантической сегментации облегчает бремя аннотирования новых изображений, и обеспечивает высокое качество исходных данных для набора данных.

На основе LLM-Seg, нового двухэтапного метода, адаптированного для задачи сегментации рассуждений, была разработана недорогая и эффективная технология конвейера генерация данных для сегментации рассуждений, с использованием передовых возможностей ChatGPT-4.

Схема двухэтапного процесса сегментации представлена на рисунке 4.

Рисунок 4. Структура модели LLM-Seg

Декомпозиция концептуального дерева класса изображений

Данный подход разлагает произвольную категорию (класс) объектов в концептуальное дерево, где каждый промежуточный узел соответствует визуальной части рассматриваемой категории, каждый конечный узел представляет значение визуального атрибута, относящееся к его родительскому визуальному атрибуту, и каждый узел визуального атрибута соединяет свою родительскую визуальную часть и соответствующее дочернее значение. Процесс декомпозиции разворачивается в три последовательных шага:

Декомпозиция визуальных частей. Начиная с заданной предметной области K, используется GPT-4 для создания иерархического расположения всех возможных визуальных частей объекта посредством запроса нулевого снимка, обозначаемого как P = LLMzero (K). Затем эта иерархия форматируется и сохраняется в структуре JSON, где каждый узел обозначает визуальную часть, идентифицированную GPT-4.

Генерация визуальных атрибутов. Для каждой визуальной части, идентифицированной p ∈ P, используется GPT-4 для перечисления 3-7 соответствующих визуальных атрибутов с помощью подсказки «несколько снимков», обозначаемой как Ap = LLMfole (p,Mp→a), где Mp→a состоит из трех фиксированных примеров сопоставления частичек для согласованности и разнообразия. Этот этап не только определяет общие атрибуты, такие как размер, форма и цвет, но и конкретные, такие как светимость, непрозрачность и толщина. Цель состоит в том, чтобы охватить разнообразные атрибуты, увеличив богатство концептуального дерева.

На этом заключительном этапе присваиваются значения атрибутов каждому визуальному атрибуту ∈ Ap каждой визуальной части p ∈ P каждого конкретного подкласса y ∈ Y, обозначенного как V y a = LLMcrit (a, p, y). Используя запрос самокритики, который включает в себя последовательность из трех критических запросов, уточняются следующие назначения:

1. Логические отношения: определяется, следует ли объединять несколько значений атрибутов с помощью логических операторов (AND/OR). Например, если мех кошки описывается как «черный И белый», значение атрибута подразумевает наличие обоих цветов одновременно. Однако, если он описывается как «черный ИЛИ белый», то любой цвет удовлетворяет этому условию, поэтому эту фразу следует разделить на два листовых узла.

2. Согласованность значений атрибутов: Чтобы обеспечить совместимость с кодером текста CLIP, который отличается обработкой различных тегов Part-Of-Speech (POS), стандартизируются значения атрибутов нескольких слов и существительных в атрибутивный формат «of», в то время как прилагательные к одному слову остаются неизменными.

3. Сокращение избыточности: тщательно изучается список атрибутов, чтобы исключить любые повторения, которые могут смещать модель, гарантируя, что каждый визуальный атрибут и его значения представлены уникально.

После завершения этих шагов преобразуется каждый путь от корня к листу в когерентное описание на естественном языке, обозначенное как h (y, p, a, v) ∈ CK, где CK ⊂ C - подмножество всех визуальных подсказок для проблемной области, генерируемой GPT-4. Стоит отметить, что невозможно получить полный набор визуальных подсказок C. Затем кодируется каждая визуальная подсказка с помощью кодирования текста CLIP ET и сохраняются вложения xt = ET (h (y, p, a, v)) для последующих задач классификации. Хотя деревья в пределах одной категории объектов имеют общие структурные сходства, они отличаются уникальными значениями атрибутов.

Заключение

В работе рассмотрен метод, который включает структурированную иерархическую декомпозицию изображений, с использованием их сегментации, и декомпозицию понятий, на которых основано текстовое описание изображений. Для дополнительного улучшения процессов принятия решений в визуальных языковых моделях целесообразно использовать ансамбль линейных классификаторов для выходных данных иерархической декомпозиции.

Список литературы:

Нейронная Сеть CLIP от OpenAI: Классификатор, который не нужно обучать [Электронный ресурс] // Хабр: сайт. – URL: https://habr.com/ru/articles/539312/ (дата обращения: 13.06.2024).
CLIP from OpenAI: what is it and how you can try it out yourself [Электронный ресурс] // Хабр: сайт. – URL: https://habr.com/ru/articles/537334/ (дата обращения: 13.06.2024).
ruCLIP — мультимодальная модель для русского языка [Электронный ресурс] // Хабр: сайт. – URL: https://habr.com/ru/companies/sberdevices/articles/564440/ (дата обращения: 13.06.2024).
Кластеризация изображений с помощью нейросети CLIP [Электронный ресурс] // Хабр: сайт. – URL: https://habr.com/ru/companies/funcorp/articles/645191/ (дата обращения: 13.06.2024).
Xiaoge Zhang, Felix TS Chan, and Sankaran Mahadevan. (2022) [Электронный ресурс]. Explainable machine learning in image classification models: An uncertainty quantification perspective. Knowledge-Based Systems, 243:108418. URL: https://www.sciencedirect.com/science/article/abs/pii/S095070512200168X (дата обращения: 13.06.2024).
Cynthia Rudin. (2019) [Электронный ресурс]. Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nature machine intelligence, 1(5):206–215. URL: https://www.nature.com/articles/s42256-019-0048-x (дата обращения: 13.06.2024).
Alicja Gosiewska, Anna Kozak, and Przemysław Biecek. (2021) [Электронный ресурс]. Simpler is better: Lifting interpretability-performance trade-off via automated feature engineering. Decision Support Systems, 150:113556. URL: https://www.sciencedirect.com/science/article/pii/S016792362100066X (дата обращения: 13.06.2024).
Yue Yang, Artemis Panagopoulou, Shenghao Zhou, Daniel Jin, Chris Callison-Burch, and Mark Yatskar. 2023 [Электронный ресурс]. Language in a bottle: Language model guided concept bottlenecks for interpretable image classification. URL: https://arxiv.org/abs/2211.11158 (дата обращения: 13.06.2024).
Sarah Pratt, Ian Covert, Rosanne Liu, and Ali Farhadi. (2023) [Электронный ресурс]. What does a platypus look like? generating customized prompts for zero-shot image classification. URL: https://arxiv.org/abs/2209.03320 (дата обращения: 13.06.2024).
Mingxuan Liu, Subhankar Roy, Wenjing Li, Zhun Zhong, Nicu Sebe, and Elisa Ricci. (2024) [Электронный ресурс]. Democratizing fine-grained visual recognition with large language models. URL: https://arxiv.org/html/2401.13837v1 (дата обращения: 13.06.2024).
Chandan Singh, Jeevana Priya Inala, Michel Galley, Rich Caruana, and Jianfeng Gao. (2024) [Электронный ресурс]. Rethinking interpretability in the era of large language models. URL: https://arxiv.org/html/2402.01761v1 (дата обращения: 13.06.2024).
Gabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla, Estelle Aflalo, Chenfei Wu, Nan Duan, Shao-Yen Tseng, and Vasudev Lal. (2024) [Электронный ресурс]. Lvlm-intrepret: An interpretability tool for large visionlanguage models. URL: https://arxiv.org/html/2404.03118v1(дата обращения: 13.06.2024).
Yue Zhang, Yafu Li, Leyang Cui, Deng Cai, Lemao Liu, Tingchen Fu, Xinting Huang, Enbo Zhao, Yu Zhang, Yulong Chen, et al. (2023) [Электронный ресурс]. Siren’s song in the ai ocean: a survey on hallucination in large language models. URL: https://arxiv.org/abs/2309.01219 (дата обращения: 13.06.2024).
Xingyu Fu, Sheng Zhang, Gukyeong Kwon, Pramuditha Perera, Henghui Zhu, Yuhao Zhang, Alexander Hanbo Li, William Yang Wang, Zhiguo Wang, Vittorio Castelli, et al. (2023) [Электронный ресурс]. Generate then select: Open-ended visual question answering guided by world knowledge. URL: https://arxiv.org/abs/2305.18842 (дата обращения: 13.06.2024).
Yifan Du, Junyi Li, Tianyi Tang, Wayne Xin Zhao, and Ji-Rong Wen. (2023) [Электронный ресурс]. Zero-shot visual question answering with language model feedback. URL: https://arxiv.org/abs/2305.17006 (дата обращения: 13.06.2024).
Dídac Surís, Sachit Menon, and Carl Vondrick. (2023) [Электронный ресурс]. Vipergpt: Visual inference via python execution for reasoning. URL: https://arxiv.org/abs/2303.08128 (дата обращения: 13.06.2024).
Sanjay Subramanian, Medhini Narasimhan, Kushal Khangaonkar, Kevin Yang, Arsha Nagrani, Cordelia Schmid, Andy Zeng, Trevor Darrell, and Dan Klein. (2023) [Электронный ресурс]. Modular visual question answering via code generation. URL: https://arxiv.org/abs/2306.05392 (дата обращения: 13.06.2024).
Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. (2023) [Электронный ресурс]. Blip-2: Bootstrapping language-image pretraining with frozen image encoders and large language models. URL: https://arxiv.org/abs/2301.12597 (дата обращения: 13.06.2024).
Wenbo Hu, Yifan Xu, Y Li, W Li, Z Chen, and Z Tu. (2023) [Электронный ресурс]. Bliva: A simple multimodal llm for better handling of text-rich visual questions. URL: https://arxiv.org/abs/2308.09936 (дата обращения: 13.06.2024).
Lisa Anne Hendricks, Zeynep Akata, Marcus Rohrbach, Jeff Donahue, Bernt Schiele, and Trevor Darrell. (2016) [Электронный ресурс]. Generating visual explanations. URL: https://arxiv.org/abs/1603.08507 (дата обращения: 13.06.2024).
Jinkyu Kim, Anna Rohrbach, Trevor Darrell, John Canny, and Zeynep Akata. (2018) [Электронный ресурс]. Textual explanations for self-driving vehicles. URL: https://arxiv.org/abs/1807.11546 (дата обращения: 13.06.2024).
Kosuke Nishida, Kyosuke Nishida, and Shuichi Nishioka. (2022) [Электронный ресурс]. Improving few-shot image classification using machine-and user-generated natural language descriptions. URL: https://arxiv.org/abs/2207.03133 (дата обращения: 13.06.2024).
Chandan Singh, John X Morris, Jyoti Aneja, Alexander M Rush, and Jianfeng Gao. (2022) [Электронный ресурс]. Explaining patterns in data with language models via interpretable autoprompting. URL: https://arxiv.org/abs/2210.01848 (дата обращения: 13.06.2024).
Usha Bhalla. (2022) [Электронный ресурс]. Do vision-language pretrained models learn primitive concepts? URL: https://arxiv.org/abs/2203.17271 (дата обращения: 13.06.2024).
Sebastian Bujwid and Josephine Sullivan. (2021) [Электронный ресурс]. Largescale zero-shot image classification from rich and diverse textual descriptions. URL: https://arxiv.org/abs/2103.09669 (дата обращения: 13.06.2024).
Karsten Roth, Oriol Vinyals, and Zeynep Akata. (2022) [Электронный ресурс]. Integrating language guidance into vision-based deep metric learning. URL: https://arxiv.org/abs/2203.08543 (дата обращения: 13.06.2024).
Sheng Shen, Chunyuan Li, Xiaowei Hu, Yujia Xie, Jianwei Yang, Pengchuan Zhang, Zhe Gan, Lijuan Wang, Lu Yuan, Ce Liu, et al. (2022) [Электронный ресурс]. K-lite: Learning transferable visual models with external knowledge. URL: https://arxiv.org/abs/2204.09222 (дата обращения: 13.06.2024).
SOTA Image Classification Models in PyTorch. URL: https://github.com/sithu31296/sota-backbones (дата обращения: 13.06.2024).
A. Kolesnikov et al. (2019) [Электронный ресурс] Large scale learning of general visual representations for transfer. URL: https://arxiv.org/abs/1912.11370 (дата обращения: 13.06.2024).
Yong Li, Zhiqiang Guo, Feng Shuang, Man Zhang, and Xiuhua Li. (2022) [Электронный ресурс]. Key technologies of machine vision for weeding robots: A review and benchmark. Computers and Electronics in Agriculture, 196:106880. URL: https://www.sciencedirect.com/science/article/abs/pii/S0168169922001971 (дата обращения: 13.06.2024).
Di Feng, Christian Haase-Schutz, Lars Rosenbaum, Heinz ¨Hertlein, Claudius Glaeser, Fabian Timm, Werner Wiesbeck, and Klaus Dietmayer. (2020) [Электронный ресурс]. Deep multi-modal object detection and semantic segmentation for autonomous driving: Datasets, methods, and challenges. URL: https://arxiv.org/abs/1902.07830 (дата обращения: 13.06.2024).
Tae-young Ko and Seung-ho Lee. (2020) [Электронный ресурс]. Novel method of semantic segmentation applicable to augmented reality. URL: https://www.mdpi.com/1424-8220/20/6/1737 (дата обращения: 13.06.2024).
Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Merouane Debbah, Etienne Goffinet, Daniel Hesslow, Julien Launay, Quentin Malartic, et al. (2023) [Электронный ресурс]. The falcon series of open language models. URL: https://arxiv.org/abs/2311.16867 (дата обращения: 13.06.2024).
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, et al. (2022) [Электронный ресурс]. Constitutional ai: Harmlessness from ai feedback. URL: https://arxiv.org/abs/2212.08073 (дата обращения: 13.06.2024).
Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. (2020) [Электронный ресурс]. Language models are few-shot learners. URL: https://arxiv.org/abs/2005.14165 (дата обращения: 13.06.2024).
Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. (2023) [Электронный ресурс]. Palm: Scaling language modeling with pathways. URL: https://arxiv.org/abs/2204.02311 (дата обращения: 13.06.2024).
Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothee Lacroix, Baptiste Roziere, Naman Goyal, Eric Hambro, Faisal Azhar, et al. (2023) [Электронный ресурс]. Llama: Open and efficient foundation language models. URL: https://arxiv.org/abs/2302.13971 (дата обращения: 13.06.2024).
Chenchen Zhu, Fanyi Xiao, Andres Alvarado, Yasmine Babaei, Jiabo Hu, Hichem El-Mohri, Sean Culatana, Roshan Sumbaly, and Zhicheng Yan. (2023) [Электронный ресурс]. Egoobjects: A large-scale egocentric dataset for fine-grained object understanding. URL: https://arxiv.org/abs/2309.08816 (дата обращения: 13.06.2024).
in Lai, Zhuotao Tian, Yukang Chen, Yanwei Li, Yuhui Yuan, Shu Liu, and Jiaya Jia. (2023) [Электронный ресурс]. Lisa: Reasoning segmentation via large language model. URL: https://arxiv.org/abs/2308.00692 (дата обращения: 13.06.2024).
Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. (2023) [Электронный ресурс]. Segment anything. URL: https://arxiv.org/abs/2305.00278 (дата обращения: 13.06.2024).

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

ИЕРАРХИЧЕСКАЯ ДЕКОМПОЗИЦИЯ ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ

Оставить комментарий