Статья опубликована в рамках: Научного журнала «Студенческий» № 17(355)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Гусев А.И. ИСПОЛЬЗОВАНИЕ ГИБРИДНОГО ПАЙПЛАЙНА ДЛЯ АУДИТА И ОЦЕНКИ ДОВЕРИЯ К РЕЗУЛЬТАТАМ КЛАССИФИКАЦИИ ФЕЙКОВЫХ НОВОСТЕЙ // Студенческий: электрон. научн. журн. 2026. № 17(355). URL: https://sibac.info/journal/student/355/414889 (дата обращения: 25.07.2026).

ИСПОЛЬЗОВАНИЕ ГИБРИДНОГО ПАЙПЛАЙНА ДЛЯ АУДИТА И ОЦЕНКИ ДОВЕРИЯ К РЕЗУЛЬТАТАМ КЛАССИФИКАЦИИ ФЕЙКОВЫХ НОВОСТЕЙ

Гусев Александр Игоревич

магистрант, кафедра бизнес-информатики, Уральский Государственный Экономический Университет,

РФ, г. Екатеринбург

USING A HYBRID PIPELINE FOR AUDITING AND TRUST ESTIMATION OF FAKE NEWS CLASSIFICATION RESULTS

Gusev Alexander Igorevich

Master's student, Department of Business Informatics, Ural State University of Economics,

Russia, Yekaterinburg

АННОТАЦИЯ

В статье рассматривается практический прототип сопровождения результатов классификации фейковых новостей, ориентированный на выявление ненадежных и требующих ручной проверки решений. Актуальность работы связана с тем, что высокая точность ML-классификатора может быть обусловлена не только содержательными различиями между достоверными и недостоверными текстами, но и артефактами данных: маркерами источника, особенностями заголовков, стилем и форматированием. Реализованный гибридный pipeline включает baseline-модели классификации, локальную интерпретацию вклада признаков, диагностические rule-based слои и meta-aggregation механизм оценки доверия. Практическая ценность подхода состоит в использовании результатов проекта для аудита модели, обнаружения нежелательных зависимостей и повышения прозрачности пользовательского вывода.

ABSTRACT

The paper presents a practical prototype for supporting fake news classification results, focused on detecting unreliable decisions that require manual review. High accuracy of an ML classifier on a news corpus may be caused not only by meaningful differences between reliable and unreliable texts, but also by dataset artifacts such as source markers, title-specific features, style, and formatting. The implemented hybrid pipeline includes baseline classification models, local feature contribution interpretation, diagnostic rule-based layers, and a meta-aggregation mechanism for trust estimation. The practical value of the work lies in using project artifacts for model auditing, artifact detection, and improving transparency of user-facing outputs.

Ключевые слова: фейковые новости, машинное обучение, классификация текста, интерпретируемость, аудит модели, оценка доверия, meta-aggregation.

Keywords: fake news, machine learning, text classification, interpretability, model audit, trust estimation, meta-aggregation.

Введение

Распространение фейковых новостей является одной из значимых проблем современной цифровой среды. Недостоверные публикации могут влиять на общественное мнение, искажать восприятие событий и затруднять работу пользователей с информационными потоками. В связи с этим возрастает интерес к автоматическим методам анализа новостных текстов, в том числе к применению машинного обучения для классификации сообщений по признаку достоверности.

Практическое использование таких моделей связано с ограничениями. Высокая точность на тестовой выборке не всегда означает, что классификатор действительно научился отличать достоверный текст от недостоверного. В ряде случаев модель может опираться на побочные признаки корпуса: маркеры источника, стиль публикации, особенности заголовков, технические элементы текста или форматирование. Поэтому для практического применения важен не только итоговый вердикт модели, но и понимание того, какие признаки повлияли на решение и насколько этому решению можно доверять.

Цель работы - показать, как наработки проекта по классификации фейковых новостей могут быть использованы для практической пользы: аудита модели, обнаружения нежелательных зависимостей от признаков корпуса, повышения прозрачности пользовательского вывода и предварительной оценки надежности автоматического решения.

1. Теоретическая основа и используемые подходы

Задача классификации фейковых новостей относится к области обработки естественного языка и машинного обучения. В современных исследованиях она рассматривается не только как бинарная классификация текста, но и как более широкая задача анализа информационного сообщения: содержания, стиля подачи, источника публикации и дополнительных метаданных [1].

Для повышения прозрачности моделей применяются методы локальной интерпретации. LIME строит интерпретируемое приближение поведения модели в окрестности конкретного объекта, а SHAP оценивает вклад признаков в предсказание на основе аддитивной схемы важности [2; 3]. В данной работе эта идея используется через локальное разложение вкладов признаков линейной гибридной модели.

При этом важно различать два типа объяснения. Первый тип - объяснение решения ML-модели: какие признаки повлияли на конкретное предсказание. Второй тип - независимая диагностическая оценка текста: наличие эмоциональной лексики, слабой аргументации, неясной временной привязки или недостаточной источниковой опоры. Диагностические rule-based слои не объясняют внутреннюю механику модели, а выполняют дополнительный аудит результата. Такой подход согласуется с требованием уделять внимание не только численной точности, но и ограничениям модели в ответственных задачах [4].

2. Проблема высокой точности и артефактов данных

На первом этапе проекта были объединены исходные наборы Fake.csv и True.csv, выполнена очистка текста, нормализация полей и расчет инженерных признаков. После объединения корпус включал 44 898 записей: 23 481 запись класса fake и 21 417 записей класса true. Первичный анализ выявил признаки утечки источника и стиля: маркер Reuters встречался примерно у 99,82% новостей класса true, а Twitter-маркеры - у 26,06% новостей класса fake и только у 1,31% класса true.

Рисунок 1. Частота leakage-маркеров по классам

Эти наблюдения принципиально важны: если один маркер источника почти полностью связан с одним классом, классификатор может получить высокую точность, фактически распознавая источник, стиль или формат публикации. Поэтому высокая accuracy на таком корпусе не может быть единственным доказательством качества детекции.

В качестве baseline были обучены несколько моделей: tfidf_raw_text, tfidf_debiased_text, feature_only, style_only, hybrid и hybrid_style. Основные результаты приведены в таблице 1.

Таблица 1.

Основные baseline-результаты

Модель	Accuracy	F1	ROC-AUC	Назначение
tfidf_raw_text	0,9914	0,9918	0,9993	Сырой текстовый baseline
tfidf_debiased_text	0,9877	0,9883	0,9989	Проверка после удаления явных source-маркеров
style_only	0,8982	0,9005	0,9511	Оценка силы стилевых признаков
hybrid	0,9964	0,9966	0,9995	Сильный reference baseline
hybrid_style	0,9896	0,9901	0,9992	Модель для локальной интерпретации

Результаты показывают, что задача хорошо решается на выбранном корпусе, однако выявленные артефакты требуют дополнительного аудита. Поэтому дальнейший фокус был смещен с максимизации точности на интерпретацию и оценку доверия к решениям.

3. Общая идея гибридного pipeline

Предлагаемый pipeline разделяет две задачи: классификацию и сопровождение решения. Классификатор отвечает на вопрос, к какому классу вероятнее относится текст: fake или true. Дополнительные модули отвечают на другой вопрос: насколько это решение понятно, устойчиво и заслуживает доверия.

Рисунок 2. Общая схема гибридного pipeline

Локальная интерпретация признаков объясняет вклад факторов в решение ML-модели. Диагностические rule-based слои выполняют независимую проверку текста по заранее заданным критериям: риторика, структура, временной контекст и источниковая опора. Meta-aggregation не является новым классификатором, а служит механизмом triage: он определяет, можно ли оставить решение в автоматическом потоке или нужно передать его на ручную проверку.

Таблица 2.

Роль компонентов pipeline

Компонент	Функция	Корректная интерпретация
ML-классификатор	Вероятность fake/true	Основной статистический прогноз
Локальная интерпретация	Вклад признаков	Объяснение конкретного решения модели
Диагностические слои	Проверка свойств текста	Независимые rule-based индикаторы риска
Prediction protocol	Единый отчет	Человекочитаемый формат анализа
Meta-aggregation	Оценка trust	Отбор надежных и спорных случаев

4. Локальная интерпретация и prediction protocol

После baseline-этапа был реализован модуль локальной интерпретации. Его задача - показать, какие признаки подтолкнули линейную модель к решению в сторону fake или true. Для этого была выбрана модель hybrid_style, поскольку она сочетает текстовые и стилевые признаки и позволяет явно разложить вклад факторов.

Список вкладов признаков сам по себе неудобен для пользователя. Поэтому был введен prediction protocol - структурированный отчет по одной новости. В него входят метаданные, итоговое решение модели, категория уверенности, вероятности классов, доминирующая группа сигналов, ключевые признаки в сторону fake и true, флаги риска, рекомендуемые проверки и краткое текстовое заключение.

Рисунок 3. Структура prediction protocol

Практическая ценность протокола особенно заметна на ошибочных и пограничных примерах. В одном из ошибочных случаев модель предсказала likely_fake с высокой уверенностью, хотя истинный класс был true; при этом доминировали стилевые сигналы, а среди risk flags были style_dominant_decision, many_questions и style_bias_possible. Такой протокол не исправляет ошибку автоматически, но показывает, где результат может быть сомнительным.

5. Диагностические rule-based слои

Для независимой диагностики текста были реализованы четыре rule-based слоя: semantic_expert, structure_expert, temporal_expert и source_fact_expert. Semantic-слой анализирует эмоциональность, категоричность, конспирологические и сенсационные маркеры. Structure-слой оценивает аргументационную форму: наличие цитат, чисел, дат и признаков обоснования. Temporal-слой проверяет временные якоря, дату публикации и относительные временные указания. Source/fact-слой анализирует прослеживаемость источников, именованные институции, цитаты и фактографическую плотность.

Важно подчеркнуть, что эти слои не являются самостоятельными детекторами истины. Структурно развитый текст не обязательно достоверен, а наличие временных маркеров не доказывает истинность события. Их роль - выделять диагностические сигналы, которые помогают понять, почему автоматическое решение может быть более или менее надежным.

Рисунок 4. Диагностические rule-based слои анализа текста

Например, на корпусном аудите semantic risk для класса fake был заметно выше, чем для класса true. Source/factographic слой также показал полезность признака слабой прослеживаемости источников: low_traceable_attribution чаще встречался у fake-текстов. Эти результаты следует рассматривать как диагностические наблюдения, а не как доказательство истинности или ложности конкретной новости.

6. Meta-aggregation как механизм triage

Ключевым элементом pipeline стал meta_aggregator. Он не заменяет классификатор и не пытается заново предсказать класс новости. Его задача - оценить согласованность статистического прогноза и диагностических сигналов, а затем определить уровень доверия к решению.

В итоговом протоколе использовались статусы confirmed_fake, confirmed_true, provisionally_fake, provisionally_true и needs_manual_review. Если модель и диагностические слои согласованы, решение может быть подтверждено. Если возникает конфликт, низкая уверенность или caution flags, случай направляется на ручную проверку.

Рисунок 5. Trust-aware funnel

Результаты meta-aggregation следует интерпретировать как selective evaluation, а не как обычную accuracy всей системы. Метрика non_reviewed_accuracy показывает качество только на том подмножестве случаев, которое система не отправила на ручную проверку. Поэтому она должна рассматриваться вместе с meta_review_rate.

Таблица 3.

Результаты meta-aggregation

Показатель	Значение	Интерпретация
Accuracy модели	0,9896	Базовое качество классификатора
Meta review rate	0,3254	Доля случаев, отправленных на ручную проверку
Error review capture rate	0,8172	Доля ошибок, перехваченных как review-кейсы
Non-reviewed accuracy	0,9972	Accuracy только на автоматическом подмножестве
High-trust accuracy	0,9997	Accuracy среди наиболее надежных решений

Практический смысл результата состоит не в том, что система увеличила общую точность модели. Корректнее сказать, что pipeline выделяет более надежное подмножество автоматических решений и эскалирует значительную часть ошибок на ручную проверку.

7. Русскоязычный контур и ограничения переноса

Отдельным направлением стала подготовка русскоязычного и мультиязычного контура. Важно не смешивать его с полным англоязычным diagnostic pipeline: в текущей версии русский пользовательский ввод использует baseline-модели и облегченные элементы интерпретации, но не полный набор англоязычных rule-based слоев. Это решение было принято сознательно, поскольку прямой перенос semantic, temporal и source rules на русский язык был бы методически слабым.

Русскоязычные эксперименты показали, что одного общего значения accuracy недостаточно. Корпус состоял из разных источников и разных типов записей, включая короткие заголовки и более развернутые тексты. Cross-source результаты 0,5972 и 0,5606 при переносе между источниками показывают выраженный domain shift: модель, обученная на одном источнике, плохо переносится на другой.

Рисунок 6. Русский domain shift

В ходе пользовательского тестирования была также выявлена чрезмерная чувствительность русского article-маршрута к длине заголовка. Для одного и того же текста изменение заголовка могло заметно изменить итоговую вероятность класса; анализ показал сильное влияние признаков title_char_count и title_word_count. После этого продуктовый article-маршрут был переведен на более устойчивую text-first модель, что снизило зависимость решения от косвенных заголовочных признаков.

Заключение

В работе представлен гибридный pipeline для аудита и оценки доверия к результатам классификации фейковых новостей. Основной акцент сделан не на создании универсального автоматического фактчекинга, а на практическом сопровождении ML-классификатора: выявлении артефактов данных, локальной интерпретации признаков, диагностике текстовых риск-сигналов и отправке спорных случаев на ручную проверку.

Проведенный анализ показал, что высокая accuracy на исходном корпусе может быть связана с утечками источника и стилевыми особенностями данных. Rule-based слои не объясняют внутреннюю логику ML-модели, а выполняют независимую диагностическую функцию. Наиболее значимым результатом стала работа meta-aggregation: при review rate 32,54% система перехватывала 81,72% ошибок модели как случаи, требующие ручной проверки.

Для русскоязычного контура были выявлены дополнительные ограничения: выраженный domain shift между источниками и чувствительность к заголовочным признакам. Практическим итогом стала корректировка пользовательского article-маршрута в сторону text-first модели. Дальнейшее развитие работы связано с адаптацией диагностических слоев для русского языка, подключением retrieval/fact-check механизма и проверкой моделей на независимых корпусах.

Список литературы:

Zhou X., Zafarani R. A Survey of Fake News: Fundamental Theories, Detection Methods, and Opportunities // ACM Computing Surveys. 2020. Vol. 53, № 5. Article 109. DOI: 10.1145/3395046.
Ribeiro M. T., Singh S., Guestrin C. “Why Should I Trust You?”: Explaining the Predictions of Any Classifier // Proceedings of NAACL-HLT 2016: Demonstrations. 2016. P. 97–101. DOI: 10.18653/v1/N16-3020.
Lundberg S. M., Lee S.-I. A Unified Approach to Interpreting Model Predictions // Advances in Neural Information Processing Systems. 2017. Vol. 30.
Rudin C. Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead // Nature Machine Intelligence. 2019. Vol. 1. P. 206–215. DOI: 10.1038/s42256-019-0048-x.
Shu K., Mahudeswaran D., Wang S., Lee D., Liu H. FakeNewsNet: A Data Repository with News Content, Social Context, and Spatiotemporal Information for Studying Fake News on Social Media // Big Data. 2020. Vol. 8, № 3. P. 171–188. DOI: 10.1089/big.2020.0062.
D’Ulizia A., Caschera M. C., Ferri F., Grifoni P. Fake news detection: a survey of evaluation datasets // PeerJ Computer Science. 2021. Vol. 7. e518. DOI: 10.7717/peerj-cs.518.
Назаров Д. М., Бегичева С. В., Ковтун Д. Б., Назаров А. Д. Data Science и интеллектуальный анализ данных: учебное пособие. М.: Ай Пи Ар Медиа, 2023. 304 c.