Статья опубликована в рамках: Научного журнала «Студенческий» № 17(355)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
ИСПОЛЬЗОВАНИЕ ГИБРИДНОГО ПАЙПЛАЙНА ДЛЯ АУДИТА И ОЦЕНКИ ДОВЕРИЯ К РЕЗУЛЬТАТАМ КЛАССИФИКАЦИИ ФЕЙКОВЫХ НОВОСТЕЙ
USING A HYBRID PIPELINE FOR AUDITING AND TRUST ESTIMATION OF FAKE NEWS CLASSIFICATION RESULTS
Gusev Alexander Igorevich
Master's student, Department of Business Informatics, Ural State University of Economics,
Russia, Yekaterinburg
АННОТАЦИЯ
В статье рассматривается практический прототип сопровождения результатов классификации фейковых новостей, ориентированный на выявление ненадежных и требующих ручной проверки решений. Актуальность работы связана с тем, что высокая точность ML-классификатора может быть обусловлена не только содержательными различиями между достоверными и недостоверными текстами, но и артефактами данных: маркерами источника, особенностями заголовков, стилем и форматированием. Реализованный гибридный pipeline включает baseline-модели классификации, локальную интерпретацию вклада признаков, диагностические rule-based слои и meta-aggregation механизм оценки доверия. Практическая ценность подхода состоит в использовании результатов проекта для аудита модели, обнаружения нежелательных зависимостей и повышения прозрачности пользовательского вывода.
ABSTRACT
The paper presents a practical prototype for supporting fake news classification results, focused on detecting unreliable decisions that require manual review. High accuracy of an ML classifier on a news corpus may be caused not only by meaningful differences between reliable and unreliable texts, but also by dataset artifacts such as source markers, title-specific features, style, and formatting. The implemented hybrid pipeline includes baseline classification models, local feature contribution interpretation, diagnostic rule-based layers, and a meta-aggregation mechanism for trust estimation. The practical value of the work lies in using project artifacts for model auditing, artifact detection, and improving transparency of user-facing outputs.
Ключевые слова: фейковые новости, машинное обучение, классификация текста, интерпретируемость, аудит модели, оценка доверия, meta-aggregation.
Keywords: fake news, machine learning, text classification, interpretability, model audit, trust estimation, meta-aggregation.
Введение
Распространение фейковых новостей является одной из значимых проблем современной цифровой среды. Недостоверные публикации могут влиять на общественное мнение, искажать восприятие событий и затруднять работу пользователей с информационными потоками. В связи с этим возрастает интерес к автоматическим методам анализа новостных текстов, в том числе к применению машинного обучения для классификации сообщений по признаку достоверности.
Практическое использование таких моделей связано с ограничениями. Высокая точность на тестовой выборке не всегда означает, что классификатор действительно научился отличать достоверный текст от недостоверного. В ряде случаев модель может опираться на побочные признаки корпуса: маркеры источника, стиль публикации, особенности заголовков, технические элементы текста или форматирование. Поэтому для практического применения важен не только итоговый вердикт модели, но и понимание того, какие признаки повлияли на решение и насколько этому решению можно доверять.
Цель работы - показать, как наработки проекта по классификации фейковых новостей могут быть использованы для практической пользы: аудита модели, обнаружения нежелательных зависимостей от признаков корпуса, повышения прозрачности пользовательского вывода и предварительной оценки надежности автоматического решения.
1. Теоретическая основа и используемые подходы
Задача классификации фейковых новостей относится к области обработки естественного языка и машинного обучения. В современных исследованиях она рассматривается не только как бинарная классификация текста, но и как более широкая задача анализа информационного сообщения: содержания, стиля подачи, источника публикации и дополнительных метаданных [1].
Для повышения прозрачности моделей применяются методы локальной интерпретации. LIME строит интерпретируемое приближение поведения модели в окрестности конкретного объекта, а SHAP оценивает вклад признаков в предсказание на основе аддитивной схемы важности [2; 3]. В данной работе эта идея используется через локальное разложение вкладов признаков линейной гибридной модели.
При этом важно различать два типа объяснения. Первый тип - объяснение решения ML-модели: какие признаки повлияли на конкретное предсказание. Второй тип - независимая диагностическая оценка текста: наличие эмоциональной лексики, слабой аргументации, неясной временной привязки или недостаточной источниковой опоры. Диагностические rule-based слои не объясняют внутреннюю механику модели, а выполняют дополнительный аудит результата. Такой подход согласуется с требованием уделять внимание не только численной точности, но и ограничениям модели в ответственных задачах [4].
2. Проблема высокой точности и артефактов данных
На первом этапе проекта были объединены исходные наборы Fake.csv и True.csv, выполнена очистка текста, нормализация полей и расчет инженерных признаков. После объединения корпус включал 44 898 записей: 23 481 запись класса fake и 21 417 записей класса true. Первичный анализ выявил признаки утечки источника и стиля: маркер Reuters встречался примерно у 99,82% новостей класса true, а Twitter-маркеры - у 26,06% новостей класса fake и только у 1,31% класса true.

Рисунок 1. Частота leakage-маркеров по классам
Эти наблюдения принципиально важны: если один маркер источника почти полностью связан с одним классом, классификатор может получить высокую точность, фактически распознавая источник, стиль или формат публикации. Поэтому высокая accuracy на таком корпусе не может быть единственным доказательством качества детекции.
В качестве baseline были обучены несколько моделей: tfidf_raw_text, tfidf_debiased_text, feature_only, style_only, hybrid и hybrid_style. Основные результаты приведены в таблице 1.
Таблица 1.
Основные baseline-результаты
|
Модель |
Accuracy |
F1 |
ROC-AUC |
Назначение |
|
tfidf_raw_text |
0,9914 |
0,9918 |
0,9993 |
Сырой текстовый baseline |
|
tfidf_debiased_text |
0,9877 |
0,9883 |
0,9989 |
Проверка после удаления явных source-маркеров |
|
style_only |
0,8982 |
0,9005 |
0,9511 |
Оценка силы стилевых признаков |
|
hybrid |
0,9964 |
0,9966 |
0,9995 |
Сильный reference baseline |
|
hybrid_style |
0,9896 |
0,9901 |
0,9992 |
Модель для локальной интерпретации |
Результаты показывают, что задача хорошо решается на выбранном корпусе, однако выявленные артефакты требуют дополнительного аудита. Поэтому дальнейший фокус был смещен с максимизации точности на интерпретацию и оценку доверия к решениям.
3. Общая идея гибридного pipeline
Предлагаемый pipeline разделяет две задачи: классификацию и сопровождение решения. Классификатор отвечает на вопрос, к какому классу вероятнее относится текст: fake или true. Дополнительные модули отвечают на другой вопрос: насколько это решение понятно, устойчиво и заслуживает доверия.

Рисунок 2. Общая схема гибридного pipeline
Локальная интерпретация признаков объясняет вклад факторов в решение ML-модели. Диагностические rule-based слои выполняют независимую проверку текста по заранее заданным критериям: риторика, структура, временной контекст и источниковая опора. Meta-aggregation не является новым классификатором, а служит механизмом triage: он определяет, можно ли оставить решение в автоматическом потоке или нужно передать его на ручную проверку.
Таблица 2.
Роль компонентов pipeline
|
Компонент |
Функция |
Корректная интерпретация |
|
ML-классификатор |
Вероятность fake/true |
Основной статистический прогноз |
|
Локальная интерпретация |
Вклад признаков |
Объяснение конкретного решения модели |
|
Диагностические слои |
Проверка свойств текста |
Независимые rule-based индикаторы риска |
|
Prediction protocol |
Единый отчет |
Человекочитаемый формат анализа |
|
Meta-aggregation |
Оценка trust |
Отбор надежных и спорных случаев |
4. Локальная интерпретация и prediction protocol
После baseline-этапа был реализован модуль локальной интерпретации. Его задача - показать, какие признаки подтолкнули линейную модель к решению в сторону fake или true. Для этого была выбрана модель hybrid_style, поскольку она сочетает текстовые и стилевые признаки и позволяет явно разложить вклад факторов.
Список вкладов признаков сам по себе неудобен для пользователя. Поэтому был введен prediction protocol - структурированный отчет по одной новости. В него входят метаданные, итоговое решение модели, категория уверенности, вероятности классов, доминирующая группа сигналов, ключевые признаки в сторону fake и true, флаги риска, рекомендуемые проверки и краткое текстовое заключение.

Рисунок 3. Структура prediction protocol
Практическая ценность протокола особенно заметна на ошибочных и пограничных примерах. В одном из ошибочных случаев модель предсказала likely_fake с высокой уверенностью, хотя истинный класс был true; при этом доминировали стилевые сигналы, а среди risk flags были style_dominant_decision, many_questions и style_bias_possible. Такой протокол не исправляет ошибку автоматически, но показывает, где результат может быть сомнительным.
5. Диагностические rule-based слои
Для независимой диагностики текста были реализованы четыре rule-based слоя: semantic_expert, structure_expert, temporal_expert и source_fact_expert. Semantic-слой анализирует эмоциональность, категоричность, конспирологические и сенсационные маркеры. Structure-слой оценивает аргументационную форму: наличие цитат, чисел, дат и признаков обоснования. Temporal-слой проверяет временные якоря, дату публикации и относительные временные указания. Source/fact-слой анализирует прослеживаемость источников, именованные институции, цитаты и фактографическую плотность.
Важно подчеркнуть, что эти слои не являются самостоятельными детекторами истины. Структурно развитый текст не обязательно достоверен, а наличие временных маркеров не доказывает истинность события. Их роль - выделять диагностические сигналы, которые помогают понять, почему автоматическое решение может быть более или менее надежным.

Рисунок 4. Диагностические rule-based слои анализа текста
Например, на корпусном аудите semantic risk для класса fake был заметно выше, чем для класса true. Source/factographic слой также показал полезность признака слабой прослеживаемости источников: low_traceable_attribution чаще встречался у fake-текстов. Эти результаты следует рассматривать как диагностические наблюдения, а не как доказательство истинности или ложности конкретной новости.
6. Meta-aggregation как механизм triage
Ключевым элементом pipeline стал meta_aggregator. Он не заменяет классификатор и не пытается заново предсказать класс новости. Его задача - оценить согласованность статистического прогноза и диагностических сигналов, а затем определить уровень доверия к решению.
В итоговом протоколе использовались статусы confirmed_fake, confirmed_true, provisionally_fake, provisionally_true и needs_manual_review. Если модель и диагностические слои согласованы, решение может быть подтверждено. Если возникает конфликт, низкая уверенность или caution flags, случай направляется на ручную проверку.

Рисунок 5. Trust-aware funnel
Результаты meta-aggregation следует интерпретировать как selective evaluation, а не как обычную accuracy всей системы. Метрика non_reviewed_accuracy показывает качество только на том подмножестве случаев, которое система не отправила на ручную проверку. Поэтому она должна рассматриваться вместе с meta_review_rate.
Таблица 3.
Результаты meta-aggregation
|
Показатель |
Значение |
Интерпретация |
|
Accuracy модели |
0,9896 |
Базовое качество классификатора |
|
Meta review rate |
0,3254 |
Доля случаев, отправленных на ручную проверку |
|
Error review capture rate |
0,8172 |
Доля ошибок, перехваченных как review-кейсы |
|
Non-reviewed accuracy |
0,9972 |
Accuracy только на автоматическом подмножестве |
|
High-trust accuracy |
0,9997 |
Accuracy среди наиболее надежных решений |
Практический смысл результата состоит не в том, что система увеличила общую точность модели. Корректнее сказать, что pipeline выделяет более надежное подмножество автоматических решений и эскалирует значительную часть ошибок на ручную проверку.
7. Русскоязычный контур и ограничения переноса
Отдельным направлением стала подготовка русскоязычного и мультиязычного контура. Важно не смешивать его с полным англоязычным diagnostic pipeline: в текущей версии русский пользовательский ввод использует baseline-модели и облегченные элементы интерпретации, но не полный набор англоязычных rule-based слоев. Это решение было принято сознательно, поскольку прямой перенос semantic, temporal и source rules на русский язык был бы методически слабым.
Русскоязычные эксперименты показали, что одного общего значения accuracy недостаточно. Корпус состоял из разных источников и разных типов записей, включая короткие заголовки и более развернутые тексты. Cross-source результаты 0,5972 и 0,5606 при переносе между источниками показывают выраженный domain shift: модель, обученная на одном источнике, плохо переносится на другой.

Рисунок 6. Русский domain shift
В ходе пользовательского тестирования была также выявлена чрезмерная чувствительность русского article-маршрута к длине заголовка. Для одного и того же текста изменение заголовка могло заметно изменить итоговую вероятность класса; анализ показал сильное влияние признаков title_char_count и title_word_count. После этого продуктовый article-маршрут был переведен на более устойчивую text-first модель, что снизило зависимость решения от косвенных заголовочных признаков.
Заключение
В работе представлен гибридный pipeline для аудита и оценки доверия к результатам классификации фейковых новостей. Основной акцент сделан не на создании универсального автоматического фактчекинга, а на практическом сопровождении ML-классификатора: выявлении артефактов данных, локальной интерпретации признаков, диагностике текстовых риск-сигналов и отправке спорных случаев на ручную проверку.
Проведенный анализ показал, что высокая accuracy на исходном корпусе может быть связана с утечками источника и стилевыми особенностями данных. Rule-based слои не объясняют внутреннюю логику ML-модели, а выполняют независимую диагностическую функцию. Наиболее значимым результатом стала работа meta-aggregation: при review rate 32,54% система перехватывала 81,72% ошибок модели как случаи, требующие ручной проверки.
Для русскоязычного контура были выявлены дополнительные ограничения: выраженный domain shift между источниками и чувствительность к заголовочным признакам. Практическим итогом стала корректировка пользовательского article-маршрута в сторону text-first модели. Дальнейшее развитие работы связано с адаптацией диагностических слоев для русского языка, подключением retrieval/fact-check механизма и проверкой моделей на независимых корпусах.
Список литературы:
- Zhou X., Zafarani R. A Survey of Fake News: Fundamental Theories, Detection Methods, and Opportunities // ACM Computing Surveys. 2020. Vol. 53, № 5. Article 109. DOI: 10.1145/3395046.
- Ribeiro M. T., Singh S., Guestrin C. “Why Should I Trust You?”: Explaining the Predictions of Any Classifier // Proceedings of NAACL-HLT 2016: Demonstrations. 2016. P. 97–101. DOI: 10.18653/v1/N16-3020.
- Lundberg S. M., Lee S.-I. A Unified Approach to Interpreting Model Predictions // Advances in Neural Information Processing Systems. 2017. Vol. 30.
- Rudin C. Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead // Nature Machine Intelligence. 2019. Vol. 1. P. 206–215. DOI: 10.1038/s42256-019-0048-x.
- Shu K., Mahudeswaran D., Wang S., Lee D., Liu H. FakeNewsNet: A Data Repository with News Content, Social Context, and Spatiotemporal Information for Studying Fake News on Social Media // Big Data. 2020. Vol. 8, № 3. P. 171–188. DOI: 10.1089/big.2020.0062.
- D’Ulizia A., Caschera M. C., Ferri F., Grifoni P. Fake news detection: a survey of evaluation datasets // PeerJ Computer Science. 2021. Vol. 7. e518. DOI: 10.7717/peerj-cs.518.
- Назаров Д. М., Бегичева С. В., Ковтун Д. Б., Назаров А. Д. Data Science и интеллектуальный анализ данных: учебное пособие. М.: Ай Пи Ар Медиа, 2023. 304 c.

