Статья опубликована в рамках: Научного журнала «Студенческий» № 8(28)
Рубрика журнала: Математика
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4
ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ
АННОТАЦИЯ
Машинное обучение является перспективным направлением развития современных технологий. Цель данной статьи дать представление об области применения технологий машинного обучения. Результатом проведенной работы является модель классификации объектов естественного языка, что является показателем возможности повсеместного внедрения технологий машинного обучения.
Ключевые слова: Искусственный интеллект, машинное, классификация, среда программирования, алгоритм.
На сегодняшний день, в условиях большого количества информации и высокой скорости ее появления методы машинного обучения с каждым годом приобретают популярность в различных сферах деятельности человека. Технология предполагает создание и исследование компьютерных моделей и алгоритмов, способных к «самообучению» на основе поступающей информации. Использование данной технологии основано на предположении об «однородности» данных. Суть машинного обучения заключается в том, чтобы «научить» алгоритм верно сопоставлять набор входных параметров и соответствующий результат. Алгоритм не программируют заранее, какой результат выводить при поступлении тех или иных данных, а именно обучают в процессе.
Значимыми вехами в развитии искусственного интеллекта являются следующие события:
1960-е года: внедрение термина «искусственный интеллект» обозначающего любую технику, позволяющую компьютерам имитировать человеческий интеллект, использя логику, «если-тогда» правила и деревья решений. Создан первый чат-бот
1980-е года: внедрение термина «машинное обучение», обозначающего интеллектуальные статистические методы, позволяющие машинам улучшаться в задачах с опытом. Создана первая программа медицинской диагностики.
2010-е года: внедрение термина «глубокое обучение», обозначающего возможность ПО обучаться самому для выполнения задач по распознаванию речи и изображений с использованием нейронных сетей и больших объемов данных
В качестве примера применения методов машинного обучения была выбрана задача обработки естественного языка.
Для обработки естественного языка с целью классификации объектов новостной ленты в соответствии с их содержательной частью было выбрано обучение «с учителем».
Суть обучения «с учителем» заключается в следующем: выдвигается предположение о наличии зависимости, позволяющей по объектам и примерам, входящим в одно множество предсказать принадлежность ответов и откликов другому множеству. Зависимость известна только на объектах из обучающей выборки. Задача заключается в восстановлении зависимости по новым объектам.
Постановка задачи звучит следующим образом: дано множество объектов, разделенных на классы, задано конечное множество объектов для которых известно к каким классам они относятся (обучающая выборка), классовая принадлежностьдругих объектов неизвестна). Необходимо построитель алгорим, способной классифировать произвольный объект из множества.
С целью проведения «обучения» была сформирована выборка новостей с различных Интернет-ресурсов по определенным темам, которым в дальнейшем были присвоены следующие номера:
- Автоновости
- Дороги
- Здоровье
- Культура
- Недвижимость
- Образование
- Отдых
- Происшествия
- Спорт
- Технологии
- Экономика
Процесс «обучения» включал в себя следующие стадии:
Проведение анализа новостного файла: выделение ключевых слов, смысловых конструкций. Анализ проводился с помощью среды R и результат анализа помещался в Corpus – обработанную базу новостей;
Очистка «корпуса»: выделение в новости слов, по которым можно проводить анализ;
Очистка новости (метод «clean corpus»): выделение якорных слов, по которым можно проводить анализ новости. Этапами очистки являются: удаление окончаний, выделение синтаксических конструкций, унификация синонимичных конструкций, удаление лишних пробелов, удаление знаков пунктуации, удаление цифр, перевод текста в нижний регистр, удаление стоп-слов (предлоги, союзы, частицы);
Построение TDM-таблицы. ТDM – таблица с исполненными и проклассифицированными новостями (после применения метода «clean corpus») в разрезе всех ключевых слов и всех классов. TDM формируется автоматически и обновляется после каждой загрузки актуальных новостей;
Для повышения уровня качества данных в TDM проводится анализ слов: удаляются часто встречающиеся нетипичные слова и редко встречающиеся термины.
Повышение качества данных в TDM: удаление часто встречающихся нетипичных слов, редко встречающихся терминов;
Тестирование TDM: случайным образом выделяются обучающие и тестируемые примеры в соотношении 75% и 25% соответственно.
Для обработки новости для различных категорий была проведена замена синонимичных конструкций. Например:
- Болезнь – рак, ожог, энцефалит, пигментные пятна,СПИД, эпидемия, диагноз, операция, боль, опухоль, травма, инфекция, вирус, вакцинация, прививка, инвалидность, корь, операция, аллергия, приступ;
- Врач – медсестра, медик, медицинский работник, медицинский персонал, терапевт, хирург, гинеколог, невролог, скорая помощь, сексолог, неотложка, медицинская сестра, реанимационная бригада;
- Больница – госпиталь, клиника, поликлиника, травмпункт;
- Связь – интернет, 5G, 3G, wi-fi, оператор сотовой связи, Интернет-провайдер
- Спорт – футбол, матч, поединок, чемпионат, финиш, гонка, трасса, соревнования, хоккей, турнир, волейбол, бассейн, коньки, выигрыш, прыжки, игра, сборная, марафон, эстафета;
- Дорога – трасса, въезд, подъезд, маршрут, улица, пробки, тракт, асфальт, проспект, проезд;
- Экономика – прибыль, налог, ФНС, НДС, банк, ставка, кредит, вклад, бизнес, финансы, бюджет, доллар
- Недвижимость – квартира, новостройка, архитектура, застройщик;
- Авто – автомобиль, машина, кузов;
- Образование – экзамен, магистратура, выпускник, вуз, школа, садик, университет, ЕГЭ, обучение, детсад, колледж.
Для тестирования TDM случайным образом выделятся обещающие и тестируемые примеры в соотношении 75% к 25% соответственно. В обучающей выборке категория новости уже была заранее присвоена. К данной выборке применялись следующие методы:
- Метод максимальной энтропии (MaxEnt)
Новость классифицируется в ту тему, условная вероятность которой максимальна при модифицированных бинарных факторах
- Наивный Байесовский алгоритм (Naïve Bayes - NB)
Это простой вероятностный классификатор, основанный на применении Теоремы Байеса со строгими предположениями о независимости. То есть новость классифицируется на основе доли новостей определенного класса в общем количестве и встречаемости конкретных слов из новости среди всех слов
- Метод опорных векторов (Support Vector Machine - SVM)
Предполагается, что выборка линейно разделима и существуют значения параметров при которых функционал числа ошибок принимает нулевое значение, но тогда разделяющая гиперплоскость не единственна и можно выбрать другие ее положения, реализующие такое же разбиение выборки на два класса. Идея заключается в том, чтобы разумным образом распорядится этой свободой выбора. В данном примере было реализовано построение нескольких бинарных классификаторов SVM по принципу «один против всех» и объединение результатов
- Метод k ближайших соседей (k Nearest Neighbors - kNN)
Это непараметрический метод классификации, в котором соседи берутся из множества объектов, классы которых уже известны и затем вычисляется какой класс наиболее многочисленен среди них.
Новость попадает в тот класс, к которому относятся наиболее «похожие» на нее новости из обучающей выборки в терминах расстояния между векторами, соответствующими новостями.
Наиболее точные результаты были получены при применении метода максимальной энтропии (91,4%) и метода опорных векторов (90,5%)
Для проверки корректности работы модели были взяты новости, не попавшие в первоначальную выборку. Например: «Они спасали рабочих ЗиКа и проводили уникальные операции: на "Медицинский олимп" подали больше 40 заявок. Рассказываем о самых интересных случаях и героических врачах. На этой неделе в Управлении здравоохранения Екатеринбурга завершается приём заявок от больниц на получение премии профессионального признания "Медицинский олимп»
Приведенная новость за счет выделения ключевых медицинских терминов была корректно отнесена к 3 категории – «Здоровье»
Использование данного механизма классифицирования новостей по различным темам может быть эффективно для местных Интернет-ресурсов, для которых формирование новостной ленты является не основной функцией, а лишь «бонусом» к основному содержанию сайта.
В данном случае владельцу Интернет ресурса нецелесообразно нанимать сотрудника для формирования новостной ленты.
С помощью предложенной модели можно автоматизировать процесс классификации новостей с крупных новостных порталов (https://www.kommersant.ru/, https://www.vedomosti.ru/, https://news.google.ru/, https://news.yandex.ru/) по различным темам или же выборки новостей определенной тематики.
Список литературы:
- Andrew Gelman, John B. Carlin, Hal S. Stern, Donald B. Rubin. Bayesian Data Analysis, Second Edition. Chapman & Hall CRC Texts in Statistical Science, 2nd Edition, 2003
- John K. Kruschke. Doing Bayesian Data Analysis, Second Edition: A Tutorial with R, JAGS, and Stan. Academic Press, Elsevier, 2015.
- Max Kuhn, Kjell Johnson. Applied Predictive Modeling. Springer, 2013.
- Gilbert Strang. Computational Science and Engineering. // Wellesley-Cambridge Press, 2007.
- Бахвалов Н. С. Численные методы. 3-е изд. — М., 2003
- Хей Дж. Введение в методы байесовского статистического вывода. М.: Финансы и статистика, 1987
Оставить комментарий