Статья опубликована в рамках: LXVIII Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 01 мая 2019 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Бежин Н.В. НЕЙРОННЫЕ СЕТИ В ЗАДАЧИ РАСПОЗНАВАНИЯ ОБРАЗОВ // Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ: сб. ст. по мат. LXVIII междунар. студ. науч.-практ. конф. № 9(68). URL: https://sibac.info/archive/meghdis/9(68).pdf (дата обращения: 23.07.2026)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов

НЕЙРОННЫЕ СЕТИ В ЗАДАЧИ РАСПОЗНАВАНИЯ ОБРАЗОВ

Бежин Никита Викторович

студент магистратуры БГТУ им. В.Г. Шухова,

РФ, г. Белгород

Шаптала Вадим Владимирович

научный руководитель,

канд. техн. наук доц., БГТУ им. В.Г. Шухова

РФ, г. Белгород

АННОТАЦИЯ

В настоящее время в мире стремительно развивается новая прикладная область математики, которая специализируется на искусственных нейронных сетях. Актуальность исследований в данном направлении обусловлена огромными возможностями для применения искусственных нейронных сетей в самых различных областях.

Объем задач, которые решают нейронные сети (НС), объясняется во многом тем, что возможность обучения позволяет сделать функционирование различных системы на много более эффективным.

Ключевые слова: нейронные сети, искусственный интеллект, распознавание образов, изображение.

Искусственные нейронные сети могут кардинально отличаться друг от друга, при этом у них есть некоторые сходства. Основу каждой нейросети составляют тривиальные, в большинстве случаев однотипные, элементы, имитирующие работу нейронов в головном мозге (аксоны и дендриты). Искусственный нейрон является структурной единицей искусственной нейронной сети и представляет собой аналог биологического нейрона. Он может определяться своим состоянием на текущий момент, по аналогии с нервными клетками головного мозга, которые могут находится в возбужденном возбуждены или заторможенном состоянии.

С точки зрения математики искусственный нейрон является сумматор всех входящих сигналов, который применяет к полученной взвешенной сумме некоторую, чаще всего простую, нелинейную функцию, непрерывную на всей области определения. Часто, данная функция монотонно возрастает. Полученный результат отправляется на единственный выход.

Нейрон обладает некоторой группой синапсов – входных связей, которые соединенны с выходами иных нейронов, а также он имеет аксон – выходную связь для данного нейрона, с которой поступает сигнал (возбуждающий или тормозящий) на синапсы последующих нейронов [1].

Рис. 1. Нейрон

Все синапсы определяется величиной синаптической связи или ее весом на данный момент. Актуальное состояние нейрона определяется как сумма его входных параметров. Нелинейная функция именуется активационной и может быть выбрана по-разному, одной из наиболее часто используемых выступает нелинейная функция с насыщением, или же это может быть сигмоид.

Этап проектирования, при котором выполняется корректировка всех имеющихся весов, называется обучением нейронной сети, и в дальнейшем от того, как качественно он будет произведен, зависит возможность сети справляться с решением поставленных задач. На этом этапе, разумеется, кроме параметров качества подбора весов, одну из главных ролей выполняет и время, которое необходимо для обучения нейронной сети. В большинстве случаев, эти два параметра связаны между собой обратной зависимостью. Выполнять обучение нейронной сети можно как с учителем, так и без него [2]. При обучении с учителем сети предоставляются значения входных сигналов и выходных сигналов, которые отмечены как правильные. Далее нейронная сеть по своему внутреннему алгоритму подбирает веса всех имеющихся у нее синаптических связей. В случаи, если обучение происходит без учителя, выходные сигналы нейросети формируются самостоятельно, а все веса проходят корректировку по алгоритму сети, который учитывает исключительно входные сигналы.

Во время этапа разработки нейросети, необходимо чтобы разработчик понимал, для каких целей проектируется данная сеть, а также какие полезные и необходимые свойства должны присутствовать у нейрона. Добавление нелинейности такого типа увеличивает вычислительную мощность нейронной сети, а это, в свою очередь, позволяет из небольшого числа нейронов разработать искусственную нейронную сеть, которая выполняет работу обычной сети.

Задача, которая ставилась перед нами, включает в себя проектирование искусственной нейронной сети, с помощью которой можно выполнять идентификацию образцов почерка различных людей и формирование данных образцов, основываясь на рукописных материалах.

Первым этапом было выполнено проектирование нейронной сети для выполнения распознавания образцов почерка двух разных людей (А и В). Обучение выполнялось на базе выборки из образцов почерка множества людей. Под образцом почерка мы понимаем отдельные растровые изображения букв непосредственно каждого из людей. Нейронная сеть состояла из 3 слоев, в каждом из которых происходила обработка разных сегментов изображения, каждый участок сети обрабатывал свой кусок изображения и подавал на следующий слой результативный выходной сигнал, на следующем слое происходила обработка этих сигналов, группировка более крупных кусков и так далее, пока на третьем слое не вычислялся выходной сигнал от всего изображения в целом. Сначала обучение сети производилось с помощью лишь одной буквы «И». Впоследствии выборка была расширена до пяти букв «И», «Ж», «О», «А», «Н». В дальнейшем представляется необходимым расширять набор рассматриваемых букв, чтобы при анализе текста можно было бы существенно улучшить качество распознавания. Наша обучающая выборка состояла из 5 букв «И», 5 букв «О», 5 букв «Ж», 10 букв «А» и 5 букв «Н» каждого из людей.

Непосредственно после обучения последовала долгая процедура проверки корректности нейронной сети, при помощи большого количества образцов почерков, которые не участвовали при обучении. На вход сети подается битовая матрица изображения образца почерка.

В результате нейронная сеть выдает 1, если полученный образец можно классифицировать как наиболее близкий к образцам почерка человека А, а 0 выдается в обратном случае. Путем корректировки активационной функции и пороговых значений, а также скорости обучения, удалось добиться достаточно высокой точности распознавания (менее 5% ошибок).

На следующем этапе нам нужно было проделать работу для значительного снижения процента ошибок и настройки для более общей классификации. То есть в случае, когда рассматривалась бы некоторая группа людей и нейросеть была бы обучена на образцах почерка каждого из участников. Работоспособность нейросети проверялась на 11 тестовых примерах. Проведенное тестирование продемонстрировало, что уровень погрешности значительно снижен (менее 1% ошибок). Наибольший процент ошибок был зафиксирован в результате распознавания буквы «О», что говорит о достаточно общей манере написания этой буквы.

После получения готовой и работоспособной нейросети перед нами встала следующая задача. При криминалистическом анализе почерка нужно иметь очень надежный механизм работы с рукописным текстом, который позволил бы выделить из текста отдельные буквы, идентифицировать их и отправлять на вход нейросети [3]. Таким образом, имея в наличии текст-образец почерка подозреваемого и текст, который необходимо распознать, система могла бы обучить нейронную сеть на основании букв, которые были выделены из текста-образца, и сделать вывод о принадлежности его подозреваемому.

Задача, которая была поставлена перед нами, оказалась сложной, потому как было необходимо решить некоторые проблем:

очистить текст от артефактов и скорректировать естественные деформации;
выделить все отдельные буквы из полученного текста и сохранить их в файлах или непосредственно в битовых массивах, которые пригодны к тому, чтобы быть отправленными на вход нейронной сети;
распознать полученные нами буквы.

На первом этапе работы с текстом необходимо разбить страницу на блоки, основываясь на особенностях правого и левого выравнивания и возможного наличия нескольких колонок. Затем распознанный блок разбивается на строки. И здесь неизбежны перекосы изображения страницы или фрагментов страницы. Даже небольшой наклон может привести к тому, что левый край одной строки становится существенно ниже правого края следующей, что особенно чувствительно при небольшом межстрочном интервале [4].

Затем происходит разбиение строк на непрерывные области изображения, которые, как правило, соответствуют буквам; алгоритм распознавания делает предположения относительно соответствия этих областей символам; а затем делается выбор каждого символа.

Встречающиеся в реальной жизни тексты обычно далеки от совершенства, и процент ошибок распознавания для «нечистых» текстов часто недопустимо велик. Грязные изображения имеют наиболее очевидную проблему, потому что даже небольшие пятна могут затенять определяющие части символа или преобразовывать один в другой.

На текущий момент нам удалось решить поставленную задачу по обработки изображения, удаления найденных артефактов и непосредственно выделения, отдельных букв. Проблема распознавания решена пока только на уровне распознавания печатного текста.

Список литературы:

Ясницкий Л.Н. Введение в искусственный интеллект. М.: Академия, 2005.
Хайкин С. Нейронные сети. М.; СПб.; Киев: Вильямс, 2006.
Куприянова А.А. Теоретические основы и методика судебно-почерковедческих исследований: Автореф. дис. канд. техн. наук. М., 1992.
Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы. М.: Горячая Линия - Телеком, 2007.
Герасименко Н.А. О некоторых особенностях технологии BIG DATA / Н.А. Герасименко // Научное обозрение. -2015, №16, с.180-184.
Карчагин Е. В. Эпистемология и эвристические возможности Big Data // Концепт.–2015, №12 (декабрь), с.1-7. – URL: http://e-koncept.ru/2015/15437.htm (дата обращения 05.06.2018).
Измалкова С.А. Использование глобальных технологий «BIG DATA» в управлении экономическими системами / С.А. Измалкова, Т.А. Головина // Известия Тульского государственного университета (серия «Экономические и юридические науки»). – 2015, т.4, №1, с.151-158.
Lagoze C. Big Data, data integrity, and the fracturing of the control zone. Big Data & Society, July–December, 2014, p.2.