Статья опубликована в рамках: C Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 08 апреля 2021 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Талалайкина Е.И., Лаптев Ю.В. ОБЗОР ТЕХНОЛОГИИ ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. C междунар. студ. науч.-практ. конф. № 4(99). URL: https://sibac.info/archive/technic/4(99).pdf (дата обращения: 25.07.2026)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов

ОБЗОР ТЕХНОЛОГИИ ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ

Талалайкина Елизавета Игоревна

магистрант, факультет компьютерных наук и информационных технологий, Саратовский национальный исследовательский государственный университет имени Н.Г. Чернышевского,

РФ, г. Саратов

Лаптев Юрий Владиславович

РФ, г. Саратов

Огнева Марина Валентиновна

научный руководитель,

канд. физ.-мат. наук, доц., факультет компьютерных наук и информационных технологий, Саратовский национальный исследовательский государственный университет имени Н.Г. Чернышевского,

РФ, г. Саратов

OPTICAL CHARACTER RECOGNITION TECHNOLOGY REVIEW

Elizaveta Talalaikina

student, Faculty of Computer Science and Information Technologies, Saratov State University,

Russia, Saratov

Iurij Laptev

student, Faculty of Computer Science and Information Technologies, Saratov State University,

Russia, Saratov

Marina Ogneva

scientific advisor, PhD in Physics and Mathematics, associate professor, Faculty of Computer Science and Information Technologies, Saratov State University,

Russia, Saratov

АННОТАЦИЯ

Целью данной статьи является обзор технологии оптического распознавания символов, выделение основных этапов общего алгоритма работы систем распознавания текста и их краткая характеристика.

ABSTRACT

The purpose of this article is to review the technology of optical character recognition, highlight the main stages of the general algorithm for the operation of text recognition systems and their brief description.

Ключевые слова: оптическое распознавание символов; OCR; этапы распознавания текста; локализация текстовых областей; предобработка текстовых областей; сегментация; выделение признаков.

Keywords: optical character recognition; OCR; stages of text recognition; localization of text areas; preprocessing of text areas; segmentation; feature extraction.

Введение

Перевод информации с бумажных носителей в электронный вид является задачей, актуальной и для отдельных пользователей, и для компаний. К преимуществам электронного вида документов относят высокую скорость документооборота и обработки документов, возможность интеграции с внешними ресурсами, снижение риска потери информации.

В переходе от бумажного к цифровому документообороту основную роль играет сканирование. Эта технология минимизирует усилия и сокращает временные затраты на перепечатывание, помогает исключить ошибки, связанные с ручной оцифровкой бумажных носителей.

Сканирование предполагает не только получение изображения текста, но и его перевод в редактируемый формат – оптическое распознавание символов (англ. Optical Character Recognition – OCR).

Технология OCR используется как для работы с отсканированными документами, так и в составе специализированных разработок, например, в банковских программах, в почтовых службах, в юридических базах данных.

Этапы распознавания текста

Реализация системы распознавания текста зависит от целей ее применения и устройств, для которых она создается. Однако можно выделить общий алгоритм работы такой системы:

поиск областей, содержащих текст;
предварительная обработка локализованной области;
сегментация текста на отдельные элементы: строки, слова, символы;
выделение признаков каждого символа;
распознавание символов;
словарная проверка.

Локализация текстовых областей

Обнаружение текстов на изображениях может осуществляться на основе использования контурной информации, на основе цветовой информации или на основе анализа текстурной информации [1].

В первом случае каждый символ обладает четко выраженной контурной структурой. Для локализации текста тут используют такие приемы как скелетизация, выделение границ и выделение углов, методы на основе инвариантных моментов и пр. В случае изображений со сложным фоном данный подход показывает не лучшие результаты.

Во втором случае целевые текстовые области обладают однородными цветами/интенсивностью и удовлетворяют ограничениям по размеру и форме. Используемые приемы: метод гистограмм, анализ главных компонент, различные алгоритмы бинаризации. Такие методы позволяют работать с произвольными размерами шрифта и направленностью текста, но плохо работают на изображениях низкого качества и/или со сложным фоном.

В третьем случае текстовые зоны могут заметно отличаться от фона, что позволяет использовать различные частотные фильтры для «пирамиды» изображений. Для выявления нужных зон могут использоваться как классические методы распознавания образов – метод опорных векторов, искусственные нейронные сети, экспертные системы и др., так и специальные, например, метод спектрографических текстур. Такие методы подходят для изображений со сложным фоном, но обладают высокой вычислительной сложностью из-за необходимости масштабирования изображений.

Улучшение качества локализованной области

Этот этап предполагает предварительное сглаживание изображения, его геометрическую нормализацию, определение типов присутствующих шумов и их устранение, аппроксимацию отрезков линий.

Для сглаживания используются морфологические операторы заполнения (для устранения небольших разрывов и пробелов) и утончения (для уменьшения толщины линии).

Геометрическая нормализация изображений устраняет наклоны и перекосы отдельных символов, слов или строк, а также осуществляет нормализацию символов по ширине и высоте.

Устранение шума осуществляется стандартными методами обработки изображений, такими как фильтр Гаусса для подавления высокочастотного шума и медианный фильтр для удаления шума «соль и перец» [2].

Аппроксимация отрезков линий применяется для уменьшения объема данных и может использоваться при распознавании, основывающемся на выделении признаков, описывающих топологию и геометрию изображения.

Сегментация

На данном этапе, в первую очередь, текст отделяется от графических элементов. Далее предполагается разделение текста на символы и их распознание. Такой подход наиболее эффективен, если в тексте отсутствует слияние символов.

Поиск строк обычно основывается на регулярности и периодичности текстовых областей и осуществляется на основе преобразования Хафа, метода связных компонент, анализа горизонтальных, вертикальных и диагональных гистограмм [3].

Современные подходы к оптическому распознаванию символов можно разделить на две группы: использующие и не использующие сегментацию на слова и символы. Оба подхода имеют свои достоинства и недостатки.

В первом случае для распознавания можно использовать более простые методы: сопоставление с шаблонами, анализ гистограмм и статистических характеристик символов. Но использование сегментации влечет за собой появление ошибок сегментации, что снижает точность распознавания и увеличивает затраты по времени на обнаружение и устранение таких ошибок.

К достоинствам второго подхода можно отнести универсальность, высокую скорость работы, более точные результаты распознавания. Однако данный подход все равно требует, как минимум, определения угла наклона текста или нормализации строк, что может повлечь за собой некоторое ухудшение качества изображения. Такой подход требует применения сверточных нейронных сетей, скрытых моделей Маркова, рекуррентных сетей [3].

Получение признакового описания каждого символа

Выделение признаков является одной из наиболее важных и сложных задач в распознавании символов. Проблема состоит в том, чтобы выделить те признаки, которые позволят эффективно отличать один класс символов от всех остальных в данной конкретной задаче.

Алгоритмы получения признакового описания символов могут анализировать вычисляемые признаки, такие как длина хорды, остовы символов, аппроксимированные контуры, или анализировать исходное изображение символа в качестве признака [3].

Распознавание отдельных символов

Для распознавания символов используются следующие методы распознавания: признаковые, эталонные (растровые), структурные, искусственные нейронные сети [4].

Признаковые методы описывают изображение как совокупность значений признаков. Они не применимы для анализа сложных классов изображений и чувствительны к изменению размеров и положения объекта. Вычислительные затраты этих методов определяются размерностью пространства признаков.

Эталонные методы описывают изображение как растровый эталон объекта. Они универсальны для любой предметной области, но высокочувствительны к искажениям и средние по вычислительным затратам.

Структурные методы описывают изображение как совокупность структурных элементов и отношений между ними. Они ориентированы на анализ сложных классов изображений, малочувствительны к аффинным искажениям, но чувствительны к локальным искажениям. Вычислительные затраты значительны.

Нейронные сети описывают изображение как совокупность связей нейронной структуры. Они инвариантны к некоторым искажениям и применимы для узкоспециализированных систем. Вычислительные затраты значительны.

Словарная проверка

На этом этапе смысловая или контекстная информация используется как для разрешения неопределенностей, возникающих при распознавании отдельных символов, обладающих идентичными размерами, так и для корректировки ошибочно считанных слов и фраз в целом.

Словарная проверка осуществляется на основе стандартных или динамически созданных языковых словарей, N-грамм, реализованных в виде списков, деревьев или графов [3].

Заключение

Подводя итог, стоит заметить, что распознавание символов для документов в хорошем качестве, представляющих собой темный текст на однородном светлом фоне, в настоящий момент является фактически решенной задачей. А вот проблемы распознавания текста на неоднородном фоне и рукописного текста в настоящее время являются предметом активных исследований. Понимание общих принципов технологии оптического распознавания символов важно для проектирования и реализации собственных OCR-систем, которые могут решать имеющиеся проблемы в этой области.

Список литературы:

Фраленко, В.П. Локализация текстовых фрагментов на смешанном фоне: краткий научный обзор / В.П. Фраленко // Программные системы: теория и приложения. — 2014. — Т.5, №2. — C.33–45.
Shapiro, L.G. Computer vision / L.G. Shapiro, G.C. Stockman. — Upper Saddle River, N.J.: Prentice Hall; London : Prentice-Hall International, 2001.
Болотова, Ю.А. Обзор алгоритмов детектирования текстовых областей на изображениях и видеозаписях / Ю.А. Болотова, В.Г. Спицын, П.М. Осина // Компьютерная оптика. — 2017. — 2017. — Т.41, №3. — C.441–452.
А. Г. Зотин. Методы и алгоритмы обнаружения наложенных текстовых символов в системах распознавания изображений со сложной фоновой структурой: Автореф. дис. канд. техн. наук. — Красноярск, 2007. — 23 с.

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов