Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: IX Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 07 марта 2013 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Попова В.В. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ИЗОБРАЖЕНИЙ В ЗАДАЧЕ ОФФЛАЙН РАСПОЗНАВАНИЯ РУКОПИСНОГО ТЕКСТА НА КИТАЙСКОМ ЯЗЫКЕ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. IX междунар. студ. науч.-практ. конф. № 9. URL: http://sibac.info/archive/technic/9.pdf (дата обращения: 24.04.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
Диплом лауреата
отправлен участнику

 

ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ИЗОБРАЖЕНИЙ В ЗАДАЧЕ ОФФЛАЙН РАСПОЗНАВАНИЯ РУКОПИСНОГО ТЕКСТА НА КИТАЙСКОМ ЯЗЫКЕ

Попова Виктория Владимировна

студент 2 курса магистратуры, кафедра программного обеспечения вычислительной техники и автоматизированных систем ТОГУ, г. Хабаровск

E-mailacidv@mail.ru

Федосеев Андрей Анатольевич

научный руководитель, канд. -физ. мат. наук, доцент, кафедры программного обеспечения вычислительной техники и автоматизированных систем ТОГУ, г. Хабаровск

 

Интерес к китайскому языку растет с каждым годом, поскольку отношения с Китаем в последнее время развиваются очень динамично. Растет потребность в квалифицированном, быстром и точном переводе технических, экономических, политических и других текстов с китайского языка. Во многом облегчить работу переводчика может электронный словарь с возможностью распознавания рукописного текста на китайском языке.

Оффлайн распознавание рукописного китайского текста является одной из наиболее сложных задач распознавания образов. Процесс распознавания можно разделить на несколько этапов.

На первом этапе производится предварительная обработка входного изображения. Предварительная обработка изображения во многих случаях оказывает большое влияние на последующую обработку: сегментацию, декомпозицию иероглифов и само распознавание. Целью данного этапа является улучшение изображения. Процедура улучшения изображения сводится к выполнению комплекса операций для улучшения визуального восприятия изображения и более удобного машинного анализа.

Алгоритм предварительной обработки, используемый в данной работе, включает следующие этапы:

·     представление изображения в градациях серого;

·     фильтрация;

·     коррекция разности освещенности;

·     бинаризация;

·     коррекция поворота.

На первом этапе цветное изображение, загруженное в систему распознавания, преобразуется в изображение в градациях серого (рис. 1). Для каждого пикселя вычисляется его яркость в пределах от 0 до 255. Уровню яркости 0 соответствует черный цвет, уровню 255 — белый.

В соответствии со стандартом МСЭ-R BT.601 яркость пикселя вычисляется по формуле:

 

 

где: R, G, B — красный, зеленый и синий каналы соответственно.

 

Описание: F:\обработка\img_preproc\WindowsFormsApplication1\bin\Debug\1.bmp

Рисунок 1. Исходное изображение в градациях серого

 

Довольно часто при формировании визуальных данных изображения получаются зашумленными (рис. 2а). Это объясняется несовершенством аппаратуры, влиянием внешних факторов и т. п. Существует множество различных способов шумоподавления: низкочастотная и высокочастотная фильтрация, пороговое сглаживание, медианный фильтр [3].

Наличие шумов в изображении может негативно отразиться на машинной обработке. Случай ошибочной бинаризации вследствие наличия большого числа помех представлен на рисунке 2б.

 

Описание: F:\обработка\img_preproc\WindowsFormsApplication1\bin\Debug\1.bmpОписание: F:\обработка\img_preproc\WindowsFormsApplication1\bin\Debug\2.bmp

                             а)                                                    б)

Рисунок 2. Обработка зашумленного изображения: а) пример зашумленного изображения; б) ошибка бинаризации методом Отсу из-за наличия помех

 

В данной работе для шумоподавления используется медианный фильтр — эффективный и простой в реализации метод нелинейной обработки сигналов.

При медианной фильтрации используется скользящее двумерное окно размера m×n. Для каждого пикселя изображения выполняется независимая оценка медианы в окне. Значения яркости пикселей, попавших в окно, упорядочиваются по возрастанию. Значение среднего элемента упорядоченной выборки является новым значением яркости пикселя, стоящего в середине окна. Результат работы медианного фильтра отражен на рисунке 3а. Медианный фильтр намного улучшил результат бинаризации (рис. 3б).

На следующем шаге необходимо произвести бинаризацию изображения.

Бинарное изображение — изображение, в котором каждый пиксель может принимать только одно из двух значений: 0 или 1. Значение пикселя равное 0 называют задним планом (в данном случае это белый цвет), а 1 — передним планом (черный цвет).

 

Описание: F:\обработка\img_preproc\WindowsFormsApplication1\bin\Debug\4.bmpОписание: F:\обработка\img_preproc\WindowsFormsApplication1\bin\Debug\3.bmp

                              а)                                                    б)

Рисунок 3. Результат работы медианного фильтра: а) изображение после применения медианного фильтра; б) бинаризация методом Отсу после фильтрации

 

Суть алгоритма бинаризации заключается в сравнении яркости пикселя B(x,y) с некоторым пороговым значением BT(x,y). Если яркость пикселя больше порогового значения, то цвет пикселя принимается равным 0, иначе 1. Все методы бинаризации делятся на две группы: методы глобальной и локальной пороговой обработки. В методах глобальной бинаризации пороговое значение яркости постоянно для всех пикселей изображения.

Одним из наиболее эффективных методов глобальной обработки считается метод Отсу [4]. Диапазон яркостей [0; L] изображения делится на две части пороговым значением T. Алгоритм сводится к минимизации внутриклассовой дисперсии, которая определяется как взвешенная сумма дисперсий двух классов. В алгоритме Отсу минимизация внутриклассовой дисперсии эквивалентна максимизации межклассовой дисперсии, которая равна:

 

 

Где: σb — межклассовая дисперсия,

w1 и w2 — вероятности первого и второго классов соответственно,

μ1 и μ2 — средние арифметические значения для каждого из классов.

 

 

Общая схема алгоритма такова:

·     Вычисляем гистограмму по значениям , где N — общее количество пикселей на изображении, — количество пикселей с яркостью i.

·     Начиная с порога t = 1, проходим через всю гистограмму, на каждом шаге пересчитывая дисперсию σb(t). Если на каком-то шаге дисперсия оказалась больше максимума, то дисперсия обновляется и T = t.

·     Искомый порог равен T.

Недостаток данного метода — чувствительность к неравномерной освещенности (рис. 4). Для решения данной проблемы можно воспользоваться алгоритмом компенсации освещенности.

 

Описание: F:\обработка\img_preproc\WindowsFormsApplication1\bin\Debug\2.bmp

Рисунок 4. Ошибка бинаризации из-за неравномерной освещенности

 

Для выравнивания освещенности необходимо получить компонент освещения путем низкочастотной фильтрации G изображения. Как правило, для размытия изображения применяется двумерный фильтр Гаусса.

Матрица свертки в данном случае вычисляется по закону распределения Гаусса:

 

где: σ — стандартное отклонение распределения Гаусса.

От размера матрицы зависит сила размытия.

Восстановить изображение можно по формуле:

 

Результат применения алгоритма выравнивания освещенности с последующей бинаризацией методом Отсу показан на рисунках 5 и 6.

Еще одним недостатком метода Отсу является слипание близко расположенных областей, что может повлиять на дальнейшую обработку и распознавание. Поэтому в данной работе предлагается использовать адаптивную бинаризацию, которая к тому же позволяет решить проблему разности освещенности (рис. 7) [1].

 

Описание: H:\обработка\img_preproc\WindowsFormsApplication1\bin\Debug\f2.bmp

Рисунок 5. Результат работы алгоритма выравнивания освещенности

 

Описание: G:\обработка\img_preproc\WindowsFormsApplication1\bin\Debug\3.bmp

Рисунок 6. Результат бинаризации методом Отсу

 

Для окрестности R пикселя вычислить порог T. Порог Т может являться средним значением яркости по области R, медианой выборки из области R или вычисляться по формуле: (Imax-Imin)/2. Значение пикселя B(x,y) в бинарном изображении вычисляется следующим образом:

 

где: — яркость пикселя в исходном изображении,

С — произвольная константа.

 

Описание: H:\обработка\img_preproc\WindowsFormsApplication1\bin\Debug\f.bmp

Рисунок 7. Пример адаптивной бинаризации

 Для коррекции наклона изображения предлагается использовать преобразование Хафа. Идея метода состоит в поиске кривых, которые проходят через достаточное количество точек интереса [2]. В данном случае, точками интереса считаются пиксели черного цвета. В преобразовании Хафа используется дискретное фазовое пространство. Функция, задающая семейство прямых в фазовом пространстве, имеет вид:

 

где: R — длина перпендикуляра, опущенного на прямую из начала координат,

θ — угол между перпендикуляром к прямой и осью OX, θ изменяется в пределах от 0 до 2 π, R ограничено размерами входного изображения.

Через каждую точку (x, y) изображения можно провести несколько прямых с разными R и θ. Всем ячейкам дискретного фазового пространства с координатами (R, θ) ставится в соответствие «счетчик». Значение «счетчика» показывает количество точек интереса, через которые можно провести прямую с параметрами R и θ. Сортировка счетчиков в порядке убывания позволяет отобрать прямые, проходящие через необходимое количество точек интереса. На рисунке 8 отображены найденные с помощью преобразования Хафа прямые. Рисунок 9 показывает изображение со скорректированным углом поворота.

 

Описание: H:\обработка\img_preproc\WindowsFormsApplication1\bin\Debug\line.bmp

Рисунок 8. Преобразование Хафа для линий

 

Описание: H:\обработка\img_preproc\WindowsFormsApplication1\bin\Debug\line2.bmp

Рисунок 9. Пример изображения со скорректированным углом наклона

 

Предварительная обработка позволяет сократить ошибки при сегментации (разбиении изображения на строки и отдельные иероглифы), декомпозиции (разбиении иероглифа на ключи) и при самом распознавании. Полученное на данном этапе бинарное изображение легче обрабатывать на последующих этапах распознавания.

 

Список литературы:

1.Введение в цифровую обработку изображений: лекция 3. [Электронный ресурс] — Режим доступа. — URL: http://cvbeginner.blogspot.ru/2011/09/3.html (дата обращения 21.02.2013).

2.Дегтярева А., Вежневец В., Преобразование Хафа (Hough transform) // Компьютерная Графика и Мультимедиа Сетевой журнал. [Электронный ресурс] — Режим доступа. — URL: http://www.cgm.computergraphics.ru/content/view/36 (дата обращения 23.02.2013).

3.Компьютерная графика. Подавление и устранение шума. [Электронный ресурс] — Режим доступа. — URL: http://www.apmath.spbu.ru/ru/staff/pogozhev/files/lection07.pdf (дата обращения 20.02.2013).

4.Обнаружение объектов методом Оцу. [Электронный ресурс] — Режим доступа. — URL: http://wiki.asoiu.com/index.php/Обнаружение_объектов_методом_Оцу (дата обращения 21.02.2013).

Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
Диплом лауреата
отправлен участнику

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.