Статья опубликована в рамках: CLXXXIX Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 30 мая 2024 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ТЕСТИРОВАНИЕ АЛГОРИТМА ДЛЯ РАСПОЗНАВАНИЯ СИМВОЛОВ
TESTING THE ALGORITHM FOR SYMBOL RECOGNITION
Dmitry Tritskan
student, Department of Applied Information Technologies, T. F. Gorbachev Kuzbass State Technical University,
Russia, Kemerovo
Elena Buinaya
scientific supervisor, candidate of Sciences in Economics, associate professor, T. F. Gorbachev Kuzbass State Technical University,
Russia, Kemerovo
АННОТАЦИЯ
Оцифровка текста с печатного источника требует приведения его к электронному виду для последующего редактирования. Алгоритм оптического распознавания текста, или OCR, позволяет извлекать данные из печатного или рукописного текста и преобразовывать его в машиночитаемую форму.
ABSTRACT
Digitizing text from a printed source requires converting it into electronic form for subsequent editing. Optical character recognition, or OCR, algorithm extracts data from printed or handwritten text and converts it into machine-readable form.
Ключевые слова: OCR; алгоритм; распознавание.
Keywords: OCR; algorithm; recognition.
Сегодня в цифровом мире большой спрос на хранение и обработку текстовой информации из различных источников - печатных, графических или рукописных документов. Для этого не редко приходится прибегать к использованию алгоритмов распознавания текста с изображений. При оцифровке текста с печатного источника для возможности последующего его редактирования необходимо привести его к электронному тексту.
Для считывания текста необходимо учитывать само качество изображения и оптимально его улучшить без потерь самого теста на изображении, наличие текста на сложном фоне или смещение текста с другими объектами на изображении затрудняют алгоритмам распознавания правильно выделить и интерпретировать текст. Так же текст на изображениях может быть представлен в различных языках и шрифтах. Распознавание текста на неподдерживаемых языках или шрифтах может быть сложной задачей, требующей разработки специализированных моделей и алгоритмов.
Для повышения точности и устойчивости алгоритмов требуется большой объем обучающих данных, а также разработка и улучшение моделей и алгоритмов с учетом специфики задачи.
Алгоритм распознавания текста из изображения, или оптическое распознавание символов (OCR), представляет собой технологию для автоматизированного извлечения данных из печатного или рукописного текста, отсканированных документов или файлов изображений с последующим преобразованием текста в машиночитаемую форму. Эта форма может использоваться для работы с данными, такими как редактирование или поиск информации.
Система OCR состоит из следующих этапов алгоритма:
Рисунок 1. Последовательность работы алгоритма распознавания
Эти алгоритмические шаги выполняются последовательно, и результат каждого шага подается на вход следующего. На рисунке 1 приведена схема алгоритма системы распознавания символов.
Данные операции будут более точными, если текст будет черного цвета на белом фоне, если оригинальный текст иного цвета, то применяется бинаризация изображения.
На выходе из модуля сегментации будут получены данные, в состав которых входят структуры и местоположение текстовых блоков на странице, строки в этих блоках и их сегментация на слова и символы. Данные могут содержать не только информацию об обычном текстом блоке, а также о колонках, таблицах и т. д.
Для определения языка классификатор объединяет символы в массив, исключая повторяющиеся, затем сравнивает с существующими наборами графем присущими определенному алфавиту.
Для реализации алгоритма программного перевода изображения в текст может использоваться обширное количество программ, основанных на машинном обучении для распознавания символов на изображении. Для распознавания символов используется Tesseract. Для работы алгоритма необходимо использование массива данных (изображения с текстом).
Алгоритм программы:
- предварительная обработка изображений;
- применяется алгоритмы OCR;
- осуществляется сегментация текста;
- классификация каждого символа или слова с использованием обученных моделей CNN;
- используется языковые модели, которые помогают улучшить результаты распознавания текста;
- вывод отчета.
Рисунок 2. Пример процесса распознавания текста
Рисунок 3. Контрольный пример статистики
Рисунок 4. Пример отчета
В результате работы продемонстрирован функционал, позволяющий оперативно переводить исходное изображение в текст. В дальнейшем данный функционал может быть использован для распознавания текста и получению по нему дополнительной информации. Таким образом, поставленная задача решена.
Улучшение текущего распознавание текста может направленно на увеличение контрастности и четкости исходного изображения посредством программной обработки и улучшение алгоритма распознавания текст.
Список литературы:
- Оптическое распознавание символов (OCR) // Википедия [электронный ресурс] — Режим доступа. — URL: https://goo.su/WSiFGwJ (дата обращения: дата обращения 18.05.2024).
- Tesseract OCR // GitHub [электронный ресурс] — Режим доступа. — URL: https://github.com/tesseractocr/tesseract (дата обращения: дата обращения 18.05.2024).
дипломов
Оставить комментарий