Статья опубликована в рамках: CXII Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 30 апреля 2025 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
МЕТРИКИ КАЧЕСТВА РАСПОЗНАВАНИЯ РУКОПИСНОГО ТЕКСТА: ТЕСТИРОВАНИЕ КОММЕРЧЕСКИХ И OPEN-SOURCE ОКР РЕШЕНИЙ
HANDWRITING RECOGNITION QUALITY METRICS: TESTING COMMERCIAL AND OPEN-SOURCE OCR SOLUTIONS
Nosaev Andrey
1st year Master's student, Applied Informatics Tyumen State University
Russia, Tyumen
Stepochkin Vladislav
1st year Master's student, Applied Informatics Tyumen State University
Russia, Tyumen
АННОТАЦИЯ
Цель исследования: сравнить эффективность готовых OCR-решений для распознавания рукописных цифр на основе пяти ключевых метрик: Character Accuracy (CA), Character Error Rate (CER), Exact Match Accuracy (EMA), Mean Absolute Error (MAE) и Mean Squared Error (MSE).
Методология: тестирование проводилось на датасете из 100–150 фотографий рукописных цифр с вариативным качеством изображения. Для оценки использовались как стандартные метрики распознавания текста (CA, CER), так и специализированные метрики для числовых данных (MAE, MSE).
Результаты: тестирование шести OCR-решений для распознавания рукописных цифр выявило значительные различия в их эффективности. Коммерческая система Amazon продемонстрировала наивысшую общую точность распознавания (CA=0,5711), однако показала склонность к грубым ошибкам (MSE=11232,4852). Open-source решение EasyOCR оказалось наиболее сбалансированным, продемонстрировав лучшие показатели по числовой точности (MAE=27,3696) при приемлемых значениях CA (0,3899). Решение api4ai показало наименьшую частоту ошибок (CER=0,3017), в то время как Sentisight и Clarifai продемонстрировали неудовлетворительные результаты по всем ключевым метрикам.
Вывод: для задач, требующих максимальной точности распознавания, рекомендуется использование Amazon с обязательной дополнительной проверкой результатов. В случаях, когда критически важна минимизация числовых отклонений, оптимальным выбором становится EasyOCR, особенно учитывая возможности его дообучения и адаптации. Полученные результаты также указывают на перспективность разработки гибридных решений, сочетающих в себе сильные стороны различных систем для достижения более стабильных и точных результатов распознавания рукописных цифр.
Ключевые слова: машинное обучение; распознавание рукописного текста; информационные технологии; OCR; метрики оценки; EasyOCR; Amazon Textract; MAE; CER.
В современном цифровом мире точное распознавание текста остается ключевой проблемой, особенно когда речь идет о рукописных документах. Распознавание рукописных символов – критически важная задача для автоматизации обработки анкет, бланков первичного учета и инвентаризационных форм. В отличие от стандартного оптического распознавания символов (OCR), работающего с печатными символами, системы для рукописного ввода сталкиваются с ключевыми проблемами:
- низкое качество исходных данных: фотосъёмка (вместо сканов), переменное освещение, геометрические искажения и фоновый шум;
- высокая вариативность начертаний: даже цифры (0–9) имеют десятки вариантов написания в зависимости от почерка;
- ограничения готовых решений: большинство коммерческих OCR оптимизированы для печатного текста, а open-source движки (Tesseract) демонстрируют низкую accuracy на рукописных цифрах.
В рамках авторского исследования было протестировано шесть популярных систем OCR, выбор которых основывался на их популярности и распространенности в различных приложениях, что придало особенную актуальность данному исследованию относительно широкой аудитории. Для оценки различных моделей и решений авторы статьи использовали метрики, представленные ниже:
Точность распознавания символов (CA) – измеряет долю верно распознанных символов, формула для расчёта продемонстрирована в (1) [3].
(1)
Ошибка распознавания символов (CER) – учитывает все типы ошибок, включая пропущенные или лишние символы, формула которого показана в (2) [2].
(2)
Экспоненциально сглаженное среднее (EMA) – оценивает стабильность распознавания в динамике, формула для вычисления данной метрики представлена в (3) [3].
, (3)
где: – текущее сглаженное значение,
– коэффициент сглаживания от 0 до 1,
– текущее наблюдение,
– предыдущее сглаженное значение.
Средняя абсолютная ошибка (MAE) – оценивает среднее абсолютное отклонение, для нахождения использовалась формула (4) [2].
, (4)
где: n – количество наблюдений,
– истинное значение,
– предсказанное значение.
Среднеквадратичная ошибка (MSE) – оценивает среднеквадратичное отклонение, формула для расчета показана в (5) [5].
(5)
Для тестирования и анализа были выбраны следующие решения:
- Amazon Textract
- Api4AI Handwriting OCR
- Clarifai OCR API
- Google Cloud Vision
- Sentisight.ai
- EasyOCR
Также были протестированы PaddleOCR, TrOCR и microsoftOCR, но для их использования нужны другие алгоритмы, которые усложнят процесс внедрения.
Тестирование происходило на реальных данных, включающих в себя 150 изображений различного характера. На этих фотографиях присутствуют шумы, также данные носят числовой характер, что можно увидеть на рисунке 1.
Рисунок 1. Пример фотографий, на которых проходило тестирование
Для оценки эффективности моделей были проведены тесты для различных решений и далее прилагаются таблицы с результатами работы метрик. Результаты данных тестов представлены авторами статьи на таблице 1.
Таблица 1.
Метрики различных моделей
Model |
CA |
CER |
WER |
EMA |
MAE |
MSE |
Amazon |
0,5711 |
0,3113 |
0,3113 |
0,3529 |
54,0323 |
11232,4852 |
api4ai |
0,5287 |
0,3017 |
0,3017 |
0,2759 |
47,6414 |
3723,8697 |
clarifai |
0,4048 |
0,5000 |
0,5000 |
0,2143 |
43,1385 |
3328,5746 |
|
0,4647 |
0,4647 |
0,4647 |
0,3462 |
38,5200 |
3149,3432 |
sentisight |
0,2222 |
0,6620 |
0,6620 |
0,0000 |
58,5533 |
4006,2740 |
easyocr |
0,3899 |
0,5208 |
0,5208 |
0,1786 |
27,3696 |
1609,1244 |
Рисунок 2. Точность распознавания символов различных OCR решений
Точность часто является метрикой, на которую смотрят в первую очередь, что показано на рисунке 2. Amazon Textract лидирует, что отмечено зеленым цветом, с самым высоким показателем CA. Api4AI следует за ним, демонстрируя сильный баланс. Между тем, такие модели, как Sentisight, показанные красным цветом, значительно отстают, с трудом добиваясь высокой точности, однако только по одной метрике сложно делать вывод о достаточной эффективности моделей. Для этого перейдём к следующим графикам.
Рисунок 3. Ошибка распознавания символов для каждого из OCR решений
Метрика показателей ошибок представлена на рисунке 3. Api4AI показывает самый низкий показатель CER, что делает его самым надежным в этом аспекте. С другой стороны, высокий уровень ошибок Sentisight вызывает опасения относительно его практической применимости. EasyOCR находится где-то посередине. На основе данных ошибок можно судить о надежности решения.
Рисунок 4. Экспоненциально сглаженное среднее для различных решений
Экспоненциально сглаженное среднее, представленное на рисунке 4, дает представление о стабильности. Нулевой EMA Sentisight может показаться впечатляющим на первый взгляд, но в сочетании с низкой точностью это говорит о том, что модель может полностью пропускать сложные символы. Однако Api4AI демонстрирует сбалансированную производительность, находя надежную середину.
Рисунок 5. Средняя абсолютная ошибка различных решений
Под конец разберем среднюю абсолютную ошибку, представленную на рисунке 5. EasyOCR преуспел, достигнув низких оценок MAE и MSE, что означает, что он допустил меньше серьезных ошибок. Умеренная производительность Google демонстрирует надежность, но высокий балл MSE Amazon – более 11 000 – указывает на случайные, но серьезные сбои.
Проведенное сравнительное исследование пяти OCR-решений для распознавания рукописных цифр выявило значительную вариативность их эффективности по разным метрикам, что подчеркивает отсутствие универсального лидера и необходимость выбора системы под конкретные прикладные задачи. Для проектов с ограниченным бюджетом и возможностью кастомизации EasyOCR – оптимальный выбор. Его открытый код и низкие ошибки в числовых значениях позволяют достичь лучших результатов после дообучения на целевых данных. В корпоративных решениях с готовыми API стоит рассмотреть гибридный подход: первичное распознавание через Amazon с последующей коррекцией через доработанный EasyOCR.
Список литературы:
- Brownlee J. Time Series Forecasting with Machine Learning [Прогнозирование временных рядов с использованием машинного обучения]. – Machine Learning Mastery, 2018. [Электронный ресурс]. – Режим доступа: https://machinelearningmastery.com/time-series-forecasting/ (дата обращения: 15.03.2025).
- Goodfellow I., Bengio Y., Courville A. Deep Learning [Глубокое обучение]. – Cambridge: MIT Press, 2016. – 800 p.
- Google Cloud OCR API Documentation [Документация Google Cloud OCR API]. [Электронный ресурс]. – Режим доступа: https://cloud.google.com/vision/docs/ocr (дата обращения: 10.03.2025).
- Scheidl H., et al. OCR Error Metrics for Handwritten Text Recognition [Метрики ошибок OCR для распознавания рукописного текста] // International Journal of Document Analysis and Recognition. – 2018. – Vol. 21. – no. 3. – P. 45–62.
- Zhang C., Luo H. OCR Evaluation Metrics Analysis [Анализ метрик оценки OCR] // Proceedings of the International Conference on Document Analysis and Recognition (ICDAR). – 2020. – P. 123–135.
дипломов
Оставить комментарий