Сканирование документов и системы распознавания
Автор: drug | Категория: Технические науки / Информатика | Просмотров: | Комментирии: 0 | 17-04-2013 17:07
Сканирование документов и системы распознавания
Сканирование документов и системы распознавания
Введение
Преобразование документа в электронный вид делится на два этапа: получение графического образа документа и перевод графического образа в текстовый формат. Графический образ документа является результатом сканирования. Перевод графического образа документа в текстовый формат может быть произведен вручную или посредством автоматического распознавания.
Обзор сканеров
По характеру использования в технологическом процессе сканеры документов принято подразделять на следующие типы:
1. Планшетные
2. Протяжные или роликовые
3. Планетарные или книжные
Планшетный сканер.
Планшетный сканер - сканер, в котором оригинал кладется на стекло и сканируется при помощи подвижной линейной ПЗС матрицы. Прибор с зарядовой связью (ПЗС) - светочувствительная матрица сканера. Принцип ее работы состоит в том, что падающий на датчик ПЗС свет создает на нем электрический заряд, величина которого определяется интенсивностью падающего света. Измерение величины этого заряда и позволяет представить информацию о цвете в цифровом виде.
Планшетные сканеры предназначены для ежедневного сканирования небольшого объёма фотографий, слайдов (при наличии слайд-адаптера) или документов (до 300 листов в день). Особенность данного типа сканеров - простота конструкции, ручная обработка документов, низкая производительность.
Протяжной или роликовый сканер.
Протяжной или роликовый сканер - сканер, в котором оригинал протягивается мимо неподвижной линейной ПЗС матрицы, разновидность такого сканера - факс-аппарат.
Скоростной сканер для работы с документами - разновидность протяжного сканера, предназначенная для высокопроизводительного многостраничного ввода. Сканеры могут быть оборудованы подающими и приемными лотками объемом свыше 1000 листов, и вводить информацию со скоростью до 180 и более листов в минуту.
Дополнительными возможностями, присущими данному типу сканеров, являются:
1. двустороннее сканирование (дуплекс)
2. подсветка оригинала разными цветами для отсечки цветного фона
3. система компенсации неоднородного фона
4. модули динамической обработки разнотипных оригиналов
5. надпечатывание отметки о том, что документ прошел обработку
Скоростные протяжные сканеры предназначены для поточного сканирования (ввода) формализованных документов (бланки, накладные, картотеки и т.д.), а также обычных документов (договоры, письма, и т.д.)
Особенность данного типа сканеров - повышенная надёжность конструкции, пакетная обработка документов, высокая производительность.
Планетарный или книжный сканер.
Планетарный сканер - устройство, в котором при сканировании оригинал неподвижен и располагается лицевой стороной вверх на значительном удалении относительно оптической системы и сканирующей линейной ПЗС матрицы сканера. Планетарные сканеры могут быть оборудованы специальными книжными колыбелями для удобного размещения фолиантов при сканировании.
Данный тип сканера предназначен для сканирования скреплённых документов, периодических изданий и книг.
Особенность планетарных сканеров - бесконтактный метод сканирования, нет необходимости расшивки оригиналов, большая производительность при оцифровке книг и сшитых оригиналов.
Основные характеристики сканеров
Разрешение (Resolution) - число точек или растровых ячеек, из которых формируется изображение, на единицу длины или площади. Чем больше разрешение устройства, тем более мелкие детали могут быть воспроизведены. Измеряется в "точках на квадратный дюйм" (DPI, dots per inch). Типовое разрешение промышленных сканеров - 200-300 DPI.
Разрядность цвета (глубина цвета) - количество разрядов каждого пикселя в цифровом изображении, в т.ч. выдаваемом сканером. Описывает максимальное количество цветов, воспроизводимое сканером в виде степени числа 2. Одному разряду соответствует черно-белое изображение, 8-ми - серое полутоновое (типовое для рассматриваемых в данной лекции сканеров), 16-ти - цветное, 24-цветное изображение, наиболее близкое к человеческому восприятию (модель RGB), 36bit и больше - полноцветное изображение с высокой достоверностью цветопередачи, предназначенное для профессиональной работы, чаще всего в издательском деле.
Время сканирования. Измеряется в страницах в минуту (иногда - в секундах на изображение). Типовые значения различны для разных типов сканеров и приведены далее в примерах.
Формат. Формат сканируемого документа. Как правило - A3/A4.
Интерфейс передачи данных - способ подключения сканера к компьютеру. Способы могут быть различны (к COM или USB порту, к SCSI карте и др.).
Программное обеспечение сканирования
Существует три категории ПО сканирования:
1. ПО сканирование малых объёмов документов
2. ПО сканирования больших объёмов документов
3. ПО для специальных задач сканирования
ПО сканирование малых объёмов документов.
Применяется при домашнем и офисном сканировании.
Используется практически любое программное обеспечение, совместимое со стандартом TWAIN и поддерживающее функцию сканирования - система управления документооборотом, программа распознавания графических образов или любой распространенный графический редактор.
TWAIN (Toolkit Without An Interesting Name) - "инструментальный набор, для которого не удалось придумать интересного названия". Является стандартом для прикладного программного интерфейса (API) таких периферийных устройств, как сканеры, т.е. связующим звеном между компьютером и сканером.
Примеры ПО сканирования малых объемов:
1. ABBYY FineReader
2. Adobe PhotoShop
3. Cognitive Cuineiform
4. Microsoft Photo Editor
5. ACDSEE
ПО сканирования больших объёмов документов.
Применяется при промышленном сканировании.
При поточном сканировании один сканер ежедневно может обрабатывать до 50.000 и более документов. При таких нагрузках возможностей универсального стандарта TWAIN становится не достаточно, и для программного управления сканерами используется промышленный стандарт ISIS (ISIS - Image and Scanner Interface Specification).
Примеры применяемого ПО:
1. Kofax Ascent Capture
2. Captiva InputAccel
ПО для специальных задач сканирования.
Применяется при планетарном, высококачественном сканировании.
Программное обеспечение специально разрабатывается с учётом специфики сканирующего устройства, не совместимо с другими стандартами.
Применяемое ПО:
1. ПланСкан BSC-2
2. RZ ProScan Book (Minolta PS7000 edition)
3. Zeutschel OmniScan
Что такое системы распознавания?
Чтобы реализовать автоматический или автоматизированный перевод бумажных документов в электронный вид, необходимо выполнить сканирование бумажных документов и распознать их содержимое с помощью специальных программ, называемых системами оптического распознавания символов (Optical Character Recognition - OCR). Системы оптического распознавания символов предназначены для автоматического ввода печатных документов в компьютер. Обработка изображения OCR-системой включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы:
1. определение областей распознавания
2. определение таблиц
3. определение картинок
4. выделение в тексте строк и отдельных символов
и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.
Современные программно-аппаратные системы позволяют автоматизировать ввод больших объемов информации в компьютер, используя, например, сетевой сканер и параллельное распознавание текстов на нескольких компьютерах одновременно.
Точность распознавания
Ключевым параметром систем распознавания, характеризующим их практическую ценность, является точность распознавания, то есть процент правильно распознанных символов.
OCR-системы могут достигать наилучшей точности распознавания — свыше 99,9% для чистых изображений, составленных из обычных шрифтов. На первый взгляд такая точность распознавания кажется идеальной, но уровень ошибок все же удручает, потому что, если имеется приблизительно 1500 символов на странице, то даже при коэффициенте успешного распознавания 99,9 % получается одна или две ошибки на страницу. В таких случаях на помощь приходит метод проверки по словарю. То есть, если какого-то слова нет в словаре системы, то она по специальным правилам пытается найти похожее. Но это все равно не позволяет исправлять 100 % ошибок, что требует человеческого контроля результатов.
Точность распознавания падает за счет ошибок распознавания. Повышению точности распознавания способствует устранение указанных ниже причин ошибок.
Причины ошибок при распознавании
Встречающиеся в реальной жизни тексты обычно далеки от совершенства, и процент ошибок распознавания для "нечистых" текстов часто недопустимо велик. Грязные изображения — здесь наиболее очевидная проблема, потому что даже небольшие пятна могут затенять определяющие части символа или преобразовывать один в другой. Еще одной проблемой является неаккуратное сканирование, связанное с "человеческим фактором", так как оператор, сидящий за сканером, просто не в состоянии разглаживать каждую сканируемую страницу и точно выравнивать ее по краям сканера.
Если документ был ксерокопирован, нередко возникают разрывы и слияния символов. Любой из этих эффектов может заставлять систему ошибаться, потому что некоторые из OCR-систем полагают, что непрерывная область изображения должна быть одиночным символом.
Страница, расположенная с нарушением границ или перекосом, создает немного искаженные символьные изображения, которые могут быть перепутаны OCR.
Вопросы практического применения систем распознавания, а также проблем, вызванных недостаточной точностью распознавания, и путей их решения будут рассмотрены в следующей лекции, "Индексация и имиджинг". Сочинения курсовыеСочинения курсовые