Большинство программ оптического распознавания текста (OCR Optical Character Recognition) работают с растровым изображением, которое получено через факс-модем, сканер, цифровую фотокамеру или другое устройство. На первом этапе OCR должен разбить страницу на блоки текста, основываясь на особенностях правого и левого выравнивания и наличия нескольких колонок. Затем распознанный блок разбивается на строки. Несмотря на кажущуюся простоту, это не такая очевидная задача, так как на практике неизбежны перекос изображения страницы или фрагментов страницы при сгибах. Даже небольшой наклон приводит к тому, что левый край одной строки становится ниже правого края следующей, особенно при маленьком межстрочном интервале. Врезультате возникает проблема определения строки, к которой относится тот или иной фрагмент изображения. Например, для букв j, Й, ё при небольшом наклоне уже сложно определить, к какой строке относится верхняя (отдельная) часть символа (в некоторых случаях ее можно принять за запятую или точку) .
Начнем обзор с лидера в этой области FineReader. Это программный продукт фирмы ABBYY Software, раньше разрабатывался фирмой Bit Software. Последняя версия программы (6.0) теперь имеет средства для разработки новых систем на базе технологии FineReader6.0. Всостав семейства FineReader6.0 теперь входят FineReader6.0 Professional, FineReader6.0 Corporate Edition, FineReader Scripting Edition6.0 и FineReader Engine6.0. FineReader 6.0 кроме того, что знает огромное количество форматов для сохранения, включая PDF, имеет возможность прямого распознавания из PDF-файлов. Новая технология Intelligent Background Filtering (интеллектуальной фильтрации фона) позволяет отсеять информацию о текстуре документа и фоновом шуме изображения: иногда для выделения текста в документе используется серый или цветной фон. Человеку это не мешает читать, но обычные алгоритмы распознавания текста испытывают серьезные затруднения при работе с буквами, расположенными поверх такого фона. Теперь программа FineReader умеет определять зоны, содержащие подобный текст, отделяя текст от фона документа, находя точки, размер которых меньше определенной величины, и удаляя их. При этом контуры букв сохраняются, так что точки фона, близко расположенные к этим контурам, не вносят помех, способных ухудшить качество распознавания текста.
ABBYY FormReader еще одна распознавалка от ABBYY, основанная на ABBYY FineReader Engine. Эта программа предназначена для распознавания и обработки форм, которые могут быть заполнены вручную. Производители утверждают, что программа ABBYY FormReader может обрабатывать формы с фиксированной схемой так же хорошо, как и формы, чья структура может меняться. Для распознавания была применена новая технология ABBYY FlexiForm technology.
OCR CuneiForm один из главных конкурентов FineReader как на российском, так и на мировом рынке. Производителем является российский разработчик программного обеспечения Cognitive Technologies. По словам производителей, OCR CuneiForm выгодно отличается уровнем распознавания, особенно текстов низкого качества; удобным интерфейсом с наличием встроенных мастеров помощников в работе; встроенным текстовым редактором, не уступающим по своей функциональности популярным текстовым процессорам, и многими другими возможностями.
OCR CuneiForm способна распознавать любые полиграфические и машинописные гарнитуры всех начертаний и шрифтов, получаемые с принтеров, за исключением декоративных и рукописных. Также программа способна распознавать таблицы различной структуры, в том числе и без линий и границ; редактировать и сохранять результаты в распространенных табличных форматах. Существенно облегчает работу и возможность прямого экспорта результатов в MS Word и MS Excel (для этого теперь не нужно сохранять результат в файл RTF, а затем открывать его с помощью MS Word).
Прочее компьютерное
Народ, очень нужна ваша помощь, расскажите как можно больше про систему распознавания текстов. Позарез надо!!!
Артур Eroshenko
Класс.Но только можно такими же словами листов на 15-20 написать?
В нете полно и рефератов и прочей фигни на эту тему. Ну сложно поискать что-ли?
Артур Eroshenko
Искали.В том то и дело что фигни.
Оптическое распознавание символов механическая или электронная конвертация изображений символов и букв в текст, редактируемый на компьютере. Перевод осуществляется программным путём, после получения изображения со сканера или фото.
Текст, преобразованный из графической формы в символьную (текстовую) , можно далее обрабатывать любыми текстовыми редакторами.
Текст, преобразованный из графической формы в символьную (текстовую) , можно далее обрабатывать любыми текстовыми редакторами.
Артур Eroshenko
А можно такими словами,только листов на 15.
Файнридер - см. википедия.
Похожие вопросы
- блин народ плиз помогите! Очень нужна ваша помощь!! ! Умоляю!
- Подскажите, пожалуйста, что с компьютером????Очень нужна ваша помощь
- очень нужна ваша помощь
- Очень нужна ваша помощь!!! (см. внутри)
- Очень нужна ваша помощь. Кто сталкивался с NOD32.
- Как переустановить винду??? Специалисты, очень нужна ваша помощь!!!
- Друзья очень нужна ваша помощь. Комп не видит загрузочную флэшку в формате NTFS при начале установки Windows 7
- Ребят, очень нужна ваша помощь!
- Добрый день! Нужна ваша помощь!
- Нужна ваша помощь!