Бесплатные средства для распознавания текста

Бесплатные средства для распознавания текста

Бесплатные средства для распознавания текста

Многие из нас почти ежедневно что-то печатает. Но иногда требуется и обратный процесс — получение «электронного» текста с бумажных носителей. Что в таких случаях делать? Перепечатывать отсканированные страницы с текстом дело неблагодарное и если быть откровенным — довольно глупая. Особенно в наше время, когда компьютеры способны выполнять сложнейшие операции с вычислений, сравнений и даже предсказанийТак размышлял я, начиная поиск бесплатного программного обеспечения для «вылущивания» текста из изображений.

И в принципе я не ошибся. Хотя таких инструментов не много, но они есть, а некоторые из них даже очень неплохие. Есть даже онлайн-сервисы, которые хоть и не позволяют вдоволь поиграть с настройками, однако позволяют быстро (без установки ПО) скачать отсканированные тексты и получить цифровые документы.

Эту категорию программного обеспечения обозначают аббревиатурой OCR ( Optical Character Recognition ) и используют для конвертации отсканированных книг и документов в цифровой текст, который можно редактировать в обычных текстовых процессорах. После тестирования десятка таких бесплатных программ и онлайн-сервисов я выбрал по два лучших (по моему мнению) представителя.

Программы

Среди наиболее качественных бесплатных «стационарных» OCR-программ в первую очередь можно отметить CuneiForm . Это программа для оптического распознавания, редактирования (исправления) и сохранение в популярных форматах текста отсканированного с бумажных носителей.

В полученных с помощью CuneiForm текстовых документах сохраняется структура документа и его форматирование.Также эта программа распознает таблицы различной степени сложности, различные шрифты, распечатки с принтеров, тексты пишущей машинки и т. п. Для повышения качества распознавания в программе используется проверка результата работы с помощью словарей, которые можно дополнять.

Другая достаточно качественная OCR-программа - gImageReader . Хотя вообще-то это не программа, а лишь пользовательский интерфейс для двигателя Tesseract , который нужно загрузить и установить до установки gImageReader. Двигатель Tesseract использует словари и  средства проверки орфографии от OpenOffice, которые также нужно устанавливать отдельно.

Таким образом установка и настройка gImageReader превращается если не сложную, то во всяком случае на тягостную процедуру. Как для меня, это не позволяет рекомендовать ее широкому кругу пользователей. Но возможности программы достаточно широки и тот, кто пройдет все этапы установки получит хороший инструмент.

Онлайн-сервисы

NewOCR.com поддерживает конвертирование изображений из форматов JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu. Есть возможность распознавания текста, состоит из нескольких колонок; вращения, нормализации контраста и удаления теней с начального изображения загрузки результата в различных форматах, копирование ссылки на редактирование и перевод текста в сервисах Google.

Второй онлайн-сервис - i2OCR работает с форматами TIF, JPEG, PNG, BMP, GIF, PBM, PGM и PPM. Этот сервис не обладает столькими удобными инструментами, как предыдущий, но его результаты достаточно качественные, а интерфейс прост и удобен, так i2OCR может быть использован в качестве «резервного» средства.

PS

Бесплатные средства для распознавания текста

Я начал этот обзор с намерением найти способ перевести в электронный вид перефотографований многостраничный документ. К сожалению ни одна из бесплатных программ и онлайн-сервисов не смогли корректно обработать эти фото. В лучшем случае распознавался только маленький фрагмент текста на странице. Обработка «нелинейного» текста оказалась слишком сложной задачей.Конечно — в этом есть и моя вина (нужно было перефотографовуваты более аккуратно), но приходилось уже работать с тем что было.

После тщетных поисков бесплатного решения пришлось обращаться к коммерческому. А именно (это не реклама :) — к онлайн-сервису FineReader OnlineКонвертация 45 фотографий страниц документа в текст стоила мне $ 5. Не скажу, что все распозналось идеально, но подправить два-три предложения на страницу не так трудно, как перепечатывать все заново.


Также ознакомьтесь с похожими статьями:

  1. Сервисы для проверки уникальности текста Сервисы для проверки уникальности текста Внимание — плагиат! Плагиат — страшное...
  2. Chrome VS Firefox Chrome VS Firefox (опыт free soft ware) Несколько недель назад я...
  3. Cкачать софт. Программа для защиты системы PC Tools ThreatFire Cкачать софт. Программа для защиты системы PC Tools ThreatFire Программа PC...
  4. Как создать стартап бизнес в 16 лет Как создать стартап бизнес в 16 лет Для того, чтобы...
  5. Как читать статьи с Google Reader на Kindle Как читать статьи с Google Reader на Kindle Если ты...

Читать комменты и комментировать

Добавить комментарий / отзыв



Защитный код
Обновить

Бесплатные средства для распознавания текста | | 2012-06-30 21:55:00 | | Технологии и новости мира IT | | Бесплатные средства для распознавания текста Многие из нас почти ежедневно что-то печатает. Но иногда требуется и обратный процесс — получение «электронного» текста с бумажных носителей. Что в таких | РэдЛайн, создание сайта, заказать сайт, разработка сайтов, реклама в Интернете, продвижение, маркетинговые исследования, дизайн студия, веб дизайн, раскрутка сайта, создать сайт компании, сделать сайт, создание сайтов, изготовление сайта, обслуживание сайтов, изготовление сайтов, заказать интернет сайт, создать сайт, изготовить сайт, разработка сайта, web студия, создание веб сайта, поддержка сайта, сайт на заказ, сопровождение сайта, дизайн сайта, сайт под ключ, заказ сайта, реклама сайта, хостинг, регистрация доменов, хабаровск, краснодар, москва, комсомольск |
 
Поделиться с друзьями: