Бесплатные средства для распознавания текста
Бесплатные средства для распознавания текста
Многие из нас почти ежедневно что-то печатает. Но иногда требуется и обратный процесс — получение «электронного» текста с бумажных носителей. Что в таких случаях делать? Перепечатывать отсканированные страницы с текстом дело неблагодарное и если быть откровенным — довольно глупая. Особенно в наше время, когда компьютеры способны выполнять сложнейшие операции с вычислений, сравнений и даже предсказаний. Так размышлял я, начиная поиск бесплатного программного обеспечения для «вылущивания» текста из изображений.
И в принципе я не ошибся. Хотя таких инструментов не много, но они есть, а некоторые из них даже очень неплохие. Есть даже онлайн-сервисы, которые хоть и не позволяют вдоволь поиграть с настройками, однако позволяют быстро (без установки ПО) скачать отсканированные тексты и получить цифровые документы.
Эту категорию программного обеспечения обозначают аббревиатурой OCR ( Optical Character Recognition ) и используют для конвертации отсканированных книг и документов в цифровой текст, который можно редактировать в обычных текстовых процессорах. После тестирования десятка таких бесплатных программ и онлайн-сервисов я выбрал по два лучших (по моему мнению) представителя.
Среди наиболее качественных бесплатных «стационарных» OCR-программ в первую очередь можно отметить CuneiForm . Это программа для оптического распознавания, редактирования (исправления) и сохранение в популярных форматах текста отсканированного с бумажных носителей.
В полученных с помощью CuneiForm текстовых документах сохраняется структура документа и его форматирование.Также эта программа распознает таблицы различной степени сложности, различные шрифты, распечатки с принтеров, тексты пишущей машинки и т. п. Для повышения качества распознавания в программе используется проверка результата работы с помощью словарей, которые можно дополнять.
Другая достаточно качественная OCR-программа - gImageReader . Хотя вообще-то это не программа, а лишь пользовательский интерфейс для двигателя Tesseract , который нужно загрузить и установить до установки gImageReader. Двигатель Tesseract использует словари и средства проверки орфографии от OpenOffice, которые также нужно устанавливать отдельно.
Таким образом установка и настройка gImageReader превращается если не сложную, то во всяком случае на тягостную процедуру. Как для меня, это не позволяет рекомендовать ее широкому кругу пользователей. Но возможности программы достаточно широки и тот, кто пройдет все этапы установки получит хороший инструмент.
Онлайн-сервисы
NewOCR.com поддерживает конвертирование изображений из форматов JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu. Есть возможность распознавания текста, состоит из нескольких колонок; вращения, нормализации контраста и удаления теней с начального изображения загрузки результата в различных форматах, копирование ссылки на редактирование и перевод текста в сервисах Google.
Второй онлайн-сервис - i2OCR работает с форматами TIF, JPEG, PNG, BMP, GIF, PBM, PGM и PPM. Этот сервис не обладает столькими удобными инструментами, как предыдущий, но его результаты достаточно качественные, а интерфейс прост и удобен, так i2OCR может быть использован в качестве «резервного» средства.
PS
Я начал этот обзор с намерением найти способ перевести в электронный вид перефотографований многостраничный документ. К сожалению ни одна из бесплатных программ и онлайн-сервисов не смогли корректно обработать эти фото. В лучшем случае распознавался только маленький фрагмент текста на странице. Обработка «нелинейного» текста оказалась слишком сложной задачей.Конечно — в этом есть и моя вина (нужно было перефотографовуваты более аккуратно), но приходилось уже работать с тем что было.
После тщетных поисков бесплатного решения пришлось обращаться к коммерческому. А именно (это не реклама — к онлайн-сервису FineReader Online. Конвертация 45 фотографий страниц документа в текст стоила мне $ 5. Не скажу, что все распозналось идеально, но подправить два-три предложения на страницу не так трудно, как перепечатывать все заново.
Также ознакомьтесь с похожими статьями:
- Сервисы для проверки уникальности текста Сервисы для проверки уникальности текста Внимание — плагиат! Плагиат — страшное...
- Chrome VS Firefox Chrome VS Firefox (опыт free soft ware) Несколько недель назад я...
- Cкачать софт. Программа для защиты системы PC Tools ThreatFire Cкачать софт. Программа для защиты системы PC Tools ThreatFire Программа PC...
- Как создать стартап бизнес в 16 лет Как создать стартап бизнес в 16 лет Для того, чтобы...
- Как читать статьи с Google Reader на Kindle Как читать статьи с Google Reader на Kindle Если ты...
Дайджест новых статей по интернет-маркетингу на ваш email
Новые статьи и публикации
- 2024-11-26 » Капитан грузового судна, или Как начать использовать Docker в своих проектах
- 2024-11-26 » Обеспечение безопасности ваших веб-приложений с помощью PHP OOP и PDO
- 2024-11-22 » Ошибки в Яндекс Вебмастере: как найти и исправить
- 2024-11-22 » Ошибки в Яндекс Вебмастере: как найти и исправить
- 2024-11-15 » Перенос сайта на WordPress с одного домена на другой
- 2024-11-08 » OSPanel 6: быстрый старт
- 2024-11-08 » Как установить PhpMyAdmin в Open Server Panel
- 2024-09-30 » Как быстро запустить Laravel на Windows
- 2024-09-25 » Next.js
- 2024-09-05 » OpenAI рассказал, как запретить ChatGPT использовать содержимое сайта для обучения
- 2024-08-28 » Чек-лист: как увеличить конверсию интернет-магазина на примере спортпита
- 2024-08-01 » WebSocket
- 2024-07-26 » Интеграция с Яндекс Еда
- 2024-07-26 » Интеграция с Эквайринг
- 2024-07-26 » Интеграция с СДЕК
- 2024-07-26 » Интеграция с Битрикс-24
- 2024-07-26 » Интеграция с Travelline
- 2024-07-26 » Интеграция с Iiko
- 2024-07-26 » Интеграция с Delivery Club
- 2024-07-26 » Интеграция с CRM
- 2024-07-26 » Интеграция с 1C-Бухгалтерия
- 2024-07-24 » Что такое сторителлинг: техники и примеры
- 2024-07-17 » Ошибка 404: что это такое и как ее использовать для бизнеса
- 2024-07-03 » Размещайте прайс-листы на FarPost.ru и продавайте товары быстро и выгодно
- 2024-07-01 » Профилирование кода в PHP
- 2024-06-28 » Изучаем ABC/XYZ-анализ: что это такое и какие решения с помощью него принимают
- 2024-06-17 » Зачем вам знать потребности клиента
- 2024-06-11 » Что нового в работе Яндекс Метрики: полный обзор обновления
- 2024-06-11 » Поведенческие факторы ранжирования в Яндексе
- 2024-06-11 » Скорость загрузки сайта: почему это важно и как влияет на ранжирование
Великие умы обсуждают идеи, средние - обсуждают поступки, а малые - людей Индийская пословица |
Мы создаем сайты, которые работают! Профессионально обслуживаем и продвигаем их , а также по всей России и ближнему зарубежью с 2006 года!
Как мы работаем
Заявка
Позвоните или оставьте заявку на сайте.
Консультация
Обсуждаем что именно Вам нужно и помогаем определить как это лучше сделать!
Договор
Заключаем договор на оказание услуг, в котором прописаны условия и обязанности обеих сторон.
Выполнение работ
Непосредственно оказание требующихся услуг и работ по вашему заданию.
Поддержка
Сдача выполненых работ, последующие корректировки и поддержка при необходимости.