Бесплатные средства для распознавания текста
Бесплатные средства для распознавания текста
Многие из нас почти ежедневно что-то печатает. Но иногда требуется и обратный процесс — получение «электронного» текста с бумажных носителей. Что в таких случаях делать? Перепечатывать отсканированные страницы с текстом дело неблагодарное и если быть откровенным — довольно глупая. Особенно в наше время, когда компьютеры способны выполнять сложнейшие операции с вычислений, сравнений и даже предсказаний. Так размышлял я, начиная поиск бесплатного программного обеспечения для «вылущивания» текста из изображений.
И в принципе я не ошибся. Хотя таких инструментов не много, но они есть, а некоторые из них даже очень неплохие. Есть даже онлайн-сервисы, которые хоть и не позволяют вдоволь поиграть с настройками, однако позволяют быстро (без установки ПО) скачать отсканированные тексты и получить цифровые документы.
Эту категорию программного обеспечения обозначают аббревиатурой OCR ( Optical Character Recognition ) и используют для конвертации отсканированных книг и документов в цифровой текст, который можно редактировать в обычных текстовых процессорах. После тестирования десятка таких бесплатных программ и онлайн-сервисов я выбрал по два лучших (по моему мнению) представителя.
Среди наиболее качественных бесплатных «стационарных» OCR-программ в первую очередь можно отметить CuneiForm . Это программа для оптического распознавания, редактирования (исправления) и сохранение в популярных форматах текста отсканированного с бумажных носителей.
В полученных с помощью CuneiForm текстовых документах сохраняется структура документа и его форматирование.Также эта программа распознает таблицы различной степени сложности, различные шрифты, распечатки с принтеров, тексты пишущей машинки и т. п. Для повышения качества распознавания в программе используется проверка результата работы с помощью словарей, которые можно дополнять.
Другая достаточно качественная OCR-программа - gImageReader . Хотя вообще-то это не программа, а лишь пользовательский интерфейс для двигателя Tesseract , который нужно загрузить и установить до установки gImageReader. Двигатель Tesseract использует словари и средства проверки орфографии от OpenOffice, которые также нужно устанавливать отдельно.
Таким образом установка и настройка gImageReader превращается если не сложную, то во всяком случае на тягостную процедуру. Как для меня, это не позволяет рекомендовать ее широкому кругу пользователей. Но возможности программы достаточно широки и тот, кто пройдет все этапы установки получит хороший инструмент.
Онлайн-сервисы
NewOCR.com поддерживает конвертирование изображений из форматов JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu. Есть возможность распознавания текста, состоит из нескольких колонок; вращения, нормализации контраста и удаления теней с начального изображения загрузки результата в различных форматах, копирование ссылки на редактирование и перевод текста в сервисах Google.
Второй онлайн-сервис - i2OCR работает с форматами TIF, JPEG, PNG, BMP, GIF, PBM, PGM и PPM. Этот сервис не обладает столькими удобными инструментами, как предыдущий, но его результаты достаточно качественные, а интерфейс прост и удобен, так i2OCR может быть использован в качестве «резервного» средства.
PS
Я начал этот обзор с намерением найти способ перевести в электронный вид перефотографований многостраничный документ. К сожалению ни одна из бесплатных программ и онлайн-сервисов не смогли корректно обработать эти фото. В лучшем случае распознавался только маленький фрагмент текста на странице. Обработка «нелинейного» текста оказалась слишком сложной задачей.Конечно — в этом есть и моя вина (нужно было перефотографовуваты более аккуратно), но приходилось уже работать с тем что было.
После тщетных поисков бесплатного решения пришлось обращаться к коммерческому. А именно (это не реклама — к онлайн-сервису FineReader Online. Конвертация 45 фотографий страниц документа в текст стоила мне $ 5. Не скажу, что все распозналось идеально, но подправить два-три предложения на страницу не так трудно, как перепечатывать все заново.
Также ознакомьтесь с похожими статьями:
- Сервисы для проверки уникальности текста Сервисы для проверки уникальности текста Внимание — плагиат! Плагиат — страшное...
- Chrome VS Firefox Chrome VS Firefox (опыт free soft ware) Несколько недель назад я...
- Cкачать софт. Программа для защиты системы PC Tools ThreatFire Cкачать софт. Программа для защиты системы PC Tools ThreatFire Программа PC...
- Как создать стартап бизнес в 16 лет Как создать стартап бизнес в 16 лет Для того, чтобы...
- Как читать статьи с Google Reader на Kindle Как читать статьи с Google Reader на Kindle Если ты...
Дайджест новых статей по интернет-маркетингу на ваш email
Новые статьи и публикации
- 2024-04-22 » Комментирование кода и генерация документации в PHP
- 2024-04-22 » SEO в России и на Западе: в чем основные отличия
- 2024-04-22 » SEO для международного масштабирования
- 2024-04-22 » Как использовать XML-карты для продвижения сайта
- 2024-04-22 » Цифровой маркетинг: инструменты для продвижения и рекламы в 2024 году
- 2024-04-22 » Что такое CSS-модули и зачем они нам?
- 2024-04-17 » 23 сервиса для эффективного экспресс-аудита любого сайта
- 2024-04-08 » Яндекс переходит на новую версию Wordstat
- 2024-04-08 » Яндекс интегрировал в свой облачный сервис эмпатичную нейросеть
- 2024-04-08 » Новая версия нейросети Claude превзошла по мощности аналоги Google и OpenAI
- 2024-04-08 » Как пользоваться GPT 4 и Claude бесплатно и без VPN
- 2024-03-13 » Стратегии SEO на 2024 год
- 2024-03-13 » Как использовать анимацию с помощью JavaScript-библиотеки GSAP
- 2024-03-13 » Использование GSAP 3 для веб-анимации
- 2024-03-13 » Cогласование топографической съёмки с эксплуатирующими организациями
- 2024-02-19 » Теряются лиды? Как настроить сквозную аналитику
- 2024-02-17 » Мерч и IT: на что обратить внимание в 2024 году
- 2024-02-16 » Копируем с RSync: основные примеры синхронизации файлов
- 2024-02-15 » Лучшие noCode AI платформы для создания диалоговых ботов
- 2024-02-14 » Факторы ранжирования Google 2024 — исследование Semrush
- 2024-02-12 » Перенос сайта на другой хостинг
- 2024-02-05 » В России сформирован реестр хостинг-провайдеров
- 2024-02-04 » Использование SSH для подключения к удаленному серверу Ubuntu
- 2024-02-03 » Подключаемся к серверу за NAT при помощи туннеля SSH. Простая и понятная инструкция
- 2024-02-02 » Настройка CI/CD для Gitlab-репозитория: схемы и гайд по шагам
- 2024-02-01 » GitLab CI Pipeline. Запуск сценария через SSH на удаленном сервере
- 2024-01-29 » Introduction to GitLab’s CI/CD for Continuous Deployments
- 2024-01-26 » Настройка GitLab CI/CD
- 2024-01-25 » Установка shell gitlab runner
- 2024-01-25 » Установка и регистрация gitlab-runner в docker контейнере
Гораздо больше людей сдавшихся, чем побежденных. |
Мы создаем сайты, которые работают! Профессионально обслуживаем и продвигаем их , а также по всей России и ближнему зарубежью с 2006 года!
Как мы работаем
Заявка
Позвоните или оставьте заявку на сайте.
Консультация
Обсуждаем что именно Вам нужно и помогаем определить как это лучше сделать!
Договор
Заключаем договор на оказание услуг, в котором прописаны условия и обязанности обеих сторон.
Выполнение работ
Непосредственно оказание требующихся услуг и работ по вашему заданию.
Поддержка
Сдача выполненых работ, последующие корректировки и поддержка при необходимости.