Практическое задание

Информатика

(название учебной дисциплины)

Для групп: 0901 ДИН,  0902 ДИН

Преподаватель: Суховерхов Р.В.

ТЕМА: «Программные средства перевода текстовой информации в цифровой вид».

Краткий курс лекции

У любого специалиста, деятельность которого связанна с информационными технологиями, периодически возникает необходимость  распознания печатного текста с картинками  или схемами и перевести его в текстовый файл (цифровой вид).

На сегодняшний день существует множество способов оцифровки текста, таких как профессиональные программы, онлайн приложения (OCR, Google, Яндекс), встроенные функции текстовых редакторов, приложения на смартфон, голосовой набор и т.д.

Онлайн сервисы или программы с встроенной функцией распознавания текста

OCR онлайн сервисы это отличный онлайн способ перевести текст в цифровой вид, не требующий регистрации. Без ограничений можно бесплатно распознавать файлы в формате JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu, загружать можно сразу по несколько страниц. Можно распознавать тексты с изображений в файлах DOC, DOCX, RTF и ODT. Выделять и разворачивать требуемую область текста страницы для распознавания. Поддерживает 58 языков и может сделать перевод текста с помощью Google переводчика. Сохранить полученные результаты распознавания можно в форматах TXT, DOC, ODT, RTF, PDF, HTML.

Распознав текст, данные можно сохранить в виде URL ссылки с расширением TXT, который можно скопировать и вставить в нужный вам файл. Некоторые приложения позволяют загружать одновременно до пяти документов объемом до 5 МБ.

Облачные хранилища.

Google Диск

Здесь требуется регистрация, если нет своего аккаунта в Google. Можно распознавать изображения PNG, JPG, GIF и файлы PDF размером не более 2 МБ. В файлах PDF распознаются только первые десять страниц. Распознанные документы можно сохранять в форматах DOC, TXT, PDF, PRT и ODT.

 

Яндекс ОCR

Пользуясь онлайн переводчиком от Яндекс можно считать текст с картинки на 42 языках и перевести на имеющиеся 95 языков. Регистрации не требуется, возможно загрузить только одно изображение за раз.

Профессиональные программы.

ABBYY FineReader

 

Профессиональная система оптического распознавания текста. Её устанавливают не только для домашнего использования, но также и в крупных компаниях. Пожалуй, это самый популярный софт в данном сегменте. Единственное, что следует иметь в виду – в полной версии программа платная. Однако, можно скачать и бесплатный вариант, так называемую испытательную версию ABBYY FineReader: Home Edition. Она будет работать в течение 15 дней и за это время сможет распознать 50 страниц. Программа позволит из бумажных документов, PDF-файлов и цифровых фото сделать редактируемый текст. Она распознает 179 языков и экспортирует тексты в Word, Excel, PowerPoint или Outlook.

Бесплатные программы.

CuneiForm

Это совершенно бесплатная программа от российского разработчика Cognitive OpenOCR. Среди возможностей CuneiForm - сканирование текста и изображений; распознавание текста на 20 языках; работа с различными шрифтами (книжными, газетными, с пишущих машинок); распознавание таблиц и их содержимого (в том числе без сетки); «понимание» как чёрно-белых, так и цветных документов.

WinScan2PDF

 

Пожалуй, самая простая программа для сканирования текста. Запустив ее, вы сможете управлять меню WinScan2PDF, в котором будет всего три кнопки: «Выбрать источник», «Сканировать в PDF», «Отмена». Что касается настроек, то их практически нет. Разве что выбор языка при инсталляции (к слову, есть и русский). Таким образом, отсканировать документ можно всего одним кликом. При этом разработка с легкостью обеспечивает сохранение большого количества документов в PDF.

Приложения для смартфона

Office Lens

Этот сервис от компании Microsoft превращает камеру смартфона или ПК в мощный сканер документов. С помощью Office Lens  можно распознать текст на любом физическом носителе и сохранить его в одном из «офисных» форматов или в PDF. Итоговые текстовые файлы можно редактировать в Word, OneNote и других сервисах, интегрированных с Office Lens.

 

Adobe Scan

Adobe Scan тоже использует камеру смартфона, чтобы сканировать бумажные документы, но сохраняет их копии только в формате PDF. Результаты удобно экспортировать в кросс-платформенный сервис Adobe Acrobat, который позволяет редактировать PDF-файлы: выделять, подчёркивать и зачёркивать слова, выполнять поиск по тексту и добавлять комментарии.

CamScanner

CamScanner является одним из самых популярных мобильных приложений для сканирования документов, заметок, визиток. Приложение может автоматически исправить перспективу, обрезать, повысить качество полученного изображения, для того, чтобы получить более презентабельный и удобный для чтения файл. Сканы могут быть сохранены в форматах JPEG или PDF, в зависимости от вашего желания.

Несмотря на все преимущества и  удобства, подобные программные средства не всегда способны справиться с поставленными задачами. Для успешного распознавания текста практически все программные средства предъявляют определённые требования.  Так, изображение должно быть качественное, его разрешение должно быть примерно 300 пикселей на квадратный дюйм, фотография должна быть качественная, то есть не должно быть заветов от вспышки и теней. Подобные требования вполне можно успешно исполнить путём сканирования листа с текстом. Но к сожалению существуют и другие проблемы, такие как изначально не качественный текст, отпечатанный на машинке, дефекты при печати (неисправный принтер), искажения текста, путём зачёркивания части букв и т.д. Кроме перечисленных проблем, существует и проблема неправильного форматирования текста внутри программными средствами. В подобных случаях без участия человека выполнение качественно и грамотно работы не возможно.

 

Вопросы самоконтроля

1. Как можно разделить программные средства для перевода текста из печатного вида в цифровой?

2. Какие данные можно отцифровывать с помощью таких программных средств?

3. Какие трудности могут возникнуть при оцифровке текста?

Практическое задание.

Необходимо получить индивидуальный вариант машинописного отсканированного текста или предъявить свой. С помощью использования программных средств распознавания печатного текста перевести информацию в цифровой.   В качестве пояснения вставьте в текст две иллюстрации без фона на тему повествования.

Каждый студент получает свой вариант таблицы у преподавателя индивидуально по средствам социальной сети ВК или по электронной почте.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: