Краткие теоретические и учебно-методические материалы по теме практической работы

С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Однако работать с таким текстом невозможно: как любое сканированное изображение, страница с текстом представляет собой графический файл - обычную картинку. Текст можно будет читать и распечатывать, но нельзя будет его редактировать и форматировать. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов.

Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR).

Современная OCR должна уметь многое: сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и так далее. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст. Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством отличных от входного изображения точек.

При распознавании документов с низким качеством печати (машинописный текст, факс и так далее) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.).

При заполнении налоговых деклараций, при проведении переписей населения и так далее используются различного вида бланки с полями. Рукопечатные тексты (данные вводятся в поля печатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных.

Самая известная программа для распознавания текстов – это FineReader от компании ABBYY. она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии "целостного целенаправленного адаптивного распознавания".

Все версии FineReader, от самой простой до самой мощной, объединяет удобный интерфейс. Для запуска процесса распознавания вам достаточно просто положить документ в сканер и нажать единственную кнопку (мастер Scan & Read) на панели инструментов программы. Все дальнейшие операции — сканирование, разбивку изображения на «блоки» и, наконец, собственно распознавание программа выполнит автоматически. Пользователю останется только установить нужные параметры сканирования. Качество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости.

Оптимальным разрешением для обычных текстов является - 300 dpi и 400-600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов).

После завершения распознавания страницы FineReader предложит пользователю выбор: сканировать и распознавать дальше (для многостраничного документа) или сохранить полученный текст в одном из множества популярных форматов — от документов Microsoft Office до HTML или PDF. Можно, впрочем, сразу же перебросить документ в Word или Excel, и уже там исправить все огрехи распознавания (без них обойтись просто невозможно). При этом FineReader полностью сохраняет все особенности форматирования документа и его графическое оформление.

Вопросы для закрепления теоретического материала к практическому занятию:

1. Зачем нужны программы распознавания текста?

2. Как происходит распознавание текста?

3. Какие программы распознания текста вы знаете? Какими пользовались?

4. Какое разрешение является оптимальным для сканирования текста, изображений?

Задания для практического занятия:

1. Запустите FineReader и откройте файл Распознать документ.tif. Для этого щелкните на кнопке Открыть и выберите файл с изображением.

2. Распознайте это отсканированное изображение. Для этого нажмите кнопку Распознать. Прежде чем приступить к распознаванию, программа должна знать, какие участки изображения надо распознавать. Для этого проводится анализ макета страницы, во время которого выделяются блоки с текстом, картинки и таблицы. В большинстве случаев FineReader сам успешно справляется с анализом сложных страниц.

3. Если программа произвела анализ страницы неправильно, можно исправить вручную. Для этого щелкните Процесс→Анализ макета страницы.

Блоки - это заключенные в рамку участки изображения. Блоки выделяют для того, чтобы указать системе, какие участки, отсканированной страницы, надо распознавать и в каком порядке. Также по ним воспроизводится исходное оформление страницы. Блоки разных типов имеют различные цвета рамок.

Текст - блок используется для обозначения текста. Он должен содержать только одноколоночный текст. Если внутри текста содержатся картинки, выделите их в отдельные блоки.

Таблица - этот блок используется для обозначения таблиц или текста, имеющего табличную структуру. При распознавании программа разбивает данный блок на строки и столбцы и формирует табличную структуру. В выходном тексте данный блок передается таблицей.

Картинка - этот блок используется для обозначения картинок. Он может содержать картинку или любую другую часть текста, которую Вы хотите передать в распознанный текст в качестве картинки.

4. Распознанный текст можно отправить в ТР. Для этого щелкните кнопку Передать в ТР. Запуститься программа Microsoft Word или другой редактор и откроется распознанный текст, который вы можете редактировать и форматировать, сохранить в файл.

5. Выполнить редактирование и форматирование текста распознанного документа в соответствии с оригиналом.

6. Выполнить редактирование графического изображения распознанного документа в соответствии с оригиналом.

Форма контроля выполнения практических работ:

Студент предоставляет письменные ответы на вопросы в тетради и результаты распознания документа на носителе.

Критерии оценки:

Все задания выполнены и может пояснить алгоритм их выполнения - оценка 5

Выполнены все, но объяснить не может – 4

Задания выполнены частично, пояснения не четкие – 3

Задание не выполнено-2.

Занятие 18

Практическая работа по теме:

4.1.6.Понятие о настольных издательских системах.

Учебные цели и задачи: ознакомиться с возможностямитекстового процессора (как настольной издательской системы) и профессиональных издательских систем, применить на практике функции текстового процессора по макетированию документов, оформлению документов с использованием шаблонов.

Краткие теоретические и учебно-методические материалы по теме практической работы:

Этапы деятельности человека по подготовке издания: макет, вёрстка, оригинал-макет.

«Издательская система» – это комплекс программ, с помощью которого выполняется допечатная подготовка издания. Обсудить, какими функциями должно обладать программное обеспечение, используемое для допечатной подготовки издания, достаточно ли функций текстового процессора для современного издательского труда.

1. Microsoft Office Publisher, (ранее Microsoft Publisher) - настольная издательская система от Microsoft. Название программы происходит от слова "publisher", т. е. это программа, рассчитанная на выпуск разнообразных публикаций. Publisher может управлять размещением текста, изображений и других элементов макета, она специально разработана для автоматизации задач по созданию макетов страниц, для этого в ней много специальных мастеров, шаблонов и инструкций по проектированию. Это приложение начального уровня, отличающееся от Microsoft Word тем, что акцент в нём делается на проектирование разметки страницы, а не на оформление и проверку текста. Microsoft Publisher —программное обеспечение, входящее в состав пакета Microsoft Office.

2. Издательская система Adobe PageMaker также относится к программному обеспечению, для ознакомительного занятия с этой программой можно скачать демо-версию Adobe PageMaker 7.0с сайта

http://www.softnew.ru/list.phtml?id=4336.

3. Программа Scribus — это бесплатно распространяемая открытая настольная издательская система. Программа относится к категории кроссплатформенных, т. е. может использоваться в операционных системах семейства Windows, в ОС Linux, BSD и Mac. С вводным курсом по вёрстке документов в Scribus можно познакомиться на сайте http://wiki.scribus.net/canvas.

Вопросы для закрепления теоретического материала к практическому занятию:

1) Каково основное назначение издательских систем?

2) Каковы этапы допечатной подготовки текста?

3) Какие специалисты, на ваш взгляд, должны участвовать в допечатной подготовке текста?

Задания для практического занятия:

Используя Publisher, создать буклет с рекламой своей специальности

ü Выбираем Буклет

ü Выбираете понравившийся макет

Внесите информацию и предложенные графические изображения