Лекция 1 Технологии и средства обработки текстовой информации

Технологии обработки текстов являются одними из наиболее распространенных технологий обработки информации. Текст – любая последовательность символов, к которым относятся буквы, пробел, знаки препинания, цифры, знаки арифметических операций и т.п. Текст можно создать карандашом, пером, авторучкой, на пишущей машинке, наконец, на компьютере.

К аппаратным средствам компьютера для ввода текстового документа относится клавиатура, световой карандаш со специальным планшетом, сканер.

К программным средствам, предназначенным для работы с текстами, относятся:

· электронные блокноты;

· текстовые редакторы;

· текстовые процессоры;

· редакционно-издательские системы;

· программы-переводчики;

· лингвистические корректоры;

· системы, осуществляющие интеллектуальный поиск и интеллектуальную обработку текстов, размещенных в сетях.

Текстовый редактор – программное средство, предназначенное для создания (ввода, набора), редактирования и оформления текстов. Примеры: «Лексикон», «Слово и дело», «Edit», «Ched», «Note Pad», «Write».

Текстовый процессор отличается от текстового редактора более широкими функциональными возможностями:

· настраиваемое пользователем меню;

· использование контекстного меню;

· сопровождение текста таблицами и проведение в них простейших расчетов;

· вставка графических объектов (рисунков, диаграмм, заголовков и пр.) или создание рисунков с помощью встроенных инструментов;

· вставка формул, графиков, диаграмм;

· оформление текста списками, буквицами;

· использование инструмента автокоррекции текста и его автореферирования;

· создание и использование макросов;

· фоновая проверка орфографии, синтаксиса и др.

Примеры: Word (Microsoft Office), Word Pro (Lotus Smart Suite), Word perfect (Perfect Office), Accent, Word Pad.

Редакционно-издательские системы должны обеспечить все функции текстового процессора, а также:

· воспринимать тексты, созданные в различных текстовых редакторах;

· воспринимать отсканированные или нарисованные в графических редакторах иллюстрации, созданные на ПК разных платформ, и корректировать их цвета;

· иметь большой набор шрифтов и возможность их графического преобразования;

· иметь возможность для различного «обтекания» рисунка текстом;

· обеспечивать автоматическое оптимальное размещение текста на странице, автоматическую нумерацию страниц;

· обеспечивать адаптацию к различным печатающим устройствам и т.п.

Программы-переводчики или компьютерные словари содержат переводы на разные языки сотен тысяч слов и словосочетаний. Их возможности, предоставляемые пользователю, заключаются в следующем:

· выбор языка и направления перевода;

· предоставление не только общеупотребительных, но и специализированных слов;

· обеспечение быстрого поиска словарных статей;

· предоставление мультимедийных услуг – прослушивание слов в исполнении дикторов.

Рассматривая технологию создания текста, необходимо знать определение таких понятий как шрифт, графема, сериф, кегль, а также пагинация, выключка, кернинг, интерлиньяж.

Графема – единица письменного знака, выступающая в различных вариантах в зависимости от стиля письма, места в предложении и т.д.

Шрифт – выполненные в едином стиле графемы букв, используемых для письма.

Сериф – завиток (росчерк, засечка), образующий окончание линии, которой изображена буква или знак (литера).

Кегль – размер шрифта, определяемый литерой.

Выключка – выравнивание длины печатных строк по заданному размеру путем увеличения промежутков между словами.

Пагинация (от английского page – страница) – разбивка на страницы.

Кернинг – уменьшение расстояния между буквами для более удобного и комфортного восприятия текста глазом.

Интерлиньяж – регулировка промежутка между строками.

Формат файла определяет способ хранения текста в файле. Простейший формат текстового файла содержит только символы (числовые коды символов), другие же форматы содержат дополнительные управляющие числовые коды, которые обеспечивают форматирование текста.

Существуют универсальные форматы текстовых файлов, которые могут быть прочитаны большинством текстовых редакторов, и оригинальные форматы, которые используются отдельными текстовыми редакторами. Для преобразования текстового файла из одного формата в другой используются специальные программы – программы-конверторы.

Рассмотрим некоторые наиболее распространенные форматы текстовых файлов.

Только текст (Text Only) (TXT). Наиболее универсальный формат. Сохраняет текст без форматирования, в текст вставляются только управляющие символы конца абзаца. Применяют этот формат для хранения документов, которые должны быть прочитаны в приложениях, работающих в различных операционных системах.

Текст в формате RTF (Rich Text Format) (RTF). Универсальный формат, который сохраняет все форматирование. Преобразует управляющие коды в команды, которые могут быть прочитаны и интерпретированы многими приложениями, в результате информационный объем файла существенно возрастает.

Документ Word (DOC). Оригинальный формат используемой в настоящее время версии Word. Полностью сохраняет форматирование. Использует 16-битную кодировку символов, что требует использование шрифтов Unicode.

Документ Word 2.0, Word 6.0/95 (DOC). Оригинальные форматы предыдущих версий редактора Word. При преобразовании из формата Word 97/2000/2003 форматирование сохраняется не полностью.

Works 4.0 для Windows (WPS). Оригинальный формат интегрированной системы Works 4.0. При преобразовании из формата Word форматирование сохраняется не полностью.

HTML-документ (HTM, HTML). Формат хранения Web-страниц. Содержит управляющие коды (тэги) языка разметки гипертекста.

Выбор требуемого формата текстового документа или его преобразование производится в процессе сохранения файла.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: