Система распознавания на основе FineReader

Процесс обработки FineReader осуществляется в несколько этапов:

1. Сканирование.

2. Выделение блоков на изображении.

3. Распознавание.

Затем нужно проверить ошибки и сохранить результат распознавания (передать его в другое приложение, например в текстовый редактор Word, в Буфер и т.п.) Основные модификации — Standard, Professional, Рукопись.

Функции, обеспечиваемые модификациями FineReader

Функции	Standard	Professional	Рукопись
Типы распознаваемых текстов	Печатные	Печатные, рукописные
Распознавание штрих-кода	нет	да	да
Возможность обучения новым символам	да	да	да
Распознавание многоколоночного текста с картинками и таблицами. Сохранение оформления в формате RTF	да	да	да
Интернет: сохранение документа в формате HTML	да	да	да
Поддержка языков
Встроенная программа проверки орфографии	да	да	да
Распознавание многоязычных документов	да	да	да
Создание новых языков	нет	да	да
Распознавание таблиц
Распознавание таблиц, сохранение результатов в форматах RTF, CSV, XLS, DBF	да	да	да
Ручная и автоматическая сегментация таблиц	да	да	да
Пост-редактор распознанных таблиц	да	да	да

Распознавание.

Язык распознавания и тип текста являются главными параметрами распознавания.

Языки, которые имеют словарную поддержку: английский, голландский, датский, испанский, итальянский, немецкий, норвежский, польский, португальский, русский, украинский, финский французский, шведский.

При распознавании текста на том или ином языке выберите нужный язык из списка на панели Распознавание.

Если нужного языка нет в списке, то выберите значение Другой... и в открывшемся списке найдите нужный язык или выберите несколько языков, слова которых встречаются в распознаваемом тексте.

Тип текста определяется в системе автоматически. Однако для распознавания текстов, напечатанных на пишущей машинке или матричном принтере в черновом режиме, чтобы повысить надежность и скорость распознавания, выберите соответствующее значение в списке на панели инструментов.

Если вы распознавали тексты, напечатанные на пишущей машинке или матричном принтере, то при возвращении к типографскому тексту не забудьте снова выбрать значение Авто.

Открытие изображения:

1. Меню Файл — Открыть.

2. Выберите диск и папку, где находятся нужные файлы.

3. Выберите нужные файлы и нажмите OK.

4. Выбранные файлы копируются в текущий пакет.

5. Вы можете указать, чтобы выбранные изображения не копировались, а перемещались в пакет (отметьте пункт Перемещать файлы в пакет).

Тогда при загрузке в текущий пакет выбранные файлы будут копироваться туда, где находится ваш пакет и удаляться оттуда.

Также можно добавлять изображения из буфера или через drag-&-drop.

Запуск распознавания:

1. Выделите нужные страницы в окне пакета. Подведите курсор и щелкните 1 раз левой кнопкой мыши.

2. Нажмите кнопку Распознать открытую страницу. Активизируйте открытое изображение и нажмите кнопку — Распознать.

Распознать все нераспознанные страницы:

1. Нажмите стрелку справа от кнопки — Распознать и из открывшегося меню выберите пункт Распознать все нераспознанные страницы.

2. Программа выделяет блоки (если они еще не выделены) и распознает изображения.

Установить расположение текста на странице:

Программа FineReader автоматически определяет раскладку текста на странице. Для книг, газет, факсов, отчетов и т.п. подходит положение Автоматическое определение. И только в редких случаях, например при распознавании оглавлений и листингов программ, нужно специально указывать программе, что текст напечатан в одну колонку.

1. Меню Сервис — Опции…

2. В диалоге Опции выберите закладку Сегментация.

3. В группе Число колонок выберите пункт Одна колонка (для текста, напечатанного в одну колонку с большими промежутками между словами) илиАвтоматическое определение.

Сохранить результаты распознавания в файл:

1. Если Вы хотите сохранить не все страницы пакета, то выделите нужные в окне Пакет.

2. Нажмите стрелку справа от кнопки Сохранить и в открывшемся меню выберите пункт Сохранить в файл.

3. В открывшемся диалоговом окне выберите диск, каталог и укажите имя и расширение файла, в который хотите экспортировать распознанный текст.

4. Установите переключатель Какие страницы сохранять в положение Все распознанные или Только выделенные.

5. Чтобы записывать каждую страницу в отдельный файл, отметьте пункт Записывать каждую страницу в отдельный файл. Тогда имена, которые эти файлы получат, будут состоять из заданного имени и порядкового номера (1, 2, и т.д.).

6. Нажмите OK.

Результаты распознавания можно переделать в одно из следующих приложений: MS Word, MS Excel, Corel WordPerfect, Lotus Word Pro или PROMT:

1. Активизируйте окно пакета (нажмите в нем мышью) и нажмите стрелку справа от кнопки “Сохранить”.

2. В открывшемся меню выберите пункт Передать в Word, Передать в Excel и т.п.

Для выделенных страниц:

1. Если вы хотите передать в другое приложение не все страницы, а только некоторые, то вы делите нужные страницы в окне Пакет.

2. Нажмите на стрелку справа от кнопки — Сохранить и выберите пункт Мастер сохранения результатов.

3. В открывшемся списке выберите нужное приложение и отметьте пункт Сохранять только выделенные страницы. По нажатию Готово в этом диалоге результаты распознавания передаются в выбранное приложение.

2.6. Автоматизированный перевод.

Автоматизированный перевод (АП, англ. Computer-Aided Translation) — перевод текстов на компьютере с использованием компьютерных технологий. От машинного перевода (МП) он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством.

Идея АП появилась с момента появления компьютеров: переводчики всегда выступали против стандартной в те годы концепции МП, на которую было направлено большинство исследований в области компьютерной лингвистики, но поддерживали использование компьютеров для помощи переводчикам. В 1960-е годы Европейское объединение угля и стали (предшественник современного Евросоюза) стало создавать терминологические базы данных под общим названием Eurodicautom^[1]. В Советском Союзе для создания баз такого рода был создан ВИНИТИ.

В современной форме идея АП была развита в статье Мартина Кея 1980 года^[2], который выдвинул следующий тезис: «by taking over what is mechanical and routine, it (computer) frees human beings for what is essentially human» (компьютер берет на себя рутинные операции и освобождает человека для операций, требующих человеческого мышления).

В настоящее время наиболее распространенными способами использования компьютеров при письменном переводе является работа со словарями и глоссариями,памятью переводов

(англ. Translation Memory, TM), содержащей примеры ранее переведенных текстов, терминологическими базами, а также использование так называемых корпусов, больших коллекций текстов на одном или нескольких языках, что дает сжатое описание того, как слова и выражения реально используются в языке в целом или в конкретной предметной области.

Для локализации программного обеспечения часто применяются специализированные средства, например, Passolo, которые позволяют переводить меню и сообщения в программных ресурсах и непосредственно в откомпилированных программах, а также тестировать корректность локализации. Для перевода аудиовизуальных материалов (главным образом фильмов) также используются специализированные средства, например, Swift, которые объединяют в себе некоторые аспекты памяти переводов, но дополнительно обеспечивают возможность появления субтитров по времени, их форматирования на экране, следования видеостандартам и т. п.

При синхронном переводе использование средств автоматизированного перевода по необходимости ограничено. Одним из примеров является использование словарей, загружаемых на КПК. Другим примеров может служить полуавтоматическое извлечение списков терминов при подготовке к синхронному переводу в узкой предметной области^[3].

В узких предметных областях при большом количестве исходных текстов и устоявшейся терминологии переводчики могут использовать и машинный перевод, который может обеспечить хорошее качество перевода терминологии и устойчивых выражений в узкой области. Переводчик в этом случае осуществляет пост-редактированиеполученного текста. Более половины текстов внутри Еврокомиссии (главным образом юридические тексты и текущая корреспонденция) переводится с использованием МП.

Автоматизированный перевод — это широкое и не совсем точное понятие, охватывающее широкий спектр простых и сложных инструментов. Они могут включать:

§ Программы для проверки правописания, которые могут быть встроены в текстовые редакторы или дополнительные программы;

§ Программы для проверки грамматики, которые также встраиваются в текстовые редакторы или дополнительные программы;

§ Программы для управления терминологией, которые позволяют переводчикам управлять своей собственной терминологической базой в электронной форме. Это может быть и простая таблица, созданная в текстовом редакторе, и электронная таблица, и база данных, созданная в программе FileMaker. Для более трудоемких (и более дорогих) решений существует специальное программное обеспечение, например, LogiTerm, MultiTerm, Termex, TermStar и т. п.

§ Словари на компакт-дисках, одноязычные или многоязычные;

§ Терминологические базы данных, хранимые на компакт-дисках или подключаемые по Интернету, например The Open Terminology Forum или TERMIUM;

§ Программы для полнотекстового поиска (или индексаторы), которые позволяют пользователю обращаться с запросами к ранее переведенным текстам или разного рода справочным документам. В индустрии переводов известны такие индексаторы, как Naturel, ISYS Search Software и dtSearch;

§ Программы конкорданса, которые позволяют находить примеры слов или выражений в употребляемом контексте в одноязычном, двуязычном или многоязычном корпусе, как например, битекст или память переводов, например Transit NXT;

§ Битекст, одно из нововведений последнего времени, это результат слияния исходного текста и его перевода, который впоследствии может быть проанализирован при помощи программ для полнотекстового поиска или конкорданса;

§ Программное обеспечение для управления проектами, которое позволяет лингвистам структурировать сложные переводческие проекты, передавать выполнение различных задач разным сотрудникам и наблюдать за процессом выполнения этих задач;

§ Программы управления памятью переводов (TMM), состоящие из базы данных сегментов текста на исходном языке и их переводов на один или более целевых языков, например Transit NXT;

§ Почти полностью автоматические системы, напоминающие машинный перевод, но позволяющие пользователю вносить определенные изменения в сомнительных случаях. Иногда такие программы называют машинным переводом с участием человека.

В соответствии с недавними обзорами использования систем памяти переводов (translation memory) к наиболее популярным системам относятся:

· Deja Vu

· OmegaT (бесплатная система, распространяемая по лицензии GNU)

· SDLX

· Trados (Традос), продвигаемая в России компанией Т-сервис

· Metatexis (Метатексис)

· Star Transit

· Wordfast (реализована как набор макросов для MS Word)

OmegaT - система автоматизированного перевода, поддерживающая память переводов, написана на языке Java. Возможности продукта включают сегментацию исходного текста на основе регулярных выражений, использование точных (англ. exact) и неточных (англ. fuzzy) соответствий с уже переведенными фрагментами, использование словарей, поиск контекстов в базах данных переводов и работу с ключевыми словами.

Для работы OmegaT требуется версия Java 1.4, которая доступна для ОС GNU/Linux, Mac OS X и Microsoft Windows, Windows NT.

OmegaT поддерживает разнообразные форматы исходных документов: текстовые файлы (включая Unicode), файлы HTML/XHTML, StarOffice, OpenOffice.org и OpenDocument (ODF), а также файлы DocBook. OmegaT не может работать непосредственно с файлами Microsoft Office (Word, Excel и PowerPoint), для работы с которыми требуется использование OpenOffice.org, который может перевести такие файлы в формат OpenDocument, поддерживаемый OmegaT.

Trados — система автоматизированного перевода, первоначально (с 1992 года) разработанная немецкой компанией Trados GmbH. Является одним из мировых лидеров в классе систем Translation Memory (TM, накопитель переводов).

Trados GmbH была основана в 1984 году в Штуттгарте. В 1997 году 20 % акций компании были приобретены Microsoft. В 2002 году Trados объединилась с Uniscape Inc., и объединённая компания получила название Trados Inc. со штаб-квартирой в Александрии, Вирджиния. В июне 2005 года компания Trados была приобретена британской SDL International, и в 2006 году был выпущен совместный продукт с Trados SDLX.

Система Trados включает несколько модулей, предназначенных для перевода текстов различного формата: документов Microsoft Word, презентаций PowerPoint, текстов в формате HTML и других метаданных, документов FrameMaker, InterLeaf и др., а также для ведения терминологических баз данных (модуль MultiTerm). Последняя версия системы, выпущенная независимой компанией Trados — 7.0.