Процесс обработки FineReader осуществляется в несколько этапов:
1. Сканирование.
2. Выделение блоков на изображении.
3. Распознавание.
Затем нужно проверить ошибки и сохранить результат распознавания (передать его в другое приложение, например в текстовый редактор Word, в Буфер и т.п.) Основные модификации — Standard, Professional, Рукопись.
Функции, обеспечиваемые модификациями FineReader
Функции | Standard | Professional | Рукопись |
Типы распознаваемых текстов | Печатные | Печатные, рукописные | |
Распознавание штрих-кода | нет | да | да |
Возможность обучения новым символам | да | да | да |
Распознавание многоколоночного текста с картинками и таблицами. Сохранение оформления в формате RTF | да | да | да |
Интернет: сохранение документа в формате HTML | да | да | да |
Поддержка языков | |||
Встроенная программа проверки орфографии | да | да | да |
Распознавание многоязычных документов | да | да | да |
Создание новых языков | нет | да | да |
Распознавание таблиц | |||
Распознавание таблиц, сохранение результатов в форматах RTF, CSV, XLS, DBF | да | да | да |
Ручная и автоматическая сегментация таблиц | да | да | да |
Пост-редактор распознанных таблиц | да | да | да |
Распознавание.
|
|
Язык распознавания и тип текста являются главными параметрами распознавания.
Языки, которые имеют словарную поддержку: английский, голландский, датский, испанский, итальянский, немецкий, норвежский, польский, португальский, русский, украинский, финский французский, шведский.
При распознавании текста на том или ином языке выберите нужный язык из списка на панели Распознавание.
Если нужного языка нет в списке, то выберите значение Другой... и в открывшемся списке найдите нужный язык или выберите несколько языков, слова которых встречаются в распознаваемом тексте.
Тип текста определяется в системе автоматически. Однако для распознавания текстов, напечатанных на пишущей машинке или матричном принтере в черновом режиме, чтобы повысить надежность и скорость распознавания, выберите соответствующее значение в списке на панели инструментов.
Если вы распознавали тексты, напечатанные на пишущей машинке или матричном принтере, то при возвращении к типографскому тексту не забудьте снова выбрать значение Авто.
Открытие изображения:
1. Меню Файл — Открыть.
2. Выберите диск и папку, где находятся нужные файлы.
3. Выберите нужные файлы и нажмите OK.
4. Выбранные файлы копируются в текущий пакет.
5. Вы можете указать, чтобы выбранные изображения не копировались, а перемещались в пакет (отметьте пункт Перемещать файлы в пакет).
Тогда при загрузке в текущий пакет выбранные файлы будут копироваться туда, где находится ваш пакет и удаляться оттуда.
|
|
Также можно добавлять изображения из буфера или через drag-&-drop.
Запуск распознавания:
1. Выделите нужные страницы в окне пакета. Подведите курсор и щелкните 1 раз левой кнопкой мыши.
2. Нажмите кнопку Распознать открытую страницу. Активизируйте открытое изображение и нажмите кнопку — Распознать.
Распознать все нераспознанные страницы:
1. Нажмите стрелку справа от кнопки — Распознать и из открывшегося меню выберите пункт Распознать все нераспознанные страницы.
2. Программа выделяет блоки (если они еще не выделены) и распознает изображения.
Установить расположение текста на странице:
Программа FineReader автоматически определяет раскладку текста на странице. Для книг, газет, факсов, отчетов и т.п. подходит положение Автоматическое определение. И только в редких случаях, например при распознавании оглавлений и листингов программ, нужно специально указывать программе, что текст напечатан в одну колонку.
1. Меню Сервис — Опции…
2. В диалоге Опции выберите закладку Сегментация.
3. В группе Число колонок выберите пункт Одна колонка (для текста, напечатанного в одну колонку с большими промежутками между словами) илиАвтоматическое определение.
Сохранить результаты распознавания в файл:
1. Если Вы хотите сохранить не все страницы пакета, то выделите нужные в окне Пакет.
2. Нажмите стрелку справа от кнопки Сохранить и в открывшемся меню выберите пункт Сохранить в файл.
3. В открывшемся диалоговом окне выберите диск, каталог и укажите имя и расширение файла, в который хотите экспортировать распознанный текст.
4. Установите переключатель Какие страницы сохранять в положение Все распознанные или Только выделенные.
5. Чтобы записывать каждую страницу в отдельный файл, отметьте пункт Записывать каждую страницу в отдельный файл. Тогда имена, которые эти файлы получат, будут состоять из заданного имени и порядкового номера (1, 2, и т.д.).
6. Нажмите OK.
Результаты распознавания можно переделать в одно из следующих приложений: MS Word, MS Excel, Corel WordPerfect, Lotus Word Pro или PROMT:
1. Активизируйте окно пакета (нажмите в нем мышью) и нажмите стрелку справа от кнопки “Сохранить”.
2. В открывшемся меню выберите пункт Передать в Word, Передать в Excel и т.п.
Для выделенных страниц:
1. Если вы хотите передать в другое приложение не все страницы, а только некоторые, то вы делите нужные страницы в окне Пакет.
2. Нажмите на стрелку справа от кнопки — Сохранить и выберите пункт Мастер сохранения результатов.
3. В открывшемся списке выберите нужное приложение и отметьте пункт Сохранять только выделенные страницы. По нажатию Готово в этом диалоге результаты распознавания передаются в выбранное приложение.
2.6. Автоматизированный перевод.
Автоматизированный перевод (АП, англ. Computer-Aided Translation) — перевод текстов на компьютере с использованием компьютерных технологий. От машинного перевода (МП) он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством.
Идея АП появилась с момента появления компьютеров: переводчики всегда выступали против стандартной в те годы концепции МП, на которую было направлено большинство исследований в области компьютерной лингвистики, но поддерживали использование компьютеров для помощи переводчикам. В 1960-е годы Европейское объединение угля и стали (предшественник современного Евросоюза) стало создавать терминологические базы данных под общим названием Eurodicautom[1]. В Советском Союзе для создания баз такого рода был создан ВИНИТИ.
В современной форме идея АП была развита в статье Мартина Кея 1980 года[2], который выдвинул следующий тезис: «by taking over what is mechanical and routine, it (computer) frees human beings for what is essentially human» (компьютер берет на себя рутинные операции и освобождает человека для операций, требующих человеческого мышления).
|
|
В настоящее время наиболее распространенными способами использования компьютеров при письменном переводе является работа со словарями и глоссариями,памятью переводов
(англ. Translation Memory, TM), содержащей примеры ранее переведенных текстов, терминологическими базами, а также использование так называемых корпусов, больших коллекций текстов на одном или нескольких языках, что дает сжатое описание того, как слова и выражения реально используются в языке в целом или в конкретной предметной области.Для локализации программного обеспечения часто применяются специализированные средства, например, Passolo, которые позволяют переводить меню и сообщения в программных ресурсах и непосредственно в откомпилированных программах, а также тестировать корректность локализации. Для перевода аудиовизуальных материалов (главным образом фильмов) также используются специализированные средства, например, Swift, которые объединяют в себе некоторые аспекты памяти переводов, но дополнительно обеспечивают возможность появления субтитров по времени, их форматирования на экране, следования видеостандартам и т. п.
При синхронном переводе использование средств автоматизированного перевода по необходимости ограничено. Одним из примеров является использование словарей, загружаемых на КПК. Другим примеров может служить полуавтоматическое извлечение списков терминов при подготовке к синхронному переводу в узкой предметной области[3].
В узких предметных областях при большом количестве исходных текстов и устоявшейся терминологии переводчики могут использовать и машинный перевод, который может обеспечить хорошее качество перевода терминологии и устойчивых выражений в узкой области. Переводчик в этом случае осуществляет пост-редактированиеполученного текста. Более половины текстов внутри Еврокомиссии (главным образом юридические тексты и текущая корреспонденция) переводится с использованием МП.
|
|
Автоматизированный перевод — это широкое и не совсем точное понятие, охватывающее широкий спектр простых и сложных инструментов. Они могут включать:
§ Программы для проверки правописания, которые могут быть встроены в текстовые редакторы или дополнительные программы;
§ Программы для проверки грамматики, которые также встраиваются в текстовые редакторы или дополнительные программы;
§ Программы для управления терминологией, которые позволяют переводчикам управлять своей собственной терминологической базой в электронной форме. Это может быть и простая таблица, созданная в текстовом редакторе, и электронная таблица, и база данных, созданная в программе FileMaker. Для более трудоемких (и более дорогих) решений существует специальное программное обеспечение, например, LogiTerm, MultiTerm, Termex, TermStar и т. п.
§ Словари на компакт-дисках, одноязычные или многоязычные;
§ Терминологические базы данных, хранимые на компакт-дисках или подключаемые по Интернету, например The Open Terminology Forum или TERMIUM;
§ Программы для полнотекстового поиска (или индексаторы), которые позволяют пользователю обращаться с запросами к ранее переведенным текстам или разного рода справочным документам. В индустрии переводов известны такие индексаторы, как Naturel, ISYS Search Software и dtSearch;
§ Программы конкорданса, которые позволяют находить примеры слов или выражений в употребляемом контексте в одноязычном, двуязычном или многоязычном корпусе, как например, битекст или память переводов, например Transit NXT;
§ Битекст, одно из нововведений последнего времени, это результат слияния исходного текста и его перевода, который впоследствии может быть проанализирован при помощи программ для полнотекстового поиска или конкорданса;
§ Программное обеспечение для управления проектами, которое позволяет лингвистам структурировать сложные переводческие проекты, передавать выполнение различных задач разным сотрудникам и наблюдать за процессом выполнения этих задач;
§ Программы управления памятью переводов (TMM), состоящие из базы данных сегментов текста на исходном языке и их переводов на один или более целевых языков, например Transit NXT;
§ Почти полностью автоматические системы, напоминающие машинный перевод, но позволяющие пользователю вносить определенные изменения в сомнительных случаях. Иногда такие программы называют машинным переводом с участием человека.
В соответствии с недавними обзорами использования систем памяти переводов (translation memory) к наиболее популярным системам относятся:
· Deja Vu
· OmegaT (бесплатная система, распространяемая по лицензии GNU)
· SDLX
· Trados (Традос), продвигаемая в России компанией Т-сервис
· Metatexis (Метатексис)
· Star Transit
· Wordfast (реализована как набор макросов для MS Word)
OmegaT - система автоматизированного перевода, поддерживающая память переводов, написана на языке Java. Возможности продукта включают сегментацию исходного текста на основе регулярных выражений, использование точных (англ. exact) и неточных (англ. fuzzy) соответствий с уже переведенными фрагментами, использование словарей, поиск контекстов в базах данных переводов и работу с ключевыми словами.
Для работы OmegaT требуется версия Java 1.4, которая доступна для ОС GNU/Linux, Mac OS X и Microsoft Windows, Windows NT.
OmegaT поддерживает разнообразные форматы исходных документов: текстовые файлы (включая Unicode), файлы HTML/XHTML, StarOffice, OpenOffice.org и OpenDocument (ODF), а также файлы DocBook. OmegaT не может работать непосредственно с файлами Microsoft Office (Word, Excel и PowerPoint), для работы с которыми требуется использование OpenOffice.org, который может перевести такие файлы в формат OpenDocument, поддерживаемый OmegaT.
Trados — система автоматизированного перевода, первоначально (с 1992 года) разработанная немецкой компанией Trados GmbH. Является одним из мировых лидеров в классе систем Translation Memory (TM, накопитель переводов).
Trados GmbH была основана в 1984 году в Штуттгарте. В 1997 году 20 % акций компании были приобретены Microsoft. В 2002 году Trados объединилась с Uniscape Inc., и объединённая компания получила название Trados Inc. со штаб-квартирой в Александрии, Вирджиния. В июне 2005 года компания Trados была приобретена британской SDL International, и в 2006 году был выпущен совместный продукт с Trados SDLX.
Система Trados включает несколько модулей, предназначенных для перевода текстов различного формата: документов Microsoft Word, презентаций PowerPoint, текстов в формате HTML и других метаданных, документов FrameMaker, InterLeaf и др., а также для ведения терминологических баз данных (модуль MultiTerm). Последняя версия системы, выпущенная независимой компанией Trados — 7.0.