Общие принципы работы со словарями

Логика работы со словарями основывается на базовом принципе ядра систем машинного перевода семейства PROMT XT Family: словарь – это объект со своими свойствами.

Работа со словарем-объектом осуществляется при помощи стандартного диалога редактирования словарей.

Возможны следующие операции со словарями:

· Создание нового пользовательского словаря-объекта;

· Удаление пользовательского словаря-объекта;

· Сохранение пользовательского словаря-объекта в файле архива словаря (файл с расширением.ADC);

· Загрузка пользовательского словаря-объекта из файла архива словаря (файл с расширением.ADC);

· Загрузка (с предварительной конвертацией) пользовательского словаря-объекта из файла пользовательского словаря версии PROMT 98 (файл с расширением.UDC).

Словарь-объект может создаваться тремя способами:

1. При помощи стандартной операции создания нового пользовательского словаря.

2. Загружаться в систему:

o Из файла архива словаря (файл с расширением.ADC)

o Из файла пользовательского словаря, созданного в более ранних версиях системы (файл с расширением.UDC)

3. При инсталляции специализированных словарей - программой Инсталлятор словарей и шаблонов тематик.

Основные отличия логики работы со словарями от PROMT® 98 и более ранних версий:

1. При загрузке архива словаря в систему все изменения, произведенные над словарем-объектом не будут отражены на файле архива словаря до тех пор, пока не будет явным образом выполнена команда Сохранить в архив словаря.

2. При загрузке в систему пользовательского словаря, созданного в предыдущих версиях системы (файл с расширением.UDC), производится его конвертация в формат PROMT XT Family. Сохранить измененный словарь можно только в архив словаря (файл с расширением.ADC), при этом его никак нельзя будет использовать в PROMT® 98 и более ранних версиях.

3. При удалении пользовательского словаря-объекта из системы у пользователя есть возможность предварительно сохранить словарь-объект как файл архива словаря.

4. Принципиально изменилась логика: словари не подключаются к системе как файлы (было в PROMT® 98 и более ранних версиях), словари существуют только внутри системы. Из системы словарь можно сохранить в архив словаря (файл с расширением.ADC) и вновь загрузить из этого архива словарь в систему, но при работе со словарем никакой физической связи между словарем в системе и файлом архива словаря не существует!

Основные объекты: "Шаблон тематики" и "Тематика документа"

Основными средствами настройки систем перевода семейства PROMT XT Family на перевод текстов из различных предметных областей являются:

· Подключение специализированных и пользовательских словарей, соответствующих предметной области переводимых текстов;

· Организация правильной иерархии поиска слов и терминов в подключенных словарях;

· Использование списков зарезервированных слов;

· Использование специальных препроцессоров для правильной обработки последовательностей символов специального вида (например, электронных адресов или URL).

Для реализации функции настройки на перевод в определенной предметной области введено понятие Тематики документа, которое включает в себя:

· Упорядоченный список подключенных словарей;

· Список зарезервированных слов;

· Упорядоченный список подключенных препроцессоров.

Кроме того, тематика документа может включать в себя:

· Список ключевых слов, характерных для данной тематики;

· Базы переводов, хранящие переведенные ранее сегменты текстов по данной тематике и их переводы;

· Макросы, созданные для данной тематики;

· Алгоритмы перевода, настроенные для данной тематики;

· Возможность транслитерировать незнакомые слова (опционально).

Тематика документа создается на базе некоторого шаблона тематики, но может модифицироваться и, в конечном итоге, существенно отличаться от шаблона тематики, на основании которого она была создана.

Программа предоставляет возможность создавать, модифицировать и сохранять шаблоны тематик. При установке системы для каждого направления перевода создается базовый шаблон тематики под названием "Общий". Этот шаблон тематики состоит только из Генерального словаря, и его нельзя удалить или переименовать (однако, можно модифицировать).

Программа автоматически сохраняет измененные шаблоны тематик.

Если на базе некоторого шаблона создается тематика документа, существенно отличающуюся от породившего ее шаблона, то для дальнейшего использования этой тематики сохранить ее в виде шаблона тематики.

Понятие Тематики документа позволяет значительно упростить процедуру настройки системы на перевод документов в определенной предметной области. Тематика документа позволяет легко создавать сложные лингвистические настройки один раз, а далее оперировать с ними как с единым целым, что позволяет получать качественный результат при минимальных затратах.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: