Проблемы машинного анализа текста

• машинный перевод (синтез текста на другом языке)

• автореферирование (синтез реферата текста на другом языке)

• системы записи под диктовку (синтез письменного/устного текста)

Реферирование производится при помощи синтаксической компрессии – выбора более краткой и более простой синт. конструкции по сравнению с заданной в оригинале.

Приёмы:

• разбивка сложного предложения с неск. придаточными на два или большее число предложений более простой структуры;

• замена придаточного предложения прич. оборотом или предложным оборотом;

• замена причастн. оборота, весьма частого для ораторских выступлений, предложн. оборотом (или сущ. в кос. п. для РЯ);

• замена словосочетания одним словом, а также аббревиатуры.

Толковый переводоведческий словарь. Нелюбин.

Стали у них отбирать книги, которые они привезли из родительских домов. Стали у них отбирать книги, привезенные из родительских домов. Стали у них отбирать книги из родительских домов.

Или при помощи информационной компрессии – это сжатие плана означающего при сохранении плана означаемого (Валгина, «Теория текста»)

• сжатие данного означающего;

• создание нового означающего.

Для компрессии текста: Убрать глагольно-именные перифразы: обеспечивать гарантию – гарантировать, ведущее подготовку – готовящее и т.д. Можно убирать предикаты опр. семантики. Лишние слова со значением наличия или появления: иметься, имеющийся, иметь место, существующий, наблюдающийся, появляющийся и др. Можно убрать слово, сема которого содержится в другой единице (деятельность по осуществлению мероприятий по реорганизации=осуществить реорганизацию). Неполнознаменательные существительные – долой! (обеспечение стратегии подготовки=обеспечить подготовку).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: