Понимание текста

Задачу извлечения знаний из текстов можно сформулировать как задачу понимания и выделения смысла текста. Сам текст на естественном языке является лишь проводником смысла, а замысел и знания автора лежат во вто­ричной структуре (смысловой структуре или макроструктуре текста), на­страиваемой над естественным текстом [Величковский, Капица, 1987], или, как сформулировано в [Фаин, 1987], "текст не содержит и не передает смысл, а является лишь инструментом для автора текста".

При этом можно выделить две такие смысловые структуры: m1 — смысл, который пытался заложить автор, это его модель мира, и М2 — смысл, который постигает читатель, в данном случае инженер по знаниям (рис. 2.18) в процессе интерпретации I. При этом Т— это словесное одеяние М1, т. е. результат вербализации V

Рис. 2.18. Схема извлечения знаний из специальных текстов

Сложность процесса заключается в принципиальной невозможности совпадения знаний, образующих М1 и М2, из-за того, что М1 образуется за счет всей совокупности представлений, потребностей, интересов и опыта автора, лишь малая часть которых находит отражение в тексте Т. Соответственно и М2 образуется в процессе интерпретации текста Т засчет привлечения всей совокупности профессионального и человеческого багажа читателя. Таким образом, два инженера по знаниям извлекут из одного Т две различные модели: Мi1 и Мi2.

Встает задача: выяснить, за счет чего можно достичь максимальной адекватности М1 и М2, помня при этом, что понимание всегда относительно, поскольку это синтез двух смыслов "свое — чужое" [Бахтин, 1975].

Рассмотрим подробнее, какие источники питают модель М1 и создают текст Т. В [Сергеев, 1987] указаны два компонента любого профессионального текста:

Ø первичный фактический материал;

Ø система понятий, сложившаяся в данной предметной области в момент создания текста.

В дополнение к этому, на наш взгляд, помимо объективных данных экспе­риментов и наблюдений, в тексте обязательно присутствуют субъективные взгляды автора, результат его личного опыта, а также некоторые "общие места" или "вода". Кроме этого, любой текст содержит заимствования из других источников (методики, указания, документы, статьи, монографии) и т. д.

При извлечении знаний аналитику, интерпретирующему текст, приходится решать задачу декомпозиции этого текста на перечисленные выше компо­ненты для выделения истинно значимых для реализации базы знаний фраг­ментов. Сложность интерпретации профессиональных текстов заключается еще и в том, что любой текст приобретает смысл только в контексте, где под контекстом понимается окружение, в которое "погружен" текст.

Различают микро- и макроконтекст. Микроконтекст — это ближайшее ок­ружение текста. Так, предложение получает смысл в контексте абзаца, абзац в контексте главы и т. д. Макроконтекст — это вся система знаний, связан­ная с предметной областью (т. е. знания об особенностях и свойствах, явно не указанных в тексте). Другими словами, любое знание обретает смысл в контексте некоторого метазнания.

Теперь несколько подробнее о центральном звене процедуры извлечения знания — о понимании текста. Классическим в текстологии является опре­деление немецкого философа и языковеда Гумбольдта [Гумбольдт, 1984]:

"...Люди понимают друг друга не потому, что передают собеседнику зна­ки предметов, и даже не потому, что взаимно настраивают друг друга на точное и полное воспроизведение идентичного понятия, а потому, что взаимно затрагивают друг в друге одно и то же звено цепи чувственных представлений и зачатков внутренних понятий, прикасаются к одним и тем же клавишам инструмента своего духа, благодаря чему у каждого вспыхивает в сознании соответствующие, но не тождественные смыслы".

Говоря на языке современного языкознания, понимание — это формирование "второго текста", т. е. семантической структуры (понятийной структуры) [Сиротко-Сибирский, 1968]. В нашей терминологии — это попытка воссоз­дания семантической структуры М1 в процессе формирования модели М2, т. е. это первый шаг структурирования знаний.

Как происходит процесс понимания? Одна из возможных схем изложена в [Соколов, 1947; Соколов, 1968]. Мы внесли несколько изменений в эту схему в связи с тем, что в ней трактуется понимание текста на иностранном языке, а нас интересует понимание текста в новой для познающего субъекта предметной области. Кроме этого, дополним ее некоторыми положениями герменевтики. В целом полученная схема согласуется со стратегией изуче­ния всего нового.

Основными моментами понимания текста являются следующие шаги:

1. Выдвижение предварительной гипотезы о смысле всего текста (предуга­дывание).

2. Определение значений непонятных слов (т. е. специальной терминологии).

3. Возникновение общей гипотезы о содержании текста (о знаниях).

4. Уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (от целого к частям).

5. Формирование некоторой смысловой структуры текста за счет установления внутренних связей между отдельными важными (ключевыми) словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих конкретные фрагменты знаний.

6. Корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (от частей к целому).

7. Принятие основной гипотезы, т. е. формирование M2.

Следует отметить наличие как дедуктивной (от целого к частям), так и ин­дуктивной (от частей к целому) составляющей процесса понимания. Такой двуединый подход позволяет охватывать текст как смысловое единство особого рода с его основными признаками, такими как связность, цельность, законченность и др. [Сиротко-Сибирский, 1968].


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: