Элементы аппарата формализованного экстрагирования

Выше уже неоднократно упоминались различные элементы аппарата формализованного экстрагирования — маркеры, повторы, коннекторы, индикаторы. Представляется необходимым как-то суммировать и упорядочить описанные выше элементы.

При рассмотрении различных средств формализованного экстрагирования следует, однако, иметь в виду, что предпринятые в данной работе (как и в большинстве других аналогичных работ) попытки изыскать в плане выражения текста (в его грамматике, лексике, логической структуре и т. п.) элементы, через' которые можно было бы выразить план содержания данного текста, его смысл, без создания специального искусственного «семантического» языка, есть лишь первый шаг, и достаточно робкий, на пути решения этой сложнейшей семантической проблемы. И тем не менее надо согласиться с М. Н. Правдивым [111], что на сегодня «для объективного анализа содержательной структуры текста существует, по-видимому, только один путь — через анализ его формальной структуры».

Перечисленные выше элементы экстрагирования и анализа текста можно разделить на два относительно непересекающихся «словаря» — предметно-тематической лексики (дескрипторы) и функционально-синтаксической лексики (маркеры, индикаторы и коннекторы). При такой классификации лексических средств выпа­дают повторы, поскольку их специальным словарем мы задать не можем (они ситуативны) и «работают» они лишь при наличии их в дескрипторном словаре.

Можно также разделить рассматриваемую лексику на идентифицирующие элементы (маркеры, индикаторы) и коннектирующие (повторы, коннекторы). В этом случае выпадают дескрипторы. Кроме того, подобное разделение также не отличается особой чистотой, поскольку есть лексические единицы, которые одновременно обладают как коннектирующими, так и индикативными (и даже маркерными) свойствами (например, типа следовательно, в результате, ниже рассмотрено, итак и т. д.).

Поскольку такие элементы аппарата анализа и экстрагирования текста, как маркеры, повторы и коннекторы, достаточно подробно рассмотрены выше (см. 3.5 и 2.2.2), целесообразно оста­новиться специально на индикаторах.

Деление на маркеры и индикаторы в нашей работе в некоторой степени искусственно (недаром в первой редакции словаря маркеров был значительный процент индикаторов, которые пришлось затем переносить в специальный список-«словарь»). К числу маркеров, как уже указывалось, относятся словосочетания (значительно реже отдельные слова), идентифицирующие тот или иной содержательный аспект (сетки 1): Известный вариант решения, Постановка проблемы, Предлагаемый вариант решения и т. д. (точнее говоря, фразы, относящиеся к тому или иному аспекту). Индикаторы также обладают идентифицирующими свойствами, но не по отношению к аспектам, а к предложениям, в которых за­ключен тот или иной элемент модальности,25 в которых выражена авторская точка зрения на излагаемый материал: индикаторы, акцентирующие внимание читателя на определенных положениях текста (Следует подчеркнуть, существенным является, важным представляется), отсылающие к источнику информации (как ука­зывает, сообщает и пр.), выражающие сомнение, уверенность и степень допущения (вряд ли, едва ли, сомнительно, несомненно, бесспорно), возможность, необходимость, вероятность и желательность (возможно, нельзя, необходимо, видимо, вероятно, желательно), резюмирующие (итак, следовательно, таким образом) и т. д.

Нами в работах по экстрагированию на данном этапе индикаторам отводилась вспомогательная роль, однако думается, что их значение не второстепенно. Совместно с маркерами и коннекторами индикаторы образуют так называемую структурно-функциональную цепочку (дорожку), анализ который (допустим, при выводе на печатающее устройство или экран дисплея) позволяет в отрыве от конкретного содержания текста судить о характере документа, его аспектной структуре, логичности, степени связности, функциях (в модальном смысле) отдельных фраз и фрагментов. А это в свою очередь дает возможность референту принимать решение о характере обработки (свертывания и развертывания) данного документа в зависимости от его структурно-функционального типа, управлять процессом экстрагирования, заранее задавая необходимый набор лексических единиц.

Не исключено, что выявление определенных типов структурно-функциональных цепочек позволит рассматривать их в качестве дополнительного элемента библиографической характеристики документа, повышающего уровень ее метаинформативности, что в свою очередь облегчит потребителю информации принятие решения о необходимости обращения к тексту. Приведем пример­ную схему (пример 3) такой маркерно-индикаторно-коннекторной (метаинформативной) дорожки:

Здесь высказаны лишь предварительные соображения относительно возможности практического использования в процедуре автоматической обработки текста (в частности, формализованного экстрагирования) так называемых маркерно-индикаторио-коштекторных дорожек. Предстоит более детальное изучение их возможностей. Однако сам факт обращения к этим дорожкам уже свидетельствует о некоторой неудовлетворенности методом экстрагирования, основанного лишь на маркерах, и о поиске возможных путей его развития.

Как уже указывалось, рассматриваемый метод экстрагирования в лучшем случае дает удовлетворительные результаты лишь в 90—95% случаев (статьи и патенты). Качество экстрагирования во многом зависит от индивидуальных особенностей текста, хара­тера его структуры, в частности типа семантической структуры. Вспомним, например, замечание Э. Ф. Скороходько (см. 2.2.5) о принципиальной невозможности построить реферат из предложений, взятых непосредственно из текстов цепочечной и кольцевой структуры. Предстоит задача разработки достаточно формализованного аппарата для идентификации текстов различных структур (да и саму типологию этих структур) и тем самым для автоматического «разбиения» входящего потока на потенциально экстрагируемые (реферируемые) и неэкстрагируемые документы с отправлением последних на участок интеллектуального рефери­рования. Экстрагируемые документы должны в свою очередь со­провождаться автоматически выпечатываемым «структурным паспортом», на основе которого осуществлялся бы выбор программы, наиболее адекватной особенностям той или иной структуры, с учетом возможностей методов различных направлений (статистиче­ского, позиционного или индикаторного). Сегодня уже становится ясным, что на базе какого-либо одного метода, принадлежащего «в чистом виде» одному из направлений автоматического рефери­рования, невозможно достичь удовлетворительных результатов при свертывании документов различного характера.

Представляет также интерес исследование возможностей повышения уровня метаинформативности экстрагируемых информативных фраз путем обобщения в них некоторых содержательных (темоопределяющих) элементов (эта мысль была в свое время высказана И. С. Добронравовым), путем автоматической замены (с использованием дескрипторного словаря) темоопределяющих элементов на слова, стоящие выше в восходящей парадигматической цепочке.

Несмотря на то что по методу метаннформативного свертывания в отдельных случаях можно получить достаточно приемлемый реферат (квазиреферат), способный выполнять свои функции в подсистеме фактографического обслуживания, в целом метод метаинформативного свертывания замыкается в сфере подсистемы документального обслуживания, поскольку позволяет получать преимущественно реферативные аннотации.

О методе «чисто» информативного свертывания, направленного на получение вторичных документов, выполняющих функции документов фактографического ряда, речь пойдет в следующем разделе.

3.7. ФРАГМЕНТИРОВАИИЕ КАК ОДНО ИЗ НАПРАВЛЕНИЙ ИНФОРМАТИВНОГО СВЕРТЫВАНИЯ

Проблема свертывания в сфере информационного обслуживания сводится по сути дела к достижению двух целей: 1) содействию создания оптимального по содержанию и форме первичного документа (что в данной работе практически совсем не рассматривается) и 2) возможно полному использованию содержания первичного документа при подготовке различных видов информационных услуг (путем создания и использования трех рядов вторичных документов).

Широкие возможности для достижения второй цели открываются в связи с внедрением в практику информационного обслуживания интегральных информационных систем (ИИС), обеспечивающих на основе одноразовой исчерпывающей обработки вводимых в систему документов комплекс информационных услуг.Представляется, что грамотно («оптимально») составленный первичный документ не должен содержать в себе «пустой породы», т. е. все его элементы (кроме, возможно, служебных фраз) должны быть (или могут быть) утилизированы в ИИС в процессе информативного и метаинформативного свертывания. При этом не исключается, что некоторые продукты такой утилизации на этапе ввода в ИИС могут определенным образом обогащаться (развертываться, интерпретироваться), что создает предпосылки для формирования в рамках ИИС наряду с подсистемами документального и фактографического обслуживания также и подсистемы концептографического обслуживания (см. раздел 4.1).

Фрагментирование 26 (как одна из новых форм информационного обслуживания, реализующаяся в рамках фактографической подсистемы ИИС) преследует цель — снять в какой-то степени с системы научных коммуникаций ее «вечное проклятие» — противоречие между документом как издательско-полиграфической единицей и «единицей» семантической информации. Если рассматривать структуру профессиональной информационной потребности [15 ],27 то среди ее составляющих мы можем обнаружить потребность в фактографической и концептуальной информации, потребность в информации текущей и ретроспективной, широко- и узкотематической, но потребности в документальной информации не существует. Как бы это ни звучало, но в системе научных комму­никаций потребности в «книге» нет.28 Информационная потребность чаще всего удовлетворяется через «книгу» (со всеми вытекающими отсюда негативными следствиями из-за ее избыточности), но это не столько вина, сколько беда научных коммуникаций.

Рассмотрение подсистемы «фрагмент» в качестве разновидности в свою очередь подсистемы фактографического обслуживания ИИС, базирующегося на методах информативного свертывания, делает необходимым уточнение самого понятия «фактографическая информация». В отличие от распространенного представления о фактографической информации как информации, характеризующей какой-либо факт, событие или их совокуп­ность Г105], в данной работе, как, впрочем, и в некоторых других, например в [73], под фактографической информацией понимаются сведения не только фактического характера, но и теоретического, предположительного, оценочного и т. п. В самостоятельном фрагменте также могут быть сведения не только фактографичные, но любые иные — все это, по нашему мнению, фактографическая информация. Понятие «концептографическая информация», повторяем,

20 Термип «фрагментирование» в литературе встречается относительно часто. Так, например, И. С. Добронравовым [41] разработан способ автоматического разбиения текста рефератов на минимальные релевантные фраг­менты, которые служат основой для последующего автоматического индекси­рования документа в целом. В работах С. И. Гиндина [35, 36] термин «фрагментирование» по сути дела отождествляется с понятием «формализованное реферирование». О выделении тематически цельных информационных блоков (фрагментов) и фактографических данных упоминается в работе [104]. В на­шей работе фрагментирование — разбиение текста первичного документа на отрезки, имеющие самостоятельное информационное значение вне контекста всего документа. При этом фрагментирование может рассматриваться как частный случай экстрагирования.

27 Структура профессиональной информационной потребности разработана А. В. Соколовым.

28 Утверждая подобную мысль о роли «книги» в коммуникативном процессе, мы тем не менее далеки от категоричности в этом вопросе. В ряде случаев — в учебном процессе, при желании выяснить в целом концепцию автора, при описании изделий, процессов и др. — «книга» была и, видимо, останется наиболее оптимальным средством передачи информации.

включает сведения, интерпретированные автором вторичного документа.

Известно, что большинство действующих в настоящее время ИИС функционирует прежде всего как системы документального; обслуживания, т. е. они обеспечивают в том или ином режиме выдачу потребителю первичных документов, необходимые сведения из которых он вынужден извлекать сам. Создание таких,! систем несомненно имеет важное значение для повышения оперативности и качества обслуживания больших коитингентов специалистов. Однако функционирование этих систем прежде всего в качестве средства документального обслуживания не решает одной из серьезнейших его проблем — приведения объема релевантной информации в соответствие с физическими возможностями усвоения ее специалистами. Именно решению этой задачи и служит идея фрагментироваиия научно-технической литературы, которое рассматривается нами в рамках подсистемы фактографического информационного обслуживания, обеспечивающей, как известно, непосредственный допуск потребителя к информации, минуя «книгу».

3.7.1. Семантический подход к проблеме фрагментироваиия 29

Первоначально идея фрагментирования сформулировалась в форме гипотезы о возможности такой формы информационного обслуживания, при которой определенный спектр типовых информационных потребностей определенных групп и категорий потребителей информации удовлетворялся бы типовыми фрагментами первоисточников, имеющими самостоятельное информационное значение вне контекста документа. Массив таких типовых фрагментов, выделенных путем формализованного анализа на 1 этапе одноразового ввода документа в ИИС, образует самостоятельную подсистему, которую мы назвали подсистемой «фрагмент». Создание такой подсистемы, по нашему мнению, как уже указывалось, должно в значительной степени компенсировать избыточность как отдельных документов, так и документальной подсистемы в целом.

Под типовым самостоятельным фрагментом нами понимается: содержательно замкнутая часть текста (или так называемый содержательный аспект), в частном случае таблица, график, формула и т. п., понятная вне текста всего документа и способна» удовлетворить типовую информационную потребность без обращения к первоисточнику. В данной работе понятия «фрагмент» и «содержательный аспект» для упрощения рассматриваются; как синонимы, хотя передки случаи, когда фрагмент включает в себя более одного содержательного аспекта или, наоборот, является лишь частью содержательного аспекта.

Под типовой информационной потребностью будем понимать потребность, обусловленную общностью потребительской ситуации, характерной для определенных этапов творческой деятельности определенных категорий и групп специалистов в определенных областях знания. Так, С. Л. Круглов считает [75], что типовые потребности определяются условиями конкретной задачи. Для радиоэлектроники укрупненный перечень таких задач включал выбор направления работы, выбор методов решения задачи, разработку общих принципов, теоретические исследования, разработку схемы (блока, конструкции, методики расчета) и т. д. — всего 11 задач. Идея Круглова представляется нам плодотворной, но в отрыве от категории специалистов и функциональной специализации такой перечень кажется чересчур обобщенным; в действительности задач значительно больше и, несмотря на обязательное пересечение каждого перечня типовых задач (ориентированного на определенного «типового» специалиста), эти задача будут различаться.

Допустимо предположить, что определенному набору типовых информационных потребностей могут в первичных документах соответствовать определенные типы содержательных аспектов80 (фрагментов текста), достаточно информативных (самостоятельных), чтобы без обращения к тексту всего первоисточника удовлетворять типовые потребности. При информационном обслуживании такими фрагментами в ответ на типовой по форме запрос система выдавала бы, к примеру, не две-три дюжины документов, которые могут и не содержать релевантной информации, а непосредственно те фрагменты текста, которые ее содержат.

Постулируя гипотезу о возможности формализованного извле­чения из документов фрагментов, имеющих самостоятельное зна­чение, мы априори допускаем, что не все потребности, даже типо­вые, могут удовлетворяться подобными фрагментами (во многих случаях необходим все-таким документ в целом), а также не все фрагменты, даже самостоятельные, могут удовлетворить соот­ветствующие информационные потребности из-за неприемлемого уровня свернутости (информативности). Поэтому основной целью данного исследования вначале было установление принципиаль­ной возможности создания подсистемы ИИС подобного типа и определение наиболее вероятных путей решения проблем, возникающих при разработке таких подсистем.

Исследование проводилось последовательно на двух массивах статей из периодических изданий по различным отраслям знания — электротехнике и медицине (хирургии). Объем выборок в обоих случаях определялся физическими возможностями экспериментаторов,31 и потому для обработки результатов аппарат математической статистики не применялся. В этом и не было необходимости, поскольку проверялась принципиальная возможность реализации сформулированной выше гипотезы.

Первый этап работы включал создание двух предварительных перечней: 1) содержательных аспектов (фрагментов), характерных для различных видов статей по электротехнике и хирургии 32 (табл. 3.1); 2) типовых задач, решаемых исследователями и конструкторами, научными работниками (преподавателями и сотрудниками) и практическими врачами медицинских учреждений. При этом предполагалось, что формулировка типовых задач в таком перечне будет соответствовать формулировке типовых запросов, отражающих типовые потребности.

Сравнение перечней 1 и 2 позволяет сделать выводы о том, насколько пересекаются эти два множества, а следовательно, какова вероятность удовлетворения типовых информационных потребностей имеющимися в статьях самостоятельными фрагментами.

Для составления перечня 1 были проанализированы сетки содержательных аспектов, полученные различными авторами при разработке схем (анкет) реферирования [1, 79, 91, 110, 127]. Анализ сеток показал, что ни одна из них не годится в качестве перечня содержательных аспектов, поскольку либо содержит слишком мало аспектов, либо имеет аспекты, которые, с нашей точки зрения, не могут иметь самостоятельного значения вне текста документа (например, цель работы, название предмета рассмотрения, назначение предмета рассмотрения и др.). Все эти аспекты необходимы при анкетном методе составления вторичного документа для общего описания содержания первоисточника, но для нашей цели излишни.

Было решено составить предварительный перечень 1 объединением нескольких сеток и рассматривать его в качестве ориентира при непосредственном анализе документов, дополняя по мере выявления новых содержательных аспектов. Предварительный перечень по электротехнической тематике включал восемь аспектов: описание метода исследования, технологии, конструкции, принципа действия, метода расчета, техническая и экономическая эффективность, выводы; по медицинской тематике — семь аспектов: патогенез, этиология, клиническая картина, дифференциальная диагностика, лечение, профилактика, прогноз заболевания.

При анализе указанных источников, а затем непосредственно экспериментального массива документов выявилось, как уже об этом сообщалось в 2.2.4, что существует два вида содержательных аспектов: первые отражают структуру (логику) отдельной статьи, например Известный вариант решения, Предлагаемый вариант решения, Преимущества предлагаемого варианта, Результаты и т. д., вторые — структуру определенной области зна­ния, например Конструкция, Технология и т. д. — для электро­техники, Клиническая картина, Дифференциальная диагностика и т. д. — для медицины. Вторые более содержательны и преимущественно использовались в качестве самостоятельных фрагментов.

Для составления перечня 2 были использованы два метода: определение типовых научно-технических задач путем интервью­ирования выбранных категорий специалистов двух электротехнических организаций (Укргиироэнерго и Киевского отделения Теилоэлектропроекта) и одной медицинской (I Л МИим. акад. И. П. Павлова), а также анализ запросов, поступивших от соответствующих категорий специалистов в ЦНИИ Информэлектро. Для анализа отбирались запросы, в которых, помимо темы, указывался аспект ее рассмотрения.

В результате интервьюирования был получен перечень запросов, включавший восемь типовых задач по электротехнике (перспективы и тенденции развития, описание свойств материалов, конструкции и т. д.) и семь типовых задач по хирургии (патогенез заболевания, этиология, признаки клинической картины и т. д.).

Анализ 228 запросов (из ЦНИИ Информэлектро) показал, что их можно разбить на три группы: запросы, которые следовало бы направлять в подсистему документального обслуживания (запросы, требующие информацию постановочного или многоаспектного характера); запросы сугубо фактографического характера (параметры изделий, технико-экономическая эффективность, адреса организаций-изготовителей и т. д.); запросы, которые могла бы, по нашему мнению, удовлетворять подсистема «фраг­мент» — узкотематические запросы, возникающие при решении типовых задач.

В результате объединения списков запросов, полученных различными способами, был получен обобщенный перечень 2. Мы отдаем себе отчет в том, что он неполон, хотя бы потому, что анализировались запросы, направляемые заведомо в документальную подсистему, поскольку ни подсистемы «факты», ни подсистемы «фрагмент» в обследованных нами' организациях не существует. Перечень назван обобщенным, так как он не учитывает специфики должностей и функций обследованных специалистов, а такой учет несомненно отразился бы на количестве и характере типовых запросов. '

На втором этапе исследования производился содержательный (поаспектный) анализ статей по электротехнике и по хирургии, результаты которого сведены в табл. 3.2. Для анализа была разработана форма, включавшая пять граф: выходные данные статьи, ее вид, название фрагментов, имеющих априори самостоятельное значение, маркеры и повторы, характерные для того или иного фрагмента.

При решении вопроса о том, может ли тот или иной фрагмент иметь самостоятельное значение, руководствовались следующим: фрагмент понятен без привлечения сведений из остальных частей текста (за исключением заглавия; каждый фрагмент сопровождается библиографическим описанием статьи); фрагмент в той или иной степени потенциально отвечает типовой информационной потребности. 1

В результате поаспектного анализа статей по электротехнике и хирургии перечень 1 пополнился до 20 и 19 наименований фрагментов соответственно (см. табл. 3.1).

Примечание. Часть статей но поддалась фрагментированию из-за жесткой логической структуры, пли же самостоятельный фрагмент занимал большую часть статьи и выделять его было нецелесообразно. Статьи-сообщения по электротехнике и по хирургии, а также обзорные статьи по хирургии не фрагментировались полностью.

Поскольку выше постулировался тезис о возможном совпадении по смыслу содержательных аспектов, имеющих самостоятельное значение, с некоторыми типовыми запросами, интересно сопоставить аспекты с этими запросами.

При сопоставлении перечней обратили на себя внимание следующие обстоятельства: подавляющая часть аспектов и запросов совпадает или близка по смыслу; некоторые аспекты не имеют эквивалента среди запросов (например, Состояние вопроса, Зависимость параметров, Определение понятий, Рекомендации, Результаты, Выводы) и, наоборот, ряду запросов не отвечает перечень аспектов (Формулирование основных тактико-технических требований к изделиям, Определение потребностей страны в изделиях данного класса). Последнее объясняется тем, что, с одной стороны, реальные запросы формулировались для документальной системы, а с другой — для удовлетворения части запросов требуется синтез информации из ряда источников, а это выходит за рамки возможностей рассматриваемой подсистемы.

Тем не менее, хотя некоторым аспектам мы не нашли эквивалентов в списке запросов (перечне 2), априори можно допустить, что фрагменты, соответствующие этим аспектам, будут достаточно самостоятельными, чтобы удовлетворить потенциальные потребности специалистов.

Так, фрагмент, соответствующий аспекту Состояние вопроса (пример 4), выполняет функцию вступления, которое предваряет описание предмета рассмотрения статьи и содержит часто краткий, обзор того, что было известно авторам до написания статьи с критическим анализом наиболее важной по проблеме литературы. Совокупность таких фрагментов по определенной теме, выданных системой, — своеобразная заготовка для обзорного документа:

Пример 4

Состояние вопроса

Балашова Р. К. Упрощенный метод расчета сложных трубопроводов на тепловые расширения и внешние нагрузки. — Электрические станции, 1967, № 2, с. 16 – 23.

Сложность точных методов расчета трубопроводов на тепловые расширения и внешние нагрузки затрудняет их использование в практике проектирования. Особенно это относится к системам с ответвлениями и с промежуточными креплениями, заметно ограничивающими свободу тепловых перемещений трубопровода.

Приближенные способы оценка компенсирующей способности трубопроводов (Л. 1, 2, 3) не решают вопроса. Как правило, они значительно преувеличивают напряжения и не дают картины их распределения по длине трубопровода, в связи с чем могут быть использованы (и то с большой осторожностью) лишь для весьма грубой предварительной оценки гибкости участков, не имеющих ответвлений.

Использование при расчете трубопроводов принципа последовательных приближений позволяет значительно упростить и ускорить расчет. Методы, описанные в (Л. 4) основаны на этом принципе и применимы лишь для простейших случаев.

1. Расчет ц проектирование систем трубопроводов. Справочник (пер. с англ. под род. А. Г. Камерштейна и В. В. Рождественского), Гостоптех-издат, 1961.

2. Е. М. Залкипд. Упрощенные способы оценки и расчетов компенсирующей способности трубопроводов, «Электрические станции», 1964, № 3.

3. Б. Л. Благонадеждин. Критерий для оценки компенсирующей способ­ности станционных трубопроводов, «Теплоэнергетика», 1965, № 3.

4. В. А. Нахалов. Числовой метод расчета сложных трубопроводов на тепловые расширения и внешние нагрузки, «Теплоэнергетика», 1964, № 4.

Фрагмент «Перспективы и тенденции развития» часто встречается как часть вступления или заключения. Фрагмент «Определение понятий» имеет особое значение, поскольку в документальных источниках нередко приводятся определения понятий, которых либо вообще еще нет в справочной литературе или которые по-новому, с какой-либо другой стороны раскрывают предмет рассмотрения. Известно, что в дефинициях фиксируется определенный уровень познания предмета или новый взгляд на него. Во вторич­ных документах этот аспект информации, как правило, опускается, а следовательно, теряется для большинства потребителей. Накопление в памяти системы различных дефиниций позволит, во-первых, проследить этапы познания, а во-вторых, выявить точки зрения на него различных авторов.

Выводы достаточно часто, как показал анализ вторичных документов, являются составной частью реферата или реферативной аннотации, т. е. относятся к документальной подсистеме ИИС. Поэтому вопрос о введении в подсистему фрагмента «Выводы» нуждается в дополнительном решении. Иное дело фрагменты «Результаты» и «Рекомендации», особенно промежуточные. Они отражаются во вторичных документах значительно реже, и потому включение их в рассматриваемую подсистему желательно (разумеется, в случае самостоятельности указанных фрагментов).

Для определения самостоятельности извлеченных из текста фрагментов 33 каждый из них направлялся на экспертизу специалистам-экспертам. Каждому специалисту предлагалось просмотреть весь массив фрагментов и на оборотной стороне перфокарт определить потенциальную самостоятельность фрагмента пометкой «да» или «нет».

Пять экспертов по электротехнике (из восьми) отметили положительной оценкой 114 из 124 выделенных фрагментов (оценка «нет» была проставлена фрагментам «Состояние вопроса» в трех случаях, «Условия эксплуатации» — в одном, «Выводы» — в двух и «Зависимость параметров» — в четырех случаях). Три эксперта оценили положительно все 124 фрагмента. Два эксперта, анализировавшие массив по медицине, сочли лишенным самостоятельности лишь один фрагмент из выделенных 110.

В задачу данного исследования входило не только решение во­проса о принципиальной возможности извлечения из текстов само­стоятельных фрагментов и создание на этой базе подсистемы «фрагмент» в рамках ИИС, но и разработка формализованного аппарата, облегчающего извлечение фрагментов. Не исключено, что с повышением уровня формализации этой процедуры откроются перспективы ее автоматизации. Такой аппарат позволяет на основе формальных признаков идентифицировать тот или иной фрагмент, определить его начало и конец. В качестве формальных признаков такой идентификации были выбраны маркеры и ведущие повторы. Под маркером, как уже указывалось выше, понимается словес­ный штамп (слово или словосочетание), идентифицирующий какой-либо содержательный аспект, т. е. помогающий формально, без обращения к смыслу текста, распознать в нем тот или иной аспект. При этом, как показали исследования, характер маркеров, относящихся к сеткам структуры II типа, которые преимущественно и применяются при фрагментировании, имеет некоторую специфику по сравнению с маркерами сеток I типа (см. 2.2.4).

Так, например, для аспекта (II тип структуры) Перспективы тенденции развития характерны маркеры типа Наметилась тен денция, В предстоящие годы...ожидается, Намечается (наблюдается)...прирост (увеличение, снижение и т. и. класс эквивалентности); для аспекта Описание конструкции — типа Предло жена конструкция, Устройство...состоит,...включает следующие..., Представляет собой; для аспекта Методы расчета Проведен расчет, Расчет показывает и т. д. Это для области электротехники, для медицины маркеры также отличаются. Например, аспект Лечение идентифицируется маркерами Лечение...показано (произведено, назначено, осуществлялось и т. д.), аспект Этиология — маркерами Этиология (причина, возбудитель)...может быть (являться, возникновение).

Таким образом, если маркеры, характеризующие формальную структуру документа (сетки I типа) относительно универсальна (как и сами аспекты этих, сеток) для документов одного вида в различных областях знания, то маркеры, характеризующие содержательную структуру документа (логику отрасли — сетки II типа) специфичны для различных отраслей знания. При этом последние имеют значительно более сложную структуру (с разветвленной синонимией и парадигматикой). Так, например, устойчивый класс эквивалентности образуют слова производить, осуществлять; выполнять, приводить (и их грамматические формы); операция, вмешательство, активная хирургическая тактика; клиническая картина, клиника, клинические проявления, симптомы, жалобы между словами лечение, операция, лобэктемия — парадигматические отношения.

Анализ источников по использованию маркеров, а также наша практика наводят на мысль, что в ближайшем будущем не исключены попытки создания своеобразных «дескрипторных» словарей маркеров по различным отраслям знания. Без таких лексических пособий работы в области формальных способов обработки текстов вряд ли будут успешными.

В данном исследовании для поиска начала фрагментов в.документах были выделены маркеры для 6 аспектов из 19 в области хирургии (аспекты Лечение, Клиническая картина, Этиология, Отдаленные результаты лечения, Дифференциальная диагностика, Выводы) и маркеры для 9 аспектов из 20 в области электротехники (Состояние вопроса, Перспективы и тенденции развития, Описание конструкции, Методы расчета, Свойства материалов Химический состав, Выводы, результаты и рекомендации). Для остальных аспектов выделить четкие маркеры не удалось, поскольку эти аспекты представлены в наших массивах небольшим числом фрагментов.

Как уже указывалось, мы предполагаем использовать маркеры не только для идентификации аспектов, но и для поиска начала фрагментов в текстах документов. С этой целью было проведено исследование встречаемости профильных маркеров в первых предложениях соответствующих аспектов (па материале по хирургии — табл. 3.3).

Как видно, в большинстве фрагментов профильный маркер содержится в первом предложении. В тех случаях, когда маркер находится во втором или в третьем предложении, они связаны с первым повтором.34 Анализ нашего массива фрагментов показал, что все они начинаются с абзаца, и поэтому если маркер обнаружи­вается во втором или третьем предложении, то все предыдущие предложения в абзаце автоматически включаются в состав фрагмента. Например, фрагмент аспекта Этиология в нервом предложении не имеет маркера: Перфорация меккелева дивертикула встречается редко. Маркер мы находим во втором предложении Как правило, причиной ее является рыбья кость (причина — ядро маркера, является — лексическое сопровождение), однако оба предложения связаны повтором перфорация (во втором предложе­нии его заменяет местоимение ее), и поэтому безмаркерное предложение включается в состав фрагмента.

При поаспектном анализе статей сложен также поиск конца фрагмента. Поэтому мы попытались выявить формальные признаки, с помощью которых можно было бы обнаружить, где заканчивается тот или иной аспект-фрагмент. Для нахождения конца аспекта была использована гипотеза И. П. Севбо [115] и Г. В. Бондаренко [19] о способе выделения сверхфразовых единств (микроконтекстов) в тексте с помощью повтора. По этой гипотезе текст разбивается на сегменты, обладающие собственной микротемой, которую выражает ведущий повтор сегмента. За сигнал окончания микроконтекста следует принимать обрыв повтора с наибольшей длиной области действия.

Анализу подвергся 31 фрагмент по хирургии, отражающий аспекты Лечение и Дифференциальная диагностика. В каждом текстовом фрагменте, нам удалось выделить ведущий повтор (в не текстовых фрагментах — таблицах, схемах — повторы отсутствуют). Часто в качестве повтора выступал ядерный элемент маркера. Так, повтором во фрагментах аспекта Дифференциальная диагностика было слово диагноз (диагностика, распознавание и др.), во фрагментах аспекта Лечение — лечение, операция, вмешательство и эквивалентные им слова (либо заменяющие их местоимения или прилагательные).

При исследовании текстов фрагментов мы выяснили, что некоторые предложения не содержат ни повтора, ни заменяющего его местоимения или прилагательного, но эти предложения связаны»1 коннекторной связью. В этом случае, как показал смысловой анализ, такое предложение также следует относить к данному фрагменту, поскольку они семантически связаны.

Рассмотренные формальные признаки — маркеры и повторы — сегодня ни в коем случае не исключают содержательного анализа; фрагмента с целью его идентификации (и определения границ). Они; выполняют лишь вспомогательные функции, уменьшая затраты интеллектуального труда на содержательный анализ документов. Более того, их использование в нашем эксперименте указывает на одно из возможных направлений формализации этой процедуры. Наконец, применение маркеров и повторов не решает еще одной важной задачи, связанной с извлечением фрагментов, — определения их смысловой самостоятельности. Поэтому сегодня в технологической цепочке извлечения фрагментов обязательно должно находиться звено постредактирования.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: