double arrow

Гипертекстовые технологии поиска документальной информации

Гипертекст (нелинейный текст) это организация текстовой ин­формации, при которой текст представляет собой множество фраг­ментов с явно указанными ассоциативными связями между этими фрагментами.

Основная идея гипертекстовых технологий состоит в том, что поиск документальной информации происходит с учетом множества взаимосвязей, имеющихся между документами, а значит, более эф­фективно, чем при традиционных методах поиска.

Формально гипертекст можно представить в виде сети или гра­фа, где узлами являются фрагменты текста, а дуги отображают отно­шения, связывающие эти фрагменты. Доступ к информации осуще­ствляется не путем последовательного просмотра текста, как в обыч­ных информационно-поисковых системах, а путем движения от од­ного фрагмента к другому.

В самом общем виде взаимодействие пользователя с гипертекс­товой системой заключается в следующем. Пользователь читает на экране компьютера некоторый текст и имеет возможность выпол­нять ряд определенных в системе действий в зависимости от того, какие у него возникают ассоциации от чтения текста на экране.

Считают, что первым идею гипертекста, не используя самого термина «гипертекст», выдвинул в 1945 г. Венневер Буш, советник президента Рузвельта по науке. Им был предложен проект техниче­ской системы нового типа (или лучше сказать - технической среды), названный им «Metex». Основное преимущество этой системы со­стояло в возможности соединения и совместного просмотра отдель­но существующих, но ассоциативно связанных единиц информации (статей, текстовых документов, фотографий, чертежей). Система «Metex» представлялась в виде своеобразной библиотеки с простым доступом к любому документу и возможностью переходить от любо­го документа к смежным, связанным с ним по смыслу. Пользователь должен был иметь возможность самостоятельно устанавливать нуж­ные ему связи между документами, вводить собственные документы, связывать их с существующим содержимым библиотеки. Таким об­разом, основная идея предложенного проекта состояла в возможно­сти фиксации смысловых связей между элементами информации и доступа к этой информации по системе связей, т.е. принципы систе­мы «Metex» полностью соответствуют современным представлениям о сути гипертекста.

Первая компьютерная система, реализующая идею гипертекста, создана в 1968 г. Она носила чисто научно-исследовательский харак­тер и обеспечивала возможность пользователям в соответствии со своими представлениями формулировать, наращивать систему свя­зей между элементами информации и просматривать информацию как систему связей.

Термин «гипертекст» ввел Т.Нельсон. Он определил гипертекст как «соединение текста на естественном языке с создаваемой ком­пьютером возможностью интерактивного создания внутри него но­вых ветвей или динамичной организации нелинейного текста, кото­рый уже не может быть напечатан обычным образом на обычной странице».

Г. Нельсон был разработчиком гипертекстовой системы, кото­рая использовалась для ведения документации по проекту космиче­ского корабля «Аполлон».

В 1987 г. фирма Apple выпустила первую гипертекстовую систе­му для персональных машин — пакет HyperCard для компьютеров Macintosh. С этого времени гипертекстовая технология приобретает массовый коммерческий характер.

Гипертекст можно рассматривать как своеобразную базу данных, которая организуется в виде открытой, свободно наращиваемой и изменяемой сети, узлы которой (линейные тексты) соединяются са­мим пользователем. От обычной базы данных гипертекст отличается прежде всего тем, что в нем отсутствуют априорно заданные ограни­чения на характер связей (как, например, в иерархических структу­рах).

Элементы гипертекста (текстовые фрагменты) называются узла­ми. Узлы, между которыми возможен переход, считаются смежны­ми, а сама возможность перехода называется «связь». Совокупность смежных узлов образует «окрестность» данного узла.

Последовательно соединенные связями узлы образуют «цепь». Расстояние между узлами, что соответствует «близости» или «небли­зости» их содержания, равно минимальному количеству промежу­точных узлов.

В общем случае, в качестве узла могут выступать: слово; слово­сочетание; предложение; абзац; параграф; документ; собрание доку­ментов, относящихся к одной теме; отдельные сообщения и т.п.

Характер связей между узлами может быть различным. Переход может осуществляться между: текстом и комментарием к нему, между разными редакциями текста, между текстом и его возможными продолжениями, между текстами отвечающими или возражающими друг другу, между текстами, пересекающимися по содержанию, и т.д.

Создание гипертекста состоит прежде всего в формировании системы переходов от узла к узлу (системы ссылок). В зависимости от типа гипертекстовой системы такая система может задаваться как разработчиками, так и пользователем в процессе работы с гипертек­стом.

Движение в гипертекстовой сети, совершаемое в процессе чте­ния гипертекста, называется «навигацией».

Если гиперсеть имеет сложную, разветвленную структуру, воз­никает проблема ориентации пользователя, т.е. определения, в ка­ком месте сети в данный момент он находится. Проблема ориента­ции присутствует и при работе с традиционным линейным текстом большого объема, но в этом случае пользователь имеет только два направления поиска — «выше» или «ниже». Гипертекст предлагает больше возможностей в выборе направлений движения, поэтому в этом смысле работать с гипертекстом сложнее. Поэтому многие ги­пертекстовые системы облегчают проблему ориентации в гипертек­сте, предоставляя наглядное изображение структуры связей.

В некоторых современных гипертекстовых системах существует возможность запоминания направлений поиска пользователя в про­цессе навигации. Такую информацию можно рассматривать как аль­тернативу обработки информации по правилам логического вывода (экспертные системы). Примером использования такого подхода могут служить системы, базирующиеся на технологии CBR (Case Based Reasoning — вывод, основанный на прецедентах).

Гипертекстовая технология реализуется в конкретной гипертек­стовой системе, которая состоит из двух частей: гипертекста (базы данных) и гипертекстовой оболочки.

Гипертекстовая оболочка осуществляет следующие основные функции:

поддержка ссылочных связей;

создание, редактирование и наращивание гипертекста;

прямой доступ;

поддержка ссылочных связей;

просмотр (browsing — броузинг);

выделение виртуальных структур.

Поддержка ссылочных связей позволяет поддерживать ранее зафиксированные связи между узлами сети.

Функция создания, редактирования и наращивания гипертекста принципиально отличает технологию гипертекста от технологии баз данных, в которых концептуальная схема данных заранее задана. Она позволяет вводить новые узлы, редактировать содержание узлов, ус­танавливать связи между узлами.

Прямой доступ позволяет осуществлять прямой доступ к узлам

сети по их именам.

Просмотр (browsing — броузинг) - операция, характерная только для гипертекста. Означает поиск информации посредством просмо­тра гипертекстовой сети, при этом возможно запоминание пути сле­дования, чтобы при последующем аналогичном запросе поиск про­исходил по зафиксированному пути следования.

Реальные гипертекстовые системы в зависимости от специали­зации могут обладать различным набором вышеперечисленных функ­ций.

Гипертекстовые технологии широко используются в различных

прикладных системах:

в настольных издательских системах — для создания документов большого объема со свойствами гипертекста (т.е. с системой ссылок);

в системах управления документами (СУД) — например, для све­дения в один итоговый документ информации, содержащейся в раз­нородных документах;

в системах подготовки электронных документов, позволяющих составлять гипертекстовые документы с возможностью осуществле­ния навигации.

Наиболее известным инструментом создания гипертекста оста­ется система HyperCard, входящая в набор базовых программных средств для машины Macintosh.

Одним из перспективных направлений развития гипертекстовых систем является технология гипермедиа — соединение технологии гипертекста и технологии мультимедиа (интеграция текста, графики, звука, видео). Для разработки гипермедийных приложений фирма Apple разработала среду программирования АМТ (Apple Media Tool), в которой основным объектом разработки является не «карта», как в HyperCard, а «экран». С помощью этих средств создаются различные электронные издания — справочники, энциклопедии; разрабатыва­ются обучающие программы.

Гипертекстовые технологии нашли широкое применение и при организации поиска документальной информации в сети Internet, на­пример в сервисе World Wide-Web (WWW).

Сервис Web построен на основе архитектуры «клиент-сервер». В состав Web-системы входят следующие составляющие:

язык гипертекстовой разметки документов HTML (Hyper Text Markup Language);

универсальный способ адресации ресурсов в сети URL (Universal Resource Locator);

протокол обмена данными (гипертекстовой информацией) HTTP (Hyper Text Transfer Protocol);

средства просмотра Web-страниц (броузеры).

Язык HTML это средство для формирования гипертекстовых документов. Гипертекстовые ссылки встроены в текст документа и хранятся как его часть. Благодаря этому языку можно не только формировать гипертекстовые документы, но и осуществлять связь текста и изображения с документами, расположенными на другом сервере Web.

Универсальный способ адресации применяется для организации гипертекстовых ссылок и обеспечивает доступ к распределенным ресурсам сети. Адрес URL состоит из трех элементов: используемого протокола доступа, логического имени сервера, имени файла. На­пример, сервер Государственной публичной научно-технической библиотеки России имеет адрес: http://gpntb.ippi.ras.ru/.

Протокол обмена данными служит для установления связи с документами формата HTML независимо от его местонахождения.

В настоящее время гипертекстовые технологии развиваются в нескольких направлениях.

Одно из них концентрируется на представлении в узлах гипер­текста разнородной, но семантически связанной информации - тек­ста, рисунков, графиков, фотографий, видео, звука.

Важным направлением развития гипертекстовых технологий является аналитическая обработка информации. Например, смысло­вое упорядочение документов, обеспечивающих решение многоэтап­ной задачи или разработку сложных проектов

Наиболее перспективным направлением являются технологии организации информационных ресурсов, распределенных в сетях различных типов (локальных, корпоративных, глобальных) и, преж­де всего, Web-технология.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



Сейчас читают про: