Пример запроса типа «Частотно-ориентированный поиск»: Абсолютный частотный поиск

Создает частотно-ранжированный список слов (существительных) по «корзине ресурсов» (произведению или нескольким произведениям), собранной из первичных ресурсов. При поиске учитываются все русскоязычные словоформы, которые затем приводятся к нормальной форме: существительное в именительном падеже, единственном числе. Результатом запроса является таблица, содержащая столбец с частотно-ранжированным списком слов, а также столбцы с указанием абсолютной и относительной частоты встречаемости слова (в промилле). Глубина ранжирования может варьироваться пользователем (в диапазоне от 1 до 200 слов); по умолчанию она равна 30 словам.

Запрос дает своеобразную «терминограмму» произведения или их совокупности, неявно определяющую их общую предметно-тематическую ориентацию. Он позволяет текстологически сравнивать друг с другом несколько произведений и/или авторов (путем сравнения соответствующих списков слов), а также сравнивать объективно полученные терминограммы и субъективные экспертные списки терминов.

4. T-Media = T-Libra + Expositor. На платформе T-Libra в настоящее время создается информационная система T‑Media, объединяющая полнотекстовые и нетекстовые электронные ресурсы (графика, звук, видео и т.д.), обладающая возможностями унифицированного поиска по гетерогенным базам данных и последующего формирования на этой основе тематических экспозиций: как вручную (с помощью специального модуля Expositor), так и в автоматизированном режиме, с использованием методологии и технологии каскадных концепт-ориентированных запросов.

Технологической основой информационной среды T-Media с возможностями создания мультимодальных тематических экспозиций является подсистема «Полнотекстовый поиск» ЭБ T-Libra, которая организована как совокупность гибких параметризируемых запросов к полнотекстовой SQL-базе данных.

Эта подсистема, как сказано выше, связана с подсистемой файловых баз данных «Депозитарий», содержащей файловые ресурсы различных форматов (*.pdf, *.doc, *html и т.д.) и информационных модальностей (тексты; графика, в том числе тексты в виде графики; аудио-файлы, видео-файлы, и т.п.). Обе вышеназванные подсистемы имеют собственные настраиваемые рубрикаторы ресурсов. Вместе с тем обе они объединены в единую интегрированную среду с помощью подсистемы «Каталог», обладающей настраиваемой структурой полей и возможностями поиска по текстовым метаданным (библиографическим, иконографическим и т.д. описаниям первичных ресурсов), организованным в виде SQL-базы данных.

Таким образом, в качестве основы для интеграции ресурсов различной информационной модальности может быть избран текст, то есть (полно)текстовая модальность информации, а для создания унифицированной поисковой системы в мультимодальной среде – гибкая параметризируемая система поиска по текстовым метаданным и полнотекстовым ресурсам, существующим в формате SQL-баз данных.

Для создания произвольной тематической экспозиции администратор и/или удаленный пользователь может выбрать путь ее «ручного» комплектования из множества предварительных результатов запросов к различным подсистемам T-Media (из авторских абзацев, отобранных по данной теме, графических файлов и т.д.).

Сделать это можно в специализированном функциональном разделе T-Media – модуле Expositor, с применением технологии графического интерфейса “drag and drop”.

Этот модуль имеет двухоконный интерфейс, который включает в себя окно «Инструменты для экспозиции» и окно «Монтаж экспозиции».

В окне «Инструменты» имеются следующие функциональные разделы:

а) «корзина ресурсов», которая формируется из результатов запросов ЭБ T-Libra с мультимодальным расширением, или вручную.

В нее входят: авторские абзацы, найденные с помощью полнотекстового поиска; электронные карточки Каталога (необходимые, например, для составления списка литературы по теме экспозиции); текст, созданный непосредственно администратором / пользователем при составлении экспозиции; графические файлы из Депозитария или других источников (в том числе тексты в виде графики, архивные материалы и т.п.); аудио-файлы из Депозитария или других источников (не из T-Media); видео-файлы из Депозитария или других источников (не из T-Media); прочее (например, ссылки на релевантные Веб-сайты);

б) меню, позволяющее работать с экспозицией как целостным объектом (содержит функции «редактировать экспозицию»; «опубликовать экспозицию», «записать экспозицию в файл» и т.д.);

в) меню для выбора шаблонов художественного и технического оформления экспозиции.

В окне «Монтаж экспозиции» имеется функциональный раздел для создания многоуровневого оглавления экспозиции, а также монтажный стол, на котором с применением технологии “drag and drop” (перетаскиванием объектов из корзины ресурсов в блок-ячейки монтажного стола) происходит создание заготовок для будущих html-страниц экспозиции.

Элементы оглавления задают логику развертывания экспозиции и соотносятся со страницами экспозиции по принципу «один ко многим». 

В готовой экспозиции (пока она остается функциональной частью архитектуры Web-browser / Web-server / SQL-server, т.е. пользователь работает с информационной системой в режиме онлайн) один из ее элементов содержит возможность прямого выхода в поисковую систему T-Libra.

Сами же итоговые html-страницы экспозиции формируются по окончанию монтажных работ, и могут быть отделены от Интернет/Интранет-среды, в которой они создавались, и записаны на независимые переносимые носители информации.

5. T-Media = T-Libra + Expositor + Conceptor. Тематическая экспозиция может быть составлена не только «ручным» путем, описанным в п.4., но и в автоматизированном режиме.

Это делается с помощью концепт-ориентированной информационной системы (Conceptor), соединяющей «текст» и нетекстовые модальности информации как в содержательном плане, (через «библиотеки концептов» и релевантные тезаурусы), так и в технологическом (например, через механизм нелинейного каскадного концепт-ориентированного запроса и презентации его результата).

При этом исходной точкой построения этого концепт-ориентированного запроса является либо один из запросов к полнотекстовой SQL-базе данных, позволяющий эксплицировать терминологические поля и связанный с ними смысловой микроконтекст в пределах произвольного авторского абзаца, либо запрос к файловой БД «Депозитарий», позволяющий эксплицировать тот или иной нетекстовый цифровой объект («экспонат») и связанное с ним описание (текстовые метаданные).

Результат этого промежуточного запроса – та или иная терминологическая структура, своеобразный терминологический инвариант содержания множества авторских абзацев (или текстовых метаданных), – становится, в свою очередь, началом нелинейного каскадного запроса, выполняющегося в мультимодальной информационной среде с активным использованием других текстовых метаданных, через которые осуществляется выход на релевантные нетекстовые объекты [6].

В ходе его выполнения для предварительного моделирования предметной области применяется частотный анализ текста по выбранной корзине ресурсов, актуализируются релевантные тезаурусы, а также статическая и/или динамическая «библиотека концептов».

Результатом запроса является совокупность мультимодальных культурных концептов, представленная в виде констелляций релевантных «текстов» и нетекстовых единиц информации, связанных между собой («по смыслу») теми или иными терминологическими кластерами (Рис.1).

 

 

Рис. 1. Блок-схема ЭБ T-Libra с мультимодальным расширением

и концепт-ориентированным поиском (функциональным блоком Conceptor).

 

Разумеется, эти результаты могут быть затем помещены в тематическую экспозицию, создаваемую вручную в функциональном блоке Expositor.

Создание тематических экспозиций с помощью функционального блока Conceptor больше подходит для научных исследований, что тоже является важной составной частью музейной деятельности.

Таким образом, в целом можно сказать, что информационная система T-Media есть электронная библиотека T-Libra c мультимодальным расширением (концепт-ориентированным поиском в мультимодальной среде в сочетании с соответствующей подсистемой презентации результатов этого поиска, т.е. модулем Conceptor) плюс модуль Expositor для создания интерактивных тематических экспозиций.

6. Взаимодействие с системами автоматизированного учета музейных фондов.

Информационная система T-Media, основанная на многофункциональной электронной библиотеке T-Libra с соответствующими расширениями,  включает в себя инструментарий, позволяющий непосредственно вводить в ее Депозитарий любые нетекстовые объекты (оцифрованные «экспонаты» музея) вместе с их структурированным описанием в соответствующих полях Каталога.

Вместе с тем она, разумеется, не заменяет собой существующие специализированные системы автоматизированного учета музейных фондов. Взаимодействие с базами данных этих систем будет происходить путем конвертации данных.

7. Заключение. В настоящее время описанный выше подход реализуется для бимодального случая (символьный текст + графический образ) в рамках пилотного проекта «Виртуальный музей Северной иконы» (совместно с Государственным музейным объединением «Художественная культура Русского Севера», г. Архангельск).

Литература.

[1] См.: С.Х.Ляпин. О концептах и концептологии (в поисках нового подхода к моделированию деятельности) // XIX World Congress of Philosophy. – Moscow 22-28 August 1993. – Book of abstracts. Сборник резюме. Vol. I. Секция 13 (Философия деятельности). – с.322; С.Х.Ляпин. Концептология: учение о концептах, методология культурогенных трансляций, технология эвристического развертывания смысла // Вестник СЗО РАО. – №3, 1998, СПб.-Архангельск: Поморский гос. университет им. М.В.Ломоносова, 1998. – с.28-41; С.Х.Ляпин. Культурные концепты для интеграции текста и нетекстовых модальностей информации // Материалы Восьмой ежегодной конференции АДИТ-2004, Самарский областной историко-краеведческий музей им. П.В.Алабина, 31 мая - 5 июня 2004, Самара, 2004, с. 61-62.

[2] С.Х.Ляпин, А.В.Куковякин. Многофункциональная электронная библиотека T-Libra: WWS-архитектура, интегрированный каталог, настраиваемый мультирубрикатор, гибкий параметризируемый полнотекстовый поиск // Труды 5-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL2003, Санкт-Петербург, Россия, 2003. - Изд-во СпбГУ, 2003, с. 292-299; http://rcdl2003.spbu.ru/proceedings/J4.pdf

[3] С.Х.Ляпин, А.В.Куковякин. Мультимодальное расширение электронной полнотекстовой библиотеки: концепция, методология, технология // Материалы 6-й ежегод. межд. конф. EVA 2003 Москва. - Москва, ГТГ, 1-5 дек. 2003 года. - М.: Изд. Центр ПИК Минкультуры России; Государственная Третьяковская Галерея, 2003, с. 11-2-1 –­­ 11-2-4. http://www.evarussia.ru/upload/doklad/doklad_928.doc; С.Х.Ляпин, А.В.Куковякин. Многофункциональная электронная библиотека T-Libra с гибким полнотекстовым поиском и мультимодальным расширением // Труды межд. конф. «Программа ЮНЕСКО «Информация для всех»: Всеобщий доступ к информации». СПб, 23-25 июня 2004 года. http://confifap.cpic.ru/upload/spb2004/reports/doklad_236.doc; С.Х.Ляпин, А.В.Куковякин. T-Media: интегрированная среда для объединения текстовых и нетекстовых информационных ресурсов и создания интерактивных тематических экспозиций // Материалы Восьмой ежегодной конференции АДИТ-2004, Самарский областной историко-краеведческий музей им. П.В.Алабина, 31 мая - 5 июня 2004, Самара, 2004, с. 53-54.

[4] Тема создания музейных публичных информационных центров на базе музейных библиотек была одной из центральных на научно-практическом семинаре «Музейные библиотеки в современном обществе», состоявшемся 13-15 апреля 2004 г. в Музеях Московского Кремля (см.: www.kreml.ru/ru/main/science/conferences2004/MuseumLibrary), а также на специальной секции «Музейные библиотеки. Музейные публичные информационные центры», работавшей на конференции АДИТ-2004 в Самаре, 31 мая – 5 июня 2004 г. (координаторы секции – О.В.Синицына и С.В.Костанян). См.: http://www.adit.ru/conference/adit2004/program.htm

[5] С.Х.Ляпин, А.В.Куковякин. Виртуальная лаборатория для гуманитарных исследований на основе электронной библиотеки с гибким полнотекстовым поиском // Труды 6-й Всероссийской конференции «Научный сервис в сети ИНТЕРНЕТ», г. Новороссийск (п. Дюрсо), 20-25 сентября 2004 года. – М.: Изд-во Московского государственного университета, 2004 (в печати).

[6] С.Х.Ляпин, А.В.Куковякин. Концепт-ориентированный поиск в электронной полнотекстовой библиотеке с мультимодальным расширением // Труды 6-й Всеросс. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», RCDL’04, Пущино, 29 сент. - 1 окт. 2004 г. (в печати).

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: