Современные системно-технологические тенденции развития электронных библиотек

Существующие в настоящее время и разрабатываемые новые системы электронных библиотек характеризуются большим разнообразием поддерживаемых в них информационных ресурсов, способов организации их коллекций, функциональными возможностями пользовательских интерфейсов, архитектурных особенностей этих систем и других их технологических характеристик. Не случайно поэтому, что в разработках информационных систем этой категории востребован практически весь спектр ключевых технологий управления информацией, созданных научно-техническим сообществом и индустрией программного обеспечения в области баз данных, текстового поиска, Всемирной паутины и Интернет.

Действительно, Web-технологии являются непременной составной частью технологического оснащения многих электронных библиотек. Web является средой «обитания» электронных библиотек, обеспечивающей доступ пользователей к их ресурсам. Электронные коллекции информационных ресурсов многих электронных библиотек организованы в виде Web-сайтов. Кроме того, Web является средой доступа к различным системам баз данных, содержащим метаданные и/или коллекции структурированных данных, непосредственно интересующих пользователей электронной библиотеки. Более того, Web может рассматриваться как уникальная гигантская общечеловеческая универсальная (по предметной области) электронная библиотека.

Вероятно, наиболее распространенным видом информационных ресурсов электронных библиотек являются тексты на естественных языках. Этим обусловлено широкое применение в таких системах технологий текстового поиска. Они используются при этом не только в системах, построенных по принципу традиционных текстовых систем, но и для поиска в коллекциях, организованных в виде вебсайтов, а также для поиска в глобальной среде Web. Технологии текстового поиска, созданные первоначально для использования в рамках централизованно администрируемых коллекций текстовых документов уже более десятилетия назад стали применяться в децентрализованной среде Web. В последнее время адаптированные к Web технологии текстового поиска возвращаются в централизованно администрируемую информационную среду. Так, компанией Яндекс разработана свободно распространяемая поисковая система для поиска ресурсов на платформе персональных компьютеров. Аналогичную систему создала компания Google. [22]

Нужно отметить также важную роль технологий баз данных в электронных библиотеках. В рамках электронных библиотек используются СУБД, основанные на различных моделях данных - реляционные, объектные, объектно-реляционные, XML-ориентированные системы. Управляемые ими базы данных поддерживают в электронных библиотеках разнообразные коллекции структурированных данных и обеспечивают эффективный доступ к ним. Это, например, данные, полученные в результате научных экспериментов, наблюдений и измерений, компьютерного моделирования реальных процессов, экономическая статистика и т.п. Системы баз данных обеспечивают в электронных библиотеках поддержку разнообразных структурированных метаданных (например, классификаторов, каталогов, тезаурусов, словарей и др.). Создание XML-ориентированных систем баз данных позволило поддерживать в таких системах слабоструктурированные и структурированные XML-данные. Помимо этого, целый ряд коммерческих СУБД позволяет еще с середины 90-х годов хранить текстовые документы, осуществлять их полнотекстовое индексирование и на этой основе осуществлять поиск хранимых текстовых документов по элементам их содержания. [23]

Все перечисленное показывает ключевую роль технологий управления информацией в электронных библиотеках. Развитие этих технологий обогащает функциональные возможности электронных библиотек. В свою очередь, возникающие в многочисленных разработках электронных библиотек различного назначения новые требования к технологиям управления информацией стимулируют их дальнейшее развитие.

Конечно же, сфера применения технологий управления информацией не ограничивается электронными библиотеками. Однако анализ наиболее значимых тенденций развития этого пласта информационных технологий, сформировавшихся и зарождающихся в последние годы, даст возможность оценить перспективы развития разработок в области электронных библиотек.

Создание Всемирной паутины, развитие информационных технологий, процессы формирования информационного общества - все это стимулирует быстрый рост объема информационных ресурсов, поддерживаемых в информационных системах, в частности, и в электронных библиотеках. Темпы роста информационных ресурсов особенно интенсифицировались в последнее десятилетие. Именно в этот период сформировались указанные выше предпосылки. [25]

Достигнутые масштабы объема информационных ресурсов, генерируемых, хранимых и обращающихся в различных сферах жизнедеятельности, уже не позволяют обойтись перечнем единиц измерения, которые стали привычными и широко используются на практике - биты, байты, килобайты (Kb), мегабайты (Mb), гигабайты (Gb), терабайты (Tb) и, наконец, петабайты (Pb). Введены в лексикон специалистов новые единицы измерения объема информации - экзабайт (Exabyte, Eb = 1K петабай-тов), зетабайт (Zettabyte, Zb = 1K экзабайтов) и йо-табайт (Yottabyte, Yb= 1Kзетабайтов).

Исследования, направленные на получение оценки объемов накопленных человечеством информационных ресурсов и темпов их ежегодного роста, проводятся в Калифорнийском университете (Беркли) в Школе управления информацией и информационных систем (School of Information Management and Systems) при поддержке компаний Microsoft, Intel, Hewlett-Packard и EMC.

В 1999 и 2002 гг. в рамках указанного проекта были получены оценки хранимых на машиночитаемых носителях информационных ресурсов, а также объемов потоков информации - телефон, радио, TV, Интернет, печатных изданий и документооборота организаций. Объемы информации, представленной в аналоговом виде, для сопоставимости пересчиты-вались в объемы эквивалентной оцифрованной информации. По материалам этого проекта поддерживается «живой» документ в Web.

Приведем лишь несколько оценок, представленных в этом документе. В 2002 г. продуцировано около 5 Eb новой информации. Из них около 92% хранится на магнитных носителях. В период 1999- 2002 гг. объем хранимой информации возрастал в среднем на 30% в год и за три года примерно удвоился. Объем оцифрованных информационных ресурсов Библиотеки Конгресса США мог бы составить 10 терабайтов. Примерно в 2 Pb можно оценить объем ресурсов всех университетских библиотек США. Объемы информационных ресурсов Web в 2002 г. могут быть приблизительно оценены следующим образом: стандартный гипермедийный Web ("Surface" Web) 167 Tb; «скрытый» Web (FTP-архивы и базы данных, доступные в среде стандартного Веб) - 92 Pb. [29]

Без сомнения, можно предполагать, что в составе этих гигантских объемов информационных ресурсов значительную долю составляют информационные ресурсы электронных библиотек. Так, например, чрезвычайно крупной коллекцией информационных ресурсов обладает прототип «цифровой Земли» - Alexandria Digital Earth Prototype (ADEPT) [13], разработанный в рамках проекта электронной библиотеки Alexandria совместно университетами в Санта Барбара и Лос-Анджелесе (Калифорния), Техническим научно-исследовательским институтом и университетом штата Джорджия (США). Другими крупными коллекциями информационных ресурсов обладают электронные библиотеки, созданные в области космического зондирования земной поверхности и экологического мониторинга.

В ряде источников отмечается характерный для многих областей научных исследований в последние годы экспоненциальный рост данных, полученных в результате научных экспериментов, наблюдений, измерений, компьютерного моделирования. Так, этот факт отмечается в области молекулярной биологии для последнего десятилетия. В астрономических исследованиях также имеют место высокие темпы роста объема данных, накапливаемых в обсерваториях. Объем этих данных примерно удваивается за период от шести двенадцати месяцев. Крупнейшими «генераторами» информационных ресурсов являются исследования в области физики частиц, проводимые в ряде крупных исследовательских центров (ЦЕРН, Стэн-фордский университет и др.). Как известно, именно потребности управления гигантскими объемами данных, которые генерируются на современных ускорителях, привели к рождению грид-технологий и концепции грида данных.

Возможности использования коммуникационной среды Интернет и Web-технологий в разработках электронных библиотек и других информационных систем стимулировали процессы распределения и глобализации как формирования коллекций информационных ресурсов, так и доступа к ним. Глобальный доступ к информационным ресурсам системы в любой точке, где имеется доступ в Интернет, и в любое время является одним из необходимых условий отнесения такой информационной системы к категории систем, которые принято называть электронными библиотеками.

Наряду с электронными библиотеками, коллекции информационных ресурсов которых администрируются централизованно, создаются такие электронные библиотеки, коллекции которых поддерживаются во множестве автономно формируемых и администрируемых децентрализованным образом источников, доступных в глобальной среде. [30]

Примерами крупных электронных библиотек такого вида являются международная электронная библиотека по общественным наукам RePec и выступающая в ней в качестве одного из источников информационных ресурсов, а также и в виде крупной самостоятельной научной электронной библиотеки Отделения общественных наук РАН, отечественная система Соционет.

К электронным библиотекам рассматриваемого вида можно отнести и другие многочисленные системы регионального, национального и международного уровня, например, корпоративные библиотечные системы. К их числу относятся, в частности, крупнейшая международная система OCLC WorldCat, а также отечественная автоматизированная система Российского сводного каталога по научно-технической литературе.

В электронных библиотеках рассматриваемого вида и в других информационных системах используются различные подходы и методы интеграции информационных ресурсов.

Важной тенденцией последнего десятилетия в развитии технологий управления информацией стала интеграция таких технологий в реализациях многочисленных конкретных систем. Наряду с информационными системами вообще и системами электронных библиотек, в частности, основанными на каком-либо одном из пластов технологий управления информацией (технологии баз данных, Web-технологии, технологии текстовых систем) имеются многочисленные примеры совместного использования различных сочетаний этих технологий в рамках одной системы. [31]

Многие организации стали обладать источниками структурированных данных наряду с текстовыми системами. Стремление к упрощению технологических процессов в организации в таких ситуациях и необходимость интеграции информационных ресурсов привели к производству СУБД, способных поддерживать наряду со структурированными данными также и текстовые документы и выполнять их поиск по запросам пользователей. Развитыми средствами текстового поиска обладают в настоящее время многие серверы баз данных, например, DB2 (IBM), Oracle (Oracle Corp.), SQL Server (Microsoft Corp.) и др.

Другое развивающееся направление интеграции технологий управления информационными ресурсами - это интеграция технологий баз данных и Web-технологий. Доступность коммуникационных возможностей Интернет и комфортный доступ пользователей в среду Web с помощью легко осваиваемых программ просмотра - Web-браузеров - стимулировали обеспечение удаленного доступа к базам данных в этой среде многих пользователей без необходимости разработки специальных средств пользовательского интерфейса. Разработки новой технологической платформы Web, основанной на языке XML, привели к созданию нового класса систем баз данных, называемых XML-ориентированными системами. Разработка технологий семантического Web и создание широко признанных стандартных средств описания онтологий создают предпосылки для решения одной из важных перспективных задач развития технологий баз данных - создание пользовательских интерфейсов в системах баз данных, основанных на онтологиях предметной области системы. Актуальность решения этой задачи была отмечена на состоявшейся в июне 2003 году Лоуэлл-ской дискуссии (штат Массачусетс, США) о перспективах развития технологий баз данных, в которой участвовал ряд крупнейших специалистов в области технологий баз данных.

Развитые комплексы инструментальных средств систем баз данных, соответствующих стандартам платформы XML, поддерживаются в настоящее время SQL-серверами баз данных компаний Oracle, IBM, Microsoft и других поставщиков программного обеспечения систем баз данных. Углублению интеграции технологий баз данных и Web-технологий способствует также завершенная в 2003 году ISO разработка новой версии стандарта объектно-реляционного языка запросов для систем баз данных SQL-2003. В составе этого стандарта имеется компонент SQL/XML, обеспечивающий интеграцию технологий SQL-баз данных и XML-технологий. [32]

Нужно отметить также еще одно активно развиваемое направление интеграции технологий управления информационными ресурсами. Оно связано с Web-технологиями и технологиями текстового поиска. После создания Всемирной паутины и интенсивного наращивания ее информационных ресурсов стало ясно, что навигационный доступ к информационным ресурсам, который обеспечивается технологиями этой системы, не может эффективно удовлетворять информационные потребности пользователей. Для решения этой проблемы в Web начали использоваться традиционные технологии текстового поиска. Стали создаваться поисковые машины Web, которые сегодня активно используются многими миллионами пользователей этой гигантской электронной библиотеки.

Сегодняшние версии таких систем радикально отличаются от ранних их версий функциональными возможностями, учитывают особенности поиска ресурсов в Web, существенно отличающиеся от условий поиска в традиционных системах текстового поиска. Действительно, в отличие от традиционных систем текстового поиска, в Web нет централизованного администрирования информационными ресурсами, не поддерживаются метаданные коллекций, существенную роль играют взаимосвязи между документами с помощью гиперссылок, огромные объемы пространства поиска, высокая динамичность информационных ресурсов - изменчивость состава коллекции и отдельных документов (вебстраниц). При поиске в Web необходимо учитывать также низкое качество документов, связанное с легкостью публикации ресурсов в этой среде и отсутствием администрирования, многоязычность ресурсов, значительная избыточность коллекций - наличие многих копий документов, содержащихся на разных Web-сайтах и т.д.

В разработках информационных систем с использованием рассмотренных вариантов интеграции технологий управления информационными ресурсами каждый из базовых пластов таких технологий привносит свои специфические возможности в создаваемые системы. Их можно кратко охарактеризовать следующим образом:

1. На основе технологий баз данных обеспечиваются полнофункциональное управление структурированными данными, обработка запросов в терминах поддерживаемой модели данных и в транзакционном режиме, хранение традиционных текстовых ресурсов и XML-документов и эффективный доступ к ним в среде хранения с использованием техники индексирования данных и других методов прямого доступа.

2. Технологии текстового поиска привносят возможности поддержки естественных языков в качестве языков пользовательского интерфейса, использование различных подходов к структуризации содержания текстовых документов, представленных в системе, и пользовательских запросов, сформулированных на естественных языках.

. Вклад Web-технологий состоит в обеспечении распределения информационных ресурсов между узлами Интернет и возможности децентрализованного управления ими, глобального доступа к информационным ресурсам в среде Web без предъявления высоких требований к квалификации пользователей благодаря существованию средств навигационного доступа, обеспечении поддержки семантики информационных ресурсов средствами технологий Web нового поколения, основанного на стандартах платформы XML (семантический web), и, соответственно, доступа к ним на семантическом уровне. [33]

Одним из следствий указанных тенденций интеграции технологий стало индустриальное производство ряда серверов баз данных, которые уже неправомерно, строго говоря, относить к продуктам указанной категории. Это, скорее, теперь уже технологические «комбайны». Действительно, такие, например, продукты, как сервер баз данных Oracle Database 10g или флагманский программный продукт для систем баз данных компании IBM - сервер баз данных DB2 Universal Database v.8 - способны не только выполнять функции управления традиционными объектно-реляционными SQL-базами данных. Они могут эффективно оперировать текстовыми, пространственными и мультимедийными данными. Как уже отмечалось, они поддерживают также важнейшие стандарты платформы XML, управляют XML-ориентированными базами данных, обладают Web-интерфейсами, поддерживают технологии потоков работ, интеграции бизнес-процессов и выполняют многие другие функции.

В развитии технологий управления информационными ресурсами можно проследить также тенденцию конвергенции, идейного сближения разных пластов указанных технологий, их взаимного влияния, миграции проверенных временем идей и концепций из одних областей в смежные технологические области. Эта тенденция наиболее масштабно проявляется в разработках технологий Web нового поколения. Рассмотрим кратко, каким образом это происходит на примере стандартов платформы XML, где можно обнаружить воплощение многих идей, заимствованных из технологий баз данных.

Прежде всего, о значительном влиянии традиционных «базоданновых» подходов на эту область убедительно свидетельствует активное применение в ее техническом лексиконе таких терминов, как «модель данных», «база данных», «схема», «метаданные», «ограничение целостности», «язык запросов» и др. [42]

Как и в системах баз данных, в Web нового поколения предусматривается многоуровневая архитектура данных - различаются хранимые данные («хранимые сущности» XML, файлы - физический уровень) и XML-документы (логический уровень). Физическое и логическое представления данных определяются по принципу самоописываемости с помощью встроенных метаданных, выраженными средствами XML-разметки. Для логического представления XML-данных может быть определена отчужденная от них схема (DTD и/или XML Schema). Более высокий уровень абстракции данных в архитектуре XML-данных - семантический уровень. Для описания семантики XML-документов используются RDF-спецификации в терминах понятий, определяемых описанием онтологии предметной области. Онтологии описываются средствами языков RDFS или OWL, и это описание представляет онтологический уровень архитектуры.

Со структурной точки зрения, XML-документ является частным случаем записи базы данных CODASYL, представляющей собой иерархию элементов данных, которые могут быть простыми (атомарными), повторяющимися группами, в том числе, и с переменным числом повторений. В записи базы данных CODASYL, однако, могут содержаться производные (виртуальные) элементы данных. Более развитым является и множество типов данных, представляющих значения атомарных элементов данных записи.

Как и в технологиях баз данных, фундаментальным понятием в рассматриваемых Web-технологиях является понятие модели данных, хотя оно и интерпретируется в отличие от современной «базоданно-вой» трактовки не как инструмент моделирования данных, а как его результат - как структура XML-документа. В рамках многоуровневой архитектуры данных Web, основанного на платформе XML, поддерживается комплекс моделей данных (в «базоданновом» смысле). На логическом уровне используются альтернативные модели: (XML + XQuery), DOM, XPath, (XML + XSLT). На семантическом уровне предоставляется модель данных (RDF + SPARQL). Наконец, для уровня онтологий создается вариант полнофункциональной модели (OWL + язык правил). Язык SPARQL - это язык запросов консорциума W3C в терминах RDF-спецификации [42]. Язык правил для семантического Web находится в настоящее время в стадии разработки. Требования к одному из возможных претендентов на роль стандарта такого языка в настоящее время обсуждаются в W3C, и он получил название Rule Interchange Format (RIF). [49]

Приведенные факты, убедительно подтверждают наличие тенденции конвергенции технологий управления информационными ресурсами.

Хотя проблема интеграции данных в различных ее постановках привлекает внимание специалистов по управлению данными уже около трех десятилетий, до недавнего времени связанные с нею разработки все еще не выходили из стен исследовательских лабораторий. Однако в последние годы создание систем интеграции данных стало весьма актуальным направлением практических разработок информационных систем различного назначения, в том числе и электронных библиотек.

Под интеграцией данных в информационных системах понимается обеспечение единого унифицированного интерфейса для доступа пользователей к совокупности автономных источников данных, которые, как правило, обладают неоднородностью относительно некоторых их свойств.

Проблема интеграции данных характеризуется большим разнообразием постановок задач, подходов и методов, используемых для их решения. Обсуждению различных аспектов технологий интеграции данных посвящены многочисленные публикации в периодике, в трудах многих авторитетных научно-технических конференций.

В исследования систем интеграции данных чаще всего рассматриваются случаи интеграции структурированных данных либо комбинации структурированных и слабоструктурированных данных. При этом принимаются во внимание логическая (различие моделей данных источников, различие схем и т.п.) и/или семантическая неоднородность источников данных (различие онтологий). Состав источников интегрируемых данных может быть статическим и динамическим. Содержимое источников может быть неизменным или изменяемым.

Рассматриваются разнообразные способы интеграции - материализованная и виртуальная, а также разные уровни интеграции - логическая и семантическая интеграция.

При использовании материализованной интеграции данных создается новый материализованный источник интегрированных данных, который используется автономно от породивших его источников. При необходимости его состояние приходится синхронизироваться с их актуальным состоянием.

В случае виртуальной интеграции, напротив, не предусматривается создание нового материализованного источника интегрированных данных, Система интеграции поддерживает виртуальный источник, который в любой момент времени «содержит» актуальные данные интегрируемых источников, и синхронизации его состояния не требуется. Права владельцев исходных интегрируемых источников сохраняются. Они продолжают автономно поддерживать их в своих интересах, предоставляя вместе с тем права доступа к их ресурсам пользователям системы интеграции данных в соответствии с установленным регламентом. Авторизованные пользователи системы интеграции получают непосредственный доступ только к виртуальному источнику, воплощаемому данной системой.

Используются различные подходы к построению архитектуры данных систем виртуальной интеграции. Наиболее популярной является архитектура посредника-адаптеров. Посредник - это функциональный компонент системы интеграции данных, который обеспечивает поддержку глобальной схемы для интегрированного виртуального источника и организует обработку пользовательских запросов, выраженных в терминах глобальной схемы, декомпозируя их на подзапросы, адресуемые соответствующих источникам, осуществляя композицию получаемых частичных результатов и выдачу полного результата пользователю. Адаптеры источников обеспечивают их «гомогенизацию», представляют информационные ресурсы источников однородным образом в терминах глобальной модели данных, принимают на обработку подзапросы от посредника, активизируют их обработку источником и возвращают полученные результаты посреднику.

На практике чаще всего используются две разновидности архитектуры данных систем виртуальной интеграции с посредником - Global as View и Local as View. Они различаются способами определения отображений между схемами данных источников и глобальной схемой.

Первая из них (Global as View) предусматривает определение глобальной схемы в терминах схем локальных источников. Такой подход более эффективен в случае, когда множество всех используемых источников предопределено. При использовании второй разновидности рассматриваемой архитектуры (Local as View) предполагается, что схема для каждого из локальных источников данных определяется в терминах глобальной схемы. Хотя в этом случае усложняется отображение пользовательских запросов в среду локальных источников данных, такой подход имеет важное достоинство - он допускает динамичность состава множества интегрируемых источников данных. Новые источники данных могут подключаться к системе как на стадии разработки, так и на стадии функционирования.

Обратимся теперь к уровням интеграции данных. В системах логической интеграции данных преодолевается неоднородность интегрируемых источников информационных ресурсов относительно поддерживаемых ими моделей данных и/или схем данных. Эта неоднородность преодолевается динамически - на стадии исполнения. В то же время, семантическая неоднородность данных, принадлежащих разным источникам, преодолевается на стадии разработки. В системах семантической интеграции данных семантическая неоднородность данных из разных интегрируемых источников преодолевается на стадии исполнения.

В проблематике семантической интеграции данных важное место занимают разработки, связанные с использованием онтологических спецификаций предметной области. При этом в системе интеграции поддерживаются общая онтология системы и частные онтологии отдельных интегрируемых источников, обеспечиваются отображения между частными онтологиями и общей онтологией. Исследования и разработки по семантической интеграции данных в последние годы весьма активно проводятся в области молекулярной биологии. Оригинальный подход к семантической интеграции информации с использованием развитой семантической модели данных в качестве канонической модели данных посредника, а также разработанного авторами метода построения предметных посредников, реализуется в проекте Института проблем информатики РАН.

Интеграция неструктурированных данных также стала попадать в последние годы в сферу проблематики систем интеграции данных.

Своеобразный класс систем интеграции представляют системы, основанные на технологии Инициативы открытых архивов (Open Archives Initiative, OAI). В большинстве известных систем этой категории их информационные ресурсы представляют собой коллекции текстовых документов, чаще всего научных публикаций, которые автономно формируются в узлах глобальной сети, поддерживаются и администрируются их владельцами. Важно заметить, однако, что информационные ресурсы открытого архива не обязательно должны быть текстовыми документами. Это могут быть также структурированные или слабоструктурированные данные, а также смесь структурированных, слабоструктурированных и/или неструктурированных данных.

В соответствии с технологией OAI, предусматривается материализованная интеграция в едином репозитории не самих информационных ресурсов, интересующих пользователей системы интеграции, а представленных некоторым стандартным образом метаданных, описывающих коллекции информационных ресурсов источников данного архива и отдельные элементы этих коллекций. Сбор таких метаданных для репозитория осуществляется в соответствии со специально разработанным протоколом Open Archives Initiative Protocol for Metadata Harvesting. Централизованно поддерживаемый репозиторий метаданных доступен сервису открытого архива, который обрабатывает запросы его пользователей.

Примерами электронных библиотек, основанных на принципах и технологии OAI, являются уже упоминавшиеся выше международная электронная библиотека по общественным наукам RePec и отечественная электронная библиотека по общественным наукам Соционет.

Одним из важных аспектов систем интеграции данных является архитектура таких систем. В многочисленных известных проектах систем интеграции данных можно обнаружить не только различные подходы к архитектуре данных, но и некоторое разнообразие других аспектов их архитектуры - архитектуры взаимодействия функциональных компонентов системы интеграции, их сетевой архитектуры и др. Так, на практике часто используется не только архитектурный подход «клиент-сервер», но и децентрализованная архитектура P2P. В этом случае обычно не поддерживается глобальная схема интегрированных информационных ресурсов, и используются попарные отображения представлений данных узлов (peer), обменивающихся данными. Кроме того, часто используются архитектура промежуточного слоя, а также Web-сервисная архитектура.

В связи с востребованностью и активным развитием грид-технологий, особое внимание уделяется в настоящее время технологиям интеграции данных на основе гридов данных. Практическая реализация возможных в этой области подходов существенным образом связана с созданием комплекса стандартов, необходимых для разработки основанных на них систем интеграции данных. Важную роль в этом направлении играет деятельность консорциума Global Grid Forum (GGF) - признанного органа стандартизации грид-технологий. Недавно Рабочая группа консорциума Database Access and Integration Services Working Group опубликовала спецификации WS-DAI (Web Service Data Access and Integration), определяющие интерфейсы Web-сервисов, обеспечивающих доступ к источникам данных, независимо от модели данных, в терминах которой представляются их информационные ресурсы. Кроме того, разработаны расширения этих спецификаций для реляционных и XML-ориентированных систем баз данных (WS-DAIR и WS-DAIX). Тем самым созданы основы стандартизации доступа к информационным ресурсам указанного вида в среде, основанной на грид-технологиях, которая, как известно, базируется на Web-сервисной архитектуре. Обзор указанного семейства спецификаций можно найти в работе. Полные их тексты доступны на Web-сайте консорциума GGF (http://www.ggf.org).

В последнее время проблеме интеграции информационных ресурсов уделяется большое внимание поставщиками индустриальных технологий. Наиболее развитые средства для решения этой проблемы основаны на архитектуре промежуточного слоя. К этой категории относится, например, IBM WebSphere Information Integrator - технология компании IBM для интеграции неоднородных структурированных, слабоструктурированных и неструктурированных данных. Продукты семейства Data Hub компании Oracle обеспечивают интеграцию структурированных данных из множества неоднородных источников с использованием большого набора конверторов данных, ориентированных на преобразование многочисленных форматов представления данных.

Важнейшей тенденцией развития технологий управления информацией в последние годы стала конструктивно осуществляемая на уровне индустриальных технологий попытка обеспечения доступа пользователей к информационным ресурсам на уровне семантики. Исследовательские работы в этой области проводятся с разной степенью интенсивности уже более трех десятилетий. В технологиях баз данных в 70-80-х гг. создавались семантические модели данных, велись работы на стыке технологий баз данных и баз знаний. Были созданы различные прототипы. Однако результаты этих исследований не привели к созданию индустриальных технологий. Эта проблема вновь была поставлена на повестку дня участниками упоминавшейся ранее Лоуэллской дискуссии о перспективах развития технологий баз данных. Цели дискуссии состояли в том, чтобы оценить вызовы времени и сформулировать перспективные, с точки зрения экспертов-участников, направления развития технологий баз данных. В отчете о дискуссии в качестве одного из таких направлений признается использование подходов текстовых систем и семантического Web, позволяющих формулировать запросы на основе онтологий в терминах предметной области.

В области технологий текстового поиска еще во второй половине 60-х годов под руководством основателя современных технологий текстового поиска Дж. Сэлтона проводились исследования и разработки методов поиска текстовых документов на основе их содержания, была предложена векторная модель поиска. Сегодня эти подходы широко используются во многих создаваемых системах текстового поиска в качестве основы поисковых механизмов. В последние годы в области систем текстового разработаны подходы, использующие в процессе поиска документов формальные или полуформальные онтологии предметной области.

Что касается Web-технологий, то именно с указанной целью создателем Всемирной паутины Т. Бернерсом-Ли во второй половине 90-х годов была провозглашена задача создания семантического Web - Web нового поколения, который, в отличие от действующей версии Web, ориентирован на взаимодействие не только с человеком, но и способен обеспечить совместную работу с его ресурсами человека и компьютерных агентов. Технологии семантического Web успешно разрабатываются консорциумом W3C.

Для решения указанной проблемы необходимо стандартизовать средства явного описания семантики информационных ресурсов и средства пользовательского интерфейса семантического уровня. В настоящее время консорциум W3C располагает стандартом RDF описания контента информационных ресурсов. Завершается разработка языка запросов в терминах RDF-спецификации ресурсов (язык SPARQL). Кроме того, разработаны полуформальные и формальные языковые средства описания онтологий - стандарты RDFS и OWL. Наконец, создается язык правил для работы на уровне онтологий, который позволит реализовать методы логического вывода в среде, поддерживающей указанные стандарты семантического Web.

Нужно, наконец, отметить, что в системах текстового поиска, а также в рамках Web-технологий, широкое применение для описания контента информационных ресурсов в настоящее время находит неформальное средство - набор элементов метаданных Дублинского ядра [20], который имеет статус

официальных стандартов ISO (стандарт ISO: 15836-2003) и ANSI (стандарт ANSI/NISO Z39.85-2001). Дублинское ядро весьма привлекательно благодаря его простоте. Однако оборотной стороной этих его достоинств является некоторая размытость описания, связанная с неоднозначностью трактовки смысла отдельных входящих в него элементов метаданных, а также отсутствие стандартизации представления значений некоторых из них.

Одна из проблем, возникающих в информационных системах при выдаче пользователю информации в ответ на введенный им запрос, заключается в том, чтобы предоставлять пользователю информацию именно в том объеме, в котором он ее запрашивал. Иначе говоря, гранулярность доступа должна соответствовать информационной потребности пользователя.

Выполнение этого требования всегда обеспечивается в системах баз данных. Так, в реляционной системе базы данных результатом обработки запроса всегда является таблица (или представление), включающая только столбцы, которые указаны в целевом списке запроса. Если в запросе предусмотрена операция селекции, то результирующая таблица будет включать только строки, соответствующие заданному критерию селекции.

Указанное требование не всегда выполняется в системах текстового поиска и при доступе к информационным ресурсам в Web. В традиционных системах текстового поиска в результате обработки пользовательского запроса всегда выдается результирующее множество полных документов, даже если пользователя интересуют лишь какие-либо фрагменты этих документов. Подобным образом, в действующей версии Web пользователь может, используя навигационный доступ, всегда извлечь только полную Web-страницу или получить с помощью поисковой машины Web список гиперссылок на полные Web-страницы.

Создаваемые в настоящее время новые технологии управления информационными ресурсами позволяют обеспечить более мелкую гранулярность доступа. С этой целью для систем текстового поиска разрабатываются технологии «вопрос-ответ». Используя их, можно получать в ответ на запрос не полные документы, а их фрагменты, содержащие ответы на сформулированные в запросах пользователей вопросы. В тематике международной конференции Text Retrieval Conference (TREC) [44], которая является движущей силой деятельности по сопоставимой сравнительной оценке эффективности разрабатываемых систем текстового поиска путем проведения сопоставимых испытаний на тестовых коллекциях, предусматривается специальная дорожка, посвященная указанной проблеме.

Что же касается уменьшения гранулярности доступа в Web, то эта проблема решается средствами XML-технологий. В частности, при использовании в качества языка запросов XQuery или XPath в ответ на запрос можно получать не только специфицированные в нем полные XML-документы, но и их фрагменты. Интерфейсы, поддерживающие указанные языки, в настоящее время уже используются в целом ряде XML-ориентированных СУБД. В дальнейшем они будут использоваться и собственно в среде Web, а также в различных репозиториях, поддерживающих XML-данные.

Уже отмечалось, что Web является "средой обитания" электронных библиотек. Поэтому радикальные технологические сдвиги, осуществляемые в этой среде, связанные, прежде всего, с созданием для нее новой технологической платформы, не могут не оказывать влияния на развитие информационных систем этого класса.

Ограничимся здесь кратким перечислением наиболее существенных направлений использования стандартов платформы XML в электронных библиотеках.

К числу указанных направлений относятся:

· Представление коллекций электронных информационных ресурсов в электронных библиотеках.

· Обеспечение навигационного доступа к информационным ресурсам по гиперссылкам с помощью средств, привычных для пользователей Web.

· Обеспечение интерфейсов языков запросов для доступа к информационным ресурсам, представленным в виде XML-документов, на основе элементов их содержания. В качестве языков запросов могут использоваться XQuery, XPath, XSLT, SPARQL.

· Использование представленных с помощью стандартов XML информационных ресурсов в рамках продвинутых Web-приложений, являющихся функциональными компонентами электронных библиотек.

· Использование XML как языка-посредника для обмена данными между различными компонентами распределенных электронных библиотек или различными взаимодействующими электронными библиотеками, в которых Web служит средой транспорта данных.

· Использование стандартов платформы XML для представления метаданных, описывающих свойства информационных ресурсов электронных библиотек. Для этих целей могут использоваться как средства самого языка XML (описание типов документов DTD), так и языковые средства стандартов XML Schema и RDF.

· Предоставление разработчикам электронных библиотек инструментальных средств систем баз данных нового класса (XML-ориентированных баз данных), обеспечивающих эффективную поддержку коллекций информационных ресурсов XML и развитые возможности доступа к ним.

· Использование XML-ориентированных моделей данных в качестве интегрирующих моделей для интеграции данных в электронных библиотеках.

· Предоставление средств описания онтологий (стандарты RDFS, OWL) для электронных библиотек, позволяющих оперировать информационными ресурсами на семантическом уровне.