Основные виды программного инструментария онтологий

Многообразие форм и методов использования аппарата онтологий в современных информационных технологиях определяет неизбежные сложности в определении единой классификационной системы инструментальных программных средств, так или иначе связанных с этим аппаратом. Применяемые в данной области инструменты разделяются не только по непосредственному функциональному профилю и поддерживаемым этапам жизненного цикла онтологий, но и по общим концепциям своей организации, реализуемым подходам, технологиям, в рамках которых используются. В настоящем пособии не ставилась цель полного охвата всех направлений в инженерии онтологий, в связи с чем далее излагаются лишь наиболее общие аспекты классификации соответствующих программных средств.

Представляется целесообразным предварительное выделение «профилирующих» операций, выполняемых в общем случае на различных этапах разработки и эксплуатации онтологий. К таким операциям можно отнести:

1) первичную разработку (коллективную или монопольную) онтологий;

2) управление онтологиями (администрирование, поддержку наращивания, контроль семантической корректности, взаимную интеграцию и т. п.);

3) поддержку целевой обработки на стороне источника информации или поставщика сервиса, т.е. «на стороне онтологии» (непосредственное исполнение поисковых запросов или их формирование на основе полученного извне задания с последующей обработкой и пересылкой результатов заказчику, а также логические выводы по полученным извне фактам и т. п.);

4) поддержку целевого использования онтологии на стороне пользователя – человека или программы (просмотр онтологии извне, формирование запросов, экспорт дополнений, представление результатов работы и т. п.);

5) поддержку интерфейсов вида «потребитель – онтология», «онтология – система (область)» (как программных – API, так и командных или интерактивных).

Комбинации из перечисленных видов операций образуют непосредственный функциональный профиль того или иного инструментального (или системного) средства. Проекция приведенного списка на традиционные классы программных продуктов (редакторы, трансляторы, среды конечного пользователя и т. д.) в данном случае затруднительна, так как тяжело систематизируются возможные сценарии целевого использования онтологий. В связи с этим далее в качестве базовых признаков классификации будут приниматься именно операционные характеристики программных средств в смысле их взаимодействия с онтологическими моделями.

Наиболее интегральной характеристикой любого инструмента для работы с онтологиями является выразительное средство, на базе которого формируется внутреннее представление онтологии (сама модель) и образуются интерфейсы с внешним программным окружением и с информационным наполнением (контентом) систем (ресурсов, моделей), непосредственно описываемых онтологией (как правило, на базе того же выразительного средства строятся и процедуры, протоколы, форматы, обеспечивающие «транспортировку» служебных и информативных данных в целевой информационной среде). Именно поэтому в номенклатуре инструментальных средств инженерии онтологий достаточно четко прослеживается разделение по поддерживаемым ими базовым лингвистическим средствам (языкам онтологий), которые используются при описании самой онтологической модели (на фазе построения) и при обмене онтологическими знаниями между участниками целевого информационного процесса (на фазе эксплуатации).

Специфика распределенной обработки информации в среде Internet изначально определила наиболее эффективную «природу» языков онтологий. Наиболее часто применяемые в рассматриваемой области лингвистические платформы являются языками гипертекстовой разметки Web-документов. В настоящее время тройку лидеров образуют XML-производные языки RDF, DAML и OWL и их диалекты. К числу широко распространенных средств поддержки аппарата онтологий, относительно независимых или слабо связанных с указанными языками, можно отнести:

- средства разработки онтологий Ontolingua, Protege, WebODE, OntoEdit, OntoBuilder, Unicorn System и др.;

- средства управления онтологиями SNOBASE, Chimaera, ONION, OntoMerge, OBSERVER, PROMPT и др.;

- языки XOL, SHOE, UPML, LOOM, OCML, FLogic и др.;

- утилиты (различного назначения) OntoMorph, FCA-Merge, SQIRE, Dumpont и др., а также системы поддержки ограниченных функций (логического вывода, просмотра, аннотирования и т. п.) SHOE’s Knowledge Annotator, MnM, Metabrowser, OntoSaurus, Ontomat, OntoRama и др.

Приведенный перечень может быть значительно расширен. Однако более уместным представляется первоочередное исследование «формообразующих» компонентов онтологических технологий – базовых универсальных языков онтологий, ориентированных на Web-среды. В связи с этим два последующих раздела посвящены языкам RDF и OWL. В заключительной части пособия (в качестве альтернативного примера комплексных «онтологических инструментов») рассматривается система Protege-2000.

3. ЯЗЫК RDF

RDF (Resource Description Framework), предложенный (в качестве реко­мендации) в 1999 г. консорциумом W3C (World Wide Web Consortium), изна­чально создавался как язык описания Internet-ресурсов (т. е. как средство описания моделей метаданных, позволяющих дополнительно охарактеризо­вать ресурсы и взаимосвязи между ними с понятийной точки зрения). При этом система идентификации, принятая в RDF, позволяет оперировать с расширенным понятием ресурсов. Ресурсом может быть обычная Web-страница или ее часть (например, отдельный элемент HTML- или XML-разметки, являющийся частью описываемого документа), коллекция страниц (в частности, Web-сайт или портал). Кроме того, в качестве ресурса может выступать произвольная сущность, абстрактная или физически существующая, но недоступная для машинной обработки. Синтаксической основой RDF является язык XML (eXtensible Markup Language). Способность XML к синтаксическому расширению обеспечила возможность описания формальной модели RDF/XML, позволяющей однозначно выразить конструкции RDF в терминах XML. Однако считать RDF расширением или специализированной реализацией XML некорректно. Фактически смысл RDF-нотаций заключается не в прямом описании представления данных (как в обычных языках разметки гипертекстов), а в описании модели метаданных (данных о данных), которая используется для семантической интерпретации информации (т.е. для «понимания» RDF). В связи с этим тексты на XML и некоторых других языках разметки, поддерживающих трансляцию (сериализацию) RDF-моделей, могут рассматриваться лишь как синтаксические посредники, описывающие RDF-модели в целях последующей интерпретации программными средствами, «умеющими» эти модели обрабатывать. При этом, если в XML описание какой-либо сущности может быть реализовано многими способами (и, соответственно, по-разному интерпретироваться), то в RDF внешнее различие описаний не имеет решающего значения. Важна лишь эквивалентность построенных на основании исходного текста RDF-моделей, которая и определяет одинаковое «восприятие» синтаксически разнящихся описаний. Точно также знание об одном и том же предмете может быть передано человеком на различных языках, с использованием различных выразительных средств (текстов, рисунков, таблиц и т. д.), но быть одинаково понято другими людьми. В таком контексте знанию соответствует RDF-модель, а различным формам описания этого знания – языки XML, HTML и проч. Сами RDF-модели с понятийной точки зрения представляют собой наборы фактов и семантических связей между ними, образующие ориентированные графы специального вида, в которых узлами являются сущности и значения свойств сущностей, а дугами – отношения. Важной (в тематике проблем представления знаний) особенностью RDF является возможность описания расширяемых, контекстно-зависимых словарей (также называемых схемами – RDF Schema или RDFS, что соответствует и названию расширения RDF, предназначенного для описания словарей – языка RDF Vocabulary Description Language). Под словарем следует понимать совокупность ресурсов (использующихся для описания свойств других ресурсов), классов ресурсов (которые могут быть описаны при помощи заданных свойств) и ограничений (налагаемых на допустимые значения или наборы значений свойств). При этом классы могут иметь подклассы, а свойства – подсвойства. Подобная организация словарей позволяет вводить содержательные формальные определения терминов, классифицировать понятия, отношения и их свойства, выражать одни сущности или отношения через другие и т. п., т. е. непосредственно описывать семантику данных. Эта особенность позволяет отнести язык RDF к категории языков описания онтологий и (в более широком смысле) языков представления знаний в целом. Кроме того, RDF обладает формальной семантикой, позволяющей задавать наборы утверждений и строить на них логические выводы, что сближает этот язык с выразительными возможностями классических представителей языков инженерии знаний.

Основными целями создания RDF явились:

- обеспечение возможности описания Web-метаданных (дополнительных данных о Web-ресурсах и использующих их программных системах) – эксплуатационных свойств, характеристик вычислительной среды и т. п.;

- создание базы для разработки Web-приложений, обладающих способностью к динамической адаптации к характеристикам используемых Web-ресурсов (например, планирование и организация распределенных вычислений, организационных процессов, аннотирование Web-ресурсов при решении задач поиска и селекции информации и т. п.);

- поддержка оперирования распределенными данными с использованием гипертекстовых средств информационного взаимодействия для разработки приложений, масштабируемых в глобальных сетях, независимых от конкретных параметров исполнительной среды в части совместимости данных и позволяющих обрабатывать данные вне среды их непосредственного создания;

- создание средств взаимодействия приложений (или компонентов мультиагентных систем) по каналам Internet/Intranet с возможностью комбинирования данных различных приложений, генерации коллективно используемых информационных массивов и т. п.;

- создание условий для кооперирования пользователей за счет единообразного восприятия данных с возможностями языковой адаптации, сопоставления и унификации понятий и терминов, интеграции моделей предметных и проблемных областей и т. п.

Среди основополагающих принципов, определяющих синтаксические и семантические характеристики RDF, следует особо отметить следующие:

- ориентацию на бинарные графовые модели данных (здесь термин «бинарный» указывает на бинарность отношений инциденции, связывающих узлы графа; иными словами, в RDF-графе 2 узла могут связываться единственной дугой, направленной от одного узла к другому);

- применение расширяемых словарей (схем), строящихся на основе унифицированных идентификаторов ресурсов (URI – Uniform Resource Identifiers), для описания терминологии произвольных проблемных областей;

- гибкую схему образования типов данных (с поддержкой динамического определения типов, наложений и эквивалентирования типов и областей значений, наследования, построения сложных таксономий и др.);

- совместимость с XML (включая уровень типизации данных, вложения описаний, общие пространства идентификаторов и др.).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: