Сравнениетезаурусов.Субъективныеиобъективныеметрикиинформации

Основныепринципыразработки,созданияииспользованиятрадиционныхинформационно-поисковыхтезаурусов.Примерытезаурусов

Началоразработки информационно-поисковыхтезаурусов дляразличныхпредметныхобластейотноситсяксередине60-хгодов.Втовремябольшинствоинформационныхсистемнеявлялисьполнотекстовыми,ахранилидостаточноограниченныйнаборинформацииодокументе:библиографическиеданные,реферат.Добавлениеспискаключевыхслов,характеризующихосновноесодержаниедокумента,существеннорасширяловозможностипоискадокументов.Сначала70-хгодовсоздаютсянациональныеимеждународныестандартыразработки информационно-поисковыхтезаурусов.

Значимость разработкиииспользования информационно-поисковыхтезаурусов значительноснизиласьспоявлениемполнотекстовыхинформационно-поисковыхсистем,атакжевозможностейпоиска по всемсловамтекстаспомощьюметодовранжированногоинформационногопоиска,посколькутакиесистемыобеспечиваютвозможностьпоискаинформациинеподготовленномупользователювлюбыхпредметныхобластях,безпредварительныхзатратнаразработкутезаурусов.

Потенциальноиспользованиетезаурусоввкачествесредствдляописанияосновногосодержаниятекстапозволяетпреодолеватьмногиепроблемыпословногопоиска,упомянутыевлекции3,атакжепроблему,связаннуюсизбыткомприписанныхтекстуслов,которыхоказываетсятакмного,чтовозникаетотдельнаязадача по определениюихзначимостидляданноготекста.

Однакомногочисленныеисследования по определениюэффективностиразличныхметодовпредставлениядокументовприинформационномпоискепоказали,чтоэффективностьпословногоиндексированиясравнимасэффективностьюпоиска,использующегоручноеиндексирование по тезаурусу.

Действительно,применениехорошоразработанноготезаурусаприручноминдексированиидолжносниматьпроблемысинонимии,близкихпонятий,многозначности.Однакоприэтоммогутвозникнутьсущественныеразличиямеждупонятиями,используемымивтезаурусе,иинформационнойпотребностьюпользователя,когдапользователютрудносформулироватьописаниенужныхемутекстовпосредствомпонятийтезаурусаили тезаурус действительнонесодержитадекватныхпонятий.Вэтихслучаяхпословноеиндексированиеимеетпреимуществоиз-забольшихвыразительныхвозможностей.

Крометого,приручноминдексированиисерьезнуюпроблемусоставляетфакторсубъективности,когдаприписываниетекстутерминовтезаурусазависитотуменияиопытаиндексаторов,отколичестватекстов,которыенеобходимопроиндексировать,ит.п.

Темнеменееивнастоящеевремясуществуютинформационныеслужбы,имеющиеиразрабатывающиеинформационно-поисковыетезаурусы,атакжеимеющиештатпрофессиональныхиндексаторов,индексирующихдокументынаосноветезаурусов.ПримерамитакихорганизацийявляютсяИсследовательскаяслужбаКонгрессаСША,индексирующая по тезаурусуLIV(LegislativeIndexing Vocabulary);Организация по продовольствиюисельскомухозяйствуприООН(FAO-Food and AgricultureOrganization),разрабатывающая тезаурус AGROVOC;службыЕвропейскогосообщества,использующиедляиндексированияЕвропейскогозаконодательства тезаурус EUROVOCидр.Происходитипроцессобновлениястандартовразработкитезаурусов.

Запрошедшиегодыбылиразработаныииспользовалисьинформационнымиитерминологическимислужбамисотнитезаурусов,каждыйизкоторыхсодержитценнуюинформациюосвоей предметнойобласти. Поэтомумногиеразработчикиавтоматическихинформационныхсистемисследоваливопросыоприменениисуществующих информационно-поисковыхтезаурусов приобработкедокументоввавтоматическомрежиме.Однакоподавляющеебольшинствоэкспериментовокончилисьнеудачей:применение информационно-поисковыхтезаурусов впроцессеавтоматическогоиндексированияувеличивалополнотупоиска,норезкоснижалоего точность.

Болеетого, международныйстандартпо разработкеодноязычныхтезаурусов(ISO 2788)четкоуказывает,чтостандартдолженприменятьсяворганизациях,имеющихлюдей-индексаторов,которыеанализируютсодержаниедокументовиописываютосновныетемыдокументовспомощьютерминовтезауруса."Применениестандартанепредполагаетегоприменениевтехорганизациях,которыеиспользуютполностьюавтоматическиеметодыиндексирования".

Возникаетвопрос:почемусуществующая парадигма разработки информационно-поисковыхтезаурусов недаетвозможностииспользоватьсозданныересурсывавтоматическихрежимахиндексированиятекста?Можнолиикакименносоздаватьтезаурусыдляавтоматическогоиндексирования?Дляэтогонеобходиморазобраться,какиеособенностисуществующейпарадигмыразработки информационно-поисковыхтезаурусов непозволяютихиспользоватьвавтоматическихрежимах.

Вдальнейшемтекстеинформационно-поисковыетезаурусы,создаваемыевсоответствииссуществующимимеждународнымиинациональнымистандартами,будемназыватьтрадиционными информационно-поисковымитезаурусами.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: