Основныепринципыразработки,созданияииспользованиятрадиционныхинформационно-поисковыхтезаурусов.Примерытезаурусов
Началоразработки информационно-поисковыхтезаурусов дляразличныхпредметныхобластейотноситсяксередине60-хгодов.Втовремябольшинствоинформационныхсистемнеявлялисьполнотекстовыми,ахранилидостаточноограниченныйнаборинформацииодокументе:библиографическиеданные,реферат.Добавлениеспискаключевыхслов,характеризующихосновноесодержаниедокумента,существеннорасширяловозможностипоискадокументов.Сначала70-хгодовсоздаютсянациональныеимеждународныестандартыразработки информационно-поисковыхтезаурусов.
Значимость разработкиииспользования информационно-поисковыхтезаурусов значительноснизиласьспоявлениемполнотекстовыхинформационно-поисковыхсистем,атакжевозможностейпоиска по всемсловамтекстаспомощьюметодовранжированногоинформационногопоиска,посколькутакиесистемыобеспечиваютвозможностьпоискаинформациинеподготовленномупользователювлюбыхпредметныхобластях,безпредварительныхзатратнаразработкутезаурусов.
|
|
Потенциальноиспользованиетезаурусоввкачествесредствдляописанияосновногосодержаниятекстапозволяетпреодолеватьмногиепроблемыпословногопоиска,упомянутыевлекции3,атакжепроблему,связаннуюсизбыткомприписанныхтекстуслов,которыхоказываетсятакмного,чтовозникаетотдельнаязадача по определениюихзначимостидляданноготекста.
Однакомногочисленныеисследования по определениюэффективностиразличныхметодовпредставлениядокументовприинформационномпоискепоказали,чтоэффективностьпословногоиндексированиясравнимасэффективностьюпоиска,использующегоручноеиндексирование по тезаурусу.
Действительно,применениехорошоразработанноготезаурусаприручноминдексированиидолжносниматьпроблемысинонимии,близкихпонятий,многозначности.Однакоприэтоммогутвозникнутьсущественныеразличиямеждупонятиями,используемымивтезаурусе,иинформационнойпотребностьюпользователя,когдапользователютрудносформулироватьописаниенужныхемутекстовпосредствомпонятийтезаурусаили тезаурус действительнонесодержитадекватныхпонятий.Вэтихслучаяхпословноеиндексированиеимеетпреимуществоиз-забольшихвыразительныхвозможностей.
Крометого,приручноминдексированиисерьезнуюпроблемусоставляетфакторсубъективности,когдаприписываниетекстутерминовтезаурусазависитотуменияиопытаиндексаторов,отколичестватекстов,которыенеобходимопроиндексировать,ит.п.
Темнеменееивнастоящеевремясуществуютинформационныеслужбы,имеющиеиразрабатывающиеинформационно-поисковыетезаурусы,атакжеимеющиештатпрофессиональныхиндексаторов,индексирующихдокументынаосноветезаурусов.ПримерамитакихорганизацийявляютсяИсследовательскаяслужбаКонгрессаСША,индексирующая по тезаурусуLIV(LegislativeIndexing Vocabulary);Организация по продовольствиюисельскомухозяйствуприООН(FAO-Food and AgricultureOrganization),разрабатывающая тезаурус AGROVOC;службыЕвропейскогосообщества,использующиедляиндексированияЕвропейскогозаконодательства тезаурус EUROVOCидр.Происходитипроцессобновлениястандартовразработкитезаурусов.
|
|
Запрошедшиегодыбылиразработаныииспользовалисьинформационнымиитерминологическимислужбамисотнитезаурусов,каждыйизкоторыхсодержитценнуюинформациюосвоей предметнойобласти. Поэтомумногиеразработчикиавтоматическихинформационныхсистемисследоваливопросыоприменениисуществующих информационно-поисковыхтезаурусов приобработкедокументоввавтоматическомрежиме.Однакоподавляющеебольшинствоэкспериментовокончилисьнеудачей:применение информационно-поисковыхтезаурусов впроцессеавтоматическогоиндексированияувеличивалополнотупоиска,норезкоснижалоего точность.
Болеетого, международныйстандартпо разработкеодноязычныхтезаурусов(ISO 2788)четкоуказывает,чтостандартдолженприменятьсяворганизациях,имеющихлюдей-индексаторов,которыеанализируютсодержаниедокументовиописываютосновныетемыдокументовспомощьютерминовтезауруса."Применениестандартанепредполагаетегоприменениевтехорганизациях,которыеиспользуютполностьюавтоматическиеметодыиндексирования".
Возникаетвопрос:почемусуществующая парадигма разработки информационно-поисковыхтезаурусов недаетвозможностииспользоватьсозданныересурсывавтоматическихрежимахиндексированиятекста?Можнолиикакименносоздаватьтезаурусыдляавтоматическогоиндексирования?Дляэтогонеобходиморазобраться,какиеособенностисуществующейпарадигмыразработки информационно-поисковыхтезаурусов непозволяютихиспользоватьвавтоматическихрежимах.
Вдальнейшемтекстеинформационно-поисковыетезаурусы,создаваемыевсоответствииссуществующимимеждународнымиинациональнымистандартами,будемназыватьтрадиционными информационно-поисковымитезаурусами.