Автоматическоеиндексированиепотрадиционныминформационно-поисковымтезаурусам

ПосколькуосновнымиэлементамиИПТявляютсятермины,описанныекакдескрипторыиаскрипторы,можетпоказаться,чтодостаточнопростоосуществитьавтоматическоеиндексирование по ИПТпутемпростогосопоставлениядескрипторовиаскрипторовсдокументами.

Однакодлябольшинствадокументовтакоеавтоматическоесопоставлениенесможетотразитьосновноесодержаниедокумента:

· важныетерминыдокументамогутбытьненайденывтезаурусе,посколькувыраженывнемнесколькоиначе;

· менеезначимыетерминынайдутпрямоеотражениевтезаурусеивыйдутнапервыйпланит.п.

Поэтомуисследуютсяболеесложныеметодыавтоматизациииндексирования по ИПТ.

Однимизподходовдляавтоматизациииндексирования по традиционнымИПТявляетсяподход,основанныйнаправилах.Такойподходкавтоматическомуиндексированиюбылреализован по тезаурусуEUROVOC.

Правиламогутбытьпростымиисложными.Простыеправиланесодержатусловий.Сложныеправиласодержаттакиеусловия,какБлизость(нарасстояниитрехслов по тексту,водномпредложении,втомжесамом поле,например,в поле реферата),Местонахождение(взаголовке,втекстерефератаилидокумента,вначалепредложения,вконцепредложения),Формат(сбольшойбуквы,всебольшимибуквами).Всегобылосозданооколо40тысячправил.

Вкачестведругихподходовавтоматизациииндексированияиспользуются статистическиеметоды.

ПритакихподходахпроцессавтоматическогоприписываниядескрипторовтезаурусаEUROVOCполнотекстовымдокументамвключаетдвестадии.

1. Напервойстадии(этапобучения)наосноведокументов,вручнуюпроиндексированныхиндексаторами,устанавливаетсясоответствиемеждусловами,встретившимисявтекстедокумента,иприписаннымидескрипторамитезауруса.Соответствиеустанавливаетсянаосновестатистическихмер(chi-squareилиlog-likelihood).Вессоответствияотдельногословаключевомусловутемвыше,чемвышесовместнаячастотностьиспользованияданногословаиданногоключевогословаотносительночастотностивовсейколлекции.

Например,дескрипторутезаурусаFISHERYMANAGEMENTсоответствуютследующиеслова(впорядкеубываниявеса):fishery,fish,stock,fishing,conservation,management,vesselит.д.

2. Навторойстадии(собственноиндексирование)длякаждогословадокументапроверяется,какимдескрипторамтезаурусаоносоответствует.Еслитакиедескрипторыимеются,тословодобавляетквесудескрипторадляданноготекстанатуральныйлогарифмвеса,полученногонапервомэтапе.Послеобработкивсехсловтекущеготекстаполучаетсясуммированныйвесдескрипторовтезауруса.

Например,дляРезолюциипоправамязыковыхикультурныхменьшинстввЕвропейскомсоюзебылиполученыследующиедескрипторы(впорядкеубываниявеса):Communityprogramme,Youngperson,Culturalpolicy,CEEC,EuropeanUnionит.д.

ИндексаторыЕвропейскогоПарламентаприсваиваютдокументуобычноот3до10дескрипторов.

Выдачусистемыможноограничить по количествувыдаваемыхдескрипторовили по весу.Длятекстапримераприсвоенныеиндексаторамидескрипторынаходилисьвпервойтридцаткедескрипторов,присвоенныхавтоматически(напозициях3,8,9,16и30).

Приэтомбольшинствоавтоматическиприсвоенныхдескриптороввыглядятвесьмарелевантнымитекстудокументаитолько3из40присвоенныхавтоматическиявнонеправильны(например,Кипр).

Сочетаниесвободныхзапросовизапросовнаосновеинформационно-поисковыхтезаурусов

Внастоящеевремявмиресуществуетдостаточномногоинформационныхсистем,предоставляющихпользователямвозможностипоискаинформациикак по свободномузапросунаестественномязыке,такиспомощьюдескрипторов информационно-поисковыхтезаурусов,сопоставленныхдокументампрофессиональнымииндексаторами.

Первымшагомнаэтомпутиможетбытьнахождениекорреляциймеждусловамидокументовидескрипторамитезаурусаилирубрикамирубрикатора.

Эксперименты по автоматическомурасширениюсвободногозапросапользователядескрипторамитезаурусапроводилисьнадвуязычнойколлекциинемецкихианглийскихдокументов по общественнымнаукам.Базавключаетвсебяболее150тысячнемецкихдокументови26тысячанглийских.Документыреферативногохарактерасодержатзаголовокпубликации,рефератидескрипторыТезауруса по общественнымнаукам,приписанныхиндексаторами.Экспериментывыполнялисьврамкахпредметно-ориентированногозаданияфорума по многоязыковыминформационнымсистемамCLEF(Cross LanguageEvaluationForum).

 

 

Определениебизнес-процессов(БП).Основныеивспомогательныепроцессы.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: