ПосколькуосновнымиэлементамиИПТявляютсятермины,описанныекакдескрипторыиаскрипторы,можетпоказаться,чтодостаточнопростоосуществитьавтоматическоеиндексирование по ИПТпутемпростогосопоставлениядескрипторовиаскрипторовсдокументами.
Однакодлябольшинствадокументовтакоеавтоматическоесопоставлениенесможетотразитьосновноесодержаниедокумента:
· важныетерминыдокументамогутбытьненайденывтезаурусе,посколькувыраженывнемнесколькоиначе;
· менеезначимыетерминынайдутпрямоеотражениевтезаурусеивыйдутнапервыйпланит.п.
Поэтомуисследуютсяболеесложныеметодыавтоматизациииндексирования по ИПТ.
Однимизподходовдляавтоматизациииндексирования по традиционнымИПТявляетсяподход,основанныйнаправилах.Такойподходкавтоматическомуиндексированиюбылреализован по тезаурусуEUROVOC.
Правиламогутбытьпростымиисложными.Простыеправиланесодержатусловий.Сложныеправиласодержаттакиеусловия,какБлизость(нарасстояниитрехслов по тексту,водномпредложении,втомжесамом поле,например,в поле реферата),Местонахождение(взаголовке,втекстерефератаилидокумента,вначалепредложения,вконцепредложения),Формат(сбольшойбуквы,всебольшимибуквами).Всегобылосозданооколо40тысячправил.
Вкачестведругихподходовавтоматизациииндексированияиспользуются статистическиеметоды.
ПритакихподходахпроцессавтоматическогоприписываниядескрипторовтезаурусаEUROVOCполнотекстовымдокументамвключаетдвестадии.
1. Напервойстадии(этапобучения)наосноведокументов,вручнуюпроиндексированныхиндексаторами,устанавливаетсясоответствиемеждусловами,встретившимисявтекстедокумента,иприписаннымидескрипторамитезауруса.Соответствиеустанавливаетсянаосновестатистическихмер(chi-squareилиlog-likelihood).Вессоответствияотдельногословаключевомусловутемвыше,чемвышесовместнаячастотностьиспользованияданногословаиданногоключевогословаотносительночастотностивовсейколлекции.
Например,дескрипторутезаурусаFISHERYMANAGEMENTсоответствуютследующиеслова(впорядкеубываниявеса):fishery,fish,stock,fishing,conservation,management,vesselит.д.
2. Навторойстадии(собственноиндексирование)длякаждогословадокументапроверяется,какимдескрипторамтезаурусаоносоответствует.Еслитакиедескрипторыимеются,тословодобавляетквесудескрипторадляданноготекстанатуральныйлогарифмвеса,полученногонапервомэтапе.Послеобработкивсехсловтекущеготекстаполучаетсясуммированныйвесдескрипторовтезауруса.
Например,дляРезолюциипоправамязыковыхикультурныхменьшинстввЕвропейскомсоюзебылиполученыследующиедескрипторы(впорядкеубываниявеса):Communityprogramme,Youngperson,Culturalpolicy,CEEC,EuropeanUnionит.д.
ИндексаторыЕвропейскогоПарламентаприсваиваютдокументуобычноот3до10дескрипторов.
Выдачусистемыможноограничить по количествувыдаваемыхдескрипторовили по весу.Длятекстапримераприсвоенныеиндексаторамидескрипторынаходилисьвпервойтридцаткедескрипторов,присвоенныхавтоматически(напозициях3,8,9,16и30).
Приэтомбольшинствоавтоматическиприсвоенныхдескриптороввыглядятвесьмарелевантнымитекстудокументаитолько3из40присвоенныхавтоматическиявнонеправильны(например,Кипр).
Сочетаниесвободныхзапросовизапросовнаосновеинформационно-поисковыхтезаурусов
Внастоящеевремявмиресуществуетдостаточномногоинформационныхсистем,предоставляющихпользователямвозможностипоискаинформациикак по свободномузапросунаестественномязыке,такиспомощьюдескрипторов информационно-поисковыхтезаурусов,сопоставленныхдокументампрофессиональнымииндексаторами.
Первымшагомнаэтомпутиможетбытьнахождениекорреляциймеждусловамидокументовидескрипторамитезаурусаилирубрикамирубрикатора.
Эксперименты по автоматическомурасширениюсвободногозапросапользователядескрипторамитезаурусапроводилисьнадвуязычнойколлекциинемецкихианглийскихдокументов по общественнымнаукам.Базавключаетвсебяболее150тысячнемецкихдокументови26тысячанглийских.Документыреферативногохарактерасодержатзаголовокпубликации,рефератидескрипторыТезауруса по общественнымнаукам,приписанныхиндексаторами.Экспериментывыполнялисьврамкахпредметно-ориентированногозаданияфорума по многоязыковыминформационнымсистемамCLEF(Cross LanguageEvaluationForum).
Определениебизнес-процессов(БП).Основныеивспомогательныепроцессы.