Эффективность ИП зависит от знания особенностей представления материалов в информационном массиве, от правильного и полного понимания предметной области и правильного его представления.
Нормализация (сведение воедино) всех вариантов одного и того же слова.
Разрешение омонимии;
Контроль синонимии;
При индексировании документов и запросов ключевыми словами, т.е. терминами, взятыми непосредственно из индексируемых текстов, возникла потребность в лексическом контроле (ЛК) за словарным составом ИПЯ.
Развитие автоматизированных ИПС в основном оказалось связано с ИПЯ дескрипторного типа.
Открытость (возможность пополнения и корректировки лексических средств языка).
Однозначность (каждая запись на ИПЯ имеет один смысл, и каждое понятие получает единообразное представление средствами ИПЯ);
Достаточная семантическая сила (способность полно и точно описывать основную тему (темы) документов и запросов);
ИПЯ дескрипторного типа, в основе которых лежит перечень лексических единиц в виде слов или словосочетаний;
|
|
ИПЯ классификационного типа, в основе которых лежит систематическая классификация понятий (например, УДК, ББК);
Между документальными и фактографическими системами нет непреодолимой разницы.
Информационный поиск
Разновидностью документального поиска с элементами фактографии можно считать библиографический поиск, осуществляемый по элементам библиографического описания документов (год, место издания, вид издания, автор и т.п.). Документы, хранимые в документальных ИПС, и представляют собой, как правило, библиографические описания с рефератами. Запрос к таким массивам может носить вполне фактографический характер.
Например: выдать сведения о книгах (признак «вид издания» = монографический) такого-то автора (признак «автор» равняется фамилии автора) за последние 5 лет (признак «год издания»).
Информационный поиск
Поскольку в основе информационного поиска лежит сопоставление информации, содержащейся в документах и запросах, возникает проблема представления содержания документов и запросов в поисковой системе.
Для этого создаются информационно-поисковые языки (ИПЯ) — специализированные языки, предназначенные для описания главных тем и формальных характеристик документов и запросов с целью последующего их сопоставления.
Информационный поиск
Все ИПЯ, применяемые в современных автоматизированных ИПС, условно можно разделить на три типа:
3) ИПЯ объектно-признакового типа, в основе которых лежат модели знаний об объектах в конкретных предметных областях, описанные в терминах «признак — значение».
|
|
Информационный поиск
К идеальному ИПЯ предъявляются следующие основные требования:
Информационный поиск
Основная цель ЛК — обеспечить однозначное представление понятий в документе и запросе вне зависимости от способа выражения их в текстах.
Суть ЛК, осуществляемого с помощью тезауруса, в основном сводится к следующему:
Информационный поиск
Контроль синонимии является, может быть, главной функцией ЛК в ИПС. Он заключается в том, что все близко- или однозначные единицы заменяются одним и тем же лексическим вариантом.
В число синонимов включаются:
l полные синонимы (языкознание – лингвистика);
l фонетические (графические) варианты слов (диереза – диэреза);
l аббревиатуры (ЛСВ – лексико-семантический вариант);
l слова, совпадающие по смыслу в одном из значений (компьютер — машина).
Информационный поиск
Основу большинства современных информационных массивов составляет словарь, объединяющий соответствующие понятия и термины.
Тезаурусное описание
Тезаурус – понятийно-терминологический справочник, в котором отражены различного рода связи между элементами (терминами и понятиями).
! + Тезаурус – словарь-«сокровищница» (Даль, Словарь латинского языка…)