Моделі пошуку

Найбільш розвинені технології текстового пошуку забезпечуються нині повнотекстовими системами. Як вже було показано, існують різні підходи до побудови таких систем. Ці відмінності пов'язані не лише з різноманітністю форм інформаційних потреб користувачів, але і, головним чином, з відмінністю способів представлення повнотекстових документів і призначених для користувача запитів в системі.

Поняття моделі пошуку. Ключовим поняттям, що характеризує технологію пошуку в тій або іншій конкретній системі, являється модель пошуку. Під моделлю пошуку розуміється поєднання: способу формування представлень документів; способу формування представлень пошукових запитів; виду критерію релевантности документів.

Різноманітність функціональних можливостей різних систем текстового пошуку пов'язана саме з відмінністю реалізованих в них моделей пошуку.

Прості моделі пошуку. У багатьох системах використовуються прості моделі пошуку. До їх числа відносяться, наприклад, розглянуті вище моделі пошуку дескрипторних ІПС і систем, що використовують Дублінське ядро.

Іншим прикладом простих моделей пошуку є моделі, засновані на класифікаторах. У моделі, заснованій на класифікаторові, документи представляються ідентифікаторами класів в ієрархічній структурі класифікатора, до яких відноситься цей документ. Представлення запиту в простому випадку також є ідентифікатором користувача класу заданого класифікатора, що цікавить. Критерієм релевантности документу є умова, що клас документу співпадає з яким-небудь класом в уявленні запиту або є його підкласом.

У складнішому випадку в моделях пошуку, заснованих на класифікаторові, допускається вказівка в запиті декількох класів класифікатора. При цьому релевантними вважаються документи, що належать якому-небудь з вказаних в запиті класів або його підкласу. Така модель пошуку близька до булевої моделі, що розглядається далі.

Моделі контекстного пошуку. Дещо складніший характер мають моделі контекстного пошуку. Застосування цих моделей стало можливим, коли досить высокойпроизводительности досягли процесори обчислювальних машин і виріс об'єм їх зовнішньої пам'яті прямого доступу. У моделях контекстного пошуку використовується представлення документу як сукупності всіляких слів, що зустрічаються в його тексті, і словосполучень, не рахуючи так званих стоп-слів. Стоп-слова — це службові слова (приводи, союзи і тому подібне), які зустрічаються практично у будь-якому документі. Пошук документів, що містять такі слова, привів би до видачі повної колекції документів у відповідь на запит. Тому такі слова не можуть використовуватися в якості індексуючих властивостей документів.

У системах даного класу будується індекс за усіма словами, що зустрічаються в документах, і словосполученнями, окрім стоп-слів. При цьому для побудови індексу слова, виділені з тексту документу, наводяться спочатку до «канонічного виду» за допомогою підтримуваних в системі словників і засобів граматичного розбору. Призначений для користувача запит також піддається граматичному розбору, в процесі якого із запиту також виділяються слова, що зустрічаються в його тексті, і словосполучення. Документ вважається релевантним, якщо які-небудь слова або словосполучення із запиту трапляються з точністю до граматичних форм в тексті документу.

Іноді використовується жорсткіший критерій релевантности — входження в текст документу усіх названих в запиті слів і словосполучень і так далі

Булеві моделі пошуку. У системах текстового пошуку широко використовуються булеві моделі пошуку. Користувач може формулювати запит у вигляді булевого вираження з використанням операторів І, АБО, НЕМАЄ. Терми булевого вираження можуть бути різними в різних варіаціях булевих моделей пошуку. Це може бути, наприклад, умова входження цього слова або словосполучення (з точністю до граматичних форм) в текст документу у булевому розширенні контекстної моделі пошуку. У булевому розширенні моделі пошуку по класифікаторах термами вираження можуть бути умови приналежності документу цьому класу класифікатора. У булевій моделі пошуку з використанням Дублінського ядра термом може бути рівність, що описує той факт, що деякий елемент метаданих для даного документу має задане в запиті значення.

Критерієм релевантности цього документу запиту у булевих моделях пошуку являється істинність булевого вираження, заданого в запиті.

Векторні моделі пошуку. Найбільш широке застосування в розвинених системах текстового пошуку мають векторні моделі пошуку. Використання таких моделей вимагає значно большихвычислительных ресурсів в порівнянні з іншими моделями, проте вони забезпечують істотно вищу якість пошуку.

У векторних моделях передбачається, що документи і запити представляються векторами. У простому випадку координати вектору відповідають термам тексту — словам або словосполученням, що належать словнику системи, який представляє загальномовну лексику або лексику предметної області. Кожному терму з такого словника зіставляється свій вимір у векторному просторі. Розмірність векторів, що представляють документи і призначені для користувача запити, в точності дорівнює кількості вимірів в цьому просторі.

Координаті вектору привласнюється одиничне значення у тому випадку, коли терм, що відповідає їй, зустрічається в цьому документі або, відповідно, в призначеному для користувача запиті. Інакше координаті вектору привласнюється нульове значення. Оскільки розмір словника може бути дуже великим, а документи або тексти запитів містять істотно меншу кількість термів, що містяться в нім, такі вектори виявляються дуже розрідженими. Тому треба використовувати яку-небудь техніку стислого їх представлення.

Для оцінки міри релевантности документу запиту (заходи їх близькості) у векторних моделях пошуку використовуються які-небудь векторні функції, аргументами яких виступають вектори, що представляють їх. Наприклад, можна використовувати як таку міру косинус кута між вектором документу і вектором запиту. Важливо помітити, що, оскільки ненульові координати цих векторів відповідають тільки термам, що входять в текст документу і текст запиту, на значення функції — заходи в обох цих випадках — роблять вплив тільки терми, загальні для документу і запиту.

Для підвищення керованості векторних моделей пошуку часто ускладнюють ці моделі. Вводяться ваги термів, що характеризують їх значущість. Значення цих вагів використовуються в якості координат вектору документу, якщо його текст включає відповідні терми. Таким чином, входження різних термів в текст документу роблять різний вплив на значення функції близькості документу і запиту. Існують різні підходи до вибору вказаних вагів. Найчастіше для цієї мети використовують твір частоти входження терма в цей документ і частоти його входження в усі документи колекції в цілому. Зважуватися можуть також і терми запиту.

Відмінності між конкретними векторними моделями пошуку зводяться саме до різних способів призначення вагів термів і вибору заходів близькості. Векторні моделі дозволяють ранжирувати результуючу безліч документів запиту.