Розширення функціональних можливостей текстових систем

Розробники систем текстового пошуку приділяють велику увагу не лише вдосконаленню механізмів виконання їх базових функцій, але і розвитку ряду додаткових можливостей, що дозволяють істотним чином збільшити ефективність пошуку, підвищити керованість системи, забезпечити комфортніші умови для роботи користувача. Перерахуємо деякі такі можливості.

Підвищення точності пошуку. У формулюванні призначеного для користувача запиту не усі терми можуть бути рівнозначними. Деякі системи текстового пошуку дозволяють користувачеві надати ваги використовуваним в запиті термам з тим, щоб охарактеризувати їх значущість в запиті. Ця інформація використовується при обчисленні оцінок релевантности документів інформаційним потребам користувача, і тим самим істотно підвищується точність пошуку.

Ранжирування результуючих документів запиту. Через розглянуті раніше причини системи текстового пошуку не можуть гарантувати строгого задоволення інформаційних потреб користувача в результаті виконання пошукових запитів. Кількість результуючих документів зазвичай буває значною. Тому дуже важливо упорядкувати документи, що видаються системою користувачеві, так, щоб на початку списку знаходилися документи, які, ймовірно, більшою мірою представляють інтерес для користувача. Операція такого роду називається ранжируванням документів. Розвинені системи текстового пошуку мають механізми, що забезпечують таку можливість. Залежно від моделі пошуку, що реалізовується ними, передбачається впорядкування безлічі документів, що видаються в результаті обробки призначеного для користувача запиту, за деякими оцінками міри їх релевантности запиту або вірогідності задоволення інформаційних потреб користувача.

Зворотний зв'язок релевантности — важлива функція, що дозволяє підвищити ефективність пошуку потрібних користувачеві документів. Річ у тому, що результати обробки запиту можуть не задовольняти користувача. У таких випадках у багатьох системах текстового пошуку користувачеві надається можливість уточнити запит. Для цього він може дати оцінку релевантности отриманих документів — вказати, які з них він вважає релевантними або нерелевантними.

Оскільки кількість результуючих документів може бути досить великою, користувачеві пропонується оцінити хоч би декілька перших документів в ранжируваному списку, тобто тих документів, яким система призначила найвищі оцінки міри релевантности. Система може використовувати терми цих документів для формування нового, розширеного запиту, який, швидше за все, точніше виражатиме інформаційні потреби користувача.

Такий ітераційний процес обробки запиту і модифікації його за допомогою аналізу даних, отриманих на основі зворотного зв'язку користувача з системою, може повторюватися до тих пір, поки користувач не буде задоволений результатами пошуку. Зворотний зв'язок релевантности використовується в системах, заснованих на різних моделях пошуку.

Автоматичне розширення призначених для користувача запитів. Мається на увазі розширення представлення запиту, спочатку запропонованого системі користувачем. Ця можливість також служить для підвищення ефективності пошуку.

Початкове представлення запиту може поповнюватися за рахунок:

синонімів термів, що містяться в запиті, якщо система має в розпорядженні тезаурус, що підтримує відношення синонімії;

термів, які знаходяться з термами запиту в деяких інших семантичних стосунках, визначених тезаурусом предметної області, наприклад представляють частину поняття, що відповідає деякому терму запиту, і тому подібне;

термів результуючих документів, оцінених користувачем як релевантні або нерелевантні, в системах, що забезпечують зворотний зв'язок релевантности;

• часто помилкових форм деяких термів запиту, що зустрічаються орфографічно, і так далі

Автоматичне індексування документів. Дослідження, проведені ще на ранніх стадіях розвитку систем текстового пошуку, показали, що автоматичне індексування документів не поступається за якістю ручному індексуванню. Тому в сучасних розвинених системах використовується автоматичне індексування.

Мулътиязыковой пошук. Деякі системи текстового пошуку дозволяють здійснювати пошук в колекціях, що містять документи, представлені на декількох природних мовах. Однією із складних проблем, які при цьому виникають, є ідентифікація мови, на якій представлений оброблюваний документ або його фрагменти.

Кросс-языковой пошук. Існують такі системи текстового пошуку, в яких можливі ситуації, коли інформаційні потреби користувача визначені на одній мові, а документи колекції, в якій повинен здійснюватися пошук, представлені на іншій мові. Це завдання доки ще є значною мірою дослідницьким, хоча вона вже досить часто зустрічається на практиці, наприклад в системах міжнародних організацій, транснаціональних компаній або якої-небудь організації в країні, де існує декілька державних мов.

Основна проблема кросс-языкового пошуку полягає в зіставленні документу і призначеного для користувача запиту, представлених на різних мовах. Для її вирішення необхідно використовувати переклад документів, переклад запитів або переклад того і іншого разом. При цьому використовуються різні підходи — послівний переклад по двомовному словнику, «ручний» переклад з підтримкою комп'ютера, автоматичний машинний переклад повного документу або частини документу.

Текстовий пошук в системах баз даних. Інтеграція ресурсів баз даних і колекцій текстових документів, а також використання інструментарію систем баз даних для реалізації систем текстового пошуку вже давно затребувані практикою розробки інформаційних систем.

Дійсно, текстові документи можуть мати різні структуровані характеристики, і в таких випадках може знадобитися не лише традиційний пошук за змістом документів, але і пошук по значеннях таких асоційованих з документами зовнішніх атрибутів. Підтримка зв'язків між асоційованими з документами атрибутами і документами, що відповідають їм, а також пошук документів по значеннях асоційованих з ними атрибутів цілком вписуються в звичайні технології баз даних. Крім того, механізми середовища зберігання СУБД можуть бути використані і для зберігання самих документів.

В той же час інформаційні ресурси, якими оперують системи баз даних, часто включають разом із структурованими даними також і пов'язані з ними текстові документи. Тому необхідність текстового пошуку виникає і в середовищі традиційних систем баз даних. У зв'язку з вказаними причинами традиційні СУБД стали оснащуватися механізмами текстового пошуку за змістом документів.

Технології текстового пошуку підтримуються нині багатьма реляційними і об'єктно-реляційними серверами баз даних, наприклад СУБД DB2 компанії IBM, Oracleкомпании Oracle Corp., і SQL - Server 7.0 і SQL - Server 2000 компаній Microsoft Corp. Треба помітити, проте, що у більшості таких СУБД механізми текстового пошуку не забезпечують реалізації просунутих моделей пошуку, які обговорювалися вище. Найчастіше справа обмежується підтримкою булевої моделі пошуку, іноді з розширенням запитів, з механізмами повнотекстового індексування і з деякими іншими додатковими можливостями.

Пошук текстових ресурсів у Веб. З ростом об'єму інформаційних ресурсів Веб проблема використання технологій текстового пошуку в цьому середовищі стає усе більш актуальною. Навігаційний доступ до інформаційних ресурсів Веб не забезпечує досить оперативного доступу до них.

При реалізації технологій текстового пошуку у Веб враховуються специфіка Веб як середовища пошуку, особливості підтримуваних в ній інформаційних ресурсів, а також поведінка користувача при взаємодії з Веб.

Ранні пошукові системи Веб, що називаються також пошуковими машинами Веб, забезпечували простий контекстний пошук. Пізніше стали з'являтися реалізації булевих моделей пошуку. Останніми роками інтерес до проблем текстового пошуку у Веб значно виріс. Різними колективами проводяться численні і різноманітні дослідження в цій області. Нині існує цілий спектр систем текстового пошуку для Веб. Серед них є системи універсальні і орієнтовані на певні предметні області, системи міжнародного і національного масштабу. До їх числа відносяться найбільша багатомовна пошукова система AltaVista, системи Yahoo!, Google, пошукова система по російських сторінках Веб Яndex і багато інших. Вони розрізняються зоною дії — складом сканованих веб-серверів, організацією призначених для користувача інтерфейсів, функціональними можливостями механізмів пошуку. Усі вони підтримують різні версії булевої моделі пошуку. Деякі системи забезпечують ранжирування результуючої безлічі документів, підтримують зворотний зв'язок релевантности. Система AltaVista реалізує можливості поетапного скорочення зони пошуку. Після проведення пошуку користувачеві надається гістограма, що характеризує статистику знайденої безлічі документів по класах. Користувач може відібрати класи, що цікавлять його. Далі пошук повторюється у рамках ідентифікованої у такий спосіб підмножини інформаційних ресурсів, доступних системі.

Дуже серйозних нових досягнень в розвитку систем текстового пошуку в середовищі Веб можна чекати у зв'язку з інтенсивними розробками платформи XML — технологічної платформи Веб нового покоління. Важливо помітити, що системи текстового пошуку у Веб, засновані на стандартах платформи XML, забезпечують зменшення гранулярної пошуку. Об'єктами пошуку при цьому зовсім не обов'язково мають бути повні документи. Пошукова система може видавати по запитах користувачів фрагменти документів, що цікавлять їх. Крім того, представлення текстових інформаційних ресурсів Веб засобами XML дозволяє використовувати різні засоби опису їх семантики і на цій основі істотно понизити рівень інформаційного шуму при обробці призначених для користувача запитів.

Нові вимоги до систем текстового пошуку. Нові умови застосування і ріст потреб користувачів висувають нові, вищі вимоги до систем текстового пошуку. Перерахуємо головні з них:

• забезпечення здатності систем текстового пошуку ефективно працювати з дуже великими колекціями документів;

• розробка методів істотного поліпшення представлення сенсу документів і призначених для користувача пошукових запитів;

• забезпечення можливостей для спільної обробки текстових документів з документами іншої природи — статичними зображеннями, аудіо, відео та ін.;

• розробка ефективних методів пошуку не лише в статичних колекціях, але і в потоках документів;

• створення методології оцінки систем текстового пошуку, побудова текстових колекцій, проведення експериментів.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: