Второй закон Зипфа (количество-частота)

Известно, что разные слова могут входить в текст с одинаковой частотой. Если при этом построить график, на котором по горизонтальной оси отложить частоту вхождения слова, а по вертикальной оси количество слов на данной частоте, то получится кривая (рис.1), которая будет сохранять свои параметры для всех без исключения при этом форма этой кривой остается постоянной для любого языка.

Рис.1

Современные исследования показали, что наиболее значимые слова размещаются в средней части диаграммы. Наиболее частыми словами являются либо предлоги, либо местоимения. Редко встречающиеся слова в большинстве случаев также не имеют решающего смыслового значения. Каждая поисковая система имеет свои технологии и правила в задании диапазона значимых слов. Если этот диапазон слишком широкий, то вспомогательные слова заслонят собой необходимые термины. Если он окажется слишком узкий, может произойти потеря смысловых терминов.

Для того чтобы избавиться от лишних слов и в то же время поднять рейтинг значимых слов, введен специальный параметр инверсная частота:

, (2)

где i – термин; Р – количество документов в базе данных; Qi – количество документов, содержащих i -й термин.

Значение Fi тем меньше, чем чаще слово встречается в документах базы данных. Теперь каждому термину присвоим весовой коэффициент:

, (3)

где Н – частота i-го термина в j-ом документе; F – вес (значимость).

Современная поисковая система может строить весовые коэффициенты с учетом местоположения термина внутри документа, взаимного расположения терминов, а также морфологических особенностей текста.

База данных документов должна определенным образом взаимодействовать с пользовательским запросом. Запросы могут быть простыми (из одного слова) и сложными. Соответственно различают структуры баз данных. Наиболее простая структура, удобная для многовариантного поиска получила название матрица. Пусть имеется шесть документов, в которых содержится пять терминов. Если термин входит в документ, в соответствующей позиции ставится 1, в противном случае 0.

  D1 D2 D3 D4 D5 D6
T1            
T2            
T3            
T4            
T5            

Еще одна структура получила название пространственно-векторная модель. Все документы базы данных помещаются в многомерное виртуальное пространство, и координаты каждого документа зависят от структуры содержащихся в нем терминов, весовых коэффициентов, положения внутри документов и т. д. В результате запроса документы с похожим набором терминов разместятся в пространстве ближе друг к другу. Здесь α – формирующий сектор запроса.

Рис.2

Получив запрос, поисковая система удаляет лишние слова, выделяет термины и вычисляет вектор запроса в пространстве документа. После этого она выдает те документы, которые попали в заданный сектор.

2. ЗАДАНИЕ НА ПРОВЕДЕНИЕ ПОИСКА

2.1. Найти 10 статей или книг на русском или английском языке опубликованных после 2002 года в названии которых имеются следующие ключевые словосочетания (см табл. 1).

Таблица 1

Словосочетания Словосочетания
  Оптические волокна   Системы автоматизированного проектирования
  Оптические интегральные схемы   Обработка сигналов
  Фазированные антенные решетки   Электромагнитная совместимость
  Электромагнитные поля   Математические модели
  СВЧ нагрев   Нанокомпозитные материалы
  Компьютерное моделирование   Системы связи
  Защита информации   Телекоммуникационные системы
  СВЧ антенны   Локальные вычислительные сети
  Микрополосковые линии   Измерительные системы
  СВЧ излучение   Радио сигналы
  Фазовращатели   Компьютерные сети
  Электродинамика   Информационные технологии
  Сети и протоколы   Приборы СВЧ
  Цифровое телевидение   Магнетроны
  Метод конечных элементов   Диоды Ганна

2.2. Найти значения диэлектрической проницаемости, теплопроводности, плотности и теплоемкости следующих материалов (см. табл.2). Для таких материалов, как древесина, резина, керамика информация о свойствах может быть представлена без уточнения типа того или иного материала. Теплопроводность должна быть установлена в единицах [Вт/(м·К)], плотность в [кг/м3], теплоемкость в [Дж/(кг·К)].

Таблица 2

Материал Материал
  Керамика   Глицерин
  Резина   Нефть
  Древесина   Этанол
  Стекло   Цеолит
  Кровь   Бензин
  Плексиглас   Тефлон
  Спирт   Лед
  Бумага   Бакелит
  Этиленгликоль   Слюда
  Песок   Люминофор
  Полиэтилен   Растительное масло
  Ацетон   Воск
  Парафин   Кварц
  Фторопласт   Асбест
  Поликор   Соль

3. СОДЕРЖАНИЕ ОТЧЕТА

3.1 Наименование и цель работы.

3.2 Теоретическая часть.

3.3 Задание на поиск.

3.4 Результаты поиска и выводы.

3.5 Источники информации.

Литература

1. Алексеев А.П. Информатика 2003 / А.П. Алексеев. М.: Солон-Пресс, 2003. 464 с.

2. Суворов А.Б. Телекоммуникационные системы, компьютерные сети и Интернет / А.Б. Суворов. Ростов-на-Дону: Феникс, 2007. – 384 с.

ПОИСКОВЫЕ ИНТЕРНЕТ СИСТЕМЫ

Методическое указание

к лабораторной работе

Составил КОМАРОВ Вячеслав Вячеславович

Рецензент А.А. Димитрюк

Корректор Д.А.Козлова

Подписано в печать Формат 60х84 1/16

Бум. тип. Усл. печ. л. Уч. – изд. л.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: