Лекция 28 28.1. создание Web – страниц

28. Создание Web – страниц. Поисковые системы

28.1. создание Web – страниц

Основной информационной единицей данных, передаваемых по Всемирной Паутине, является Web – страница. Известно, что сеть Интернет соединяет большое количество компьютеров с самым различным аппаратным и программным обеспечением. В этом случае очевидной является ситуация, когда Web – страница создается на компьютере с одним аппаратным и программным обеспечением, а просматривается на компьютере с совершенно другими средствами. В этой связи возникает задача выбора такого способа создания, хранения и передачи информации, при использовании которого Web – страница передавалась бы с высокой скоростью по всем линиям связи Интернет и воспринималась бы практически одинаково в любой программной и аппаратной среде.

Средством, обеспечивающим выполнение этих требований, является язык гипертекстовой разметки HTML (Hyper Text Markup Language), с помощью которого создаются Web – страницы. Это язык Всемирной Паутины. Он позволяет создавать Web – страницы даже с помощью самых простых текстовых редакторов. Язык HTML не является языком в буквальном смысле, со своим алфавитом, набором слов и фраз. Он представляет собой набор инструментов форматирования текста, основу которого составляют HTML – коды или, как их еще называют, теги (tag – ярлык, этикетка). HTML – документ отличается от простого текстового документа наличием кодов разметки (тегов). Теги позволяют устанавливать статус отдельных фрагментов текста (заголовок, собственно текст, рисунок и т. д.), осуществлять выбор шрифта, выбор цвета шрифта, местоположение и форматы включаемых рисунков, анимационных и мультимедийных элементов, гиперссылок, выбирать способы выравнивания абзацев и др. Это набор значков и небольшого количества стандартных слов.

Название тега и его параметры заключаются в угловые скобки < >. При создании любого HTML – документа обязательно должны использоваться теги заголовков и теги, делящие документ на отдельные логические части.

Каждый HTML – документ должен начинаться с тега начала <HTML>. Наличие такого тега говорит о том, что данный документ является HTML – документом. Заканчиваться HTML – документ должен тегом окончания </HTML>, в котором находится черта /. Например,

<HTML>

Первый HTML – документ

</HTML>

Теги <HTML> и </HTML> – это парные теги и их еще называют тегами – контейнерами, так как между ними обязательно содержится какая – то информация. Следует отметить, что HTML – коды нечувствительны к регистру. То есть запись <html> и запись <HTML> совершенно идентичны.

Каждый HTML – документ должен состоять из двух логических частей:

– заголовка,

– тела.

Заголовок идентифицируется с помощью тега <HEAD>, а тело – с помощью тега <BODY>. Например:

<HTML>

<HEAD>

заголовок документа

</HEAD>

тело HTML –документа

</HTML>

В этом примере заголовок обозначается с помощью пары тегов <HEAD> и </HEAD>, но для полного завершения HTML – документа следует обозначить его тело. Тело обозначается путем заключения между тегами <BODY> и </BODY>. С учетом этого предыдущий пример представляется в виде:

<HTML>

<HEAD>

заголовок документа

</HEAD>

<BODY>

тело HTML –документа

</BODY>

</HTML>

Кроме этих тегов обязательными тегами HTML – документа являются теги <TITLE> и </TITLE>. Между этими тегами помещается название документа. Если название документа не представить между этими тегами, то оно не будет обозначаться при представлении Web – страницы, а вместо этого в строке названия будет указываться URL – адрес страницы. С учетом этого предыдущий текст можно скорректировать как

<HTML> <HEAD> <TITLE> название документа </TITLE> </HEAD>

<BODY>

тело документа

</BODY>

</HTML>

В этом примере несколько тегов записано подряд, что допускается в HTML. Эти теги определяют структуру документа, и они обязательны.

Кроме этих тегов имеются и другие, с помощью которых можно придавать желаемую форму создаваемому документу. Программа – обозреватель, получив по линиям связи такой документ, интерпретирует его теги и отображает документ в виде Web – страницы (без тегов).

Отдельные приложения пакета MS Office такие как MS Word, MS Excel, MS Power Point обладают средствами сохранения созданных в них документов в виде Web – страниц. Чтобы преобразовать такой документ в форму HTML – документа, который может быть передан по Сети, следует выполнить команды:

Файл – Сохранить как веб – страницу.

Затем эту Web – страницу можно переправить на Web – сервер и стандартным образом запрашивать и просматривать с помощью программ – обозревателей. Для создания более сложных Web – страниц, а также для создания сайтов, состоящих из нескольких страниц, в текстовом редакторе MS Word предусмотрены шаблоны и мастер Web – страниц.

28.2. Поиск Web – страниц в Паутине

По оценкам специалистов в настоящее время на Web – серверах Интернета размещено несколько миллиардов Web – страниц, содержащих информацию практически во всех областях человеческой деятельности. Получение доступа к нужной информации в том случае, если известен адрес Web – страницы или Web – узла, не вызывает затруднений. Для этого достаточно ввести нужный адрес в соответствующее поле Интернет – обозревателя, и через некоторое время страница отобразится в его окне. В тех случаях, когда адрес размещения нужной информации неизвестен, необходимо производить ее поиск.

В настоящее время существуют системы, обеспечивающие быстрый поиск нужной информации во Всемирной Паутине. Существует несколько десятков различных поисковых систем, обладающих различными возможностями поиска:

– по заданию образцов поиска,

– по созданию запросов,

– разными множествами просматриваемых узлов и страниц.

Фактически поисковая система (поисковик) является специализированным Web – сервером, на котором постоянно накапливается информация о Web – страницах и сайтах, находящихся на обычных Web – серверах Интернета. Эта информация в специальном сокращенном виде сохраняется и периодически обновляется на дисковых устройствах системы. Любой пользователь может обратиться к поисковому серверу и сформулировать запрос на поиск нужной информации. Поисковая система просматривает свои диски, находит и пересылает пользователю обнаруженные адреса Web – страниц, которые содержат требуемую информацию.

Все поисковые системы делятся на две большие группы:

– поисковые каталоги,

– поисковые машины.

Поисковые каталоги представляют собой огромные базы данных, которые содержат адреса Web – узлов по всему информационному пространству Интернета. Эти базы данных созданы и периодически обновляются специалистами в области систематизации Web – ресурсов.

Каталоги представляют собой иерархическую, многоуровневую структуру (рубрикаторы) и обеспечивают два способа поиска.

Первый способ аналогичен поиску путем перемещения по каталогам (подкаталогам) в окне проводника операционной системы Windows. На стартовой странице поискового каталога выбирается тема, рубрика верхнего уровня. После щелчка по названию выбранной темы раскрывается следующий (более низкий) уровень со списком разделов. В нем выбирается более узкая тема и так далее, перемещаясь по иерархии каталога, производится поиск необходимой информации.

Второй способ предусматривает выбор нескольких ключевых слов, отображающих смысл запрашиваемой информации. Он напоминает поиск в документе редактора MS Word. По этому способу ключевые слова вводятся с клавиатуры в специальное поле Web – страницы поискового каталога, делается щелчок по кнопке Поиск. После этого специальные средства поисковой системы автоматически просматривают все уровни каталогов и сообщают пользователю все найденные адреса.

Наиболее популярными поисковыми каталогами являются один из крупнейших в мире англоязычный каталог Yahoo! (https://www.yahoo.com), а также российские каталоги MavicaNet (www.mavicanet.ru), Каталог@Mail.ru (list.mail.ru) и Иван Сусанин (wwwalt.susanin.net).

Принцип действия поисковых машин отличается от принципа действия поисковых каталогов. Поисковые машины включают в себя базу данных, поля записей которой содержат адреса Web – страниц, ключевые слова этих страниц и другую информацию, позволяющую охарактеризовать содержимое страниц. В состав поисковой машины входит специальная программа – поисковый робот или Spider (spider – паук). Поисковый робот в автоматическом режиме просматривает Web – узлы Интернета и при обнаружении ссылки на какую – либо Web – страницу запоминает ее адрес и другие характеристике в специальной таблице индексов базы данных. Такие системы непрерывно отслеживают содержимое Web – страниц, тщательно «прочесывая» их с помощью своих «агентов» («пауков»), которые просматривают и индексируют вновь поступившие страницы.

Пользователь по специальным правилам оформляет запрос, в соответствии с которым осуществляется просмотр индексов. Найденные адреса Web – страниц пересылаются пользователю, направившему запрос.

Наиболее популярными в настоящее время являются поисковые машины: Google (https://www.google.com) (также ищет Web – сайты в русскоязычном сегменте Сети), AltaVista (https://www.altavista.com), Northern Light (https://www.northernlight.com). К лучшим российским поисковым серверам относятся Яндекс (https://www.yandex.ru), Rambler (https://www.rambler.ru) и Апорт (https://www.aport.ru).

Внешний вид домашних страниц поисковых серверов может быть различным, но в любом случае в окне имеется поисковая форма. Она содержит, как минимум, поле ввода запроса и расположенную рядом кнопку Найти или Поиск. Правила работы с поисковыми системами обычно излагаются в справочных подсистемах поисковых серверов. Для доступа к ней необходимо щелкнуть по гиперссылке Помощь (Справка, Help).

В поисковой системе Google в простейшем виде запрос представляет собой слово или последовательность разделенных пробелами ключевых слов. Последовательность может быть осмысленным сочетанием слов, целым предложением или просто набором важных слов. Например, запрос сформулированный в виде предложения: Кто получил Нобелевскую премию по литературе в 2001 году? Этот запрос можно сформулировать и как последовательность ключевых слов: Нобелевская премия литература 2001 год. Поисковая машина Google не различает регистры букв, поэтому для нее слова Нобелевская и нобелевская будут восприниматься одинаково. Эта поисковая машина воспринимает слова в любой грамматической форме. Например, если в запросе указано слово автоматизация, то будут найдены ссылки на документы, содержащие слова автоматизированный, автоматика, автоматический и т. п. Она игнорирует союзы и предлоги (кто, где, как, по, на и т. п.), единичные цифры и буквы. Чтобы включить такие слова в запрос, необходимо использовать символ +. Для поиска информации о Петре 1 в запросе следует записать: Петр +1. Обязательно следует перед знаком + ставить пробел, а после него – нет. Знак + акцентирует поисковые механизмы на отбор документов, которые обязательно содержат следующее за ним слово. Например, в ответ на запрос частные объявления продажа велосипедов попадет много ссылок на Web – узлы с разнообразными частными объявлениями. В ответе на запрос частные объявления продажа +велосипедов останутся объявления только о продаже велосипедов.

По умолчанию считается, что все ключевые слова запроса связаны логической операцией И. Это означает, что все указанные слова в документе должны присутствовать одновременно и не обязательно подряд.

Поисковая машина Google поддерживает и логическую операцию ИЛИ. В запросе она обозначается как OR. Например, для поиска страниц, которые должны содержать либо слово электропривод, либо слово автоматизация следует ставить такой запрос: электропривод OR автоматизация. В результате будут отобраны Web – страницы, содержащие либо слово электропривод, либо слово автоматизация, либо и то и другое вместе.