Иногда лучше, чтобы поисковая машина не индексировала некоторые страницы сайта. Например, не обязательно индексировать форумы, доски объявлений, каталоги cgi-bin, поскольку в индексировании этой информации нет практического смысла.
Таким образом, желательно, чтобы в корневом каталоге вашего сайта был файл robots.txt такого содержания:
User-Agent: *
Disallow: /cgi-bin/
Обратите внимание на то, что директива User-Agent: * обязательна и должна предшествовать директивам Disallow.
Директиву Disallow можно использовать только с одним операндом, т.е. вы не можете написать Disallow /cgi-bin /myforum/forum/.Для запрета индексирования N объектов нужно написать N директив Disallow – по одной на каждый объект.
В файле robots.txt пустые строки являются значимыми – они используются для разделения правил для разных роботов. Рассмотрим пример:
User-Agent: *
Disallow: /cgi-bin/
Disallow: /myforum/forum/
Первая директива Disallow применяется для всех роботов (*), а вторая вообще не будет применяться, поскольку она написана через пустую строку и перед ней нет директивы User-Agent, задающей имя робота. Другой пример:
|
|
User-Agent: *
Disallow: /cgi-bin/
User-Agent: yandex
Disallow: /myforum/forum/
Здесь индексирование каталога /cgi-bin/ запрещено для всех роботов, а каталога / myforum/forum – только для поискового робота Яндекса.
В директиве Disallow можете использовать только относительные пути к объекту, т.е. нельзя записать http://server.com/cgi-bin/ или просто server.com/cgi-bin.
Предположим, вам нужно запретить индексирование всего сайта. Для этого используются такие директивы:
User-Agent: *
Disallow: /
Обратите внимание на то, что вы должны записать именно директиву Disallow: /, а не Disallow *. В последнем случае будет запрещена индексация файлов, имена которых начинаются с символа *, а таких файлов нет.
Контролировать поведение робота можно также с помощью МЕТА-тегов в заголовке HTML-документа:
o <META NAME="ROBOTS" CONTENT="NOINDEX"> – запрет индексирования документа.
o <META NAME="ROBOTS" CONTENT="NOFOLLOW"> – если хотите запретить индексирование всего сайта, нужно вставить этот МЕТА-тег на главную страницу в index.html. Данный тег запрещает поисковому роботу следовать ссылкам с данной страницы.
Возможно, вы не хотите, чтобы индексировалась определенная часть текста на странице. Для этого в код страницы нужно вставить тег <NOINDEX>, в который нужно заключить текст, запрещенный для индексирования:
<NOINDEX>
Текст
</NOINDEX>
Задание 4. Сформируйте файл robots.txt с содержанием, соответствующим концепции вашего сайта. При необходимости более тонкой настройки поведения поискового робота задействуйте МЕТА-теги.