Запрет индексирования некоторых страниц (файл robots.txt)

Иногда лучше, чтобы поисковая машина не индексировала некоторые стра­ницы сайта. Например, не обязательно индексировать форумы, доски объявлений, каталоги cgi-bin, поскольку в индексировании этой информации нет практического смысла.

Таким образом, желательно, чтобы в корневом каталоге вашего сайта был файл robots.txt такого содержания:

User-Agent: *

Disallow: /cgi-bin/

Обратите внимание на то, что директива User-Agent: * обязательна и должна предшествовать директивам Disallow.

Директиву Disallow можно использовать только с одним операн­дом, т.е. вы не можете написать Disallow /cgi-bin /myforum/forum/.Для запрета индексирования N объектов нужно на­писать N директив Disallow – по одной на каждый объект.

В файле robots.txt пустые строки являются значимыми – они используются для разделения правил для разных роботов. Рассмотрим пример:

User-Agent: *

Disallow: /cgi-bin/

Disallow: /myforum/forum/

Первая директива Disallow применяется для всех роботов (*), а вторая вообще не будет применяться, поскольку она написана через пустую строку и перед ней нет директивы User-Agent, задающей имя робота. Другой пример:

User-Agent: *

Disallow: /cgi-bin/

User-Agent: yandex

Disallow: /myforum/forum/

Здесь индексирование каталога /cgi-bin/ запрещено для всех роботов, а каталога / myforum/forum – только для поискового робота Яндекса.

В директиве Disallow можете использовать только относитель­ные пути к объекту, т.е. нельзя записать http://server.com/cgi-bin/ или просто server.com/cgi-bin.

Предположим, вам нужно запретить индексирование всего сайта. Для этого используются такие директивы:

User-Agent: *

Disallow: /

Обратите внимание на то, что вы должны записать именно директиву Disal­low: /, а не Disallow *. В последнем случае будет запрещена индексация фай­лов, имена которых начинаются с символа *, а таких файлов нет.

Контролировать поведение робота можно также с помощью МЕТА-тегов в заголовке HTML-документа:

o <META NAME="ROBOTS" CONTENT="NOINDEX"> – запрет индексирования доку­мента.

o <META NAME="ROBOTS" CONTENT="NOFOLLOW"> – если хотите запретить индек­сирование всего сайта, нужно вставить этот МЕТА-тег на главную страницу в index.html. Данный тег запрещает поисковому роботу следо­вать ссылкам с данной страницы.

Возможно, вы не хотите, чтобы индексировалась определенная часть текста на странице. Для этого в код страницы нужно вставить тег <NOINDEX>, в который нужно заключить текст, запрещенный для индексирования:

<NOINDEX>

Текст

</NOINDEX>

Задание 4. Сформируйте файл robots.txt с содержанием, соответствующим концепции вашего сайта. При необходимости более тонкой настройки поведения поискового робота задействуйте МЕТА-теги.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: