У вас есть вопрос по рекламе в интернете и раскрутке сайтов? Задайте его здесь и вам ответят. Вы уже всё знаете? Помогите тем, кто знает пока не всё. Правила форума|
Сделать стартовой|Добавить в избранное.
Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из соображений секретности или из желания не индексировать одинаковые документы в разных кодировках. Чем меньше ваш сервер, тем быстрее робот поисковой системы его обойдет. Поэтому запретите в файле robots.txt все документы, которые не имеет смысла индексировать (например, файлы статистики или списки файлов в директориях). Обратите особое внимание на CGI или ISAPI скрипты - наш робот индексирует их наравне с другими документами.
В простейшем виде (разрешено все, кроме директории скриптов) файл robots.txt выглядит следующим образом:
User-Agent: *
Disallow: /cgi-bin/
При написании файла robots.txt обратите внимание на следующие часто встречающиеся ошибки:
Строка с полем User-Agent является обязательной и должна предшествовать строкам с полем Disallow. Так, приведенный ниже файл robots.txt не запрещает ничего:
Disallow: /cgi-bin
Disallow: /forum
Пустые строки в файле robots.txt являются значимыми, они разделяют записи, относящиеся к разным роботам поисковиков. Например, в следующем фрагменте файла robots.txt строка “Disallow: /forum” игнорируется, поскольку перед ней нет строки с полем User-Agent.
User-Agent: *
Disallow: /cgi-bin
Disallow: /forum
Строка с полем Disallow может запретить индексирование документов только с одним префиксом. Для запрета нескольких префиксов нужно написать несколько строк. Например, нижеприведенный файл robots.txt запрещает индексирование документов, начинающихся с “/cgi-bin /forum”, которых, скорее всего, не существует (а не документов с префиксами “/cgi-bin” и “/forum”).
User-Agent: *
Disallow: /cgi-bin /forum
В строках с полем Disallow записываются не абсолютные, а относительные префиксы. То есть файл:
User-Agent: *
Disallow: www.мойhost.ru/cgi-bin
В строках файла robots.txt с полем Disallow указываются именно префиксы, а не что-нибудь еще. Так, файл robots.txt :
User-Agent: *
Disallow: *
запрещает индексирование документов, начинающихся с символа «* » (которых в природе не существует), и сильно отличается от файла:
User-Agent: *
Disallow: /
который запрещает индексирование всеми поисковыми системами всего сайта.
Если вы не можете создать/изменить файл robots.txt, то еще не все потеряно — достаточно добавить дополнительный тег <META> в HTML-код вашей страницы (внутри тега <HEAD>):
<META NAME="ROBOTS" CONTENT="NOINDEX">
Тогда данный документ также не будет проиндексирован.
Вы также можете использовать тэг
<META NAME="ROBOTS" CONTENT="NOFOLLOW">
Он означает, что робот поисковой машины не должен идти по ссылкам с данной страницы.
Для одновременного запрета поисковым системам индексирования страницы и обхода ссылок с нее используется тэг
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
Как запретить поисковым системам индексацию определенных частей текста?
Чтобы запретить поисковым системам индексирование определенных фрагментов текста в документе, пометьте их тегами
От себя замечу, что теги <NOINDEX> понимают только наши поисковики Яндекс и Рамблер, а остальные, например Google - не понимают. Это можно использовать, если вы хотите закрыть текст (например в сучае если он на английском языке) от Яндекса и Рамблера, но показать этот текст Google.