Robots.txt – как с ним правильно работать

Думаю если вы хотите понять все тонкости файла robots.txt, то вам уже не надо пояснять его основы. Этот файл необходим для указание некоторых правил индексации поисковым роботам. С помощью этого файла вы укажите роботам:

  1. что не индексировать (для безопасности сайта и для отсутствия в поисковой выдаче)
  2. что индексировать и кому…
  3. какие параметры url не учитывать
  4. ограничение в частоте обращения к сайту (для уменьшения нагрузки)
  5. указание зеркал сайта, и главного зеркала
  6. указание адреса расположения карты сайта
  7. как думают роботы

1. Что роботам не надо индексировать

Это используется для административных страниц и других страниц, которые следует скрыть от поиска. Для этого пишем файле следующую констркцию:

User-agent: Yandex
Disallow: /wp-admin # блокирует доступ к /wp-admin и всем подстраницам в этом адресе
Disallow: /admin
Disallow: /administration

Символ * означает любые символы, его вы можете использовать следующим образом:
Disallow: /archive/*.html
Символ $ означает конец строки правила, правило
Disallow: /archive/1.html$
означает только страницу /archive/1.html и ни что иное.

2. User-agent указывает на робота к которому относятся правила

User-agent: Yandex
Disallow: /

означает запрет индексации роботом Яндекса всего вашего сайта

3. Не учитывать параметры GET

Clean-param: ref /index.php
означает что все адреса вида /index.php?ref=24234234234 будут восприниматся роботом просто как /index.php

4. Как ограничить активность поисковых роботов на вашем сайте? А вот так…

следующий код указывает Яндексовским ботам обращаться к вашему сайту не чаще чем раз в минуту (60 сек)

User-agent: Yandex
Crawl-delay: 60

5. Указать Яндексу зеркало сайта и основной домен

Для Яндекса желательно до редиректа на основной сайт прописать в файле роботс хост –

User-Agent: *
Disallow:
Host: MMMMM.ru

Следует помнить что если вы напишите директиву Host в неправильном порядке или формате, то робот её не распознает, к примеру следующие строки это неправильный вариант:

User-agent: *
Host: maindomain.ru

или

Host: maindomain.ru
User-Agent: *
Disallow:

6. Как указать поисковикам карту сайта

Это необходимо если она находится не по стандартному пути, писать надо так:
User-agent: *
Allow: /
Sitemap: http://DDDD.ru/folder/my_sitemaps1.xml
Sitemap: http://DDDD.ru/folder/my_sitemaps2.xml

7. Как роботы понимают robots.txt

Не все роботы одинаково оперируют директивами и правилами в robots.txt.
Если файл robots.txt не скачался, то это означает что все разрешено индексировать.
Если файл больше 256 кб, то он не учитывается.

  1. Пока что нет комментариев.
  1. Пока что нет уведомлений.