Robots.txt — как с ним правильно работать
Думаю если вы хотите понять все тонкости файла robots.txt, то вам уже не надо пояснять его основы. Этот файл необходим для указание некоторых правил индексации поисковым роботам. С помощью этого файла вы укажите роботам:
- что не индексировать (для безопасности сайта и для отсутствия в поисковой выдаче)
- что индексировать и кому…
- какие параметры url не учитывать
- ограничение в частоте обращения к сайту (для уменьшения нагрузки)
- указание зеркал сайта, и главного зеркала
- указание адреса расположения карты сайта
- как думают роботы
1. Что роботам не надо индексировать
Это используется для административных страниц и других страниц, которые следует скрыть от поиска. Для этого пишем файле следующую констркцию:
User-agent: Yandex
Disallow: /wp-admin # блокирует доступ к /wp-admin и всем подстраницам в этом адресе
Disallow: /admin
Disallow: /administration
Символ * означает любые символы, его вы можете использовать следующим образом:
Disallow: /archive/*.html
Символ $ означает конец строки правила, правило
Disallow: /archive/1.html$
означает только страницу /archive/1.html и ни что иное.
2. User-agent указывает на робота к которому относятся правила
User-agent: Yandex
Disallow: /
означает запрет индексации роботом Яндекса всего вашего сайта
3. Не учитывать параметры GET
Clean-param: ref /index.php
означает что все адреса вида /index.php?ref=24234234234 будут восприниматся роботом просто как /index.php
4. Как ограничить активность поисковых роботов на вашем сайте? А вот так…
следующий код указывает Яндексовским ботам обращаться к вашему сайту не чаще чем раз в минуту (60 сек)
User-agent: Yandex
Crawl-delay: 60
5. Указать Яндексу зеркало сайта и основной домен
Для Яндекса желательно до редиректа на основной сайт прописать в файле роботс хост —
User-Agent: *
Disallow:
Host: MMMMM.ru
Следует помнить что если вы напишите директиву Host в неправильном порядке или формате, то робот её не распознает, к примеру следующие строки это неправильный вариант:
User-agent: *
Host: maindomain.ru
или
Host: maindomain.ru
User-Agent: *
Disallow:
6. Как указать поисковикам карту сайта
Это необходимо если она находится не по стандартному пути, писать надо так:
User-agent: *
Allow: /
Sitemap: http://DDDD.ru/folder/my_sitemaps1.xml
Sitemap: http://DDDD.ru/folder/my_sitemaps2.xml
7. Как роботы понимают robots.txt
Не все роботы одинаково оперируют директивами и правилами в robots.txt.
Если файл robots.txt не скачался, то это означает что все разрешено индексировать.
Если файл больше 256 кб, то он не учитывается.