файл robots.txt для WP версии 3.9 и новее

В Сети очень много информации о том, как сделать файл robots.txt – но практически все тексты роботса сделаны для очень старых версий Word Press, версий не знаю какого года. Эти данные давно уже устарели из-за того, что файловое дерево (место нахождения различных файлов в WP на хостинге) уже другое. Однако все друг у друга копипастят устарелую информацию и предлагают её блоггерам, как «свежую». Но она уже «протухла». Я попытался разобраться и сделал свой файл robots.txt исходя из здравого смысла. Я сделал это после того, как перевёл свой блог с TXT на WP месяц назад. При переносе сайта я допустил ошибку: в админ-панели не поставил галочку «разрешить» сайт к индексации (по умолчанию индексация запрещена). Когда я через неделю спохватился, то  сразу же встал вопрос о файле robots.txt, поскольку WP предлагает пустой файл роботса. В этом файле должны быть прописаны инструкции для поисковых роботов о том, что надо индексировать, а что не надо. Например, папку, в которой хранится служебная информация и данные администратора, индексировать не надо. Я добросовестно изучил информацию, предлагаемую в Сети и понял, что она «подтухла», когда стал сравнивать список каталог, которые надо запретить к индексации со реально существующими каталогами в WP. Сделав свою версию роботса я добавил все новые статьи и посты в эддурилку Яндекса и стал ждать… Все свежие материалы достаточно быстро проиндексировались ботом Google, но не проиндексировались Яндексом. Так прошло 3 недели. Тогда я написал в службу поддержки Яндекса и спросил почему не происходит индексация. И заодно спросил, что с их точки зрения не так в файле robots.txt Платон из Яндекса ответил через три дня. Он написал, что с блогом всё хорошо и он будет проиндексирован через какое-то время, поскольку все статьи уже занесены в список индексации яндекс-бота… И заодно написал, что следует подправить в файле robots.txt Текст этого (уже исправленного) файла привожу ниже:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes/themes
Disallow: /wp-includes/upgrade
Disallow: /wp-includes/languages
Disallow: /wp-content/cache
Disallow: /wp-content/plugins
Disallow: /index.php?option=com_search
Disallow: /index.php?option=com_uddeim
Disallow: /tag
Disallow: /tmp/
Disallow: */feed/
Host: name_of_domain.zone

Для моего сайта последняя строка пишется так: Host: www.interflow.ru
Первая строка инструкций указывает, что все инструкции ниже должны выполняться всеми (без исключения) поисковыми роботами.

UPD от 16 августа

Яндекс так и не начал пока индексировать сайт. Я ещё погуглил правила написания файла роботс и пришёл к заключению, что правильне сделать в robots.txt вот такую запись:


User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /search
Disallow: */trackback
Disallow: */feed/
Disallow: */feed
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Disallow: */page/*
Disallow: */comment
Disallow: */tag/*
Disallow: */attachment/*
Allow: /wp-content/uploads/
Host: interflow.ru
UPD от 18 января 2015

Обнаружил, что Google-бот индексирует архивы. Если в старых версиях WP все архивы хранились в отдельной папке «arhives», то сейчас все записи дублируются как архивные в папке годов: /2014/10/ — архивы за октябрь.

Чтобы закрыть архивы можно использовать директиву в роботсе такого типа:

Disallow: /20*

Важное замечание

Перед тем как прописывать в файле robots.txt URL сайта необходимо предварительно убедиться, что в админ-панели WP во вкладке Настройки/общие урл указан точно также. Если в одном случае урл указан с www, а в другом случае без www, то у бота возникнет когнитивный диссонанс ) и он поступит непредсказуемо. У меня в файле robots.txt урл был указан с www, а в админ-панели – без www, вот так: http://interflow.ru В результате Яндекс-бот решил, что инструкция, прописанная в админ-панели более правильная и стал индексировать сайт без www, полагая, что www.interflow.ru является зеркалом сайта http://interflow.ru
Все мои попытки сделать сайт www.interflow.ru главным, а http://interflow.ru зеркалом ни к чему не привели. Хотя я пытался внести исправления через панель веб-яндекс-мастера.

Добавить комментарий

Войти с помощью: 

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Post Navigation