Правильный robots.txt для сайта на Wordpress

Несмотря на громкий заголовок, мой robots.txt не священный грааль, но при этом все его директивы отражают суть движка WordPress и принцип работы поисковиков. многие владельцы сайтов почему-то втыкают в этот файл все подряд, в том числе и админку без малейшей попытки пораскинуть мозгами и понять что админка редиректит на страницу авторизации.

Наша с вами задача не описать в robots.txt куда можно, а куда нельзя поисковику используя директивы «disallow» и «allow» налево и направо, а исключить из индекса страницы, которых там быть не должно. Для этого вам самим кроме тупого копипаста придется ещё и информацию из кабинетов для веб-мастеров поизучать на предмет ненужных страниц в индексе поисковиков.

Я вам дам совет исходя из своего опыта на базе моего сайта, по-этому скопировав мой пример, дополните его своими директивами, наверняка у вас есть на сайте не совсем стандартные для WrdPress страницы, которые поисковикам нет смысла индексировать.

Добавление robots.txt в WordPress

Не надо качать FTP-киент, лезть на сервер, создавать текстовый файл, а потом каждый раз из-за каждой мелочи снова и снова соваться туда. Есть вполне себе изящное решение в виде простого плагина, который создает «виртуальный» robots.txt.

С установкой разберетесь сами, там ничего сложного. После установки и активации плагина необходимо пройти на страницу с настройками этого плагина

Страница настроек предельно проста, там всего лишь текстовое поле, куда надо поместить наши директивы и один чекбокс, отметив который мы указываем плагину что необходимо подтереть свои настроки при деактивации.

Как видите ничего сверх естественного. Подтираем дефолтный текст и вбиваем наши директивы:

User-Agent: YandexBot
Disallow: /cgi-bin
Disallow: /xmlrpc.php
Disallow: /author
Disallow: /wp-json
Disallow: /wp-login.php
Disallow: /wp-content/uploads/
Disallow: /category/
Disallow: /page/
Host: https://site.ru
Sitemap: https://site.ru/sitemap_index.xml

User-Agent: *
Disallow: /cgi-bin
Disallow: /xmlrpc.php
Disallow: /author
Disallow: /wp-json
Disallow: /wp-login.php
Disallow: /wp-content/uploads/
Disallow: /category/
Disallow: /page/
Sitemap: https://site.ru/sitemap_index.xml

Скопировали? А site.ru заменили на домен своего сайта? Сохраняем.

Директивы robots.txt

По сути директив тут не так много, но вы наверняка обратили внимание на две части, которые дублируют друг друга? Так повелось что Яша (многоуважаемый Яндекс) любит когда ему отдельно уделяют внимание. вот и создаем отдельный набор правил для ЯндексБота.

User-Agent

С этой директивы начинается блок правил, а её значение указывает на то, для какого поисковика предназначается данный набор правил. В нашем случае две директивы, одна со значение «YandexBot», что обозначает что этот блок используется исключительно ЯдексБотом, а значение второй директивы «*» говорит что этот блок для всех остальных.

Disallow

Собственно запрещает поисковикам индексировать страницу или раздел указанный в значении данной директивы.

Host

Данная директива необходима только Яндексу и сообщает она о том, какой домен использовать в качестве основного. значением может быть 4 варианта:

  • site.ru
  • www.site.ru
  • https://site.ru
  • https://www.site.ru

Последние два варианта указывают Яндексу на то, что сайт работает через проток HTTPS и в результатах необходимо указывать адрес с этим протоколом.

Sitemap

Соответственно эта директива указывает путь к файлу sitemap.

Crawl-delay

Указывает поисковому роботу промежуток времени в секундах, который должен пройти с момента окончания загрузки одной страницы и началом загрузки другой. Значением директивы может быть любое число как целое, так и дробное.

Clean-param

Если на Вашем сайте используются параметры, которые не влияют на отображение страницы, то в значении этой директивы Вы можете указать эти параметры. Допустим у Вас на сайте есть каталог, в котором пользователю доступны некоторые возможности, такие как сортировка, допустим ссылка выглядит так:

  • http://site.ru/catalog.php?sort_by=price&sort=desc

Что бы указать роботу на параметры, которые необходимо исключить, то нам потребуется указать директиву с соответствующими параметрами:

  • Clean-param: sort_by /catalog.php # если необходимо исключить только sort_by
  • Clean-param: sort_by&sort /catalog.php # если необходимо исключить  sort_by и  sort

Как видите в первую очередь перечислены параметры через знак &, если параметров несколько, затем указывается страница, для которой необходимо исключить данные параметры.

Оценка статьи

Полная фигняУзнал немного новогоНормальная статьяХорошая статьяСупер! (1 оценок, среднее: 5,00 из 5)
Загрузка...

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Подпишитесь на рассылку и получайте новые статьи на почту