Robots.txt для WordPress: рабочий пример

Если кто-то думает, что без robots.txt можно обойтись – сильно ошибается. Чтобы там не говорили о “виртуальном роботсе” или не актуальности его создания для ПС Google, файл Robots был и остается важнейшим системным файлом, с помощью которого можно контролировать индексацию веб-страниц поисковыми ботами. В этой заметке я расскажу как создать правильный Robots для CMS WordPress.

Что такое Robots.txt и зачем он нужен?

Robots.txt – это стандарт исключений для поисковых ботов, принят консорциумом W3C 30 января 1994 года. Создается в виде txt-файла и помещается в корневую директорию домена. Содержит специальные директивы – правила для поисковых ботов. Каждая директива указывается с новой строки. Правила нужны для того, чтобы исключить из поиска определенные файлы и папки сайта. При отствуствующем robots.txt – поисковик будет парсить и вытягивать на поверхность все, что проиндексирует. Это иогут быть и конфеденциальные данные. Поэтому, Robots.txt помогает улучшить безопасность сайта и сохранить чистоту индекса, не дав попасть в поиск чему-то лишнему.

WordPress и виртуальный Robots.txt

После создания сайта, CMS WordPress автоматически создает виртуальный robots.txt с базовыми директивами. Выглядит он так:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://mywebsite.com/sitemap.xml

Как видно, он не закрывает от поиска системные, конфиденциальные и служебные разделы. Пока сайт маленький – вы не сильно замечаете проблемы, связанные с этим. Но когда набирается достаточное количество трафика, вы сразу же увидите статистику, сколько посетителей попадают на не желательные страницы вашего сайта и поймете, что “виртуальный роботс” не спасает и нужно создавать нормальный robots.txt.

Пример работающего Robots.txt для WordPress

Файл создается c расширением .txt в стандартной кодировке UTF-8 (без BOM!) и помещается в корневую директорию сайта:

User-agent: *                             # правила для всех роботов
Disallow: /cgi-bin                        # скрипты на сервере
Disallow: /?                              # все параметры URL со знаком ?
Disallow: /wp-                            # все сис. папки и файлы WP
Disallow: *?s=                            # параметры URL со спецсимволом
Disallow: *&s=                            # см. выше
Disallow: /search/                        # поиск
Disallow: /author/                        # архив автора
Disallow: */trackback                     # уведомления в комментариях 
Disallow: */feed                          # все фиды
Disallow: */rss                           # rss фид
Disallow: */embed                         # все встраивания
Disallow: /xmlrpc.php                     # файл WordPress API
Disallow: *utm*=                          # ссылки с utm-метками
Disallow: *openstat=                      # ссылки с метками openstat
Allow: */uploads                          # открываем папку с картинками
Allow: /*/*.js                            # открываем js-скрипты
Allow: /*/*.css                           # открываем css-файлы
Allow: /wp-*.png                          # изображения в плагинах
Allow: /wp-*.jpg                          # картинки в плагинах
Allow: /wp-*.jpeg                         # изображения в плагинах
Allow: /wp-*.gif                          # картинки в плагинах
Allow: /wp-*.svg                          # изображения в плагинах
Allow: /wp-*.pdf                          # файлы в плагинах
Allow: /wp-admin/admin-ajax.php           # используется плагинами
Sitemap: http://example.com/sitemap.xml   # путь к карте сайта

Как проверить Robots.txt на ошибки

В Панелях Вебмастера Яндекс и Google есть специальные инструменты для тестирования файла robots:

Тестировщик Robots в Google

Тестировщик robots в Яндекс

Создавая robots.txt будьте внимательными и придерживайтесь официальных рекомендаций.

голосов
Рейтинг статьи
Подписка на сайт KRV

Получайте регулярные обновления на почту!   


Author
Konrad Ravenstone/ автор статьи
Специалист по информационной и компьютерной безопасности. Системный интегратор, администратор. Занимаюсь комплексным обслуживанием веб-сайтов и IT инфраструктуры. Подробнее>>
Поделиться материалом в соцсетях:
KRV — IT блог о веб-технологиях, и не только
0 комментариев
Встроенные отзывы
Просмотреть все комментарии
0
Оставьте свой комментарийx
()
x