Веб-разработчик Локтев Алексей

Правильный robots.txt для MODX Revolution

Важным вопросом оптимизации сайта на MODX Revolution является составление правильного служебного файла robots.txt

Неправильно настроенный «роботс», может привести к серьезным ошибкам, например, страницы или весь сайт пропадет из поиска, а его отсутствие может привести к высокой нагрузке на хостинг со стороны поисковых систем или индексации мусорных страниц.

Ниже представлен минимальный и правильный robots для MODX Revo:

User-agent: * 
Disallow: *?
Disallow: /cgi-bin
Disallow: /manager/ 
Disallow: /assets/components/ 
Disallow: /core/ 
Disallow: /connectors/ 
Disallow: /index.php
Sitemap: https://site.ru/sitemap.xml

User-agent: Yandex 
Disallow: *?
Disallow: /cgi-bin
Disallow: /manager/ 
Disallow: /assets/components/ 
Disallow: /core/ 
Disallow: /connectors/ 
Disallow: /index.php
Sitemap: https://site.ru

Как создать robots.txt для MODX Revolution

Первым делом необходимо включить ЧПУ на сайте и затем создать сам файл.

Это можно сделать двумя способами:

Первый - с помощью любого текстового блокнота создать файл с названием robots и расширением txt (результат - "robots.txt").

Второй - в самом MODX создать ресурс с типом содержимого txt и сохранить.

Я предпочитаю больше второй вариант, мне так удобнее. Вы можете выбрать любой из понравившихся.

Краткий разбор файла

Disallow — запрещает индексирование

Allow — разрешает индексирование

  • *? - удаляет дубли страниц, заданные через параметр
  • cgi-bin — служебная папка, хранящая в себе файлы конфигураций (есть практически на любом хостинге)
  • index.php — дубль главной страницы сайта

Полный (экспериментальный) robots.txt с инструкциями

В связи с тем, что каждый сайт имеет свои особенности:

  • вносились изменения в архитектуру папок сайта
  • имеются ссылки с метками
  • установлены дополнительные плагины или реализован нестандартный функционал

Поэтому я планирую следить за этим и дорабатывать файл под нужды большинства вебмастеров.


User-agent: *               # правила для всех роботов
Disallow: /cgi-bin          # папка на хостинге
Disallow: /manager/         # авторизация
Disallow: /assets/          # папка с системными файлами MODX
Disallow: /core/            # папка с системными файлами MODX
Disallow: /connectors/      # папка с системными файлами MODX
Disallow: /index.php        # дубли страниц index.php
Disallow: *?*               # ссылки с get-параметрами
Disallow: *utm*=            # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Disallow: *from=            # ссылки с метками from
Allow: *?page=              # открываем для индексации страницы пагинации

# Указываем один или несколько файлов Sitemap
Sitemap: https://site.ru/sitemap.xml
Sitemap: https://site.ru/sitemap2.xml
  
Локтев Алексей
Конфигурационные файлы популярных CMS

Заказать обратный звонок