Файл robots.txt помощник в продвижении сайта.

файл robots.txtКак поисковые системы находят информацию для ответа на запросы пользователей? Они пользуются услугами специальных программ, сканирующих каждый сайт для определения его содержания, ключевых слов и т.п. Эти программы называются поисковыми роботами. И когда этот робот находит ваш сайт он начинает скурпулезно, страница за страницей исследовать его. Мало того что это увеличивает нагрузку на сервер, пока сайт молодой и контента мало, это не так уж и страшно. Хуже то, что кроме полезного контента (статьи, картинки) также сканируется и служебная информация, например плагины, элементы управления и т.п.

Что бы избежать этого и помочь роботам просканировать то что нужно и служит файл robots.txt. Это простой текстовый файл, расположенный в корневой директории Вашего сайта, в котором указываются каталоги Вашего сайта, индексация которых нежелательна, а также некоторые другие команды, помогающие поисковым роботам в их нелегком труде.

Давайте рассмотрим структуру данного файла. Начинается он с указания для роботов каких поисковых систем действуют данные правила. Практически для всех поисковых систем этот набор правил одинаков, за исключением Яндекса, но об этом мы поговорим чуть позже. И выглядит это следующим образом:
User-Agent: *
Набор правил действует для всех поисковых роботов, или:
User-Agent:StackRambler
Набор правил для роботов поисковой системы Rambler. В каждой строке файла можно указать только одного поискового робота, или один каталог запрещенный для индексирования, поэтому если правила распространяются для нескольких поисковых роботов, то каждого робота мы указываем в отдельной строке, например:
User-Agent: Googlebot
User-Agent: Aport

Правила для поисковых роботов Google и Aport. Символ «*» — указывает, что правила применяются к роботам всех поисковых систем.

Какие же правила можно установить в данном файле? Какие каталоги нужно исключить из сканирования. И задается это следующей строкой:
Disallow:
В этом файле должна быть хотя бы одна строка с командой Disallow — при отсутствии параметров, роботы воспринимают что каталогов или файлов запрещенных к сканированию на этом сайте нет.
Disallow:/cgi-bin/
Данная команда запрещает сканировать каталог со скриптами, и в самом деле. кому это надо.
Disallow: /index.html
А эта — запрещает сканирование всех файлов index.html. Другими словами если мы запрещаем сканировать каталог, то строка заканчивается символом «/» (слеш), а если файл — то его расширением. Если Вы хотите вообще запретить индексацию Вашего сайта любыми поисковыми роботами, то достаточно в файле robots.txt ввести следующую комбинацию:
User-agent: *
Disallow: /
Для Яндекс есть еще одна команда Host, которая указывает на основной сайт, и выглядит следующим образом:
Host: my_site.com
или
Host: www.my_site.com
кому как нравится. Если для Яндекса не указать какой сайт основной, а какой зеркало, то Яндекс определит это сам, и не всегда лучшим образом.

И в заключение приведу пример файла robot.txt
User-agent: *
Disallow: /news

User-agent: StackRambler
User-agent: Aport
Disallow: /eng
Disallow: /news

 

User-agent: Yandex
Disallow:
Host: my_site.ru

Однако следует заметить что все вышесказанное справедливо для «интеллигентных» роботов. Есть, к сожалению, и такие, которые сканируют все подряд, несмотря на содержание файла robots.txt попросту игнорируя его содержание. И желательно применять некоторые методы безопасности, а именно:

  • при указании в файле robots.txt значимых, закрытых для общего доступа каталогов, переименуйте в этой директории файл index.html, например general.html. И сохраните в этой директории пустой, или содержащий информацию о закрытом доступе к этому каталогу, файл index.html
  • по возможности защитите файл robots.txt паролем
  • при большом объеме Вашего сайта используйте директиву Crawl-delay: — которая ограничивает время пребывания робота на Вашем сайте, не более 2-х сек.
    Crawl-delay: 2

При желании ознакомится более подробно с возможностями файла robots.txt воспользуйтесь материалами Yandex.

4 thoughts on “Файл robots.txt помощник в продвижении сайта.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *