Ускорение индексации сайта с помощью файла robots.txt

19 Янв 2013 в 21:11

робот-паук

Каждый владелец сайта очень хочет,  чтобы его детище, имею ввиду сайт, индексировался поисковыми роботами.

И чтобы у вашего сайта не возникало проблем с поисковыми роботами-пауками при индексации страниц и постов, необходимо очень грамотно создать файл robots.txt. Именно с помощью этого файла владелец сайта указывает, как вести роботу-пауку поисковой системы у него на сайте. В тексте этого файла можно указать правила поведения как для роботов всех поисковых систем, так и для конкретного.

Вывод: наличие файла robots.txt обязательно для каждого сайта.

Для просмотра содержимого файла robots.txt на любом сайте, необходимо в адресной строке Интернет обозревателя ввести доменное имя сайта с обязательным правым слэшем ("/") в конце, потом название файла "robots.txt". Для моего блога этот адрес будет выглядеть так: "http://vdemchenko.com/robots.txt" .

Для создание файла robots.txt необходимо открыть новое окно в блокноте и наполнить его определенным директивами, которые будут понятны для поисковых роботов-пауков.

Структура записи одной строки имеет вид:

[Директива][двоеточие][пробел][значение]

При заполнении файла robots.txt необходимо соблюдать некоторые правила:

  • Недопустимо наличие пустых строк между директивами 'User-agent' и 'Disallow' ('Allow'), а также между самими директивами  'Disallow' ('Allow').
  • Каждая директива начинается с новой строки.
  • Перед каждой директивой 'User-agent' необходимо вставлять пустую строку. То есть, если в файле несколько блоков директив для разных поисковых систем, то между блоками допускается ТОЛЬКО ОДНА пустая строка.
  • В значениях директив возможно применение символов:
    • * - для обозначения любой последовательности символов, в том числе и  пустой. 
    • $' - т.к. по умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*', то для отмены '*' в конце правила, необходимо использовать спецсимвол '$'.
    • ? - для обозначения определенного количества последовательности символов (по количеству ?). 
Директивы файла robots.txt 
Директивы Расшифровка Пример
User-agent Начало блока для поискового робота.Для указания роботам всех поисковых систем значение директивы должно быть равно "*"  User-agent: *
 Crawl-delay Для указания минимального промежутка времени между обращениями индексирующего робота к страницам сайта (в секундах)  Crawl-delay: 4
 Disallow Запрет на индексацию.  Указываются те страницы, которые не подлежат индексации
 Host Для указания доменного имени (без http:// и только в блоке для Яндекса)
Host: vdemchenko.com
 Sitemap  Для указания карты сайта       Sitemap: http://vdemchenko.com/sitemap.xml
 Allow  Разрешение на индексацию. Указываются те страницы, которые подлежат индексации

 

Директива Allow используется не часто. Целесообразнее использовать директиву  Disallow для запрета на индексацию.

1. Простой пример файла robots.txt для робота Яндекса на индексацию всего сайта:

User-agent: Yandex
Disallow:

2. Пример полного файла robots.txt для блогов на WordPress:

User-agent: *
Crawl-delay: 4
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*

User-agent: Yandex
Crawl-delay: 4
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: [Ваше-доменное-имя]

Sitemap: http://[Ваше-доменное-имя]/sitemap.xml.gz
Sitemap: http://[Ваше-доменное-имя]/sitemap.xml

В примере нижеуказанные директивы:

Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*

запрещают индексирование трэкбэков и фидов.

Crawl-delay: 4 - Правило, которое не учитывается Googlebot

При индексации страниц и постов блога проблемы могут возникнуть именно из-за этого файла. У меня был случай, когда подруга, сама того не зная, в этом файле запретила роботам заходить на свой сайт. Лучше проверить этот файл. 

Теперь заполненный файл сохраняете на своем компьютере под именем robots.txt. И потом сохраненный файл заливаете на хостинг в главный каталог сайта через файл менеджер управления файлами Вашего хостинга или через FTP!

Именно с помощью файла Robots.txt возможно повлиять на ускорение индексации своего сайта поисковыми системами. Поэтому очень важно его правильно настраивать. 

Буду благодарна за комментарий!

Буду благодарна, если Вы поделитесь этой статьей:

0

Рубрики: 2. Сайт своими руками

Обсуждение
Отзыв vasiliy 22 января 2013

В свое время перечитал много информации по этому поводу. Но если разобраться, ничего сложного нет.

[Ответить]

Валентина Ответил(а):

а я сейчас застряла, как сделать, чтобы роботы не заходили на одну страницу блога. Пишлось разбирать команду meta name=»robots» content=»noindex,nofollow» />, но она блокирует весь контент. А вот сделать, чтобы только одну страницу, сейчас ломаю голову. ПХП то я не знаю… Еще не знаю… обложилась учебниками..Пытаюсь разобраться..

[Ответить]

Ваш отзыв