Файл robots.txt для блога
Добрый день, уважаемые читатели блога disseo.ru.
Сегодня я хотел поговорить с вами об очень актуальной теме для всех начинающих блоггеров. Речь пойдет о неком файле, который называется Robots.txt. В начале создания сайта или блога, начинающие вебмастера либо совершенно не знают о его существовании, либо забывают о нем, либо просто составляют его неправильно. В сегодняшнем посте я постараюсь представить полную картину о том, что такое файл robots.txt? Как его правильно составить? И как его скормить поисковым системам? И так, начнем!
Это файл, который распологается в основной папке вашего блога(например в папке /public_html). Он содержит в себе инструкции (рекомендации) для роботов поисковых систем ( например инструкцию для робота Googlebot от Гугла). С помощью этого многозначительного файла можно, как запретить, так и разрешить индексацию как всего блога, так и определенных страниц и разделов, указать основное(главное) зеркало, а так же прописать путь к Sitemap (Карта сайта). Полезность Robots.txt можно наблюдать на примере закрытия от индексации технических разделов. Если технические или служебные страницы открыть для индексации, то поисковая система исключит из индекса эти страницы. Файл robots.txt cлучайно может закрыть и полезные страницы вашего блога, что вполне негативно может сказаться его на дальнейшем продвижении.
Как создать файл robots.txt?
Создать файл Robots.txt можно с помощью обычного блокнота, разрешите по рекомендовать вам Notepad++, либо Akelpad, которые имеют ряд преимущест перед обычным блокнотом. Далее, его нужно переместить в корень вашего блога. а конкретнее в папку «/public_html», которая распологается на хостинге. Первое, что делает робот, который приходит от поисковой системы (например Googlebot), когда приходит на ваш ресурс, то начинает чтение этого файла.
КАК НАСТРОИТЬ ROBOTS.TXT?
Для того, чтобы настроить Robots.txt, мы будем использовать 3-и основные директивы.
1. User-agent
При помощи этой директивы, мы будем давать указания на то, какая поисковая системы может индексировать наш ресурс.
Например:
User-agent:Yandex
Либо, при помощи значка «*», можем разрешить индексацию для все возможных роботов. Например:
User-agent:*
2. Следующей основопологающей директивой, является Dissalow.
Dissalow — это команда, которая указывает роботу, который пришел от поисковика, какие страницы закрыты от него для индексации. Например, если мы пропишем следующие строки:
User-agent:*
Dissalow:/
То, мы запретим индексацию абсолютно всех страниц, разделов, папок и категорий ресурса. А если немного изменить эти строки, например:
User-agent:*
Dissalow:
то мы автоматически разрешим, чтобы в индекс попали абсолютно все страницы, разделы, папки и категории блога.
3. Директива Allow — разрешение.
Это директива, которая разрешит индексацию всех элементов, которые в ней указаны. А вот теперь поговори о том, что же нам необходимо запретить,а что разрешить для сканирования роботом. Страницы, которые в будущем могут навредить нашему блогу, создавая дубляж и скапливая мусор должны попасть под запрет. В первую очередь в их число попадут служебные, технические и системные файлы. А конкретнее:
— wp-content/
— wp-admin/
— wp-includes/
— wp-pass.php
— wp-login.php
— wp-register.php
Естественно, все что находится в папках «wp-content», «wp-admin», «wp-includes» можно и не запрещать, то есть делать исключение, на какую нибудь вложенную папку ли файл. Например, у нас имеется папка «wp-content», в ней вложена папка «uploads», в которой в свою очередь содержатся все картинки и изображения, которые присутствуют на вашем ресурсе. Большинство из этих изображений оригинальны. А для того, чтобы на ваш сайт приходили посетители не только по поиску статей, но и по поиску изображений, то я советую добавить эту папку в список разрешенных для проверки роботом. Как это сделать?
При закрытие каталогов от проверки, нужно указать все файлики, которые в нем содержутся, например:
Disallow: /wp-content/languages
Disallow: /wp-content/upgrade
Disallow: /wp-content/themes
Ту папку, которая не будет указана для закрытия, будет автоматически проверена и проиндексирована. Либо можем использовать директиву Allow, например:
Allow: /wp-content/uploads
Важным моментом является запрет дублей страниц, который осуществляется следующим образом:
В ленте RSS:
Disallow: /feed/
Disallow: */feed
В Трэкбэках:
Disallow: /trackback
Disallow: */trackback
Для комментариев:
Disallow: */comments
Для результатов поиска:
Disallow: /*?*
Disallow: /*?
Для категорий:
Disallow: /category/*/*
Я приведу вам в пример готовый robots.txt, который уже сейчас можно смело ставить на сайт и пользоваться. Ах да, я совсем забыл вам сказать об одной вещи. Как сделать так, чтобы поисковая система нашла файл robots.txt? Для этого, вам нужно составить собственный роботс.тхт или можете скопировать готовый, который находится чуть ниже.
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/cache
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/cache
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: disseo.ru
Sitemap: https://disseo.ru/sitemap.xml
Sitemap: https://disseo.ru/sitemap.xml.gz
Не забудьте за место моего блога, указать свой.
Переместить его в главную папку вашего ресурса. У меня это «/public_html» и отдать на съедение Яндексу, Гуглу и им подобным, путем добавления его в Инструметах вебмастера. Обратите внимание на изображения ниже:
Для Яндекса, форма добавления выглядит следующим образом.
Для Google, форма добавления выглядит следующим образом.
На этом у меня все! А чтобы не пропустить выход новых статей, советую
А в конце поста, я советую вам посмотреть познавательное видео.
С уважением, Дороднов Иван!
Навигация
Предыдущая статья: ← С чего начать раскрутку нового сайта или блога
Следующая статья: Отображение блога в поисковых системах →
В этой же рубрике:
Понравилась статья? Получайте свежие уроки прямо на email или подпишитесь на RSS ленту блога!
Полезный совет. А нужно ли / как скрывать /скрыть такое: сайт.ру/2012/08??
А то в яндекс вебмастере показывается, что это вот про индексировалось: сайт.ру/2012/08.
То есть как я понимаю архив в индексацию влез?
Данная ссылка относится к архивам. Их действительно лучше закрыть в файле Robots.txt при использовании директории disallow
А как их закрыть, чтобы сразу все месяцы и года скрылись от индексации?
Вместо годов поставьте звездочки: 20**
Спасибо за ответ.
Ещё один вопрос:
Некоторые почему-то не закрывают Disallow: /comments то есть комментарии. Не подскажите когда имеет смысл не закрывать их?
Закрываются от индексации ссылки оставляемые в комментариях (спасение о ручного спама). Сам текст не закрывается. Зачем данная строка еще нужна, не знаю — совет поисковых систем
Мне кажется dofolloy сайты и блоги вообще ничего не закрывают, потом, если у вас плагины стоят, закрывающие ссылки в комментариях, то видимо в robots поэтому и не закрывают. Хотя я могу ошибаться.
Меня интересует разница между
Disallow: /comments и
Disallow: */comments.
Зачем 2 раза в разных интерпретациях ставить? Это что: сам коммент и ответ на коммент или что?
Надо ли разрешать индесацию комментариев. Если да, то как прописать правильно все, что связано с комментариями (что и как запретить, что и как разрешить?)
Надо ли разрешать индесацию комментариев. Если да, то как прописать правильно все, что связано с комментариями (что и как запретить, что и как разрешить?)