файл robots.txt

Добрый день, уважаемые читатели блога disseo.ru.

Сегодня я хотел поговорить с вами об очень актуальной теме для всех начинающих блоггеров. Речь пойдет о неком файле, который называется Robots.txt. В начале создания сайта или блога, начинающие вебмастера либо совершенно не знают о его существовании, либо забывают о нем, либо просто составляют его неправильно. В сегодняшнем посте я постараюсь представить полную картину о том, что такое файл robots.txt? Как его правильно составить? И как его скормить поисковым системам? И так, начнем!

Это файл, который распологается в основной папке вашего блога(например в папке /public_html). Он содержит в себе инструкции (рекомендации) для роботов поисковых систем ( например инструкцию для робота Googlebot от Гугла). С помощью этого многозначительного файла можно, как запретить, так и разрешить индексацию как всего блога, так и определенных страниц и разделов, указать основное(главное) зеркало, а так же прописать путь к Sitemap (Карта сайта). Полезность Robots.txt можно наблюдать на примере закрытия от индексации технических разделов. Если технические или служебные страницы открыть для индексации, то поисковая система исключит из индекса эти страницы. Файл robots.txt cлучайно может закрыть и полезные страницы вашего блога, что вполне негативно может сказаться его на дальнейшем продвижении.

Как создать файл robots.txt?

Создать файл Robots.txt можно с помощью обычного блокнота, разрешите по рекомендовать вам Notepad++, либо Akelpad, которые имеют ряд преимущест перед обычным блокнотом. Далее, его нужно переместить в корень вашего блога. а конкретнее в папку «/public_html», которая распологается на хостинге. Первое, что делает робот, который приходит от поисковой системы (например Googlebot), когда приходит на ваш ресурс, то начинает чтение этого файла.

Создание робота

КАК НАСТРОИТЬ ROBOTS.TXT?

Для того, чтобы настроить Robots.txt, мы будем использовать 3-и основные директивы.
1. User-agent
При помощи этой директивы, мы будем давать указания на то, какая поисковая системы может индексировать наш ресурс.
Например:

User-agent:Yandex

Либо, при помощи значка «*», можем разрешить индексацию для все возможных роботов. Например:

User-agent:*

 

2. Следующей основопологающей директивой, является Dissalow.
Dissalow — это команда, которая указывает роботу, который пришел от поисковика, какие страницы закрыты от него для индексации. Например, если мы пропишем следующие строки:

User-agent:*
Dissalow:/

То, мы запретим индексацию абсолютно всех страниц, разделов, папок и категорий ресурса. А если немного изменить эти строки, например:

User-agent:*
Dissalow:

то мы автоматически разрешим, чтобы в индекс попали абсолютно все страницы, разделы, папки и категории блога.

3. Директива Allow — разрешение.
Это директива, которая разрешит индексацию всех элементов, которые в ней указаны. А вот теперь поговори о том, что же нам необходимо запретить,а что разрешить для сканирования роботом. Страницы, которые в будущем могут навредить нашему блогу, создавая дубляж и скапливая мусор должны попасть под запрет. В первую очередь в их число попадут служебные, технические и системные файлы. А конкретнее:

— wp-content/
— wp-admin/
— wp-includes/
— wp-pass.php
— wp-login.php
— wp-register.php

Естественно, все что находится в папках «wp-content», «wp-admin», «wp-includes» можно и не запрещать, то есть делать исключение, на какую нибудь вложенную папку ли файл. Например, у нас имеется папка «wp-content», в ней вложена папка «uploads», в которой в свою очередь содержатся все картинки и изображения, которые присутствуют на вашем ресурсе. Большинство из этих изображений оригинальны. А для того, чтобы на ваш сайт приходили посетители не только по поиску статей, но и по поиску изображений, то я советую добавить эту папку в список разрешенных для проверки роботом. Как это сделать?

При закрытие каталогов от проверки, нужно указать все файлики, которые в нем содержутся, например:

Disallow: /wp-content/languages
Disallow: /wp-content/upgrade
Disallow: /wp-content/themes

Ту папку, которая не будет указана для закрытия, будет автоматически проверена и проиндексирована. Либо можем использовать директиву Allow, например:

Allow: /wp-content/uploads

Важным моментом является запрет дублей страниц, который осуществляется следующим образом:

В ленте RSS:
Disallow: /feed/
Disallow: */feed
В Трэкбэках:
Disallow: /trackback
Disallow: */trackback
Для комментариев:
Disallow: */comments
Для результатов поиска:
Disallow: /*?*
Disallow: /*?
Для категорий:
Disallow: /category/*/*

Я приведу вам в пример готовый robots.txt, который уже сейчас можно смело ставить на сайт и пользоваться. Ах да, я совсем забыл вам сказать об одной вещи. Как сделать так, чтобы поисковая система нашла файл robots.txt? Для этого, вам нужно составить собственный роботс.тхт или можете скопировать готовый, который находится чуть ниже.

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/cache
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/cache
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: disseo.ru
Sitemap: http://disseo.ru/sitemap.xml
Sitemap: http://disseo.ru/sitemap.xml.gz

Не забудьте за место моего блога, указать свой.

Переместить его в главную папку вашего ресурса. У меня это «/public_html» и отдать на съедение Яндексу, Гуглу и им подобным, путем добавления его в Инструметах вебмастера. Обратите внимание на изображения ниже:

Для Яндекса, форма добавления выглядит следующим образом.

файл robots.txt

Для Google, форма добавления выглядит следующим образом.

google-robots.txt

На этом у меня все! А чтобы не пропустить выход новых статей, советую подписаться на E-mail рассылку новых статей.

А в конце поста, я советую вам посмотреть познавательное видео.

С уважением, Дороднов Иван!

Поделиться в соц. сетях

0

Получайте свежие посты прямо на E-mail: