Дубли страниц. Как найти и удалить дубли страниц на сайте
Всем привет, уважаемые читатели блога disseo.ru. В данной статье я рассмотрю очень важный вопрос, который определит будущее развитие ресурса и успех в его продвижении. Поговорим с вами о таком понятии, как дубли страниц на сайте или WordPress блоге. А так же подробно рассмотрим вопросы касающиеся поиска дублей страниц и их удаление.
Дубли страниц
На сегодняшний день различают два вида дублей страниц на сайте — полные (четкие) и нечеткие.
Полный (четкий) дубль — это страницы на одном сайте или блоге, которые содержат полностью идентичный (одинаковый) контент, но имеют различные URL адреса.
Не полный (нечеткий) дубль — это страницы, которые имеют или содержат в себе много одинакового контента, но они не полностью одинаковые и имеют различные URL адреса.
Их наличие может привести к ухудшению индексации, читайте пост “Почему сайт не индексируется поисковыми системами”, проседанию позиций в поисковой выдаче и к наложению фильтров.
Появление дублей страниц на сайте может быть обусловлено различными причинами.
- Технические недоработки. Что включает в себя наличие битых ссылок, файл robots.txt, создание карты сайта и настройка sitemap.xml, использование фреймов и flash меню, а так же настройка 301 редиректа.
- Ошибки оптимизатора. Влияние на поисковые машины и черная seo оптимизация.
- Автоматические дубли страниц. Многие CMS системы способный автоматически создавать дубли страниц на сайте без участия оптимизатора или веб — разработчика. Среди них WordPress (анонс) и Joomla.
А теперь, уважаемые читатели, я предлагаю рассмотреть, как найти или осуществить поиск дублей страниц на сайте.
Как найти дубли страниц на сайте
Существует множество бесплатных способов, основанных как на использовании Яндекс и Google, так и с применением программных инструментов, которые анализируют доменное имя. Начну, пожалуй, с самых простых и трудоемких.
Яндекс. Первоочередное что вам необходимо сделать, так это открыть Яндекс и пройти меню «Расширенный поиск».
В открывшемся окне, в поле «Я ищу» необходимо скопировать фрагмент текста из статьи, которую вы подозреваете в дублировании и вставить его туда, предварительно окружив «Кавычками». В строке «На сайте» укажите доменное имя и нажать на кнопку «Найти».
Если будут найдены дубли страниц, то результат поиска будет содержать более одного ответа.
Google. Так же, как и в предыдущем способе, копируете фрагмент текста в «кавычках» и вставляем в окно поиска Google, через пробел от текста напишите следующую строку:
Site:examplesite.ru
Обратите внимание на изображение ниже, чтобы избежать лишних вопросов.
Если найдутся дубли страниц, то они появятся в выдаче. Переходим от простых и примитивных способов к использованию специализированных инструментов.
Как найти дубли страниц с помощью СайтРепорт
Помимо использования Яндекс и Google, можно воспользоваться специальным сервисом по анализу сайтов СайтРепорт. Для того, чтобы им воспользоваться, для начала необходимо на него перейти и
Далее программа перекинет вас в «Заказ нового анализа», на которой нажмите по ссылке «Статус и ход выполнения».
Теперь в окне «Мои проекты» вы можете следить за происходящим. После того, как все завершится, нажмите на «Автоматический отчет», чтобы узнать результаты.
В следующем оконце, чтобы узнать о том, есть ли у вас на ресурсе дублированный контент, нужно перейти во вкладку «Отчет по анализу контента» расположенную слева и прокрутить окно вниз, для того чтобы появилось следующее.
Так же с помощью сервиса СайтРепорт можно осуществлять анализ конкурентов.
Как удалить дубли страниц на сайте
На данный момент я знаю 4 действенный способа того, как удалить дубли страниц на сайте и сейчас я вам о них расскажу.
1. Ручное удаление. Вы находите дубликат и удаляете его так, как описано в посте «Как удалить страницу из поиска».
2. Канонический тег. Тег rel=”canonical”, указывает поисковым машинам, какая из записей или постов будет участвовать в поиске. Сделать, это можно предварительно настроив плагин All in One Seo Pack.
3. Директива Disallow. На мой взгляд, это один из лучших приемов, для того чтобы удалить дубли страниц с сайта. Например, если дублированные статьи находятся в какой то определенной директории, а это вы поймете, проанализировав их адрес, то можно закрыть эту директорию в robots.txt.
Disallow: / название директории
4. 301 редирект. В этом случае затрагивается проблема отображения блога в выдаче с www и без www. Подробнее об этом, вы можете прочитать в моем блоге.
Если у вас возникнут какие-нибудь вопросы о том, как найти и удалить дубли с сайта, то обращайтесь с комментариями. Чем смогу, тем помогу. А так же, не забывайте
С уважением, Дороднов Иван!
Навигация
Предыдущая статья: ← Как удалить канал на Youtube
Следующая статья: Проверяете ли вы свои тексты на водность? →
В этой же рубрике:
Понравилась статья? Получайте свежие уроки прямо на email или подпишитесь на RSS ленту блога!
Здравствуйте, а у меня указанный сайт не выдает отчет, пишет доступно для проверки 0 страниц. Пойду ручным способом выявлять дубли.
Здравствуйте, а у меня указанный сайт не выдает отчет, пишет доступно для проверки 0 страниц. Пойду ручным способом выявлять дубли.
Здравствуйте, а у меня указанный сайт не выдает отчет, пишет доступно для проверки 0 страниц. Пойду ручным способом выявлять дубли.
Светлана, проверьте ход выполнения действий. Если, что то не получится напишите адрес проверяемого сайта и почту, на которую выслать ссылку с отчетом о дулях страниц на сайте
Иван, я все правильно вожу, просто у вас на картинке изначально при бесплатной услуге стоит до 100 страниц, а у меня изначально пишет 0 страниц. Вот и разница. Скажите, я нашла причину дублей — у меня оказывается куда-то пропал файл роботс. Я установила новый, потом дубли страниц в яндексе на удаление отправила в общем все по вашим статьям. Только мне яндекс пишет, что не может удалить так как роботс не запрещал их индексировать, значит нужно ждать индексации файла роботс?
Иван, дублей у меня нет, но при проверке у меня выдаются, благодаря плагину постраничной навигации вот такие адреса http:// адрес блога.../page/1.htm, подскажите, как от этого избавиться? В роботсе прописывала и так, и так, все равно, блин, индексируются.
Его необходимо добавить в панель «Вебмастер» и там же проверить на ошибки.
Добавить строку Disallow: /page/ и дождаться переиндексации
Хмм... Интересный у вас блог. Возник такой вопрос, а что если картинки повылазили в индексе. Типа сайт.ruстатьякартинка.jpg Сейчас такую хню нашел на сайте и не знаю что делать с ними.
Николай, это же замечательно, здесь речи о дублях страниц не идет, наоборот, теперь вы можете получать трафик по поиску изображений. Если вам это интересно, то прочитайте статью:
disseo.ru/optimizaciya/op...zobrazhenie.html
Если наоборот не хотите, чтобы картинки висели в индексе, то можно закрыть их через Robots.txt, написав примерную строчку:
Disallow: /wp-content/uploads
У меня тоже вопрос по дублям. Что надо сделать, чтобы сайт автоматически не создавл дубли. Вы писали, что мнгие CMS умеют автоматически создаавть дубли, как сделать так, чтобы они не создавались автоматически.
К сожалению, никак. можно их только закрывать по средствам Robots.txt или файла .htaccess
Как я понимаю, дубликаты не исчезают сразу. На них закрывают вход для робота через robots.txt для индексации и делают редирект в .htaccess.
Сайт Репорт дает не корректные данные. в анализе ответов сервера выдал по половине страниц ошибку 503. при проверке руками в вебмастере яндекса все проверяемые страницы дали нормальный ответ сервера 200. плюс сайт использует устаревшие данные по позициям сайта в яндексе и гугле. Отчет показывает позиции, которые были у сайта три недели назад. а хотелось ыб получать актуальные данные
Не могу отвечать за этот сайт в полной мере. Данный портал отображает среднюю позицию запроса для вашего сайта. На сколько вам известно, Яндекс и Гугл меняют выдачу практически ежедневно.