Дубли страниц. Как найти и удалить дубли страниц на сайте

Главная / Оптимизация / Дубли страниц. Как найти и удалить дубли страниц на сайте

Дата: 3 октября 2012

Всем привет, уважаемые читатели блога disseo.ru. В данной статье я рассмотрю очень важный вопрос, который определит будущее развитие ресурса и успех в его продвижении. Поговорим с вами о таком понятии, как дубли страниц на сайте или WordPress блоге. А так же подробно рассмотрим вопросы касающиеся поиска дублей страниц и их удаление.

Дубли страниц

На сегодняшний день различают два вида дублей страниц на сайте — полные (четкие) и нечеткие.

Полный (четкий) дубль — это страницы на одном сайте или блоге, которые содержат полностью идентичный (одинаковый) контент, но имеют различные URL адреса.

Не полный (нечеткий) дубль — это страницы, которые имеют или содержат в себе много одинакового контента, но они не полностью одинаковые и имеют различные URL адреса.

Их наличие может привести к ухудшению индексации, читайте пост “Почему сайт не индексируется поисковыми системами”, проседанию позиций в поисковой выдаче и к наложению фильтров.

Появление дублей страниц на сайте может быть обусловлено различными причинами.

Технические недоработки. Что включает в себя наличие битых ссылок, файл robots.txt, создание карты сайта и настройка sitemap.xml, использование фреймов и flash меню, а так же настройка 301 редиректа.
Ошибки оптимизатора. Влияние на поисковые машины и черная seo оптимизация.
Автоматические дубли страниц. Многие CMS системы способный автоматически создавать дубли страниц на сайте без участия оптимизатора или веб — разработчика. Среди них WordPress (анонс) и Joomla.

А теперь, уважаемые читатели, я предлагаю рассмотреть, как найти или осуществить поиск дублей страниц на сайте.

Как найти дубли страниц на сайте

Существует множество бесплатных способов, основанных как на использовании Яндекс и Google, так и с применением программных инструментов, которые анализируют доменное имя. Начну, пожалуй, с самых простых и трудоемких.

Яндекс. Первоочередное что вам необходимо сделать, так это открыть Яндекс и пройти меню «Расширенный поиск».

В открывшемся окне, в поле «Я ищу» необходимо скопировать фрагмент текста из статьи, которую вы подозреваете в дублировании и вставить его туда, предварительно окружив «Кавычками». В строке «На сайте» укажите доменное имя и нажать на кнопку «Найти».

Если будут найдены дубли страниц, то результат поиска будет содержать более одного ответа.

Google. Так же, как и в предыдущем способе, копируете фрагмент текста в «кавычках» и вставляем в окно поиска Google, через пробел от текста напишите следующую строку:

Site:examplesite.ru

Обратите внимание на изображение ниже, чтобы избежать лишних вопросов.

Если найдутся дубли страниц, то они появятся в выдаче. Переходим от простых и примитивных способов к использованию специализированных инструментов.

Как найти дубли страниц с помощью СайтРепорт

Помимо использования Яндекс и Google, можно воспользоваться специальным сервисом по анализу сайтов СайтРепорт. Для того, чтобы им воспользоваться, для начала необходимо на него перейти и зарегистрироваться. Далее в строку поиска введите адрес вашего ресурса и нажмите на кнопку «Анализировать», предварительно поставив «Переключатель» в строку "Бесплатная диагностика сайта".

Далее программа перекинет вас в «Заказ нового анализа», на которой нажмите по ссылке «Статус и ход выполнения».

Теперь в окне «Мои проекты» вы можете следить за происходящим. После того, как все завершится, нажмите на «Автоматический отчет», чтобы узнать результаты.

В следующем оконце, чтобы узнать о том, есть ли у вас на ресурсе дублированный контент, нужно перейти во вкладку «Отчет по анализу контента» расположенную слева и прокрутить окно вниз, для того чтобы появилось следующее.

Так же с помощью сервиса СайтРепорт можно осуществлять анализ конкурентов.

Как удалить дубли страниц на сайте

На данный момент я знаю 4 действенный способа того, как удалить дубли страниц на сайте и сейчас я вам о них расскажу.

1. Ручное удаление. Вы находите дубликат и удаляете его так, как описано в посте «Как удалить страницу из поиска».

2. Канонический тег. Тег rel=”canonical”, указывает поисковым машинам, какая из записей или постов будет участвовать в поиске. Сделать, это можно предварительно настроив плагин All in One Seo Pack.

3. Директива Disallow. На мой взгляд, это один из лучших приемов, для того чтобы удалить дубли страниц с сайта. Например, если дублированные статьи находятся в какой то определенной директории, а это вы поймете, проанализировав их адрес, то можно закрыть эту директорию в robots.txt.

Disallow: / название директории

4. 301 редирект. В этом случае затрагивается проблема отображения блога в выдаче с www и без www. Подробнее об этом, вы можете прочитать в моем блоге.

Если у вас возникнут какие-нибудь вопросы о том, как найти и удалить дубли с сайта, то обращайтесь с комментариями. Чем смогу, тем помогу. А так же, не забывайте подписываться на обновление блога.

С уважением, Дороднов Иван!

(6 голос, средний: 4,33 из 5)

Loading ...

Twitt

Запись имеет метки: Анализ, Оптимизация

К записи "Дубли страниц. Как найти и удалить дубли страниц на сайте" 15 комментариев

Светлана:

06.10.2012 в 2:35 пп

Здравствуйте, а у меня указанный сайт не выдает отчет, пишет доступно для проверки 0 страниц. Пойду ручным способом выявлять дубли.
Светлана:

06.10.2012 в 2:35 пп

Здравствуйте, а у меня указанный сайт не выдает отчет, пишет доступно для проверки 0 страниц. Пойду ручным способом выявлять дубли.
Светлана:

06.10.2012 в 2:35 пп

Здравствуйте, а у меня указанный сайт не выдает отчет, пишет доступно для проверки 0 страниц. Пойду ручным способом выявлять дубли.
Иван:

06.10.2012 в 4:31 пп

Светлана, проверьте ход выполнения действий. Если, что то не получится напишите адрес проверяемого сайта и почту, на которую выслать ссылку с отчетом о дулях страниц на сайте
Светлана:

06.10.2012 в 6:24 пп

Иван, я все правильно вожу, просто у вас на картинке изначально при бесплатной услуге стоит до 100 страниц, а у меня изначально пишет 0 страниц. Вот и разница. Скажите, я нашла причину дублей — у меня оказывается куда-то пропал файл роботс. Я установила новый, потом дубли страниц в яндексе на удаление отправила в общем все по вашим статьям. Только мне яндекс пишет, что не может удалить так как роботс не запрещал их индексировать, значит нужно ждать индексации файла роботс?
Irina Lion:

06.10.2012 в 6:42 пп

Иван, дублей у меня нет, но при проверке у меня выдаются, благодаря плагину постраничной навигации вот такие адреса http:// адрес блога.../page/1.htm, подскажите, как от этого избавиться? В роботсе прописывала и так, и так, все равно, блин, индексируются.
Иван:

07.10.2012 в 10:28 дп

Его необходимо добавить в панель «Вебмастер» и там же проверить на ошибки.
Иван:

07.10.2012 в 10:30 дп

Добавить строку Disallow: /page/ и дождаться переиндексации
Николай Василенко:

10.02.2013 в 8:50 пп

Хмм... Интересный у вас блог. Возник такой вопрос, а что если картинки повылазили в индексе. Типа сайт.ruстатьякартинка.jpg Сейчас такую хню нашел на сайте и не знаю что делать с ними.
Disseo:

11.02.2013 в 6:50 дп

Николай, это же замечательно, здесь речи о дублях страниц не идет, наоборот, теперь вы можете получать трафик по поиску изображений. Если вам это интересно, то прочитайте статью:

disseo.ru/optimizaciya/op...zobrazhenie.html

Если наоборот не хотите, чтобы картинки висели в индексе, то можно закрыть их через Robots.txt, написав примерную строчку:

Disallow: /wp-content/uploads
Елена:

09.10.2014 в 10:34 дп

У меня тоже вопрос по дублям. Что надо сделать, чтобы сайт автоматически не создавл дубли. Вы писали, что мнгие CMS умеют автоматически создаавть дубли, как сделать так, чтобы они не создавались автоматически.
Ivanushkka:

11.10.2014 в 4:28 пп

К сожалению, никак. можно их только закрывать по средствам Robots.txt или файла .htaccess
Николай:

20.12.2014 в 5:23 дп

Как я понимаю, дубликаты не исчезают сразу. На них закрывают вход для робота через robots.txt для индексации и делают редирект в .htaccess.
Андрей:

30.01.2015 в 4:57 пп

Сайт Репорт дает не корректные данные. в анализе ответов сервера выдал по половине страниц ошибку 503. при проверке руками в вебмастере яндекса все проверяемые страницы дали нормальный ответ сервера 200. плюс сайт использует устаревшие данные по позициям сайта в яндексе и гугле. Отчет показывает позиции, которые были у сайта три недели назад. а хотелось ыб получать актуальные данные
Ivanushkka:

13.03.2015 в 8:48 дп

Не могу отвечать за этот сайт в полной мере. Данный портал отображает среднюю позицию запроса для вашего сайта. На сколько вам известно, Яндекс и Гугл меняют выдачу практически ежедневно.

Дубли страниц. Как найти и удалить дубли страниц на сайте

Дубли страниц

Как найти дубли страниц на сайте

Как найти дубли страниц с помощью СайтРепорт

Как удалить дубли страниц на сайте

Навигация

В этой же рубрике:

К записи "Дубли страниц. Как найти и удалить дубли страниц на сайте" 15 комментариев

Давай! Оставить свой комментарий

Подписаться:

Популярные записи:

Для читателей: