Как убрать внутренние ссылки /?replytocom=

Доброго времени суток друзья! С недавнего времени заметил, что индексация моего сайта www.abisab.com прекратилась, причем и в Google и в Яндексе (на момент написания статьи - буквально неделя прошла, я всегда слежу за индексацией). Обращаю внимание на то, что контент оригинальный. Не задавая вопроса сервисам этих поисковых систем решил разобраться сам. Начал я с самого начала, что должен знать вебмастер в начале «своего пути».

Я всегда использую «метод исключения» перебирая возможные проблемы, итак: с начала я решил проверить количество внешних и внутренних ссылок и в очередной раз мой метод меня не подвел — проблема сразу выявилась. Как Вы все знаете для того, чтобы проверить количество внешних и внутренних ссылок, можно воспользоваться сервисом www.dinews.ru/seo/ и в появившемся окне, пишем название сайта и нажимамем кнопку анализировать:
replytocom проверка
Ожидаем некоторое время и получаем ответ на запрос:

Как убрать внутренние ссылки
Как убрать внутренние ссылки replytocom

У меня на сайте обнаружилось таких ссылок ?replytocom= 186 штук на главной странице, что уже не допустимо (должно примерно в этих рамках от 80-120, желательный предел).

Все дело оказалось в древовидных комментариях. Я на своих сайтах не отключал древовидные комментарии (так, как пользователям удобнее отслеживать тему комментария).
Параметры -> Обсуждение:
Древовидные комментарии
При нажатии на кнопку «ответить» в комментарии, создается такая же страница как и без этого комментария — происходит дублирование контента (страницы), из-за чего сайты попадают под фильтры АГС, также на сайте www.cy-pr.com при просмотре статистики видно, что Google загоняет под фильтры большое количество страниц, поэтому просто необходимо убрать лишние внутренние ссылки.

Для того, чтобы узнать есть у вас такие ссылки на сайте вводим в строке браузера Google -> site:abisab.com replytocom, причем там где стоит название abisab.com надо написать имя Вашего сайта, получаем ответ:
replytocom в поисковой выдаче

Нажимаем на -> повторить поиск, включив опущенные страницы — от увиденного я был в шоке... (без комментариев).
site abisab.com replytocom
Решить данную проблему можно такими способами:
1. Использовать плагин Replytocom Redirector, но по отзывам — данный плагин (на момент написания статьи) не справляется со своей задачей и не выполняет необходимую функцию «редирект».
2. Удалить URL адреса из поисковой выдачи Google эти страницы и только после этого запретить древовидные комментарии, причем необходимо выполнить это именно в таком порядке, почему именно так в этой статье.
3. В файле robots.txt надо добавить записи:
— Disallow: /*?replytocom
— Disallow: /*?*
Причем нижняя запись из всех присутствовала на сайте в файле robots.txt (на момент написания статьи). Логически понятно, что записи Disallow: /*?replytocom и Disallow: /*?* отличаются не только визуально, но и функционально. По этой причине и говорят, что Google не реагирует на эти записи. Google в поисковой выдаче обычно пишет: описание веб-страницы недоступно из-за ограничений в файле robots.txt. С поисковиком Яндекс проблем не возникает и контент не дублируется, если прописать эти строчки в robots.txt.

) Прежде, чем приступить к пункту 3б) необходимо удалить URL адреса из поисковой выдачи Google эти страницы, об этом в этой статье.

) Что касается Google, то здесь в настройках вебмастера https://www.google.com/webmasters/tools/ нужно выбрать необходимый сайт, если у Вас их несколько, затем переходим во вкладку конфигурация и Параметры URL:

Добавление параметра replytocom в вебмастер google

Нажимаем «добавление параметра»

Информация от Google: Используйте эту функцию, только если вам точно известно, как тот или иной параметр влияет на работу вашего сайта. Если вы по ошибке запретите Google сканировать URL с определенными параметрами, значительная часть страниц вашего сайта может пропасть из результатов поиска

Далее для того, чтобы полностью исключить появление дублирование контента от комментариев делаем так, как на рисунке ниже:
Добавление параметра replytocom в вебмастер

Никакие URL. Робот Googlebot не будет сканировать URL с выбранным параметром. В частности, если выбрать настройку, при которой робот Googlebot не сканирует URL с параметрами pricefrom

Надеюсь теперь у Вас не вызовут трудности слова — как убрать внутренние ссылки, причем не обязательно /?replytocom.

Всем хорошей и своевременной индексации.


Понравилась статья? Поделиться с друзьями:
Комментариев: 44
  1. Эллина

    Спасибо за информацию. Быстренько проверила свой сайт — слава Богу, все в порядке.

  2. Светлана

    Спасибо за информацию. Завтра с утра обязательно проверю ссылки.

  3. Татьяна

    Спасибо, вечером всё пересмотрю...

  4. Любовь

    Спасибо. Обязательно проверю.

  5. Всеволод

    Очень нужные рекомендации для тех, кто хочет реально продвинуть свой сайт. Спасибо!

  6. Андрей

    Проверил свой сайт, гугл нашел 98 таких ссылок. Причем некоторые нерабочие , при переходе по ссылке попадаешь на страницу ошибки 404. Наверное на днях займусь этим вопросом. Спасибо за совет.

    1. Страницы выдающие ошибку 404 можешь не трогать, они уберутся спустя некоторое время.

  7. Татьяна

    Статья очень полезная, беру в закладки, обязательно нужно проверить свой сайт. Спасибо большое за доступную информацию.

  8. Алексей Виноградов

    Проверился, у меня было только это Disallow: /*?*, но в выдаче replytocom отсутствует.

  9. Алексей Виноградов

    Ещё раз посмотрел, в выдаче replytocom есть, но гугл пишет что содержимое запрещено в robots.txt. Я так полагаю ничего менять не надо, если проблем нет и гугл понимает что это запрещено в robots.txt, для этого же этот файл и нужен.

    1. Сейчас я тестирую код (на другом сайте), который позволит правильно индексировать страницы гуглу, не смотря на запреты выставленные в robots.txt. Чтобы запрещенные адреса даже не выводились при введении — site:abisab.com replytocom.

      Алексей, если ты заметил, то получается при каждом древовидном комментарии, у тебя заново «рождается» такая же страница и не смотря на запрет в robots.txt, они индексируются, просто гугл пишет: мы убрали похожие статьи или адреса (но они есть). А это в свою очередь наводит меня на мысль, что данный факт все же сказывается на индексации и продвижении.

  10. Алексей Виноградов

    Я понимаю так, что гугл видит эти ссылки, т.е. как бы знает что они есть но он их не индексирует, поэтому проблем быть не должно. JonyIt уже месяц обещает написать статью на эту тему, где напишет ВСЮ ПРАВДУ :)

    1. В принципе согласен (логично все). Я общался с одним человеком, у которого сайт на вордпресс и количество про индексированных страниц гуглом и яндексом примерно одинаковое, вот его код тестирую сейчас, результаты жду, поэтому сейчас конкретно ответить не могу поэтому поводу.

      1. Татьяна

        Владислав, как результаты? Вы тестируете на этом сайте или на другом? Говорят тестировать нужно долго с полгода((( Я тоже вставила код и жду. Результата пока ноль.

        1. Тестирую на другом сайте, результаты уже есть, еще немного терпения...)

  11. Ксения

    Для корректной работы сайта нужно много всяких моментов учитывать. Я когда только начинала работу над своим сайтом, узнала что древовидные комментарии — это плохо и сразу их отключила.

    1. Да, Ксения — есть такой момент, но он решаемый. В новом проекте я более подробно опишу данную тему.

  12. Антон Куклинский

    Благо, что я в самом начале правильный robots.txt поставил. Сейчас проверил, все нормально.

    1. У меня вопрос, почему у Вас Host: wpnew.ru? Тут, должен стоять Ваш сайт.

  13. Наталья

    Владислав, я заметила, что эта статья у вас в двух категориях

    WordPres и SEO. Надо срочно убрать из одной. Поисковики за плагиат принимают.

    1. Для этого в robots.txt есть запись — Disallow: /category/*/*

  14. Татьяна

    Вот и я заметила, чем больше разница в количестве про индексированных страниц Гуглом и Яшей, чем хуже индексация сайта. Нужно срочно начинать чистить «сопли» иначе в них можно погрязнуть и доиграться до фильтра.

  15. Татьяна

    Владислав, у меня 500 ненужных URL. Можно ли их удалять все сразу( одна за одной) или лучше это сделать на протяжении нескольких дней?

    1. Можно все, но для начала Вы должны прописать в robots.txt запрещающий параметр, чтобы они впредь больше не появлялись и там же в robots.txt запретить удаляемый url — по правилам удаления гугла, только после этого Вы можете удалить url.

      1. Татьяна

        Ничего не поняла( В статье «Как удалить URL» Вы пишете: "Прежде, чем удалять параметры URL и полностью запрещать поисковому роботу обращаться к внутренним ссылкам страниц содержащих: /?replytocom=, следует обязательно удалить из поисковой выдачи — эти страницы содержащие /?replytocom= "

        Владислав, помогите разобраться что вначале нужно сделать? Удалить URL с поисковой системы или в роботе. txt прописать запрещающий параметр?

        1. Татьяна, для начала пропишите в robots.txt вот эти параметры:

          Disallow: */?replytocom=

          Disallow: /*?replytocom=

          Disallow: */*?replytocom=

          Этим действием Вы запретите индексирование дублированных страниц, после этого действия Вы можете удалить дублированные страницы, через сервис: www.google.com/webmasters/tools/

  16. Татьяна

    Владислав, спасибо Вам огромное, за подробное разжевывание. А то я совсем заблудилась, как в лабиринте. Как же трудно быть чайником...

    1. Пожалуйста — Татьяна. На новом проекте я напишу статью: методы назначения канонических версий страниц.

      1. Татьяна

        Вы знаете, Владислав, сейчас для меня «методы назначения канонических версий страниц» это просто набор слов. Возможно, когда я прочитаю Вашу статью, то разберусь о чем речь и с чем его едят. Зато, так через годик, буду возвращаться на Ваш сайт, перечитывать свои комменты и с улыбкой вспоминать, каким я была чайником в начале своего пути...

        1. Татьяна, разберетесь обязательно. Я не пишу о том, что не освоил. Простым человеческим языком — объясняю сложные и простые нюансы... ;)

      2. Галина Грабовая

        Влад! У меня 146 внутренних ссылок. что с ними делать?

        1. Желательно от них избавиться, но Гугл не включает их в поисковую выдачу, просто говорит, что это дублированный контент. А Яндекс игнорирует благодаря записи в robots.txt — Disallow: /*?*.

          Для Гугла желательно прописать:

          Disallow: */?replytocom=

          Disallow: /*?replytocom=

          Disallow: */*?replytocom=

  17. Татьяна

    Владислав, хочу поздравить Вас с праздником 23 ФЕВРАЛЯ!

    Желаю здоровья, успеха, терпения и побед!

    Владислав, я убрала все внутренние ссылки на странице site:/мой сайт/ replytocom , но разбежность в индексации Яндекса и Гугла осталась еще большой примерно 100/500 Где мне еще искать дубли? Ведь индексация должна быть примерно одинаковой, или я ошибаюсь?

    1. Татьяна, за поздравления спасибо. Индексация должна быть примерно одинаковой. Прошу Вас дождаться статьи по этому поводу. Я обязательно ее допишу — она в процессе.

      1. Татьяна

        Договорились, отлаживаю это дохлое дело до выхода статьи)))

  18. Светлана

    Спасибо огромное, мне мешает большое количество внутренних ссылок работать на ссылочных биржах. В закладки определила, буду разбираться на досуге.

    1. Приходите Светлана, чем можем — поможем.

  19. Юрик

    Подскажите пожалуйста, а такое как tag и page, можно так же удалить. Они ведь «рождают» дубли?!

    1. Можно при помощи robots.txt, можно при помощи плагинов.

  20. Николай

    А почему посетителям не рассказать обо всех параметрах создания дубль страниц, таких как: tag, commetnts,page,attachment,category,feed. Ведь не только древовидные комментарии создают дубли страниц.

    1. Ваша ссылка в комментарии была битая, поставьте правильную ссылку. Если информация будет актуальна, я размещу ее в комментарии.

  21. Влад

    Подскажите пожалуйста! Если предложенная Вами программа, для анализа внутренних ссылок, определила на сайте rs1.com.ua 195 ссылок, но среди них нет REPLYTOCOM, зато там много дублированных и не понятных ссылок! Как их удалить и где они лежать?

    Буду очень благодарен за инфу, неделю не могу решить вопрос!

    1. Нужно сделать правильные записи в robots.txt, запрещающие индексацию определенных страниц. Посмотрел Ваш robots, там у Вас не указано имя основного сайта, чтобы не было «зеркала».

  22. Евгений

    Спасибо! Очень полезная информация!

Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: