Запрет индексации https страниц с помощью .htaccess

И так, в этот раз хотел бы рассказать о небольшой проблемке, возникшей на одном из моих сайтов. А случилось следующее, Google умудрился «съесть» https-версию сайта, мало того, он выбрал основным зеркалом https-морду. Стоит ли говорить, что позиции сайта после такого нежелательного увеличения дублей (а https версия сайта была точной копией http версии, и собственно не предназначалась для поисковых ботов) просели.

Первым делом иду смотреть что посоветует сам Google… google.com/support/webmasters

[su_note note_color=»#feecc3″]Для каждого порта должен быть создан собственный файл robots.txt. В частности, если используются протоколы http и https, для каждого из них потребуются отдельные файлы robots.txt. Например, чтобы разрешить поисковому роботу Google индексировать все страницы http и запретить сканировать https, файлы robots.txt должны выглядеть так, как описано ниже.

Для протокола http (http://server.ru/robots.txt):

User-agent: * Allow: /

Для протокола https (https://server.ru/robots.txt):

User-agent: * Disallow: /[/su_note]

Но что делать если http и https-файлы сайта лежат в одной папке?

Запрещаем индексацию https версии сайта с помощью .htaccess

В данной ситуации на помощь придет файл .htaccess — создаем для сайта два файла robots.txt, первый файл будет содержать все необходимые для нормальной индексации сайта инструкции, а второй будет полностью запрещать индексацию — Disallow: / — как и рекомендует Google. Второй файл мы назовем robots-https.txt, а в .htaccess запишем такие строки:

[su_note note_color=»#feecc3″]RewriteEngine on

RewriteCond %{HTTPS} on
RewriteRule ^robots\.txt$ robots-https.txt[/su_note]

Что это значит на практике? При обращении поискового робота к сайту через http паук получает стандартный файл robots.txt, а при обращении через https-порт поисковый бот получит файл robots-https.txt в котором полностью запрещена индексация сайта.

.htaccess - запрещаем индексацию https страниц

После проведения описанной выше процедуры на третьи сутки все https-страницы моего сайта из базы Google исчезли. Надеюсь кому-нибудь пригодится этот небольшой опыт

Комментарии: 16
  1. Наталья

    Спасибо, очень вовремя эта публикация, у меня на одном из интернет магазинов аналогичная проблема была

    Ответить
    1. Alex

      Спасибо!

      Ответить
  2. Natali

    Весьма актуально..правда, для тех, кто в основном создаёт сайты «вручную», без помощи скажем конструкторов сайтов.

    Ответить
  3. Kostya

    Семен, а позиции сразу вернулись?

    Ответить
  4. Семён Лупанов (автор)

    2 Kostya, вернулись на третий день, но весь этот процесс совпал с апдейтом Гугла и поэтому точно оценить момент возврата позиций сложно, вполне возможно, что без апдейта пришлось бы дольше ждать возврата позиций, но https-страницы исчезли из индекса действительно на третий день

    Ответить
  5. PROKOP

    спасибо, не могли бы Вы написать статью как скрывать счетчики от индексации, чтобы меньше было исходящих ссылок. Мне рекомендовали через js, только как

    Ответить
  6. Семён Лупанов (автор)

    >написать статью как скрывать счетчики от индексации

    В этом нет никакой необходимости, так как «утекание» веса по исходящим ссылкам пренебрежительно мало…

    Ответить
  7. Serg

    Ребята подскажите пожалуйста. Сайт новый — гугл сожрал две версии с www и без, я хотел бы что бы в индексе странички были без www, как запретить индексацию всех страниц с www ?

    Ответить
  8. Семён Лупанов (автор)

    Редирект сделать со страниц с www на станицы без www (301-й редирект)

    Ответить
  9. Serg

    Сделал и разобрался, большое спасибо :)

    Ответить
  10. Vasiliy111

    RewriteRule ^robots.txt$ robots-https.txt

    В данной строке нужен символ «»? Просто сделал все как написано без него (советовали на форуме), https страницы все еще в индексе у гугла. Может быть причина в этом?

    Ответить
  11. Семён Лупанов (автор)

    2Vasiliy111 проверяется всё очень просто — попробуйте открыть ваш файл robots.txt через https соединение, например вот так https://www.google.ru/robots.txt и если вы видите, что при таком обращении роботс открывается запрещающий — значит всё правильно сделано!

    Ответить
  12. Vasiliy111

    Вы знаете проверил, открывается страница:
    404 File not found.

    А должно же быть:
    User-agent: * Disallow: /

    Ответить
  13. Семён Лупанов (автор)

    Значит ошибка в инструкциях в .htaccess
    либо на хостинге не обрабатывается сам файл .htaccess

    Ответить
  14. Vasiliy111

    У меня есть другие редиректы, работающие, — проблема в хостинге отпадает!
    наверное ошибки в .htaccess!?

    Ответить
  15. Семён Лупанов (автор)

    Тогда только в нём, может где-то, что-то конфликтует, если есть другие редиректы, я не силён в модреврайте, так что советовать не стану

    Ответить
Добавить комментарии