Запрет индексации https страниц с помощью .htaccess

Автор Семён ЛупановОпубликовано 25 мая, 2007Обновлено 25 мая, 2007

И так, в этот раз хотел бы рассказать о небольшой проблемке, возникшей на одном из моих сайтов. А случилось следующее, Google умудрился «съесть» https-версию сайта, мало того, он выбрал основным зеркалом https-морду. Стоит ли говорить, что позиции сайта после такого нежелательного увеличения дублей (а https версия сайта была точной копией http версии, и собственно не предназначалась для поисковых ботов) просели.

Первым делом иду смотреть что посоветует сам Google… google.com/support/webmasters

[su_note note_color=»#feecc3″]Для каждого порта должен быть создан собственный файл robots.txt. В частности, если используются протоколы http и https, для каждого из них потребуются отдельные файлы robots.txt. Например, чтобы разрешить поисковому роботу Google индексировать все страницы http и запретить сканировать https, файлы robots.txt должны выглядеть так, как описано ниже.

Для протокола http (http://server.ru/robots.txt):

User-agent: * Allow: /

Для протокола https (https://server.ru/robots.txt):

User-agent: * Disallow: /[/su_note]

Но что делать если http и https-файлы сайта лежат в одной папке?

В данной ситуации на помощь придет файл .htaccess — создаем для сайта два файла robots.txt, первый файл будет содержать все необходимые для нормальной индексации сайта инструкции, а второй будет полностью запрещать индексацию — Disallow: / — как и рекомендует Google. Второй файл мы назовем robots-https.txt, а в .htaccess запишем такие строки:

[su_note note_color=»#feecc3″]RewriteEngine on

RewriteCond %{HTTPS} on
RewriteRule ^robots\.txt$ robots-https.txt[/su_note]

Что это значит на практике? При обращении поискового робота к сайту через http паук получает стандартный файл robots.txt, а при обращении через https-порт поисковый бот получит файл robots-https.txt в котором полностью запрещена индексация сайта.

После проведения описанной выше процедуры на третьи сутки все https-страницы моего сайта из базы Google исчезли. Надеюсь кому-нибудь пригодится этот небольшой опыт

Комментарии: 16

Наталья 25 мая, 2007 в 4:40 дп

Спасибо, очень вовремя эта публикация, у меня на одном из интернет магазинов аналогичная проблема была

Ответить
1. Alex 22 декабря, 2014 в 9:22 дп
  
  Спасибо!
  
  Ответить
Natali 30 мая, 2007 в 1:00 дп

Весьма актуально..правда, для тех, кто в основном создаёт сайты «вручную», без помощи скажем конструкторов сайтов.

Ответить
Kostya 30 мая, 2007 в 5:50 дп

Семен, а позиции сразу вернулись?

Ответить
Семён Лупанов (автор) 30 мая, 2007 в 6:08 дп

2 Kostya, вернулись на третий день, но весь этот процесс совпал с апдейтом Гугла и поэтому точно оценить момент возврата позиций сложно, вполне возможно, что без апдейта пришлось бы дольше ждать возврата позиций, но https-страницы исчезли из индекса действительно на третий день

Ответить
PROKOP 15 августа, 2007 в 6:42 пп

спасибо, не могли бы Вы написать статью как скрывать счетчики от индексации, чтобы меньше было исходящих ссылок. Мне рекомендовали через js, только как

Ответить
Семён Лупанов (автор) 15 августа, 2007 в 6:48 пп

>написать статью как скрывать счетчики от индексации

В этом нет никакой необходимости, так как «утекание» веса по исходящим ссылкам пренебрежительно мало…

Ответить
Serg 31 октября, 2007 в 6:44 пп

Ребята подскажите пожалуйста. Сайт новый — гугл сожрал две версии с www и без, я хотел бы что бы в индексе странички были без www, как запретить индексацию всех страниц с www ?

Ответить
Семён Лупанов (автор) 31 октября, 2007 в 6:56 пп

Редирект сделать со страниц с www на станицы без www (301-й редирект)

Ответить
Serg 31 октября, 2007 в 9:45 пп

Сделал и разобрался, большое спасибо

Ответить
Vasiliy111 31 июля, 2012 в 1:24 пп

RewriteRule ^robots.txt$ robots-https.txt

В данной строке нужен символ «»? Просто сделал все как написано без него (советовали на форуме), https страницы все еще в индексе у гугла. Может быть причина в этом?

Ответить
Семён Лупанов (автор) 31 июля, 2012 в 1:58 пп

2Vasiliy111 проверяется всё очень просто — попробуйте открыть ваш файл robots.txt через https соединение, например вот так https://www.google.ru/robots.txt и если вы видите, что при таком обращении роботс открывается запрещающий — значит всё правильно сделано!

Ответить
Vasiliy111 31 июля, 2012 в 2:41 пп

Вы знаете проверил, открывается страница:
404 File not found.

А должно же быть:
User-agent: * Disallow: /

Ответить
Семён Лупанов (автор) 31 июля, 2012 в 2:43 пп

Значит ошибка в инструкциях в .htaccess
либо на хостинге не обрабатывается сам файл .htaccess

Ответить
Vasiliy111 31 июля, 2012 в 2:48 пп

У меня есть другие редиректы, работающие, — проблема в хостинге отпадает!
наверное ошибки в .htaccess!?

Ответить
Семён Лупанов (автор) 31 июля, 2012 в 2:54 пп

Тогда только в нём, может где-то, что-то конфликтует, если есть другие редиректы, я не силён в модреврайте, так что советовать не стану

Ответить

Добавить комментарии