И так, в этот раз хотел бы рассказать о небольшой проблемке, возникшей на одном из моих сайтов. А случилось следующее, Google умудрился «съесть» https-версию сайта, мало того, он выбрал основным зеркалом https-морду. Стоит ли говорить, что позиции сайта после такого нежелательного увеличения дублей (а https версия сайта была точной копией http версии, и собственно не предназначалась для поисковых ботов) просели.
Первым делом иду смотреть что посоветует сам Google… google.com/support/webmasters
[su_note note_color=»#feecc3″]Для каждого порта должен быть создан собственный файл robots.txt. В частности, если используются протоколы http и https, для каждого из них потребуются отдельные файлы robots.txt. Например, чтобы разрешить поисковому роботу Google индексировать все страницы http и запретить сканировать https, файлы robots.txt должны выглядеть так, как описано ниже.
Для протокола http (http://server.ru/robots.txt):
User-agent: * Allow: /
Для протокола https (https://server.ru/robots.txt):
User-agent: * Disallow: /[/su_note]
Но что делать если http и https-файлы сайта лежат в одной папке?
В данной ситуации на помощь придет файл .htaccess — создаем для сайта два файла robots.txt, первый файл будет содержать все необходимые для нормальной индексации сайта инструкции, а второй будет полностью запрещать индексацию — Disallow: / — как и рекомендует Google. Второй файл мы назовем robots-https.txt, а в .htaccess запишем такие строки:
[su_note note_color=»#feecc3″]RewriteEngine on
RewriteCond %{HTTPS} on
RewriteRule ^robots\.txt$ robots-https.txt[/su_note]
Что это значит на практике? При обращении поискового робота к сайту через http паук получает стандартный файл robots.txt, а при обращении через https-порт поисковый бот получит файл robots-https.txt в котором полностью запрещена индексация сайта.
После проведения описанной выше процедуры на третьи сутки все https-страницы моего сайта из базы Google исчезли. Надеюсь кому-нибудь пригодится этот небольшой опыт
Спасибо, очень вовремя эта публикация, у меня на одном из интернет магазинов аналогичная проблема была
Спасибо!
Весьма актуально..правда, для тех, кто в основном создаёт сайты «вручную», без помощи скажем конструкторов сайтов.
Семен, а позиции сразу вернулись?
2 Kostya, вернулись на третий день, но весь этот процесс совпал с апдейтом Гугла и поэтому точно оценить момент возврата позиций сложно, вполне возможно, что без апдейта пришлось бы дольше ждать возврата позиций, но https-страницы исчезли из индекса действительно на третий день
спасибо, не могли бы Вы написать статью как скрывать счетчики от индексации, чтобы меньше было исходящих ссылок. Мне рекомендовали через js, только как
>написать статью как скрывать счетчики от индексации
В этом нет никакой необходимости, так как «утекание» веса по исходящим ссылкам пренебрежительно мало…
Ребята подскажите пожалуйста. Сайт новый — гугл сожрал две версии с www и без, я хотел бы что бы в индексе странички были без www, как запретить индексацию всех страниц с www ?
Редирект сделать со страниц с www на станицы без www (301-й редирект)
Сделал и разобрался, большое спасибо
RewriteRule ^robots.txt$ robots-https.txt
В данной строке нужен символ «»? Просто сделал все как написано без него (советовали на форуме), https страницы все еще в индексе у гугла. Может быть причина в этом?
2Vasiliy111 проверяется всё очень просто — попробуйте открыть ваш файл robots.txt через https соединение, например вот так https://www.google.ru/robots.txt и если вы видите, что при таком обращении роботс открывается запрещающий — значит всё правильно сделано!
Вы знаете проверил, открывается страница:
404 File not found.
А должно же быть:
User-agent: * Disallow: /
Значит ошибка в инструкциях в .htaccess
либо на хостинге не обрабатывается сам файл .htaccess
У меня есть другие редиректы, работающие, — проблема в хостинге отпадает!
наверное ошибки в .htaccess!?
Тогда только в нём, может где-то, что-то конфликтует, если есть другие редиректы, я не силён в модреврайте, так что советовать не стану