запрет индексации через robots txt

Руководство: как закрыть сайт от индексации в поисковых системах? Работа с файлом robots.txt

На стадии разработки и/или редизайна проекта бывают ситуации, когда лучше не допускать поисковых роботов на сайт или его копию. В этом случае рекомендуется закрыть сайт от индексации поисковых систем. Сделать это можно следующим образом:

Закрыть сайт от индексации очень просто, достаточно создать в корне сайта текстовый файл robots.txt и прописать в нём следующие строки:

User-agent: Yandex
Disallow: /

Такие строки закроют сайт от поискового робота Яндекса.

А таким образом можно закрыть сайт от всех поисковых систем (Яндекса, Google и других).

Как закрыть от индексации отдельную папку? #

Отдельную папку можно закрыть от поисковых систем в том же файле robots.txt с её явным указанием (будут скрыты все файлы внутри этой папки).

User-agent: *
Disallow: /folder/

Если какой-то отдельный файл в закрытой папке хочется отдельно разрешить к индексации, то используйте два правила Allow и Disallow совместно:

User-agent: *
Аllow: /folder/file.php
Disallow: /folder/

Как закрыть отдельный файл в Яндексе? #

User-agent: Yandex
Disallow: /folder/file.php

Как проверить, в индексе документ или нет? #

Проще всего осуществить проверку в рамках сервиса «Пиксель Тулс», бесплатный инструмент «Определение возраста документа в Яндексе» позволяет ввести URL списком. Если документ отсутствует в индексе, то в таблице будет выведено соответствующее значение.

Анализ проведён с помощью инструментов в сервисе Пиксель Тулс.

Как скрыть от индексации картинки? #

Картинки форматов jpg, png и gif могут быть запрещены к индексации следующими строчками в robots.txt:

User-Agent: *
Disallow: *.jpg
Disallow: *.png
Disallow: *.gif

Как закрыть поддомен? #

У каждого поддомена на сайте, в общем случае, имеется свой файл robots.txt. Обычно он располагается в папке, которая является корневой для поддомена. Требуется скорректировать содержимое файла с указанием закрываемых разделов с использованием директории Disallow. Если файл отсутствует — его требуется создать.

При использовании CDN-версии #

Как обращаться к другим поисковым роботам (список) #

У каждой поисковой системы есть свой список поисковых роботов (их несколько), к которым можно обращаться по имени в файле robots.txt. Приведем список основных из них (полные списки ищите в помощи Вебмастерам):

Прочие директивы в robots.txt #

Поисковая система Яндекс также поддерживает следующие дополнительные директивы в файле:

«Crawl-delay:» — задает минимальный период времени в секундах для последовательного скачивания двух файлов с сервера. Также поддерживается и большинством других поисковых систем. Пример записи: Crawl-delay: 0.5

«Clean-param:» — указывает GET-параметры, которые не влияют на отображение контента сайта (скажем UTM-метки или ref-ссылки). Пример записи: Clean-param: utm /catalog/books.php

«Sitemap:» — указывает путь к XML-карте сайта, при этом, карт может быть несколько. Также директива поддерживается большинством поисковых систем (в том числе Google). Пример записи: Sitemap: https://pixelplus.ru/sitemap.xml

Закрыть страницу и сайт с помощью meta-тега name=»robots» #

Также, можно закрыть сайт или заданную страницу от индексации с помощь мета-тега robots. Данный способ является даже предпочтительным и с большим приоритетом выполняется пауками поисковых систем. Для скрытия от индексации внутри зоны документа устанавливается следующий код:

Или (полная альтернатива):

С помощью meta-тега можно обращаться и к одному из роботов, используя вместо name=»robots» имя робота, а именно:

Для паука Google:

Или для Яндекса:

Источник

Запрет индексации в robots.txt

Чтобы убрать весь сайт или отдельные его разделы и страницы из поисковой выдачи Google, Яндекс и других поисковых систем, их нужно закрыть от индексации. Тогда контент не будет отображаться в результатах поиска. Рассмотрим, с помощью каких команд можно выполнить в файле robots.txt запрет индексации.

Зачем нужен запрет индексации сайта через robots.txt

Первое время после публикации сайта о нем знает только ограниченное число пользователей. Например, разработчики или клиенты, которым компания прислала ссылку на свой веб-ресурс. Чтобы сайт посещало больше людей, он должен попасть в базы поисковых систем.

Чтобы добавить новые сайты в базы, поисковые системы сканируют интернет с помощью специальных программ (поисковых роботов), которые анализируют содержимое веб-страниц. Этот процесс называется индексацией.

После того как впервые пройдет индексация, страницы сайта начнут отображаться в поисковой выдаче. Пользователи увидят их в процессе поиска информации в Яндекс и Google — самых популярных поисковых системах в рунете. Например, по запросу «заказать хостинг» в Google пользователи увидят ресурсы, которые содержат соответствующую информацию:

запрет индексации через robots txt

Однако не все страницы сайта должны попадать в поисковую выдачу. Есть контент, который интересен пользователям: статьи, страницы услуг, товары. А есть служебная информация: временные файлы, документация к ПО и т. п. Если полезная информация в выдаче соседствует с технической информацией или неактуальным контентом — это затрудняет поиск нужных страниц и негативно сказывается на позиции сайта. Чтобы «лишние» страницы не отображались в поисковых системах, их нужно закрывать от индексации.

Кроме отдельных страниц и разделов, веб-разработчикам иногда требуется убрать весь ресурс из поисковой выдачи. Например, если на нем идут технические работы или вносятся глобальные правки по дизайну и структуре. Если не скрыть на время все страницы из поисковых систем, они могут проиндексироваться с ошибками, что отрицательно повлияет на позиции сайта в выдаче.

Для того чтобы частично или полностью убрать контент из поиска, достаточно сообщить поисковым роботам, что страницы не нужно индексировать. Для этого необходимо отключить индексацию в служебном файле robots.txt. Файл robots.txt — это текстовый документ, который создан для «общения» с поисковыми роботами. В нем прописываются инструкции о том, какие страницы сайта нельзя посещать и анализировать, а какие — можно.

Прежде чем начать индексацию, роботы обращаются к robots.txt на сайте. Если он есть — следуют указаниям из него, а если файл отсутствует — индексируют все страницы без исключений. Рассмотрим, каким образом можно сообщить поисковым роботам о запрете посещения и индексации страниц сайта. За это отвечает директива (команда) Disallow.

Как запретить индексацию сайта

О том, где найти файл robots.txt, как его создать и редактировать, мы подробно рассказали в статье. Если кратко — файл можно найти в корневой папке. А если он отсутствует, сохранить на компьютере пустой текстовый файл под названием robots.txt и загрузить его на хостинг. Или воспользоваться плагином Yoast SEO, если сайт создан на движке WordPress.

Чтобы запретить индексацию всего сайта:

Добавьте в начало нужные строки.

Источник

Robots.txt и запрет индексации всего сайта

запрет индексации через robots txt

Хотите узнать, как запретить индексацию сайта в robots.txt и с помощью других инструментов? Тогда представленный материал – именно для вас.

Безусловно, владельцы сайтов борются за то, чтобы их ресурс как можно быстрее проиндексировался поисковыми системами. Но бывают случаи, когда необходимо, чтобы поисковый бот на какое-то время не посещал ресурс и не добавлял в свой индекс материалы с вашего web ресурса. Такими случаями могут быть:

Можно закрыть весь сайт целиком или же его отдельные части:

Есть много способов, с помощью которых можно закрыть сайт от индексации. Редактирование файла robots.txt – один из них. Мы рассмотрим этот способ и еще два наиболее популярных и простых.

Как закрыть сайт от индексации для Яндекса, Google и всех поисковых систем в robots.txt

Редактирование файла robots.txt – один из самых надежных и быстрых способов установить этот запрет для поисковых системам на какое-то время или же навсегда. Что для этого нужно сделать:

Запрет индексации в robots.txt сайта можно устанавливать как для конкретных поисковых систем, так и всех поисковиков. Мы рассмотрим разные варианты.

запрет индексации через robots txt

Чтобы закрыть сайт от индексации поисковыми ботами Google, потребуется в файле robots.txt написать следующее:

Для того, чтобы проверить, закрылся ли сайт от индексации, создается аккаунт и добавляется нужный домен в Google Webmaster. Здесь предусмотрена функция проверки.

После этого будут показаны результаты. Если сайт запрещен для индексации, то будет написано «Заблокировано по строке» и указано, какая строка блокирует индексацию. Если же какие-то действия по запрету индексации поисковыми ботами Google были выполнены некорректно, то будет подписано «Разрешено».

Следует учесть, что невозможно с помощью robots.txt поисковой системе Google на 100% запретить индексацию. Это своего рода рекомендация для Гугла, так как он сам решит, выполнять ли ему индексацию отдельного документа, или нет.

Чтобы закрыть материалы сайта от индексации Яндексом, в файле robots.txt нужно ввести следующее:

Для проверки статуса ресурса его нужно добавить в Яндекс Вебмастер, где затем нужно ввести несколько страниц со своего сайта и нажать кнопку «Проверить». Если все получилось, в строке будет высвечиваться надпись «Запрещен правилом».

Можно также установить запрет на индексацию вашего сайта одновременно для всех поисковых систем. Для этого, опять же, открываем файл robots.txt и прописываем в нем такую строку:

Проверка запрета индексации для Гугла и Яндекса выполняется по вышеописанной схеме в Google Webmaster и Яндекс Вебмастер соответственно.

Чтобы увидеть свой файл robots.txt, нужно перейти по адресу Вашдомен.ru/robots.txt. Здесь будет отображаться все, что было прописано. Бывает так, что появляется ошибка 404. Это говорит о том, что было выполнено что-то не так при загрузке своего файла.

запрет индексации через robots txt

Запрет индексации ресурса при помощи панели инструментов

Способ закрытия сайта от индексации с помощью панели инструментов подойдет только для тех ресурсов, которые были сделаны на Вордпресс.

Порядок действий простой и быстрый:

Выполнение данных действий – всего лишь рекомендация для поисковых машин. А то, будут ли индексироваться или не индексироваться материалы ресурса, они решают самостоятельно. В настройках видимости сайта даже присутствует специальная строка: «Поисковые машины сами решают, следовать ли Вашей просьбе». Отметим, что Яндекс обычно «слушается», а Гугл может поступать по своему усмотрению и все равно в некоторых случаях индексировать сайт, несмотря на рекомендацию.

Закрытие сайта от индексации вручную

В исходном коде при закрытии страницы или всего ресурса от индексации появляется строка

Именно эта строка подсказывает поисковым машинам, что не нужно индексировать отдельные материалы или ресурс. Можно вручную в любом месте сайта прописать данную строчку. Главное, чтобы она отображалась на всех страницах.

Этот способ подойдет также для того, чтобы закрыть какой-либо ненужный документ от индексации.

После выполнения обновлений нужно проверить, все ли получилось. Для этого нужно открыть исходный код с помощью клавиш CTRL + U и посмотреть, есть ли в нем нужная строчка. Ее наличие подтверждает успешную операцию по закрытию от индексации. Дополнительно можно осуществить проверку в Яндекс Вебмастер и Google Webmaster.

Итак, мы рассмотрели самые простые и быстрые способы, позволяющие закрыть весь сайт или отдельные материалы ресурса от индексации поисковыми машинами. И, как выяснилось, robots.txt – один из легких и относительно надежных способов.

запрет индексации через robots txt

Проверка индексации сайта онлайн

запрет индексации через robots txt

Методы ускорения индексации сайта в яндексе

запрет индексации через robots txt

Директивы в файле robots.txt

запрет индексации через robots txt

Как использовать robots.txt и кеш Гугла

запрет индексации через robots txt

Быстрая индексация сайта в Гугле

запрет индексации через robots txt

Seo – проверка индексации текста и веса ссылок тест

Источник

Как закрыть сайт от индексации в robots.txt

Есть тысяча и одна причина, почему необходимо отключить индексацию части или всех страниц вашего сайта. Составим подробную инструкцию: как это сделать и какие варианты настроек индексирования сайта доступны.

Итак, в то время как все ресурсы мира гонятся за вниманием поисковых роботов ради вхождения в ТОП, вы решили скрыться от индексирования. На самом деле для этого может быть масса объективных причин. Например, сайт в разработке или проводится редизайн интерфейса.

Обратите внимание: можно запретить индексирование сайта целиком или отдельных его блоков или страниц. Для этого на помощь приходит служебный файл robots.txt.

Когда закрывать сайт целиком, а когда — его отдельные части?

Маленькие сайты-визитки обычно не требуют сокрытия отдельных страниц. Если ресурс имеет большое количество служебной информации, делайте закрытый портал или закрывайте страницы и целые разделы.

Желательно запрещать индексацию так называемых мусорных страниц. Это старые новости, события и мероприятия в календаре. Если у вас интернет-магазин, проверьте, чтобы в поиске не оказались устаревшие акции, скидки и информация о товарах, снятых с продажи. На информационных сайтах закрывайте статьи с устаревшей информацией. Иначе ресурс будет восприниматься неактуальным. Чтобы не закрывать статьи и материалы, регулярно обновляйте данные в них.

Лучше скрыть также всплывающие окна и баннеры, скрипты, размещенные на сайте файлы, особенно если последние много весят. Это уменьшит время индексации в целом, что положительно воспринимается поиском, и снизит нагрузку на сервер.

Как узнать, закрыт ресурс или нет?

Чтобы точно знать, идет ли индексация robots txt, сначала проверьте: возможно, закрытие сайта или отдельных страниц уже осуществлено? В этом помогут сервисы поисковиков Яндекс.Вебмастер и Google Search Console. Они покажут, какие url вашего сайта индексируются. Если сайт не добавлен в сервисы поисковиков, можно использовать бесплатный инструмент «Определение возраста документа в Яндексе» от Пиксел Тулс.

Закрываем сайт и его части: пошаговая инструкция.

Как полностью закрыть сайт в роботс?

Приведем пример закрытия сайта для основных роботов. Все вместе они обозначаются значком *.

запрет индексации через robots txt

Файл robots.txt позволяет закрывать папки на сайте, файлы, скрипты, utm-метки. Их можно скрыть полностью или выборочно. При этом также указывайте запрет для индексации всем роботам или тем из них, кто ищет картинки, видео и т.п. Например, указание Яндексу не засылать к вам поиск картинок будет выглядеть как

запрет индексации через robots txt

Здесь YandexImages — название робота Яндекса, который ищет изображения. Полные списки роботов можно посмотреть в справке поисковых систем.

Как закрыть отдельные разделы/страницы или типы контента?

Выше мы показали, как запрещать основным или вспомогательным роботам заходить на сайт. Можно сделать немного по-другому: не искать имена роботов, отвечающих за поиск картинок, а запретить всем роботам искать на сайте определенный тип контента. В этом случае в директиве Disallow: / указываете либо тип файлов по модели *.расширениефайлов, либо относительный адрес страницы или раздела.

запрет индексации через robots txt

Прячем ненужные ссылки

Иногда скрыть от индексирования нужно ссылку на странице. Для этого у вас есть два варианта.

запрет индексации через robots txt

Данный атрибут рекомендует роботу не принимать ссылку во внимание. В этом случае запрет индексации работает и тогда, когда поисковая система находит ссылку не через страницу, где переход закрыт в HTML-коде.

Как закрыть сайт через мета-теги

Существуют два варианта записи мета-тега.

запрет индексации через robots txt

Указывайте, для каких краулеров сайт закрыт от индексации. Если для всех, напишите robots. Если для одного робота, укажите его название: Googlebot, Яндекс.

Поле “content” из 1 варианта может иметь следующие значения:

Таким образом, можно запретить индексацию содержимого сайта независимо от файла robots.txt при помощи content=”noindex, follow”. Или разрешить ее частично: например, вы хотите не индексировать текст, а ссылки — пожалуйста. Используйте для разных случаев сочетания значений.

Если закрыть сайт от индексации через мета-теги, создавать robots.txt отдельно не нужно.

Какие встречаются ошибки

Логические ошибки означают, что правила противоречат друг другу. Выявляйте логические ошибки через проверку файла robots.txt в панелях инструментах Яндекс.Вебмастер и Google, прежде чем загрузить его на сайт..

Синтаксические — неправильно записаны правила в файле.

Источник

Верные способы закрыть сайт от поисковиков

Чтобы оптимизировать информационный ресурс, можно временно скрыть его от поисковиков. Посторонним пользователям не нужно видеть повторяющуюся или неуникальную информацию, технические данные или дубли страниц.

В этой статье расскажем о пяти основных способов закрытия сайта от индексации.

запрет индексации через robots txt

1. Настройка доступа с использованием WordPress

Метод подойдет вебмастерам, создавшим интернет-портал на базе WordPress. Чтобы закрыть сайт от поисковых систем полностью, откройте панель управления. Далее следуйте по цепочке: Настройки > Чтение > Видимость для поисковиков > Попросить поисковые системы не индексировать сайт > Сохранить изменения.

После этого поисковики сами будут решать, показывать информационный ресурс пользователям или нет. Google может оставить материалы в результатах выдачи по запросам, не обращая внимания на рекомендацию владельца сайта, а Яндекс, как правило, останавливает индексацию данных.

2. Работа с файлом robots.txt

Скрыть весь информационный портал или его часть можно, создав пустой документ в формате txt и дав ему название robots. Файл надо поместить в корневую папку сайта. Читать подробнее о robots.txt.

Чтобы закрыть сайт от всех поисковых систем, в документе надо прописать следующее:

Проверить изменения можно, набрав в адресной строке название домена.ru/robots.txt. Если браузер покажет ошибку 404, то документ находится не корневой папке ресурса.

Запрет на индексацию отдельной папки или файла

Скрыть отдельную папку поможет следующая команда:

User-agent: *
Disallow: /folder/

Закрыть определенный файл можно, указав в команде путь к нему:

User-agent: *
Disallow: /folder/file.php

Остановка индексирования сайта в Яндексе

Остановить индексирование интернет-ресурса в Яндексе можно, сохранив в открытом файле текст:

User-agent: Yandex
Disallow: /

Закрытие сайта от Google

Скрыть информацию только для Google можно, сохранив в robots.txt следующее:

User-agent: Googlebot
Disallow: /

Обращение к другим поисковым системам

Для запрета индексации веб-сайта другими поисковиками, в редактируемом файле в строке user-agent после двоеточия надо указывать имена их поисковых роботов:

Запрет на индексирование картинок

Код для остановки показа картинок зависит от их формата:

User-agent: *
Disallow: *.png
Disallow: *.jpg
Disallow: *.gif

Закрытие поддомена

Заблокировать поддомен, можно, открыв robots.txt в корневой папке поддомена и указав в robots.txt следующее:

Если нужного файла нет, его следует создать самостоятельно.

3. Добавление мета-тега name=»robots»

Мета-тег robots обязателен для соблюдения всеми поисковиками. Чтобы скрыть веб-сайт от индексации, между тегамиинадо вставить кодили.

4. Изменение настроек сервера

Можно попытаться решить проблему через сервер. Если вы не уверены в своих знаниях, лучше обратиться к системному администратору. Действия непрофессионалов могут привести к поломке сайта.

Перед изменением настроек сервера лучше сделать бэкап сайта. Он представляет собой сохранение в отдельном месте всех файлов, баз данных, почты, FTP-аккаунтов и других параметров хостинга. Это позволит вернуть старую версию интернет-ресурса в случае ошибки.

SetEnvIfNoCase User-Agent «^Googlebot» search_bot
SetEnvIfNoCase User-Agent «^Yandex» search_bot
SetEnvIfNoCase User-Agent «^Yahoo» search_bot
SetEnvIfNoCase User-Agent «^Aport» search_bot
SetEnvIfNoCase User-Agent «^msnbot» search_bot
SetEnvIfNoCase User-Agent «^spider» search_bot
SetEnvIfNoCase User-Agent «^Robot» search_bot
SetEnvIfNoCase User-Agent «^php» search_bot
SetEnvIfNoCase User-Agent «^Mail» search_bot
SetEnvIfNoCase User-Agent «^bot» search_bot
SetEnvIfNoCase User-Agent «^igdeSpyder» search_bot
SetEnvIfNoCase User-Agent «^Snapbot» search_bot
SetEnvIfNoCase User-Agent «^WordPress» search_bot
SetEnvIfNoCase User-Agent «^BlogPulseLive» search_bot
SetEnvIfNoCase User-Agent «^Parser» search_bot

5. Использование HTTP заголовка X-Robots-Tag

Директивы для тега X-Robots:

Перед использованием директив надо проверить, распознает ли их нужная поисковая система. Значения, которые распознает Google, более подробно описаны в Search Console.

Яндекс поддерживает директивы, описанные в службе поддержки вебмастера.

Метод дает возможность управлять статичными файлами — теми, которые не нужно обрабатывать серверу (JS, CSS, jpg, png, html, txt и т. д.).

Header set X-Robots-Tag “noindex, nofollow”

Настройка файла с применением PHP

Способ рассчитан на работу с динамическими страницами интернет-ресурса, обрабатываемыми сервером (php, pl, cgi и т. д.), с помощью языка программирования PHP. Он применяется реже, чем X-Robots-Tag.

Для изменения настроек откройте документ index.php, находящийся в корне сайта (папка public_html). В нем между тегамиивставьте строку header «X-Robots — Tag: выбранная директива».

Выводы

Изменение настроек ресурса в WordPress не гарантирует того, что контент не будут показывать в выдаче поисковиков. Команды в файле robots.txt тоже носят рекомендательный характер для роботов. Скрыть веб-сайт можно, добавив тег name=»robots» в HTML-код портала.

Изменять настройки сервера и применять заголовок X-Robots-Tag можно, только если вы уверены в своих знаниях. В противном случае лучше обратиться к профессионалам.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *