индексация страниц с get параметрами

👀 Директива Clean-param & Get-параметров

С помощью Get-параметров на сайте создается структура, которая отвечает на интерес пользователя (покупателя). Чаще всего это фильтрация-сортировка по различным критериям – цене, объему, весу и т д товаров.

Примеры страниц с параметрами GET

Вот пример классической страницы с Get:

Для навигации это удобно, но в интернет-магазине плодятся дубли, что не есть хорошо и заканчивается критической ошибкой в Яндекс Вебмастере.

Решение проблемы от Clean-param

Решается проблема в файле robots.txt, но ошибочно сразу ставить:

И добавлять директивы:

Дубли закроются от индексации, но это не идеальное решение. Лучше использовать для запрета таких ссылок директиву Clean-param, так как она, в отличии от директивы Disallow, позволяет эффективно передать показатели страниц с незначащими GET-параметрами основным страницам.

Проще говоря, Disallow тупо обрежет страницы для индекса, а Clean-param избавит от дублей, но сохранит за основными страницами параметры Get от их навигационных дублей.

Также при этом повышается эффективность обхода сайта и его индексации ботом Яндекса, что есть плюшка, особенно, если интернет-магазин годный и имеет много товаров и страниц навигации.

Можно к прочему использовать и rel=»canonical», но даже поддержка Яндекса голосует за Clean-param, а они видят мир с более высокой горы знаний.

Редактируем robots.txt

Итак, будем использовать Clean-param, но как прописать директиву в robots?

В нашем примере надо использовать конструкцию:

Они очистит все страниц с get-параметром view=.

Под первым символом & перечисляются параметры, которые роботу не нужно учитывать, под вторым указывается префикс пути страниц, для которых нужно применить правило.

Пример директивы:

Clean-param: sid /index.php

И так далее по шаблону.

Решение актуально для сайтов на сервисе Мегагрупп

Источник

Ошибка Я. Вебмастера: найдены страницы дубли с GET-параметрами — что делать

Дубли страниц могут приводить к потери позиций в поисковой выдаче и снижать скорость индексации. Стоит понимать, что у поискового робота есть определенный лимит запросов к домену в день. Поэтому существует вероятность того, что он потратит все лимиты на сканирование мусорных страниц и не доберется до страниц с уникальным контентом.

О наличии проблемы с дублированным контентом свидетельствует сообщение в панели Вебмастера: «Найдены страницы дубли с GET параметрами». В своем сообщении Яндекс информирует вебмастера о том, что на некоторых страницах сайта размещен одинаковый контент, различающийся только гет-параметрами.

индексация страниц с get параметрами

Что такое get-параметры на сайте

Если в поиске есть дублированные страницы из-за гет-параметров, Яндекс предлагает воспользоваться правилом Clean-param в robots.txt (правило действительно только для Яндекс, Google его не воспринимает).

В результате использования Clean-param поисковый робот Яндекса объединяет сигналы с дублированных страниц на основной. После того, как краулер узнает обо всех произошедших изменениях, страницы с не имеющими значение гет-параметрами исчезнут из поисковой выдачи.

Как использовать Clean-param

Для понимания того, как используется Clean-param, стоит привести простой пример. Существуют дубли страницы со следующими гет-параметрами:

Чтобы в результатах поиска учитывалась только основная страница http://mysite.ru/cat/auto/nissan/, нужно задать правило Clean-param в файле robots.txt:

User-agent: Yandex
Clean-param: sort&order /cat/auto/nissan/

Как использовать Disallow

Избавиться от страниц-дублей с GET-параметрами можно, используя директиву Disallow. Для примера возьмем те же страницы-дубли:

Чтобы в результатах поиска учитывалась только основная страница http://mysite.ru/cat/auto/nissan/, нужно задать правило в файле robots.txt:

User-agent: *
Disallow: *?sort=
Disallow: *&order=

Также можно закрыть от индексации ВСЕ Get-параметры одним правилом?
User-agent: *
Disallow: *?

Будьте осторожны! Используйте директиву Disallow очень внимательно, чтобы случайно не закрыть от индексации нужные страницы (например, не используйте правило, если карточки товара или категории в обязательном порядке содержат get-параметр в url).

Источник

Найдены страницы-дубли с GET-параметрами

индексация страниц с get параметрами

Нет времени читать статью?

Но вам требуется продвижение сайта или создание сайта-лидера, идеального для SEO? Тогда вы можете оставить заявку на продвижение или заявку на создание сайта. Если вы собираетесь продвигать сайт самостоятельно — продолжайте чтение!

У сайта появились дубли страниц, которые мешают ему продвигать и создают проблемы: идет снижение индексации, ранжирования. Каждый день поисковая система индексирует определенный сайт и у него есть свой лимит к домену в сутки. Когда все лимиты уходят на мусорные страницы и URL, становится обидно, потому что качественные страницы с уникальным контентом остались в стороне.

Как узнать есть ли дубли на сайте? Например, в вебмастере Яндекс появилось сообщение: «Найдены страницы дубли с GET параметрами». Это значит, что поисковая система передает информацию владельцам сайтам, что контент есть на разных страница, а он одинаковый везде.

индексация страниц с get параметрами

Что такое get-параметры на сайте

GET параметры в URL — специальные динамические параметры, которые позволяют изменять контент на страницах сайта. Часто находится в URL адресе сразу же после «?» и может разделяться «&». Часто владельцы сайтов интернет магазинов используют GET запросы и параметры для фильтров на сайте, либо для сортировки.

Как избавиться от ошибки — Найдены страницы дубли с GET-параметрами

Простой и рабочий способ избавиться сейчас от таких дублей внести правки в ваш файл Robots.txt, через директорию и правила Clean-param или Disallow.

Если вы видите, что у вас появились дубли (дублированные страницы) из-за GET параметров, то Яндекс предлагает сделать вам правило Clean-param, которое будет действовать именно для Яше.

Это позволит поисковому роботу понять и объединить страницы, которые являются дублями. Если произошли изменения, тогда бот сможет их проверить и убрать лишний мусор из поиска.

Как использовать Clean-param

Как правильно использовать Clean-param, ниже будет небольшой пример сайта магазина. Например у нас на сайте есть такие дубли:

Чтобы запретить индексацию этих сортировок и фильтров, нужно добавить в robots.txt следующее:

User-agent: Yandex
Clean-param: sort&order /cat/auto/nissan/

sort&order – это уникальные параметры, которые могут меняться и требуют учета;
/cat/auto/nissan/ — это категория разделах, и те которые начинаются с /cat/auto/nissan/.

Как использовать Disallow

Другой проверенный способ избавиться от дублей с GET-параметрами можно, используя директиву Disallow. Опять же берем те же адреса, что выше в примере.

Задаем правило в файле robots.txt:

Как полностью закрыть все параметры GET одной строкой?

Однако нужно понимать, что если вы полностью закроете все страницы от индексации, иногда есть специальные страницы, которые могут быть обязательны.

Однако способами выше вы сможете решить проблему в Вебмастере Яндексе, гугле.

Источник

С лета 2021 года Яндекс.Вебмастер стал информировать вебмастеров о наличии на сайтах страниц-дублей с GET-параметрами, причем помечается эта проблема как критичная, что многих пользователей приводит в ужас. Здесь мы расскажем что это за проблема и как от нее избавиться проще всего.

Что же такое GET-параметр — это динамический параметр в URL, с помощью которого возможно изменение содержимого документа. Самым частым примером URL с GET-параметром в интернет магазинах являются страницы пагинации, например, site/category?page=2 или сортировки, например, site/category?sotr=abc. page и sort являются параметрами. Таких параметров может быть бесконечное множество. Они могут генерироваться как изнутри самим сайтом (CMS), так и снаружи, например, добавляя UTM-метки для рекламных компаний вы создаете дубли страниц для поисковых систем.

Для этого Яндекс даже выпустил собственный подробный гайд.

Но он не раскрывает все методы, не рассказывает об их сильных и слабых сторонах и не описывает как эффективно комбинировать разные способы. Сначала мы опишем основные методы по отдельности, с их достоинствами и недостатками, а в конце самый эффективный способ комбинирования их.

В файл robots.txt добавить директиву Clean-param с перечислением всех возможных GET-параметров через амперсанд, например, для страниц site/category?page=2 и site/category?sotr=abc Clean-param: page&sort

Кроме исключения дублей из поисковой базы, директива позволяет эффективно передавать параметры со страницы с GET-параметром на страницу без него.

1. Так как GET-параметров может быть бесконечное количество, вам придется отслеживать появление новых параметров в поисковой выдаче и периодически обновлять директиву, поэтому способ подходит для небольших сайтов, либо для сайтов, которые генерируют мало GET-параметров.

2. Данная директива работает только для поисковой системы Яндекс.

3. Ограничение в 500 символов, при всем желании, не даст перечислить абсолютно все параметры в одной директиве.

Проставлять на страницах с GET-параметром атрибут с указанием URL канонической страницы, например, для site/category?page=2 тег будет выглядеть так

Такой способ тоже позволяет передавать параметры страницы, но менее эффективно.

Является не строгим правилом для поисковых систем, поэтому значительная часть страниц может без проблем попадать в поисковую базу.

Как использовать:
В файле robots.txt прописать директиву Disallow: *?*, чтобы закрыть от индексации абсолютно все страницы с GET-параметрам. Более жесткое правило для поисковых роботов, поэтому достаточно эффективно убирает дубли страниц из поисковой выдачи.
Недостатки:

1. Не позволяет передавать параметры на нужную страницу.

2. Полностью исключает посещение поисковым роботом закрытых страниц.

Не передает параметры страницы.

Сделав это раз вам больше не будет нужно мониторить появление новых дублей с GET-параметрами. Лучше всего комбинировать два метода Метатег robots и rel=canonical. Каждый из них будет дополнять друг-друга и компенсировать недостатки, а именно, canonical будет передавать все параметры со страницы с GET на основную, при этом, noindex будет более строгим правилом, что позволит сократить количество дублей страниц до минимума. Кроме того, оба этих способа работают для всех поисковых систем, а не только для Яндекс.

Чтобы внедрить данный метод к себе на сайт можно либо поставить ТЗ на разработку и разместить теги на всех страницах с GET-параметром (или только на нужных, либо поискать для своих систем управления готовые решения, например, на CMS Webasyst/Shop-Script есть несколько плагин, которые позволяют автоматизировать процесс простановки тегов по определенным условиям.

Источник

Плодятся страницы с GET-параметрами

Здравствуйте! Возникли проблемы со страницами, которые генерирует фильтр. В url содержится сначала числовые значения (13 цифр), а потом остальная часть запроса, в основном характеристики товаров. Предлагаю несколько примеров таких url:

Возникло два вопроса: 1) Что является источником этих url?

2)Как решить данную проблему?

Заранее благодарю участвующих!

6 ответов

Скорее всего фильтр и является источником, а параметр с цифрами скорее всего для обхода кеширования. Проблемы не вижу, максимум можете запретить ненужные параметры в robots

1) сначала закрыть страницы от индексации внедрением метатега robots и link canonical

2) дождаться переиндексации всех страниц

3) затем закрыть их в robots.txt. Я вообще предпочитаю закрывать все страницы с get-параметрами, делая исключение только для «?page=». Универсальный robots.txt, разработанный мной, можно подглядеть здесь.

Мы так и хотели это сделать, но «отловить» эти url не получается, поэтому мы пытаемся понять где генерится эта фигня. Но все равно, большое Вам спасибо за эту информацию!

На мой взгляд, не столь важно как именно роботы находят эти страницы. Сейчас ПСы собирают страницы не только по ссылкам, но и по посещениям страницы. Любой желающий может создать мини-бота, который будет гулять по вашему сайту по любым страницам с любыми get-параметрами, и Яндекс через Яндекс.Метрику «обнаружит» эти страницы и проиндексирует их, если не увидит на это явного запрета.

Мы закрыли их сейчас в robots, а попавшее в поиск удаляем из webmaster, но оказалось, что Google плевал на все robots и требует либо no-index, либо удаления. По этой причине данная проблема у тех, кто столкнется с подобным, будет актуальной, пока не удастся устранить эти страницы совсем.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *