индексация pdf файлов яндекс
Катаев Алексей Владимирович
к.э.н., директор ООО «АУП-Консалтинг»
Как запретить индексирование файлов pdf на сайте Яндексом и Гуглом
Зачем запрещать индексирование документов? Какие способы запрета индексации поисковикам бывают? На эти вопросы мы постарались кратко ответить в данной статье.
Зачем закрывать от индексации документы формата pdf, docx, pptx?
Нередко вебмастера размещают на сайтах один и тот же контент в нескольких форматах, включая html, pdf и docx, ориентируясь на переходы пользователей из поисковых систем на html-страницы сайта. Документы же формата pdf, doc (docx), ppt (pptx) индексируются поисковыми системами Google и Яндекс с извлечением текста из этих файлов. И часто происходит ситуация, когда в результатах поиска выдается первым именно pdf файл, а не html-документ с таким же контентом. Казалось бы, что ничего плохого в этом нет. Однако, пользователи могут скачать или просмотреть pdf файл прямо по ссылке с поисковой системы, не переходя при этом на страницы сайта. Не перейдет пользователь на страницы сайта — не увидит рекламу и коммерческие предложения. Это хорошо для вебмастера? Нет!
Другая причина закрытия от индексирования определенных документов заключается в неуникальности материалов. Другими словами, запрещают поисковым системам индексировать не уникальные pdf-документы, которые уже представлены на множестве сайтов.
Способы запрета поисковикам индексировать pdf и другие форматы документов
Как же запретить индексирование таких документов? Способов несколько. Рассмотрим их ниже:
1. Запретить в файле robots.txt папку, в которой лежат pdf-файлы. Способ подходит для большинства роботов поисковых систем. Однако, все файлы для запрета должны лежать в строго отведенных папках (например, «/uploads/pdf/»).
Для этого необходимо прописать в файле robots.txt в секции для всех роботов следующий код
Инструкции, предназначенные для всех роботов, размещаются в секции:
2. В robots.txt прописать инструкцию для запрещения индексирования по маске (регулярному выражению). Например:
Данную запись понимает и поддерживает Яндекс. Для других роботов такая директива может не работать.
3. Если не подходит второй способ, а первый закрывает от индексации вместе с pdf и нужные файлы, тогда следует проводить работу уже со структурой папок на сервере и настройками веб-серверов (Apache, Nginx и др.). К примеру, с помощью синонимов (aliase) для папок (директорий) и перенаправлений (редиректов) можно закрыть от индексирования первым способом только pdf-файлы.
Например, в библиотеке aup.ru требовалось запретить к индексирования файлы pdf, исторически лежащие в той же папке, что и html файлы электронной книги. С помощью редиректов и синонимов решена данная проблема. См., например, http://www.aup.ru/books/m21/ и http://www.aup.ru/books/m21/m21.pdf Для папки «books» сознан синоним «files», и запрос «/books/m21/m21.pdf» перенаправляется на «/files/m21/m21.pdf». Папка же «files» запрещена для индексации первым способом.
4. Организовать выдачу и скачивание pdf-файлов только после регистрации пользователя на сайте или ввода пользователем пароля, кода каптчи и т.п. В данном случае поисковые системы не доберутся до файлов, особенно если путь для скачивания генерируется для каждого пользователя отдельно и имеет ограниченный срок жизни.
5. Суть в том, чтобы использовать для PDF «Using the X-Robots-Tag» в HTTP header документа. В данных тегах можно запретить поисковому работу индексирование конкретного документа.
Оптимизация PDF-файлов для SEO
21.05.2018 Время прочтения: 3 минуты
PDF-файлы сканируются, индексируются и ранжируются в поисковой выдаче (SERP), но когда дело доходит до SEO, о PDF часто забывают. Предлагаем несколько простых шагов, которые помогут ранжировать ваши PDF-файлы по ключевым словам.
Индексация PDF-файлов началась в 2001 году, они имеют собственный тег в поисковой выдаче. SEO-продвижение PDF осуществляется так же, как и оптимизация веб-страниц, если не считать небольшие различия.
Выберите имя, описывающее содержимое файла
Для наилучшей оптимизации PDF-файла название документа должно соответствовать теме, раскрываемой в PDF-документе. Это один из первых элементов, который будут сканировать Google spiders, поэтому релевантное название документа позволит им понять суть его содержимого.
Прежде чем вы определитесь с названием документа, возможно, стоит провести анализ среди конкурентов, чтобы понять, что ищут пользователи. Учитывайте объем поиска.
Также рекомендуется использовать дефисы для разделения слов в имени файла, чтобы избежать символов «%20» между словами в адресе, когда пользователи загружают PDF.
Настройте ссылки
Речь идёт о двух типах ссылок: во-первых, ссылки с вашего сайта на PDF будут сообщать Google, что документ – это релевантный фрагмент контента, который нужно сканировать. Здесь применяется правило соответствующего якорного текста.
Во-вторых, ссылки из самого PDF (логотипы или копии), ведущие на страницы вашего сайта. Преимущество заключается в двух аспектах: так вы не только покажете Google, что PDF соответствует контенту на вашем веб-сайте, но и любые обратные ссылки в PDF затем приведут на страницы вашего сайта через deep links (глубинные, или внешние ссылки). Если для пользователя ваш PDF будет полезен и он захочет разместить его на своем веб-сайте, читатели будут по-прежнему перенаправляться на ваш сайт для получения более подробной информации.
Не забывайте защищать документ, чтобы никто не мог изменить ваши ссылки и заменить их своими.
Оптимизируйте заголовок PDF
Заголовок PDF эквивалентен тегу заголовка HTML, поэтому он будет отображаться в выдаче. Чтобы заголовок не был обрезан, в названии должно быть не более 60 символов. Самые важные ключевые слова должны быть в начале заголовка. Отредактировать заголовок можно в «Настройках документа» в Adobe Acrobat или File –> Info в Microsoft Word.
Поскольку PDF-файлы обычно затрагивают только часть вопроса (темы, проблемы), они имеют тенденцию ранжироваться по long-tail запросам (низкочастотным и низкоконкурентным). Поэтому поисковая оптимизация по ним лучше подходит для PDF-файлов.
Оптимизируйте
Как и в случае с метатегом для обычных страниц, PDF будет отображаться под заголовком в поисковой выдаче. Включите в него главные ключевые слова и проследите, чтобы количество символов не превышало 300. В то же время название должно быть привлекательным и полезным, чтобы повысить кликабельность.
Создайте текстовую копию
Заполните все поля метаданных PDF в настройках
Несмотря на то, что это не факторы ранжирования, дополнительные поля метаданных в PDF-файлах способствуют успешному сканированию. Как изменить метаданные PDF: чем больше данных вы дадите ботам, тем лучше они поймут ваш контент и определят, как его оценивать.
Нужно правильно редактировать метаданные PDF: обязательно добавьте информацию в поля сохранения в «Файл» –> «Свойства» в Adobe Acrobat. Для узнаваемости вашего бренда впишите его в поле автора. Введите ключевые слова в поле ключевых слов.
Свойства документа в Adobe Acrobat
Сделайте то же самое в Word в Document Info.
Свойства документа в Microsoft Word
Оптимизируйте копию
Используйте ключевые слова, которые вы хотите присвоить для всей копии, – в оглавлении, заголовках и параграфах. Первый заголовок должен совпадать с основным заголовком и именем файла.
Оптимизируйте файл для мобильных устройств
Не секрет, что Google предпочитает мобильный оптимизированный контент. PDF-файлы могут быть длинными и сложными для восприятия на маленьком экране, но есть несколько способов упростить чтение с экранов мобильных устройств. Например, выровняйте текст влево, используйте маркированные списки и полужирное начертание, а также.
…сожмите изображения
Скорость загрузки страницы – это фактор ранжирования. PDF-файлы могут содержать довольно много изображений и графиков, поэтому сожмите изображения, прежде чем добавлять их в свой документ. Для этой цели существует несколько онлайн-инструментов, которые вы можете использовать.
Остерегайтесь…
…дублирования контента! Важно, чтобы у вас не было одинакового контента и на веб-странице, и в документе PDF. Для SEO-продвижения в Google это важно: Google не любит дублированный контент и может наказать за это ваш сайт. Как этого избежать: создайте краткое изложение содержимого PDF на вашем веб-сайте, а копируйте его.
Напоследок
PDF-файлы – это уникальные активы для бренда, которые могут выгодно отличить вас от ваших конкурентов, а также привести больше потенциальных клиентов и увеличить продажи. Если вы будете следовать вышеприведенным рекомендациям, SEO ваших PDF пройдёт успешно и файлы будут ближе к верхним позициям на страницах поиска, привлекая внимание бо́льшего количества людей, заинтересованных в том, что вы делаете. Если у вас возникли проблемы с оптимизацией ваших документов, позвоните нашим экспертам по SEO
Индексация pdf файлов яндекс
Россияне могут потерять в «черную пятницу» 300 млн рублей
Email-маркетинг для ресторанного бизнеса: лучшие техники и советы
У кого есть опыт по индексированию PDF? Насколько хорошо яндекс это делает? Учитывается ли ссылочное ранжирование из PDF?
Буду благодарен за любую информацию.
IrokezV:
У кого есть опыт по индексированию PDF? Насколько хорошо яндекс это делает? Учитывается ли ссылочное ранжирование из PDF?
Буду благодарен за любую информацию.
они писали еще несколько лет назад, что вроде как индексируют.
вот тока что посмотрел.
а вот на счет ссылочного сильно сомневаюсь.
Это я знаю. Я спросил
Теория известна всем, мне «мясо» нужно.
Вот немного моего «мяса» 🙂
Как быстро индексирует? Как часто запрашивает эти файлы вновь?
Разница между html и pdf заметна?
И разницы между html и pdf особой не вижу. Более того, в индексации Я ставит эти файлы выше многих html 🙂
Причем xls идет на 1 пункт выше аналога в pdf.
по НЧ хорошо выдаются, да и по СЧ тож неплохо, если конкурентов мало, есть смысл
Имхо, если есть возможность лучше html сделать, а эти все pdf, doc, xls, они грузятся долго, что к неудобству для пользователя приводит.
По дате создания.. если дата и размер файла не изменились, то не индексирует.
Ссылки из XLS и PDF учитывает, а вот на них вроде нет..
Тоже замечал, хотя странно..
м.б. яша думает что спамеры и дорвейщики пока не добрались до пдф-ок и xls-ников😂
Версия для печати
Формат PDF был разработан фирмой Adobe Systems, чтобы решить проблему единства отображения и обработки полиграфической продукции в различных информационных средах (его кроссплатформенность) и довольно успешно справляется с этой задачей и по сегодняшний день. Однако со временем у этого формата появилось и иное предназначение. Универсальность этого формата спровоцировала рост его популярности, а, следовательно, увеличилось и количество публикаций, доступных в этом формате в электронном виде в Интернете.
Изначально файлы формата PDF в сознании многих людей ассоциировались именно с качественным уникальным контентом, т. к. с его помощью часто публиковались и публикуются различные отчёты, доклады, статьи, руководства и другая полезная информация. Конечно, было бы глупо упускать такой источник полезной информации. Со временем все популярные поисковые системы научились индексировать файлы PDF и ранжировать их, что автоматически поставило их наравне с привычными для нас файлами в формате HTML (веб-страницами).
Нам же важно не упустить возможную выгоду и научиться правильно оптимизировать файлы подобного рода для поисковых систем, чтобы обеспечить их лучшую видимость в результатах поиска. Долгое время файлы PDF воспринимались исключительно как файлы-архивы, для открытия которых необходимо было их загружать на компьютер и читать в сторонней программе (Например, в Adobe Reader – программе для просмотра формата PDF ). Так было раньше, сейчас же многое меняется: значительно увеличиваются скорости Интернета, появляются встроенные в браузер плагины для чтения формата PDF, позволяющие просматривать файлы сразу же в браузере. Например, уже сегодня в браузере Opera можно читать файлы PDF прямо на сайте онлайн. А это всё прямое свидетельство того, что популярность этого формата в обозримом будущем будет только расти. Это теперь не только универсальный формат для хранения и редактирования полиграфии, но также и способ передачи информации в Интернете (выполняющий функции обычной веб-страницы).
В этой статье я старался систематизировать информацию, осветив как можно больше фактов, влияющих на индексацию поисковыми системами документов этого формата в Интернете, а также ответив на самые распространённые вопросы, которые возникают у веб-мастеров, использующих эти файлы на своих сайтах.
ПРОГРАММЫ ДЛЯ РАБОТЫ С ФАЙЛАМИ PDF
Не используйте программы типа Photoshop и Illustrator, т. к. после обработки документа на выходе информация превращается в одно большое изображение, текст на котором не распознать поисковым системам. Однако часто случается и то, что у веб-мастера уже есть большое количество PDF-файлов, полученных от заказчика, или же специфика темы на сайте такая, что по ней есть информация в электронном виде только в этом формате. Если у вас именно такой случай, то не отчаивайтесь. Сейчас активно разрабатываются программы, способные распознавать текст на изображениях, что позволяет модифицировать текст на изображениях в обычный текст, который индексируется поисковыми системами. В России довольно успешно распознаванием текстов занимается компания ABYY. К примеру, вы можете воспользоваться их конвертером Abbyy PDF Transformer. Хочу сразу заметить, что это довольно уникальный продукт, аналогов которому почти нет. В его возможности входит конвертирование текста на картинках PDF в текст, способный индексироваться поисковыми системами.
Несколько слов, я думаю, можно сказать и про программы конвертеры. Если же вы решили, что по каким-то причинам формат PDF на сайте вас не очень устраивает, а контент вашего сайта состоит, в основном, из файлов PDF, то у вас есть возможность переконвертировать эти файлы в формат HTML, используя различные бесплатные и платные PDF конвертеры.
Вот небольшой список таких конвертеров:
Теперь, я думаю, самое время поделиться с вами секретами оптимизации файла PDF для поисковых систем.
ИЗОБРАЖЕНИЯ
Не используйте слишком много изображений или изображения большого размера. Картинки хоть и улучшают внешний вид, однако также увеличивается размер файла и время его загрузки. Как и на HTML-странице, если вы поставите много изображений (особенно неоптимизированных), то это потребует больше времени для их загрузки в браузер. Но помимо оптимизации размера изображений PDF-документа, необходимо также оптимизировать и подписи (альтернативный текст) к ним. У каждого изображения документа должна быть своя подпись, как к картинкам обычной HTML-страницы.
РАЗМЕР ФАЙЛА
Нужно всегда помнить, что поисковые системы не индексируют файлы, которые слишком много весят. Например, поисковая система «Яндекс» не будет индексировать файлы весом больше, чем 10 Мб, отсюда следует правило, что файл PDF не может быть больше 10 Мб.
Для оптимизации размера в программе Adobe Acrobat есть специальная функция: Advanced > PDF Optimizer.
Внимание! При создании PDF-документа в любом редакторе обращайте внимание на версию получаемого файла. Рекомендуемая версия – 1.5 и ниже, т. к. такой файл гарантированно будет читаться всеми программами для просмотра PDF и роботами поисковых систем. Формат PDF позволяет оптимизировать также и копию документа, поэтому по возможности оптимизируйте и её.
ТЕКСТ ФАЙЛА
Старайтесь избегать большого количества текста в одном файле PDF, дробите один файл на несколько файлов, причём, линкуйте их ссылками внутри каждого такого документа (так, как бы вы это делали с обычными HTML-документами).
Сделайте оглавление (поисковую карту документа), каждый пункт этого оглавления оформите ссылкой (закладкой) внутри PDF документа, для каждой ссылки пропишите ключевые слова в описании ссылки. Этот приём наиболее эффективен для документов, состоящих из нескольких логический частей и с большим количеством страниц – он обеспечивает качественную внутреннюю перелинковку документа, позволяющую эффективно индексировать документ поисковым роботам.
ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ (МЕТАПОЛЯ)
Очень важно заполнить всю дополнительную информацию о вашем файле PDF. Уделите особое внимание таким тегам как: Title (заголовок), Author (автор материала), Subject (тема), Keywords (ключевые слова документа), Descriptions (описание PDF-документа) и Copyright (авторские права). Все эти настройки можно найти в программе Adobe Acrobat в меню File > Document Properties. Метаданные файла PDF имеют схожее происхождение с метатегами файлов HTML, так что уделяйте им особое внимание при оптимизации.
КОДИРОВКА, ШРИФТЫ И РАСПОЛОЖЕНИЕ ФАЙЛА
Несколько слов нужно сказать и про оптимизацию шрифтов. Не забывайте включать в сам файл все необходимые (нестандартные) шрифты. Довольно часто для декоративных целей используются самые разнообразные и редкие полиграфические шрифты, которые могут плохо восприниматься поисковыми системами, поэтому, по возможности, старайтесь пользоваться стандартными шрифтами (Arial, Helvetica, Sans-Serif, Times New Roman и другими), которые хорошо индексируются поисковыми системами. Их плюс в том, что они присутствуют по умолчанию в любой операционной системе, поэтому из документа PDF их можно спокойно исключить, уменьшив тем самым размер файла.
Шрифты, которые не были добавлены в PDF-документ или отсутствуют в операционной системе, будут отображаться тем шрифтом, который имеется (самым близким по значению), что может привести к нежелательным последствиям, а именно к увеличению или уменьшению числа страниц, количества символов в строках, межстрочного интервала и других проблем метрики.
Ваш файл PDF, как и обычная страница файла, должен быть максимально близок к корню сайта. Ссылайтесь на них ближе к главной странице, не пытайтесь засунуть его глубоко в структуру сайта, чтобы не понизить поисковую значимость вашего PDF документа.
Не давайте вашим документам в формате PDF слишком сложные имена. Упрощайте их. Несколько слов в названии самого файла разделяйте символом «_». Например: imya_documenta.pdf. Также для разделителя можно использовать и символ «-«, но я рекомендую использовать первый вариант.
Напоследок, предоставлю вам пару ссылок, которые могут быть полезны в связи с опубликованным материалом:
В этом обзоре я постарался ответить на наиболее распространённые вопросы по оптимизации файла PDF, которые задают люди, занимающиеся раскруткой сайтов. Но если у вас появились вопросы или что-то осталось непонятным, то, пожалуйста, сообщайте об этом! Буду рад любым отзывам от вас! Спасибо!
Нравится этот блог?
Подпишитесь на обновления блога (RSS).
Подпишитесь на комментарии (RSS).
Количество комментариев: 28
Конечно, если PDF неуникален, то на сайте его лучше не публиковать. Но если документ ранее не был опубликован в Интернете, то разместить его на сайте было бы целесообразно.
Всё зависит от начинки. По сути же любая начинка генерирует HTML-код для браузера. А этот код и индексируют поисковые системы. Исполняемый код PHP и тому подобное поисковая система не видит. Для того, чтобы определить, насколько хуже будет индексироваться контент, который будет генерироваться этой начинкой, нужно смотреть на тот код, который она выдаёт для браузера и уже на основе этого делать выводы.
roman:
Недавно в Google Chrome была реализована функция просмотра документов PDF онлайн в изолированной среде. Особенностью этого метода является то, что браузер в автоматическом режиме устанавливает необходимые обновления для оперативного решения проблем безопасности.
А можете порекомендовать браузер, где pdf просматривался бы нормально или конвертировался бы в html внутри браузера? В Опере и Мозилле такие файлы дико тормозят при прокрутке.
Статья познавательная. Прочитал с удовольствием. Спасибо
Как, PDF’ки разве индексируются?! Часть файлов в портфолио, кроме jpg, выкладываю именно в этом формате, дабы именно не выдавалась инфа поисковиками поперек сайтов заказчиков :(((
Andrey:
Да, файлы PDF индексируются поисковыми системами, но только если на них стоят ссылки. Но вы можете запретить индексацию этих файлов через robots.txt.
Сейчас как раз думаю как уменьшить пдф файлы, и теперь получается надо доустанавливать программы, сейчас буду пытаться уменьшить файлы..
Спасибо за информацию по мета тегам в PDF. буду заполнять
Здравствуйте.
Я использовал для конвертации документа из Ворда в ПДФ программку doPDF v.7
Будет ли индексироваться такой ПДФ при наличии в нем ссылок? И как эти ссылки должны быть оформлены? Как надпись html://site.ру, или можно оставить гиперссылки, бывшие до этого в тексте?
Сергей:
Если в документе формата PDF есть возможность скопировать текст, то такой текст с большой вероятностью будет индексироваться и поисковыми системами. Если гиперссылки сконвертированного в формат PDF документа работают корректно, то и поисковые системы их тоже будут учитывать при ранжировании сайтов.
Про мета-теги ценная инфа. Спасибо!
Интересно, автоматические оптимизаторы с такими файлами тоже работают.
у меня маремото стоит, до этой статьи что-то не задумывалась
Спасибо огромное за такую замечательную статью, наконец-то стало понятно, как же поисковые роботы индексируют PDF-ки!
Виталий подскажите как убрать в документе метатэги на copyright. Не могу загрузить pdf файл на сервис scribd.
Подскажите, кто знает ПРАВИЛЬНО настроить pdf optimizer в Adode Acrobat 9 для публикации в инете?? (те нужно журнал в Pdf выложить на хосты, но перед этим его опитимизировать под них, сжатие там, разрешение и прочее)
у меня настройки слетели( и я боюсь не там галочек понаставитьв Discard(
Спасибо. В Вашей статье я нашел ответы на все свои вопросы.
Владимир:
Пока люди будут выкладывают в сеть PDF-файлы, перспективность формата вряд ли можно ставить под сомнение.
Таня:
Заполняйте все возможные текстовые описания документа дозированным текстом с ключевыми словами. Сам контент документа, естественно, должен быть текстовым, а не из фотографий. При возможности разбейте документ на более мелкие составляющие, озаглавьте ключевыми словами в названии документа и метатегах. Можете вообще по главам разбить книги и загружать каждую статью в отдельности. Это даёт ещё больший эффект. Ну и руководствуйтесь этой статьёй.
Подскажите пожалуйста как изменить размер в PDF файлах
Инна:
для этого достаточно переформатировать файл при помощи различных онлайн и оффлайн утилит, выбирая в настройках максимальную оптимизацию документа. Если есть исходные файлы (не PDF), то можно сохранять документ частями и выкладывать эти части на сайте в виде файлов PDF, небольших по размеру. Это наиболее предпочтительный с точки зрения продвижения вариант.
А как на практике индексируются метаданные PDF? Я опытным путем не заметил, чтобы какая-нибудт поисковая система обращала внимание на ключевые слова в PDF-файле. Или я все же неправ?
Валерий:
документы PDF индексируются поисковыми системами. Можно даже сформировать специальный поисковый запрос и искать только файлы PDF.
Важно понимать, что файлы PDF должны содержать текст. Сканированные изображения текста (нераспознанные их сканы)индексироваться не будут по понятным причинам.
Подскажите, куда можно залить pdf файл (не на свой сайт, а сторонний), чтобы он индексировался поисковиками? Дело в том, что мне нужно продвинуть одно аналитическое исследование, но при этом завуалировать авторство. Чтобы файл был в отрыве от каких-либо имен, но находился по ключевым запросам.
Скажите пожалуйста будет ли пдф документ индексироваться поисковиками в случае если он лежит в каком либо облаке типа гугл драйв, а на сайте размещена ссылка на него?
Спасибо!
Подскажите, будит ли PDF файл индексироваться если его разместить в Googlr Drive а не на сайте т.к. cайт сделанный на Tilda не располагает возможностью размещать PDF