PDF-файлы: SEO и доступность

  1. 1.1. генеральный Сканирование и индексирование. Поисковые системы (далее - SE) и, в частности, Google,...
  2. 1.3. Предпочитая содержание PDF-рекомендации
  3. 1.4. Предпочитая не PDF контент-рекомендации
  4. 1,5. Предотвращение дублирования контента
  5. 1.6. Ссылки на дополнительную информацию
  6. 2.1. Подготовка оригинального документа
  7. 2.2. Обработка PDF - включение опций доступности
  8. 2,3. Выполнение корректировок и маркировка тегов в новом PDF

1.1. генеральный

Сканирование и индексирование. Поисковые системы (далее - SE) и, в частности, Google, могут сканировать и индексировать файлы PDF. В отсутствие каких-либо других директив (варианты см. Ниже) Google будет сканировать и индексировать любой PDF-файл по ссылке, обнаруженной сканером, в соответствии с ограничениями сканирования размера файла (см. Ниже).

Во время сканирования Google будет полностью индексировать весь текст в PDF, включая разметку заголовков, но не изображения или текст в изображениях (текст OCR считается обычным текстом и будет полностью проиндексирован).

Google также будет индексировать ссылки из текста в формате PDF, как в HTML, включая рейтинг (или «сок»), передаваемый по ссылкам.

Отображение результатов поиска: что касается визуального представления в результатах поиска, единственное различие (в отношении страниц HTML) состоит в том, что Google четко отмечает формат файла.

Снимок экрана: результаты поиска Google для документа PDF

Расположение результатов поиска. Что касается расположения в результатах поиска, PDF-файлы могут и действительно полностью конкурировать с HTML-страницами. Хотя Google не публикует их публично, известно, что параметры для классификации PDF-файлов отличаются от HTML-файлов, главным образом из-за большого объема текстового (и, следовательно, ключевого слова) контента PDF-файлов (по сравнению со средними HTML-страницами веб-сайта). Разница в оценке создается для того, чтобы обеспечить правильное сравнение версий содержимого в HTML и PDF, и в конечном итоге PDF-файлы на сайтах могут успешно конкурировать с HTML-страницами и иметь очень высокий рейтинг, даже на первых местах в результатах обычного поиска. ,

1.2. Контент - в PDF или HTML?

При размещении контента на сайте часто возникает выбор форматов контента (HTML, PDF, Word, Flash и т. Д.).

С точки зрения SEO, этот выбор включает стратегический выбор - где мы должны поместить силу (авторитет) контента в глазах поисковых систем - на страницах сайта или во внешнем файле (PDF)?

Хотя существуют ситуации, требующие использования обоих форматов, и, хотя PDF-файлы обычно хорошо индексируются и принимаются поисковыми системами, выбор PDF-файла имеет несколько недостатков.

Прежде всего, важно понимать, что, когда пользователь переходит непосредственно от результатов поиска к PDF (т. Е. PDF является его «целевой страницей»), насколько пользовательский опыт идет, пользователь на самом деле не находится на веб-сайте: пользователь не имеет отношения к дизайну сайта, логотипу, панелям навигации, верхнему и нижнему колонтитулам и т. д.

Помимо пользовательского опыта, полное отсутствие пользовательского интерфейса (сайта) резко влияет на способность пользователя переходить на другой контент на сайте - способность пользователя просматривать больше страниц и выполнять больше действий строго ограничена.

Точно так же и по той же причине наша способность направлять пользователя в определенные последовательности и контент, который мы хотим, чтобы пользователь видел, или побуждать пользователя выполнять какие-либо действия.

Наконец, несмотря на то, что ссылки в PDF-файлах индексируются, невозможно контролировать передачу полномочий через них, как в HTML (невозможно применять индексы или не следовать тегам для ссылок внутри PDF-файлов).

По этим и другим причинам, а также когда нет специальных условий, диктующих использование PDF или HTML. Всегда предпочтительно размещать контент в формате HTML, а не в формате PDF.

Однако, как уже упоминалось, часто бывают ситуации, при которых необходимо использовать PDF-файлы, например, руководства пользователя, формы, которые пользователь должен загрузить, и т. Д. Важно понимать, что даже в таких ситуациях обычно использование PDF-файлов делает не обязательно означает, что мы должны отказаться от стратегического выбора для размещения авторитета контента на страницах HTML.

Например, можно разместить весь контент в HTML и в то же время предложить загружаемую копию PDF, используя при этом методы, которые заставляют поисковые системы указывать всю достоверность контента только в версии HTML (см. Ниже). Это решение хорошо подходит для относительно короткого содержания.

В тех случаях, когда содержание длинное, можно использовать целенаправленный синопсис на основе ключевых слов на страницах HTML, предлагая полную версию контента в виде загружаемого PDF, опять же, используя методы, которые предписывают SE поместить все полномочия в HTML. только версия

1.3. Предпочитая содержание PDF-рекомендации

В тех редких случаях, когда мы решаем разместить полномочия в файлах PDF, рекомендуется соблюдать следующие соображения:

Разрешение индексации PDF-файлов: нет необходимости выполнять какие-либо специальные действия, чтобы разрешить индексацию - как только сканер обнаружит ссылку на PDF-файл, он попытается отсканировать и проиндексировать ее. Однако по нескольким техническим причинам сканирование и индексация PDF-файлов занимает SE дольше, чем HTML (обычно в масштабе от нескольких часов до дней, но иногда до месяца больше). Следовательно, нет причин для тревоги, если при первом сканировании HTML-страница индексируется, но связанные с ней PDF-файлы по-прежнему не индексируются.

Поощрение и ускорение индексации: рекомендуется ускорить индексацию в файле карты сайта, как и на любой HTML-странице, для адреса PDF.

Если существует срочная необходимость в быстрой индексации или что даже после длительного периода времени (более месяца) PDF еще не был проиндексирован (при условии, что SE имеет полный доступ к файлу для целей индексации), можно использовать GOOGLE WEBMASTES TOOLS для отправки PDF для сканирования («Получить как Google»), а после сканирования - для отправки результатов для индексации.

Ограничение размера: как правило, рекомендуется создавать PDF-файлы как можно меньшего размера и избегать размеров, превышающих 2,5 МБ.

Чем больше файл, тем больше SE может сканировать его, они будут делать это реже, а также могут сканировать только его части или вообще не индексировать его, если он слишком большой. Специально для Google PDF-файлы временно преобразуются в HTML во время сканирования, и Google будет индексировать только 2,5 МБ из временного HTML-файла. Если временный HTML больше 2,5 МБ, Google обычно сканирует весь файл, но индексирует только 2,5 МБ данных (обычно первые 2,5 МБ). Если размер временного файла HTML превышает 100 МБ, Google может вообще его не индексировать.

Влияние на заголовок, который Google будет использовать для PDF в результатах поиска: для PDF невозможно указать SE использовать конкретный заголовок, используя метатеги (как в HTML). Однако Google обычно выбирает заголовок, который он будет использовать для файла, из заголовка основного документа (H1) и / или текста, используемого в качестве ссылки на файл PDF, при условии, что они соответствуют содержимому PDF.

Разметка заголовков и заголовков. Google сканирует и индексирует заголовки, стилистически помеченные как заголовки (используя заголовки), и использует их для улучшения индексации и связи с ключевыми словами. Поэтому важно использовать разметку заголовков для заголовков при создании PDF-файлов.

Ссылки в файлах PDF. Как упоминалось ранее, Google может индексировать ссылки в файлах PDF и обрабатывать их так же, как ссылки в HTML. Для этого ссылки должны иметь стандартную структуру ссылок (то есть структурированную как> ссылка href = ”/ page2.html”> на страницу 2 </a>). Поскольку невозможно пометить ссылки в PDF тегами «без подписи» и «без индекса», если нежелательно, чтобы конкретная ссылка передавала полномочия, ее нельзя размещать в HTML.

Использование мультимедиа: Google не будет индексировать мультимедиа (включая любые изображения), размещенные в PDF-файлах. Следует избегать размещения текстов на изображениях (так же, как на HTML-страницах). Если изображение должно быть проиндексировано, можно разместить ссылку на изображение в PDF, а затем сканер будет следовать по этой ссылке и индексировать изображение (как отдельный файл из PDF, а не как часть его содержимого). ,

PDF, созданный с текстом из отсканированных изображений текстов (OCR): Как уже упоминалось, SE не будут индексировать текст, расположенный на картинке. Однако, если текст был создан с помощью OCR, он все еще считается текстом, и с индексированием проблем быть не должно.

Индексирование PDF-файлов, но предотвращение отображения кэшированных версий в Google: если PDF-файл содержит временный контент или контент, который часто изменяется, может потребоваться запретить Google сохранять и отображать кэшированные версии файлов, которые устарели или более не существуют. Этого можно добиться, внедрив тег X-Robots с разметкой «без архива» в HTTP-ответе PDF (подробности см. В следующей главе)

Избегайте использования PDF-файлов, защищенных паролем: при создании PDF-файла иногда можно добавить к нему блокировку паролем, чтобы предотвратить несанкционированный доступ к файлу. Очевидно, что блокировка файла паролем не позволит SE получить к нему доступ, поэтому, если требуется индексация, защита паролем не должна использоваться.

1.4. Предпочитая не PDF контент-рекомендации

При выборе размещения полномочий на страницах HTML (рекомендуемый вариант), но при этом по-прежнему используйте PDF-файлы на сайте (например, загружаемые формы), рекомендуется вообще не индексировать PDF-файлы, тем самым предотвращая утечку энергии для Страницы сайта в файлы, и формировать пользователей, приземляющихся прямо в файлах.

Остановка индексации PDF-файлов: можно попросить SE не индексировать PDF-файлы. Есть 3 способа сделать это, описанные здесь в порядке предпочтения

а) Блокировка большого количества файлов - просьба не индексировать всю папку: это самый рекомендуемый и «самый чистый» метод. Создайте отдельную папку на сервере и поместите в нее все файлы PDF. Затем в файле robots.txt сайта пометьте всю папку как «без индекса». Преимущество этого метода заключается в том, что с этого момента SE и дополнительные файлы PDF, загруженные в папку, также автоматически игнорируются. Кроме того, этот метод невосприимчив к ошибкам из-за изменений в файлах или в ссылках, ведущих к файлам.

б) Обработка отдельного файла - запрос отдельного файла, который не будет проиндексирован: если вышеупомянутое решение нежелательно (слишком большой масштаб), можно пометить конкретный файл, который необходимо заблокировать, без индекса в роботах .txt файл сайта.

c) Обработка отдельного файла - пометка самого файла как «без индекса»: как упоминалось ранее, невозможно использовать обычные теги «без индекса» с PDF-файлами, поскольку они не имеют заголовка файла. Однако можно пометить сам файл, добавив тег X-Robots в заголовок HTTP-ответа файла. Ниже приведен пример HTTP-ответа от PDF с тегом X-Robots, запрашивающего отсутствие индекса:

HTTP / 1.1 200 ОК

Дата: вторник, 25 мая 2010 г. 21:42:43 GMT

(...)

X-Robots-Tag: noindex

(...)

Тег X-Robots также поддерживает запросы «нет подписки» и «нет архива».

Подробнее о теге X-Robots см. в информации, предоставленной Google по следующей ссылке: https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag.

d) Стандартное и срочное удаление файла из индекса Google: если файл был проиндексирован, и мы хотим удалить его из индексации, пометив его как «без индекса» в любом из вышеупомянутых методов (особенно в теге X-Robots), в конечном итоге привести к его удалению из индекса.

Если необходимо срочно удалить определенный файл (или папку, или даже весь сайт) из индекса, можно запросить удаление с помощью Инструментов Google для веб-мастеров (только для индекса Google), используя URL-адрес. инструмент для удаления. Важно помнить, что это последнее средство - если файл не был помечен как «без индекса», он будет сканирован и снова проиндексирован!

1,5. Предотвращение дублирования контента

Если при каких-либо обстоятельствах имеется файл PDF, доступный для индексации, и в то же время страница HTML с тем же (или очень похожим) содержимым, или другие файлы PDF с таким же (или очень похожим) содержимым, необходимо укажите предлагаемую версию для SE, чтобы избежать штрафов за дублирование контента.

Это может быть достигнуто с помощью канонического тега (аналог HTML). Тем не менее, важно помнить, что тег должен быть реализован в заголовке HTTP-ответа PDF. Для получения дополнительной информации по этой теме см. Следующую ссылку (и, в частности, пример внизу страницы для реализации канонического в PDF-файлах) https://support.google.com/webmasters/answer/139066?hl=ru.

Важно помнить, что такая каноническая разметка будет работать, только если PDF доступен для индексации, иначе SE никогда не увидит канонический запрос.

1.6. Ссылки на дополнительную информацию

Общая информация о Google и PDF-файлах (из блога Google для веб-мастеров)

http://googlewebmastercentral.blogspot.com/2011/09/pdfs-in-google-search-results.html

Тег X-Robots (Google) https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag

Канонический тег, включая пример реализации в HTTP-ответе PDF https://support.google.com/webmasters/answer/139066?hl=en

Канонический тег - общая информация https://support.google.com/webmasters/answer/139394?hl=ru.

* Вся информация в этой главе соответствует правилам WCAG 2.0 ( http://www.w3c.org.il/guidelines/guidelines_WCAG_2.0.html международные правила доступа к интернет-контенту на уровне стандарта АА. Имейте в виду, что некоторые местные законы и правила могут отличаться от этого стандарта, и что этот документ не является заменой юридической консультации по этому вопросу, а также не содержит рекомендаций по местным правилам или предполагает предоставление юридических консультаций по этому вопросу.

PDF - это формат, который обеспечивает очень высокий уровень доступности, когда файл правильно создан.

Правильное построение PDF делится на 2 основные части: корректировки, сделанные при подготовке исходного документа (например, Word, RTF и т. Д.), И корректировки, внесенные в сам PDF-файл, которые, в свою очередь, можно разделить на включение параметров доступности и выполнение корректировок содержимого. Мы привели здесь некоторые важные аспекты для рассмотрения. Для получения более подробной информации и конкретных методов реализации, пожалуйста, смотрите предоставленные ссылки.

2.1. Подготовка оригинального документа

Подготовка исходного документа в качестве доступного документа является основой для создания доступного PDF. Поскольку существует множество форматов документов, которые могут служить исходным форматом, мы приведем здесь только основные моменты для рассмотрения в формате Word, который является наиболее командным форматом. Тем не менее, важно помнить, что следующий список представляет собой только краткое изложение основных тем, и автору документа необходимо подтвердить, что документ соответствует всем требованиям, упомянутым в правилах WCAG 2.0 ( http://www.w3c.org.il/guidelines/guidelines_WCAG_2.0.html ).

Использование только живого текста (все стандартные уровни): избегайте размещения текста на изображениях и не создавайте документы на отсканированных изображениях текстов без распознавания текста.

Определение структуры и дизайна документа, заголовков и структурной иерархии с помощью определений стилей (все стандартные уровни): весь дизайн документа и элементов документа должен выполняться с использованием встроенных определений стиля Word, а не вручную. Это включает в себя нумерацию, а самое главное - заголовки (заголовки). Например, не выбирайте текстовую строку и вручную пометьте ее жирным шрифтом + подчеркивание + большой размер текста, чтобы придать ему вид заголовка. Вместо этого пометьте его стилем заголовка в соответствии с желаемой иерархией (H1, H2 и т. Д.), А затем вручную отрегулируйте внешний вид.

Важно понимать, что эта тема выходит за рамки проблемы визуального внешнего вида - использование встроенных определений стилей создает определения структуры и иерархии документа, которые используются большинством инструментов доступности для своего функционирования.

Создание пробелов с использованием определений стилей, а не вручную (уровень A): по тем же причинам, указанным выше, очень важно, чтобы все определения пробелов (пробел между строками, между словами, между абзацами и т. Д.) Были определены с использованием встроенного в параметры стиля Word. и не вручную (т.е. без использования пробела, кнопки табуляции и т. д.).

Создание таблиц с использованием встроенных в Word параметров таблицы, а не вручную или с использованием рисунка (уровень A)

Предоставление alt-тегов для изображений (уровень A) - крайне важно

Ссылки из текстов (уровень A): слова, используемые при создании ссылок, должны быть осмысленными. Избегайте общих фраз, таких как «нажмите здесь», «для получения дополнительной информации» и т. Д.

Кроме того, используйте слово встроенный инструмент «подсказка экрана», чтобы дать объяснение / описание для ссылки

Предоставьте пояснения ко всем аббревиатурам, используемым в документе, например: SE = Search Engine.

Контрасты и цветовая информация:

a) Обязательно используйте соответствующие определения контрастности - по крайней мере, от 4,5 до 1 для контраста между текстом и фоном (уровень AA) или от 3 до 1, если шрифт имеет размер 8 пунктов или выше. Кроме того - 3 к 1 для контраста между смежными текстами (уровень АА).

б) Избегайте использования цветовой кодировки как единственного способа передачи информации (уровень А)

c) Проверка цветовой совместимости для дальтоников - см. методики и правила, представленные в WCAG 2.0 (уровень доступности определяется в соответствии с применяемыми методиками)

2.2. Обработка PDF - включение опций доступности

Чтобы PDF-файл был доступен для использования в различных средствах обеспечения доступности, необходимо включить параметры доступности во время преобразования исходного документа в формат PDF.

На рынке существует множество инструментов для конвертации PDF - здесь мы предоставим только опции для Adobe Acrobat, который является наиболее распространенным. Обратите внимание, что некоторые недорогие или бесплатные инструменты вообще не включают в себя опции доступности, и поэтому не должны использоваться.

Во время преобразования в окне «предпочтения» Adobe Acrobat на вкладке «настройки» отметьте следующие 3 параметра (см. Скриншот ниже): «создавать закладки», «добавлять ссылки» и «включать специальные возможности и перекомпоновывать с тегами Adobe PDF». ,

Снимок экрана: окно настроек Adobe Acrobat для преобразования документов

Обратите внимание на 3 варианта, правильно выбранных для включения доступности во время конвертации

Обратите внимание на 3 варианта, правильно выбранных для включения доступности во время конвертации

2,3. Выполнение корректировок и маркировка тегов в новом PDF

После выполнения двух предыдущих этапов мы получаем PDF-файл, который соответствует всем основным правилам доступности. На этом этапе автор должен убедиться, что документ соответствует всем соответствующим правилам в WCAG 2.0 (http://www.w3c.org.il/guidelines/guidelines_WCAG_2.0.html). Чтобы убедиться в этом, есть 23 технических момента, которые необходимо соблюдать. Эти пункты и методы их соблюдения описаны на отдельной странице в WCAG 2.0, посвященной методам для PDF: http://www.w3.org/TR/WCAG20-TECHS/pdf.html ,

Если 1-й этап (подготовка первоначального документа) был тщательно выполнен в соответствии со всеми правилами WCAG 2.0, то на этом этапе осталось совсем немного работы, большая часть которой относится к обработке форм, которые должны быть заполнены читатель.

Снимок экрана: окно настроек Adobe Acrobat для преобразования документов

1.2. Контент - в PDF или HTML?
С точки зрения SEO, этот выбор включает стратегический выбор - где мы должны поместить силу (авторитет) контента в глазах поисковых систем - на страницах сайта или во внешнем файле (PDF)?
Com/webmasters/answer/139066?
Com/webmasters/answer/139066?
Com/webmasters/answer/139394?