Robots.txt Vs Meta Robots Tag: что лучше?

  1. Зачем нужен файл robots.txt?
  2. Ограничения Robots.txt
  3. Параметры Robots.txt
  4. Robots.txt Директива о подстановочных знаках
  5. Тестирование robots.txt с помощью инструментов для веб-мастеров
  6. Meta Robots Tag
  7. Meta Robots tag против Robots.txt

Источник изображения: https://www.flickr.com/photos/peyri/48825808/

Цель файла robots.txt, также известного как протокол исключения роботов, состоит в том, чтобы дать веб-мастерам контроль над тем, какие страницы роботы (обычно называемые пауками) могут сканировать и индексировать на своем сайте. Типичный файл robots.txt, размещенный на сервере вашего сайта, должен содержать URL-адрес вашей карты сайта и любые другие параметры, которые вы хотите установить.

Если робот хочет посетить страницу на вашем веб-сайте, прежде чем он это делает, он проверяет ваш robots.txt (размещен по адресу www.domain.com/robots.txt с учетом регистра, если вы называете его Robots.TXT, он не будет работать ) и видит, что ваш файл robots.txt содержит следующее исключение:

Пользователь-агент: *

Disallow: /
User-agent: * сообщает роботу, что это правило применяется ко всем роботам, а не только к поисковым системам или роботам Google.

«Disallow: /» сообщает роботам, что запрещено посещать какие-либо страницы в этом домене. При создании файла robots.txt вы должны быть осторожны с параметрами, которые вы устанавливаете, как если бы ваш файл robots.txt был похож на приведенный выше пример, это означает, что ваш сайт не будет сканироваться Google!

Примечание. Некоторые роботы игнорируют ваш файл robots.txt, так как это всего лишь директива, и поэтому все равно будут получать доступ к страницам на вашем сайте. Обычно это злонамеренные боты, которые могут собирать информацию с вашего сайта. Некоторые могут быть вредоносными, даже если вы создадите раздел в своем файле robots.txt, чтобы исключить его из сканирования вашего сайта, так как эти роботы обычно игнорируют ваш файл robots.txt, это будет безуспешно. Блокировка IP-адреса робота может быть вариантом, но поскольку эти спаммеры обычно используют разные IP-адреса, это может быть утомительным процессом.

Зачем нужен файл robots.txt?

Некоторые веб-мастера считают, что, поскольку они хотят, чтобы все роботы могли сканировать весь их сайт, им не нужен файл robots.txt, однако это не так. Ваш файл robots.txt должен содержать местоположение вашей карты сайта, чтобы паукам, особенно поисковым роботам, было легче получить доступ ко всем страницам на вашем сайте. Вам также понадобится файл robots.txt, если вы разрабатываете новый сайт, который LIVE на вашем сервере, но вы еще не хотите, чтобы он был проиндексирован Google. Если вы используете файл robots.txt, убедитесь, что вы понимаете, что вы исключаете из сканирования, так как для сканирования всего сайта требуется всего одна ошибка!

Ограничения Robots.txt

Важно помнить, что использование файла robots.txt в качестве средства защиты и сокрытия конфиденциальной информации является не только плохой практикой, но и может нарушить Закон о защите данных, если информация хранится ненадлежащим образом. Ваш файл robots.txt может быть доступен любому, не только роботу, поэтому, если у вас есть какая-либо информация на вашем сайте, которую вы не хотите просматривать никому, кроме того, для кого она предназначена, тогда самый безопасный подход - это защитить паролем страницу / документ.

  • Инструкции в вашем файле robots.txt являются только директивами
    Инструкции, которые вы объявляете в своем файле robots.txt, не имеют возможности контролировать поведение пауков на вашем сайте, но способны определить, какие сканеры могут и не могут получить доступ к вашему сайту. Однако в то время как законные сканеры, такие как Googlebot и другие поисковые роботы, будут подчиняться правилам, которые вы указали в файле robots.txt, другие сканеры могут просто игнорировать правила в вашем файле robots.txt или вообще не смотреть на них.
  • Синтаксис в вашем файле robots.txt может интерпретироваться разными сканерами по-разному

Важно, чтобы при создании файла robots.txt вы знали правильный синтаксис для обращения к определенным веб-сканерам, так как директивы, которые легко читаются роботом Googlebot, могут не восприниматься другими веб-сканерами, что означает, что они могут не следовать инструкциям, которые вы поставить на место.

  • Директивы в вашем файле robots.txt не помешают ссылкам на ваш URL на других сайтах

Google будет следовать директивам в вашем файле robots.txt, что означает, что любые запрещенные вами файлы не будут сканироваться или индексироваться, однако это не приведет к удалению всех следов вашего URL из Google в целом. Ссылки на ваш сайт на других сайтах, такие как каталоги и якорный текст на других веб-страницах, по-прежнему будут отображаться в результатах поиска Google, поскольку вы не можете вносить изменения на других сайтах с помощью файла robots.txt. Однако, чтобы ваш URL не появлялся в поисковой выдаче Google, вы можете использовать комбинацию методов блокировки URL, таких как защита паролем и добавление метатегов директивы индексирования в ваш HTML, наряду с запретом доступа сканеров в вашем файле robots.txt.

Параметры Robots.txt

У вас есть ряд опций, когда дело доходит до вашего robots.txt и что вы хотите, чтобы он содержал, ниже приведены некоторые примеры, которые могут помочь вам создать свой!

Чувствительность к регистру
Директивы Robots.txt чувствительны к регистру, поэтому, если вы запретите /logo-image.gif, директива заблокирует http://www.domain.com/logo-image.gif, но http://www.domain.com/Logo-Image .gif все равно будет доступен для роботов.

Разрешить всем роботам сканировать весь ваш сайт
Пользователь-агент: *
Disallow:

Исключить всех роботов (вредоносных и Google-ботов) со всего вашего сайта
Пользователь-агент: *
Disallow: /

Исключить конкретного робота из определенной папки / файла на вашем сайте
Агент пользователя: Examplebot
Disallow: / без роботов /

Примечание . У вас может быть только одна папка / файл на строку «Disallow:», если у вас есть более одного места, которое вы хотите исключить, вам придется добавить больше строк Disallow.

Разрешить одного конкретного робота и исключить всех других роботов
Пользователь-агент: Googlebot
Disallow:

User-agent: * Disallow: / исключить конкретного робота Пользователь-агент: SpamBotDisallow: /

Объявление вашей карты сайта в файле robots.txt
Пользователь-агент: *
Disallow:
Карта сайта: http://www.domain.com/sitemap.xml

Примечание . Объявление файла Sitemap должно указывать на абсолютный URL, а не на относительный URL.

Исключить всех роботов из целой папки, кроме одного файла / изображения
Пользователь-агент: *
Disallow: / my-photos
Разрешить: /my-photos/logo.jpg

Robots.txt Директива о подстановочных знаках

Поисковые системы, такие как Google и Bing, позволяют использовать подстановочные знаки в файлах robots.txt, чтобы вам не приходилось перечислять множество URL-адресов, поскольку они содержат одинаковые символы.

Disallow: * мобильный

Приведенная выше директива блокирует доступ сканеров к любым URL-адресам на вашем сайте, содержащим термин «мобильный», таким как:

  • / мобильный
  • / Услуги / мобильной оптимизации
  • / Блог / значение, из-подвижной ррс-торгов
  • /images/mobile.jpg
  • /phone/mobile34565.html

Другая подстановочная директива, которую вы можете использовать в своем файле robots.txt, это символ «$».

Disallow: * .gif $

Примерная директива блокирует сканерам возможность доступа к любому URL, который содержит тип файла «.gif». Подстановочные знаки могут быть чрезвычайно мощными и должны использоваться осторожно, как в приведенном выше примере, подстановочный знак $ будет блокировать любые пути к файлам, которые также содержат «.gif», такие как /my-files.gif/blog-posts.

Тестирование robots.txt с помощью инструментов для веб-мастеров

Если у вас есть аккаунт в Инструментах для веб-мастеров и вы подтвердили свой URL-адрес, вы можете использовать инструмент robots.txt Tester. Используя этот инструмент, вы можете протестировать изменения в вашем файле robots.txt и увидеть влияние, прежде чем вы запустите его. Вы также можете просмотреть предыдущие версии вашего файла и увидеть, какая строка в вашем файле robots.txt блокирует определенную страницу, это может предотвратить ваши ошибки и потерю трафика / дохода.

Вы также можете ввести URL-адрес, чтобы проверить, не заблокирован ли он директивой в вашем файле robots.txt, и легко изменить его соответствующим образом. Этот инструмент можно найти в раскрывающемся списке «Сканирование» в Инструментах для веб-мастеров. Проверьте свой сейчас!

Meta Robots Tag

С точки зрения SEO, если вы хотите запретить Google сканировать определенную страницу на вашем веб-сайте и индексировать ее на страницах результатов поиска, то рекомендуется использовать тег Meta-роботов, чтобы сообщить им, что им разрешен доступ к этой странице, но не показывать это в поисковой выдаче. Ваш метатег роботов должен выглядеть следующим образом и размещаться в разделе <head> вашего сайта:

<meta name = ”robots” content = ”noindex”>

Если вы хотите запретить сканеру индексировать контент на вашей странице и запретить ему переходить по каким-либо ссылкам, ваш мета-робот будет выглядеть так:

<meta name = ”robots” content = ”noindex, nofollow”>

Обзор основных доступных команд мета-меток:

  • Индекс - все поисковые системы могут индексировать контент на этой веб-странице
  • Follow - все поисковые системы могут сканировать внутренние ссылки на веб-странице
  • Noindex - запретит включение указанной страницы в индекс
  • Nofollow - запретит роботам Google переходить по любым ссылкам на странице. Обратите внимание, что это отличается от атрибута ссылки rel = ”nofollow”.
  • Noarchive - предотвращает показ кэшированных версий страницы в поисковой выдаче
  • Nosnippet - предотвращает кэширование страницы и описания, появляющиеся под страницей в поисковой выдаче
  • NOODP - запрещает описание проекта Open Directory для страницы, заменяя описание, заданное вручную для этой страницы
  • Noimageindex - предотвращает индексацию Google изображений на странице
  • Notranslate - запрещает перевод страницы в выдачи Google

Вы можете использовать несколько команд в своем теге meta robots. Если вы хотите запретить кэширование страницы на вашем веб-сайте всеми поисковыми системами, а также запретить замену ваших текущих описаний в Open Directory, используйте следующие команды: noarchive и NOODP. Ваш метатег робот будет выглядеть так:

<meta name = ”ROBOTS” content = ” NOARCHIVE, NOODP “>

Если вы хотите, чтобы сканеры не индексировали эту веб-страницу, а следовали по внутренним ссылкам на этой странице, ваш мета-робот будет выглядеть следующим образом. Это рекомендуемая позиция SEO, потому что, если какие-либо ссылки идут на страницы, которые вы не хотите индексировать, мы все же хотим, чтобы эквити ссылок от ссылки проходило через остальную часть сайта.

<meta name = ”robots” content = ”noindex, follow” />

Meta Robots tag против Robots.txt

В целом, если вы хотите деиндексировать страницу или каталог из результатов поиска Google, мы предлагаем использовать метатег «Noindex», а не директиву robots.txt, как при использовании этого метода при следующем сканировании вашей страницы на вашем сайте. будет деиндексирован, что означает, что вам не нужно отправлять запрос на удаление URL. Однако вы можете использовать директиву robots.txt в сочетании с удалением страницы Инструментов для веб-мастеров для достижения этой цели.

Использование мета-тега robots также гарантирует, что ваш ресурс ссылки не будет потерян, с помощью команды «follow».

Файлы Robots.txt лучше всего подходят для запрета всего раздела сайта, например, категории, тогда как метатег более эффективен для запрета отдельных файлов и страниц. Вы можете использовать как метатег robots, так и файл robots.txt, поскольку ни один из них не имеет полномочий над другими, но noindex всегда имеет власть над запросами «index».

Вернуться в блог Txt?
Txt?