Введение в анализ файлов журнала для SEO

  1. Что такое файл журнала сервера?
  2. Пример попадания
  3. Почему они значимы?
  4. Как мы можем использовать анализ файла журнала для SEO?
  5. Как получить файлы журнала?
  6. Какие инструменты мне нужно использовать?
  7. Как анализировать лог-файлы для SEO
  8. Факторы, влияющие на бюджет сканирования
  9. 2. Ответить на технические вопросы SEO
  10. 3. Узнайте, переключился ли ваш сайт на индекс Google для мобильных устройств.
  11. Анализ файла журнала: краткий пример
  12. Ресурсы

Вот краткое введение в анализ файла журнала для SEO. Дать вам обзор того, что такое файлы журналов, как их можно проанализировать на предмет SEO, на что обратить внимание и какие инструменты использовать.

Что такое файл журнала сервера?

Журнал сервера - это файл журнала (или несколько файлов), который автоматически создается и поддерживается сервером и состоит из списка выполненных им действий.

В целях SEO нас интересует журнал веб-сервера, который содержит историю запросов страниц для веб-сайта, как от людей, так и от роботов. Это также иногда называют журналом доступа, и необработанные данные выглядят примерно так:

Это также иногда называют журналом доступа, и необработанные данные выглядят примерно так:

Да, поначалу данные выглядят немного ошеломляющими и запутанными, поэтому давайте разберем их и рассмотрим «попадание» более внимательно.

Пример попадания

Каждый сервер по своему характеру отличается от попаданий в журналы, но они обычно дают похожую информацию, которая организована в поля.

Ниже приведен пример попадания на веб-сервер Apache (это упрощено - некоторые поля удалены):

50.56.92.47 - - [01 / March / 2018: 12: 21: 17 +0100] «GET» - «/wp-content/themes/esp/help.php» - «404» «-» «Mozilla / 5.0 ( совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) »- www.example.com -

Как вы можете видеть, для каждого попадания нам дается ключевая информация, такая как дата и время, код ответа запрошенного URI (в данном случае 404) и пользовательский агент, с которого поступил запрос (в данном случае Googlebot ). Как вы можете себе представить, файлы журналов состоят из тысяч обращений каждый день, так как каждый раз, когда пользователь или бот приходит на ваш сайт, для каждой запрашиваемой страницы записывается много обращений, включая изображения, CSS и любые другие файлы, необходимые для визуализации. стр.

Почему они значимы?

Итак, вы знаете, что такое файл журнала, но почему стоит проанализировать их?

Дело в том, что существует только одна достоверная запись о том, как поисковые системы, такие как Googlebot, обрабатывают ваш сайт. И это при просмотре файлов журнала вашего сервера для вашего сайта.

Поисковая консоль, сторонние сканеры и поисковые операторы не дадут нам полной картины о том, как робот Google и другие поисковые системы взаимодействуют с веб-сайтом. ТОЛЬКО файлы журнала доступа могут предоставить нам эту информацию.

Как мы можем использовать анализ файла журнала для SEO?

Анализ файла журнала дает нам огромное количество полезных сведений, в том числе позволяет нам:

  • Проверяйте, что именно можно или нельзя сканировать.
  • Просмотрите ответы, с которыми столкнулись поисковые системы во время сканирования, например, 302, 404, мягкие 404.
  • Определите недостатки сканирования, которые могут иметь более широкие последствия для сайтов (например, иерархия или структура внутренних ссылок).
  • Посмотрите, какие страницы поисковики расставляют по приоритетам, и могут посчитать наиболее важными.
  • Откройте для себя области обхода бюджетных отходов.

Как получить файлы журнала?

Для этого типа анализа вам требуются необработанные журналы доступа со всех веб-серверов вашего домена без фильтрации или внесенных изменений. В идеале вам понадобится большой объем данных, чтобы сделать анализ полезным. Сколько дней / недель это стоит, зависит от размера и авторитета вашего сайта и количества трафика, который он генерирует. Для некоторых сайтов может быть достаточно недели, для некоторых сайтов вам может понадобиться месяц или более данных.

Ваш веб-разработчик должен иметь возможность отправить вам эти файлы для вас. Перед отправкой вам стоит спросить, содержат ли журналы запросы из более чем одного домена и протокола и включены ли они в эти журналы. Потому что, если нет, это помешает вам правильно идентифицировать запросы. Вы не сможете определить разницу между запросом на http://www.example.com/ и https://example.com/. В этих случаях вы должны попросить своего разработчика обновить конфигурацию журнала, чтобы включить эту информацию на будущее.

Какие инструменты мне нужно использовать?

Если вы одаренный в Excel, то это руководство действительно помогает вам форматировать и анализировать файлы журналов с помощью Excel. Лично я использую Анализатор файла журнала Screaming Frog (стоит $ 99 в год), поскольку его удобный интерфейс позволяет быстро и легко выявлять любые проблемы (хотя, возможно, вы не достигнете такого же уровня глубины или свободы, как при использовании Excel).

Некоторыми другими инструментами являются Splunk и GamutLogViewer.

Как анализировать лог-файлы для SEO

1. Найдите, где расходуется впустую бюджет

Во-первых, что такое бюджет обхода? Google определяет это так же как:

«Принимая во внимание скорость сканирования и потребность в сканировании, мы определяем бюджет сканирования как количество URL-адресов, которые робот Googlebot может и хочет сканировать».

По сути - это количество страниц, которые поисковая система будет сканировать каждый раз, когда посещает ваш сайт, и зависит от авторитета домена и пропорционально потоку ссылок на сайте.

Критически важно, что при анализе файла журнала бюджет обхода может иногда расходоваться на нерелевантных страницах. Если у вас есть свежий контент, который вы хотите проиндексировать, но не осталось бюджета, Google не будет индексировать этот новый контент. Вот почему вы хотите отслеживать, куда вы тратите свой бюджет сканирования, с помощью анализа журналов.

Оптимизация бюджета сканирования поможет поисковым системам сканировать и индексировать наиболее важные страницы вашего сайта. Проверьте наш полезный пост на предмет.

Факторы, влияющие на бюджет сканирования

Наличие большого количества URL-адресов с низкой добавленной стоимостью может отрицательно повлиять на сканирование и индексирование сайта. URL-адреса с низкой добавленной стоимостью могут относиться к следующим категориям:

  • Фасетная навигация и идентификаторы сеанса
  • Локальный дублированный контент
  • Мягкие страницы ошибок
  • Взломанные страницы
  • Низкое качество и спам

Потеря ресурсов сервера на таких страницах приведет к потере активности при сканировании со страниц, которые действительно имеют ценность, что может привести к значительной задержке в обнаружении хорошего контента на сайте.

2. Ответить на технические вопросы SEO

Анализируя файлы журналов, мы можем ответить на следующие вопросы с гораздо большей уверенностью, чем если бы мы пытались использовать другие методы / инструменты:

Как часто сканируются определенные подкаталоги? Например, служебные страницы, блог или, возможно, отдельные авторы.

Все ли ваши целевые поисковые роботы получают доступ к вашим страницам?

Какие страницы не обслуживаются правильно? Ищите страницы с HTTP-статусами 3xx, 4xx и 5xx

И многое другое!

3. Узнайте, переключился ли ваш сайт на индекс Google для мобильных устройств.

Вы также можете использовать журналы сервера сайта, чтобы узнать, получает ли ваш сайт повышенный просмотр с помощью смартфона Googlebot для смартфона, указывая, что он был переключен на Индекс мобильной связи ,

Как правило, сайт, который все еще находится в регулярном индексе, будет иметь около 80% сканирования Google, выполняемого сканером настольных компьютеров, и 20% мобильным. Если вы переключились на мобильную связь, эти цифры поменяются местами.

Вы можете найти эту информацию, просмотрев вкладку «Агенты пользователей» в Screaming Frog Log Analyzer - вы увидите большинство событий, происходящих из Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, как Gecko) Chrome / 41.0.2272.96 Mobile Safari / 537.36 (совместимо; Googlebot / 2.1; + http: //www.google.com/bot.html:


Анализ файла журнала: краткий пример

Недавно я выполнил анализ большого количества файлов с использованием Screaming Frog для одного из моих клиентов, ниже приведен обзор, предоставляющий вам данные верхнего уровня для домена:

Я обнаружил, что Google, похоже, очень часто сканирует некоторые странные страницы и расставляет приоритеты над другими важными страницами. Конечно, в идеале наиболее важные страницы должны сканироваться, например, домашняя страница. Однако я нашел страницы в топ-15 с наибольшим количеством показов переадресовывает , неправильный 302 (временный) редирект, страницы без содержания на них и некоторые из которых были 404 и мягкий 404s , Я также обнаружил, что Google получает доступ и сканирует огромное количество динамических, ограненных URL-адресов.

Это означало, что я смог проконсультировать клиента по нескольким техническим исправлениям, включая исключение обхода URL-адресов путем блокировки URL-адресов, содержащих определенные шаблоны, с помощью файл robots.txt , обновление неверных перенаправлений и софт 404, и многое другое. Все это поможет повысить их производительность в поисковых системах и улучшить доступность сайта для Google.

Ресурсы

Итак, это мое краткое введение в анализ файла журнала. Вы можете сделать гораздо больше, как в Excel, так и с помощью инструментов, упомянутых выше (плюс другие). Больше, чем я могу охватить здесь! Ниже приведены некоторые полезные ресурсы:

7 фундаментальных технических вопросов SEO, на которые нужно ответить с помощью анализа файла журнала

Полное руководство по анализу файла журнала

Значение анализа файла журнала

И есть еще много чего почитать, что должно удовлетворить самых любопытных технических энтузиастов SEO!

Что такое файл журнала сервера?
Как мы можем использовать анализ файла журнала для SEO?
Как получить файлы журнала?
Какие инструменты мне нужно использовать?
Что такое файл журнала сервера?
Почему они значимы?
Итак, вы знаете, что такое файл журнала, но почему стоит проанализировать их?
Как мы можем использовать анализ файла журнала для SEO?
Как получить файлы журнала?
Какие инструменты мне нужно использовать?