Технический Аудит больших сайтов 5 миллионов страниц и больше

Технический Аудит больших сайтов 5 миллионов страниц и больше 2

Базовый чеклист для подготовки перед аудитом: ⤵️ 

  • Определитесь с продолжительностью аудита — в зависимости от лимита производительности, количества страниц и времени на обработку одного запроса, вы сможете приблизительно подсчитать необходимое для аудита время. Например, если вы планируете просканировать миллион страниц в рамках 8 часов, вам потребуется обрабатывать 125 тысяч страниц в час или около 35 страниц в секунду;
  • Выберите момент — так как аудит существенно загрузит инфраструктуру клиента, удостоверьтесь, что вы выбрали подходящее время. Чем меньше будет обычных посетителей — тем лучше.
  • Предупредите IT-команду клиента о том, как и когда вы будете проводить аудит. Так как вы будете отправлять от 30 до 100 запросов в секунду, возможно вам потребуется их помощь в подготовке и конфигурации серверов. Потому лучше удостовериться, что на время сбора информации кто-то из команды поддержки будет онлайн;
  • Удостоверьтесь, что ваши IP добавлены в whitelist и при этом исключены из трекинга и аналитики.

При использовании локального ПО следует учесть следующие рекомендации для оборудования: ⤵️

► Пропускная способность сети — мы рекомендуем использовать стационарную машину с проводным гигабитным каналом для доступа в Интернет. Для этого нужно удостовериться, что ваша сетевая инфраструктура полностью поддерживает гигабитную сеть — от кабелей до роутера и свичей.

► Оперативная память — для того, чтобы выдержать расчетную нагрузку такого аудита, вам потребуется от 20 гигабайт, которые вы сможете выделить исключительно под нужды Screaming Frog или аналога. То есть при наличии 32 гигабайт, остаточных 12 как раз должно хватить на нужды операционной системы и работы с данными.

► Запись и хранение данных — так как вы врядли захотите часто повторять такие аудиты, результаты лучше сохранять локально. Связка SSD и HDD поможет обеспечить максимальное быстродействие и надежность хранения данных. Удостоверьтесь, что Screaming From установлена на SSD устройстве, а HDD указан как локальное хранилище для файлов.

Что касается самого ПО, то есть несколько основных вариантов. 

Наиболее хорошо знакомым будет Screaming Frog, который не только прекрасно справится со сбором данных, но и позволит провести расширенный анализ интересующих URL через подключенные API. 

Если вы все же хотите попробовать что-то другое, Xenu может оказаться хорошим вариантом. Его основные задачи — это первичный сбор информации о страницах, включая заголовки и мета-описания, а также быстрое выявление 404 ошибок. Что касается совместимости, Xenu  уступает Screaming Frog так как официально поддерживает только WIndows. Но неофициально, программа также работает и на дистрибутивах Fedora, Red Hat, Ubuntu/Kubuntu а также на OS X в режиме совместимости на процессорах Intel. 

Что касается скриптов и самописных пауков, то здесь вы ограничены только собственными техническими навыками и воображением.

Источник https://t.me/nazapadseo

Добавить комментарий

*