Ниже пойдёт речь об использовании парсера sitemap.xml для проверки доступности страниц сайта. О том, что это за парсер и как его установить есть отдельные статьи.
Парсер умеет проверять доступность страниц, которые указаны в файле sitemap.xml. Для того чтобы начать проверку введите:
./sp check website.url
,
где website.url — это адрес сайта вместе с протоколом. Например: https://example.com.
Скрипт обратится к каждой странице из sitemap.xml и проверит её HTTP-код ответа. Парсер использует HEAD запросы, чтобы уменьшить нагрузку на сеть. Но если веб-сервер сайта не поддерживает HEAD, то парсер будет использовать GET запросы.
Результат работы скрипта можно наблюдать сразу же в консоли. Выглядит он так:
4130/5757 =================>----- ok: 3143 301: 978 500: 1 ERR: 68
Вначале показано число проверенных ссылок и общее число проверяемых, а также индикатор прогресса. После этого идёт список разных HTTP-кодов ответа и количество страниц с таким кодом.
ok: 3143
— 3141 страницы доступны
301: 978
— 978 страниц вернули HTTP-код 301
500: 1
— 1 страница вернула HTTP-код 500
ERR: 68
— 68 вызвали ошибку cUrl, что может означать, что ссылки записаны в неправильном формате.
Информация о том, какая именно страница какой код вернула, сохранится в таблице check в базе данных {DOMAIN_NAME}.sqlite3 в папке reports. Доступ к этим данным можно получить используя консольную программу sqlite3.