Парсер Sitemap.xml

При разработке и поддержке сайтов часто пригождается инструмент, который может пройтись по всем страницам сайта и выполнить какое-то действие с каждой. Это может быть проверка доступности страниц, проверка вёрстки страниц в валидаторе, проверка скорости ответа и прочее. Особенно важен такой инструмент для сайтов с большим количеством страниц, где ручная проверка невозможна.

Для своей работы я разработал такой инструмент. Он представляет из себя скрипт, который вызывается из консоли, проходится по всем страницам сайта и собирает о них данные в базу данных Sqlite. Список страниц сайта скрипт получает из файла sitemap.xml, который есть на каждом созданном мной сайте. Так как на некоторых сайтах могут быть тысячи разных страниц, то скрипт умеет проходить их в несколько паралельных потоков, что существенно ускоряет получение результатов.

Инструмент имеет две основные функции:

  1. проверяет HTTP-код ответа для каждой страницы сайта. Это нужно, чтобы удостоверится, что все страницы сайта работают;
  2. ищет «битые» ссылки. Собирает из кода каждой страницы сайта все ссылки и проверяет их HTTP-код ответа.

Для использования скрипта нужен установленный PHP 7 с расширениями cUrl и sqlite 3. Скрипт поддерживает только цельный sitemap.xml. Инструкция по установке скрипта находится на отдельной странице.

Репозиторий парсера sitemap.xml выложен на GitHub.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *