Веб -сканери сканування та індекси веб -сайтів. Вони пошукові системи живлення, дзеркала сайту та інструменти для даних. Ця стаття показує, як працюють сканери, який вибір входить у їх дизайн та як Google обробляє масштаб.
Кругер – це бот, який починається зі списку URL -адрес. Він отримує ці сторінки, витягує нові посилання та додає їх до черги. Потім він повторюється.
Мета полягає в тому, щоб залишатися в курсі та завершенні. Він повинен пропускати дублювання сторінок, уникати мертвих посилань та часто повертатися до зміни вмісту.
Масштабований сканер розбиває роботу в окремих послугах. Ось типовий потік:
- URL -адреса Frontier (планувальник): У URL -адреси на пріоритетній черзі.
- DNS Resolver: Карти доменів до IP -адрес.
- Http fetcher: Надсилає запити та підключає гусеницю до сервера.
- Екстрактор: Він завантажує вміст з цих веб -сторінок.
- Фільтр вмісту: Кипає не-HTML або нерелевантні дані.