Procházeče jsou technické, ale velmi lehce pochopitelné nástroje, hlavně díky senior program manažerovi Frédéric Dubut z Microsoftu a jeho prezentaci na konferenci SMX East.
Pojďme si to všichni přiznat – pavouci mohou být zastrašující. Ovšem, pokud podnikáte v SEO, chápání toho, jak pavouci procházejí, indexují a vykreslují stránky, hraje velkou roli v zajištění schopností stránky nějakým způsobem prospívat. Minulý týden, Frederic Dubut, senior program manažer z Microsoftu, vysvětlil tento koncept na konferenci SMX East a také nám vysvětlil, jak vlastně optimalizovat stránku co možná nejvíce pro zvýšení efektivity procházení.
CO je to vlastně Crawler? (procházeč)
Crawler (nebo také procházeč, bot či pavouk) prochází HTML na internetu za účelem indexování. Abychom si to lépe vysvětlili, představte si spoustu počítačů najednou, které posílají jistý program pro stažení obsahu stránky.
Ok, a co?
A tady je ten zakopaný pes. Dubut zvýraznit více než dosti to, že vývoj programu, který by navštívil internetové stránky a shromažďoval či sbíral jisté informace je jednoduché, ale vyvíjet je tak, aby při tomto všem byly tyto programy „zdvořilé“, to už tak lehké není. Crawler může (pokud navštíví server příliš často) degradovat výkon stránky (zpomalit jej).
A v konečném důsledku internetové vyhledávače chtějí po jakémkoliv crawleru, aby byl „dobrým občanem internetu“.
Vše zachrání Crawler manažer!
Co je vlastně Crawler manažer?
Jako spousta dalších supervizorů, práce crawler manažeru je naslouchat signálům a stanovit si nějaký „rozpočet“. Jeho práce je odhadnout a určit „jak moc může procházet stránku, aniž by poškodil výkon dané stránky?“ (také neformálně nazváno – „crawler budget (rozpočet crawleru)“.). Když crawler manažer zjistí, že příliš prochází, zanechá toho. A pokud stále neidentifikoval bod zlomu, kdy už by to bylo příliš, tak bude pokračovat v procházení.
Jaké signály crawler manažer používá?
Crawler manažer hodnotí signály hned na několik úrovní. Používá signály (tedy chyby spojení, doba stahování, velikost obsahu, status atd.), aby otestoval vody a zajistil, že tam nejsou žádné anomálie. Každá skupina signálů má své vlastní hrdlo lahve, nezávislý crawler budget. Aby se stránka procházela, musí tyto jednotlivé úrovně mít dostatečný crawler budget.
Tyto úrovně zahrnují:
- Subdomény
- Domény
- Server
- IP adresu
Co je crawler budget (rozpočet Crawleru?)
Crawler budget (rozpočet) je jakýsi limit, do kdy si crawler myslí nebo stanovuje, že může vaši stránku prohlížet, aniž by nějak poškodil výkon vaší stránky v samém procesu. Je to určeno skrze jakýsi proces hodnocení jednotlivých výpočtů výše popsaných.
Kdy byste se měli o tento rozpočet starat?
Dubut zmínil, že jsou zde dva jisté faktory či elementy, které dělají stránky daleko hůře procházenými: hlavně je to velikost dané stránky a úroveň optimalizace (zamyslete se: vnitřní infrastruktura odkazů, málo duplikovaný obsah, silný signál). Nejtěžší stránky na procházení jsou ty, které jsou příliš velké a mají velmi špatné SEO, což znamená, že rozpočet crawleru bude daleko menší než to, co je třeba k procházení.