
„Google“ darbuotojas Gary Illyesas paskelbė tinklaraščio įrašą, kuriame paaiškino, kaip veikia „Googlebot“ tikrinimo sistemos. Įrašas apima baitų apribojimus, dalinio gavimo elgseną ir tai, kaip sutvarkyta „Google“ tikrinimo infrastruktūra.
Įraše minimas podcast'o Search Off the Record 105 epizodas, kuriame Illyesas ir Martinas Splittas diskutavo tomis pačiomis temomis. Illyes prideda daugiau informacijos apie tikrinimo architektūrą ir baitų lygio elgesį.
Kas naujo
„Googlebot“ yra vienas iš bendros platformos klientų
Illyesas apibūdina „Googlebot“ kaip „tiesiog vartotoją to, kas primena centralizuotą tikrinimo platformą“.
„Google“ apsipirkimas, „AdSense“ ir kiti produktai siunčia tikrinimo užklausas per tą pačią sistemą skirtingais tikrinimo programos pavadinimais. Kiekvienas klientas nustato savo konfigūraciją, įskaitant vartotojo agento eilutę, robots.txt prieigos raktus ir baitų apribojimus.
Kai „Googlebot“ rodomas serverio žurnaluose, tai yra „Google“ paieška. Kiti klientai rodomi su savo tikrinimo programos pavadinimais, kuriuos „Google“ pateikia savo tikrinimo programos dokumentacijos svetainėje.
Kaip 2 MB limitas veikia praktiškai
„Googlebot“ paima iki 2 MB bet kuriam URL, išskyrus PDF. PDF failams taikomas 64 MB apribojimas. Tikrinimo programos, kurios nenurodo numatytojo 15 MB ribos.
Illyes prideda keletą detalių apie tai, kas vyksta baitų lygiu.
Jis sako, kad HTTP užklausų antraštės įskaičiuojamos į 2 MB limitą. Kai puslapis viršija 2 MB, „Googlebot“ jo neatmeta. Tikrinimo programa sustoja ties riba ir siunčia sutrumpintą turinį į „Google“ indeksavimo sistemas ir žiniatinklio atvaizdavimo paslaugą (WRS).
Šios sistemos apdoroja sutrumpintą failą taip, lyg jis būtų baigtas. Viskas, kas viršija 2 MB, niekada negaunama, nepateikiama ar indeksuojama.
Kiekvienas išorinis šaltinis, nurodytas HTML, pvz., CSS ir JavaScript failai, gaunamas naudojant atskirą baitų skaitiklį. Tie failai neįskaičiuojami į pirminio puslapio 2 MB. WRS negauna medijos failų, šriftų ir to, ką „Google“ vadina „keliais egzotiškais failais“.
Atvaizdavimas po pateikimo
WRS apdoroja JavaScript ir vykdo kliento kodą, kad suprastų puslapio turinį ir struktūrą. Jis siunčia „JavaScript“, CSS ir XHR užklausas, bet neprašo vaizdų ar vaizdo įrašų.
Illyesas taip pat pažymi, kad WRS veikia be būsenos, išvalydamas vietinę saugyklą ir seanso duomenis tarp užklausų. „Google“ „JavaScript“ trikčių šalinimo dokumentai apima nuo „JavaScript“ priklausančių svetainių pasekmes.
Geriausia praktika nesilaikant limito
„Google“ rekomenduoja perkelti sunkų CSS ir „JavaScript“ į išorinius failus, nes jie turi savo baitų apribojimus. Meta žymos, pavadinimo žymos, nuorodų elementai, kanoniniai elementai ir struktūriniai duomenys turėtų būti rodomi aukščiau HTML. Dideliuose puslapiuose dokumente žemiau pateiktas turinys gali nukristi žemiau ribos.
„Illyes“ pažymi eilutinius „base64“ vaizdus, didelius eilutinio CSS arba „JavaScript“ blokus ir didelius meniu kaip pavyzdžius, kas gali padidinti puslapių dydį daugiau nei 2 MB.
2 MB riba „nėra iškaltas akmenyje ir laikui bėgant gali keistis, kai žiniatinklis vystosi ir HTML puslapiai didėja“.
Kodėl tai svarbu
2 MB ir 64 MB PDF apribojimai pirmą kartą buvo dokumentuoti kaip „Googlebot“ skaičiai vasario mėn. HTTP archyvo duomenys parodė, kad dauguma puslapių yra gerokai žemiau slenksčio. Šiame tinklaraščio įraše pridedamas techninis kontekstas, susijęs su šiais skaičiais.
Platformos aprašyme paaiškinama, kodėl skirtingi „Google“ tikrintuvai serverio žurnaluose elgiasi skirtingai ir kodėl numatytasis 15 MB skiriasi nuo „Googlebot“ 2 MB apribojimo. Tai yra atskiri nustatymai skirtingiems klientams.
Išsami informacija apie HTTP antraštę yra svarbi puslapiams, kurie yra netoli ribos. „Google“ teigia, kad antraštės sunaudoja dalį 2 MB apribojimo kartu su HTML duomenimis. Daugeliui svetainių tai nebus paveikta, tačiau puslapiai su didelėmis antraštėmis ir išpūstais žymėjimais limitą gali pasiekti anksčiau.
Žvilgsnis į priekį
Dabar „Google“ per du mėnesius apėmė „Googlebot“ tikrinimo apribojimus, atnaujindama dokumentus, transliacijos epizodą ir specialų tinklaraščio įrašą. Illyeso pastaba, kad riba laikui bėgant gali keistis, rodo, kad šie skaičiai nėra nuolatiniai.
Svetainėse su standartiniais HTML puslapiais 2 MB apribojimas nekelia susirūpinimo. Puslapiai, kuriuose yra daug įterpto turinio, įterptų duomenų arba per didelis naršymas, turėtų patikrinti, ar jų kritinis turinys yra per pirmuosius 2 MB nuo atsakymo.
Teminis vaizdas: Sergejus Elaginas / „Shutterstock“.


