Google are un crawler numit Googlebot, un produs software ce indexeaza paginile web (in prezent el indexeaza si alte tipuri de fisiere). Principiul dupa care functioneaza acest crawler este simplu (dar nu se poate spune acelasi lucru si despre implementarea lui!): cand crawler-ul citeste o pagina web el va adauga in lista paginilor de vizitat toate link-urile de pe pagina citita in respectivul proces.
Teoretic, el ar trebui ca in acest fel sa fie capapabil sa cunoasca majoritatea paginilor web de pe internet care nu sunt orfane (o pagina web se spune ca este orfana daca nu exista alte link-uri spre ea). Volumul de date pe care acest crawler le strange este impresionant si de aceea este nevoie de sute de servere pentru a le stoca.
In plus pentru cunoasterea mai multor pagini web, Google doreste sa indexeze paginile web in mod regulat, pentru ca multe pagini sunt updatate constant.
Frecventa cu care Googlebot-ul reviziteaza o pagina depinde de PageRank –ul ei: cu cat este mai mare PR, pagina va fi indexata mai frecvent. Urmarind link-urile, Googlebot –ul poate detecta si paginile care nu exista. („error 404”).
Aceasta imensa baza de date va fi analizata foarte atent de Google. Fiecare cuvant sau propozitie va fi asociat cu un tip, bazat pe tag-urile HTML din care fac parte. In acest fel un cuvant continut in title va fi considerat mai semnificativ decat unul din body. Aceste tipuri pot fi clasificate dupa importanta: cele mai importante sunt cuvintele din title, dupa care cele din H1 pana la H6, cele bold ,cele italic, etc. Aceste lucruri impreuna cu alte criterii printre care si PageRank – ul, fac posibila ca cele mai relevante rezultate sa fie in top.
eu cum pot vedea daca d-l “Googlebot” a trecut si pe la mine pe site?
De unde stim ca googlebot a vizitat siteul?
Foloseste Google Webmaster Tools sau mai nou Google Search Console si acooo o sa vezi cand un anume URL a fost vizitat de robotii google.