Noul WordPress Ella face ceva in privita motoarelor de cautare (robots.txt), da posibiltatea blogerilor de a interzice accesul spiderilor si implicit nu veti avea trafic din motoare de cautare. Optiune inutila pentru majoritatea bloggerilor.
Un blogger care vrea trafic din motoare poate limita accesul spiderilor doar la zonele in care se gaseste continutul util, fara sa le dea voie sa indexeze pagini din zona de administrare a site-ului (ex: wp-login.php) sau folderul de upload sau chiar paginile feedurilor.
Aveti mai jos un exemplu de cum ar putea sa arate continutul unui fisier robots.txt pentru un blog.
Exista doua sectiuni: User-agent: Googlebot
pentru Google si User-agent: *
pentru celelalte motoare. Observati ca unele restrictii se repeta in cele doua sectiuni, motivul: Google ignora User-agent: *
atunci cand are una dedicata. De ce trebuie sa ii dedicam o sectiune ? Pentru a putea folosi reguli pe care celelate motoare de cautare nu le inteleg, in acest caz folosirea caracterului *
.
User-agent: Googlebot
Disallow: /wp-
Disallow: /uploads/
Disallow: /feed/
Disallow: /comments/feed
Disallow: /feed/$
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*?*
User-agent: *
Disallow: /wp-
Disallow: /uploads/
Disallow: /feed/
Disallow: /comments/feed
Disallow: /feed/$
Explicatii:
Disallow: /wp-
Interzice accesul spre orice folder sau fisier care incepe cu “wp-”.
Atentie ! O regula ca Disallow: /a
va interzice accesul spiderilor in toate paginile sau directoarele care incep cu litera a. Pentru a face referire la folder-ul a trebuie adaugat la sfarsit un slash: Disallow: /a/
Disallow: /uploads/
Interzice accesul in fisierele din directorul uploads. Se procedeaza la fel pentru orice alt flder care nu vreti sa fie gasit in motoare.
Disallow: /feed/
Disallow: /comments/feed
Disallow: /feed/$
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Setul acesta de reguli interzice accesul motoarelor de cautare la feed-urile blogului, acestea nu vor mai fi indexate si nu li se va da pagerank. Sunt mai multe reguli pentru ca blogurile au feed-uri pentru fiecare pagina, pentru comentarii, feed-ul principal /feed/, si posibilitatile de amplasare sunt diferite.
Blocarea accesului la feeds este alegerea fiecaruia, teoretic ele trebuie blocate pentru ca sunt pagini pe care vizitatorii nu s-ar putea descurca cu cititul, nu sunt destinate citirii directe si deci nu trebuie sa apara in Google. O idee ar fi sa lasati motoarele sa vada decat feed-ul principal, adica: exemplu.ro/feed/, si pentru asta veti renunta la regula Disallow: /feed/
.
Utilizarea acestor reguli este oportuna atunci cand folositi sistemul de contorizare de pe feedburner, cu redirectarea feed-urilor catre feedburner.
Ultima regula:
Disallow: /*?*
Interzice accesul motoarelor in paginile care folosec caracterul “?” in url (parametrii). In cazul in care nu folositi rewrite-ul aceasta regula va bloca accesul spidrilor in toate paginile blogului. In mod normal un blog in WordPress nu are nevoie de ea, dar exista unele plugin-uri care duc la aparitia unor pagini mai “interesante” (cu parametrii) in Google.
Puteti folosi robots.txt pentru a bloca accesul in anumite pagini din site sau anumite categorii (in cazul in care forma url-urilor va permite asta).
Cum se poate seta ca un anume fisier dintr-un director blocat sa fie totusi indexat ?
de ex eu am :
User-agent: *
Disallow: /images/
dar am in acest director fisierul oferta.pdf pe care as vrea sa il indexeze totusi
/images/banners/oferta.pdf
Multumesc de ajutor.