Keresés az erőforrások között
A robots.txt-ről

A robots.txt-ről

A robots.txt az a fájl, amely meghatározza, hogy a weboldalad, valamint annak tartalma megjelenjen a keresőmotorokban.
bigblog2015-09-12 13:03:05 1228

A robots.txt az a fájl, amely meghatározza, hogy a weboldalad, valamint annak tartalma megjelenjen a keresőmotorokban.

Miért annyira fontos?

A robots.txt a keresőoptimalizálás magja. Innen indul minden, mivel ez engedi meg a keresőmotoroknak, hogy indexeljék a weboldalad. Ez határozza meg, hogy mi legyen indexelve és mi nem.

A uCoz rendszerben létrehozott weboldalakon van robots.txt fájl?

Persze hogy van. Ellenkező esetben ellent mondana a logikának. Az egyetlen korlátozás - ami az összes ingyenes weboldalszerkesztőnél jelen van, az az, hogy a honlap létrehozásától számított 30 napig karanténban van, tehát nem használható. 30 nap után (vagy egy fizetéses szolgáltatásra való előfizetés után) automatikusan kilép a karantén-időszakból, a keresőmotorok pedig elkezdhetik az indexelést a honlapon.

Hol helyezkedik el?

A robots.txt a weboldalad gyökérkönyvtárában található, tehát ha a weboldalad URL címe után odaírod, hogy /robots.txt, már láthatod is a fájlt. 

Ezt a fájlt ugyan nem láthatod a Fájlkezelőben, de ne aggódj, attól függetlenül még létezik.

Hogy néz ki?

Amennyiben a weboldal még a 30 napos karanténidőszakban van, a fájl hasonlóképpen néz ki:

User-agent: *
Disallow: /

A karanténidőszak után pedig már terjedelmesebb a fájl, és már szerkeszthetjük is, azáltal, hogy feltöltünk egy ugyanilyen nevű fájlt a fájlkezelőbe, de természetesen az eredeti fájl tartalmával és a módosításokkal. Nem ajánlott lecserélni az alap értékeket, mivel ezek alapból megfelelő módon vannak optimalizálva. Az alapfájl így néz ki:

User-agent: *
Allow: /*?page
Allow: /*?ref=
Allow: /stat/dspixel
Disallow: /*?
Disallow: /stat/
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /*0-*-0-17$
Disallow: /*-0-0-

Sitemap: http://forum.ucoz.hu/sitemap.xml
Sitemap: http://forum.ucoz.hu/sitemap-forum.xml

Oldaltérkép

A robots.txt tartalmazza az oldaltérképekhez vezető útvonalakat is a legutolsó két sorban:

Sitemap: http://forum.ucoz.hu/sitemap.xml
Sitemap: http://forum.ucoz.hu/sitemap-forum.xml

Az első az általános oldaltérkép URL-je, a második pedig a fórum oldaltérképe. Ezeket változatlanul kell hagyni!

Módosíthatok valamit a fájlban? 

Mint előbb is mondtuk, ez bővíthető saját elemekkel, viszont a rendszer alap kódjait nagyon nem ajánlott lecserélni, törölni, stb. A saját bejegyzések hozzáadását az utolsó Disallow után kell beszúrni egy új sorba.

Vegyük a uCoz Táska példáját: Van egy támogatás oldalunk. Ez indexelve marad, tehát hagyjuk, hogy a keresőmotorok indexeljék. Ennek az oldalnak viszont van két "aloldala" - egy oldal, amelyre a látogató át lesz irányítva, amennyiben sikeresen támogatott minket egy kis összeggel, valamint egy másik oldal, amelyre akkor lesz átirányítva, amennyiben visszavonta a PayPal-es tranzakciót. Mi az utóbbi kettőt nem szeretnénk indexelni.

Ezt a következőképpen oldottuk meg:

Disallow: /tamogatas/thankyou
Disallow: /tamogatas/cancel

Viszont van egy egyszerűbb megoldás is. A csillag karakter használata. Ugyanis a csillag azt jelöli, hogy bármi jöhet a helyébe. Így mivel az URL cím alatt mindkét oldal hasonló formájú, felírhatjuk így is:

Disallow: /tamogatas/*

Ugyanakkor hozzászólásokat is írhatunk a fájlba, amelyeket a jobb olvashatóság kedvéért használhatunk, valamint azért, hogy könnyebben megkapjunk valamit. Ezeket egy # jel után kell írni, a következő formában:

Disallow: /tamogatas/* # A thankyou és cancel oldalak indexelésének letiltása

A robots.txt és URL-ek tesztelése

A robots.txt fájl, valamint az URL-ek teszteléséhez a Google Webmestereszközök a megfelelő megoldás. Amennyiben már hozzáadtuk weboldalunkat a Google Webmestereszközökhöz (Search Console), a dolgunk nagyon könnyű lesz. Amennyiben még nem, hozzá kell adnunk.

A tesztelési eszköz itt található. Itt ki kell választanunk a legördülő listából a weboldalunkat, és már láthatjuk is a robots.txt fájlunk elemzését.

A Google Robots.txt tesztje

Az oldal alsó részén, a beviteli mező előtt láthatjuk, hogy van e érvényben levő hiba vagy figyelmeztetés, ugyanakkor amennyiben lenne, a fájlban színessel ki lenne emelve. 

URL-ek indexelési állapotát (lehet-e indexelni vagy sem) is tesztelhetjük ezzel az eszközzel. Csak be kell illesztenünk a weboldalunk URL-címe után levő részt, per ( / ) nélkül.

Vegyünk egy példát és térjünk vissza a uCoz Táska Támogatás oldalára. Az előbb megadtuk, hogy ne lehessen indexelni a támogatási oldal két aloldalát. Ezt tesztelhetjük is:

Tiltott URL tesztelése a Google Robots.txt tesztjében

Ugyanilyen a helyzet a második oldallal is. Viszont most próbáljuk meg maga a támogatási oldalt tesztelni:

Engedélyezett URL tesztelése a Google Robots.txt tesztjében

Tehát láthatjuk, hogy tökéletesen megkaptuk azt amit szerettünk volna.

Amennyiben bármilyen kérdésed van a robots.txt-vel kapcsolatban, vagy szeretnél letiltani egy vagy több URL címet, de elakadtál, kérdezz minket itt!

Hozzászólások (0)

A hozzászólási lehetőség ideiglenesen kikapcsolva
A uCoz Táska hivatalosan is bezárt. A legtöbb anyag, a uCoz-os tagság lejárta után is elérhető GitHub-on. Köszönjük a sok együtt töltött évet!