Tinklapio indeksacija. Failas robots.txt
Antradienis, 07 Gruodis 2010 23:25
Parašė Rimvydas
Peržiūrų: 1489
Daugumoje tinklapių sukurtų įvairių TVS pagrindu yra daug informacijos kurios nebūtina indeksuoti. Tinklalapio indeksacija yra sudėtingas ir nemažai resursų reikalaujantis procesas, todėl norint sumažinti serverio apkrovą ir indeksacijos dubliavimą būtina nustatyti tam tikras indeksavimo taisykles. Šias taisykles paieškos robotams apibrėžia robots.txt failas. Šis failas yra šakniniame kataloge . Tai yra paprastas tekstinis failas kuriame aprašomos tinklalapio indeksavimo taisyklės. Jas keičiant galima įtakoti tinklapio indeksaciją.
Naršyklėje surinkę bet kokio tinklapio adresą pvz.: www.google.lt ir pabaigoje pridėję /robots.txt galime pažiūrėti šio tinklapio indeksavimo taisykles tik reikia įvertinti, kad tinklapiams sukurtiems naudojant skirtingas TVS sistemas optimalios indeksacijos taisyklės gali kardinaliai skirtis. Robots.txt failą galime sukurti naudodami paprastą teksto redaktorių kuris automatiškai neformatuoja teksto pvz.: notepad. Failo kūrimo taisyklės ir komandos yra labai paprastos, tačiau pagrindinė ir esminė ta, kad failetarp eilučių neturi būti kažkokių ženklų ar tuščių tarpų . Faile dažniausiai naudojamos tik dvi/trys instrukcijos User-agent apibrėžianti roboto tipą kuriam taikoma taisyklė ir Disallow/Allow nurodanti veiksmą. Jei robots.txt failas tuščias reiškia , kad visiems apsilankiusiems robotams leidžiama indeksuoti visus failus ir katalogus t.y. pilnai visą tinklapį. Jei turime pvz. tokį įrašą:
1 |
User-agent: * |
Čia nurodoma, kad visiems robotams draudžiama indeksuoti tris katalogus cgi-bin, images , tmp ir juose gyliau esančius subkatalogus, failus.
Reikia atkreipti dėmesį, kad kiekvieną katalogą būtina rašyti iš naujos eilutės.
Draudimas indeksuoti visa tinklapį visiems robotams:
1 |
User-agent: * |
Leidžiame indeksuoti tinklapį visiems robotams:
1 |
User-agent: * |
arba sukuriame tuščia robots.txt failą.
Norėdami uždrausti indeksuoti tinklapį kažkokiam konkrečiam robotui pvz.: google rašome:
1 |
User-agent: googlebot |
Leisti tik vienam, o uždrausti visiems kitiems:
1 |
User-agent: googlebot |
Gali būti variantas kai sakykime turime katalogą kuriam norime uždrausti indeksacija o jame yra subkatalogas kuriam reikalinga indeksacija tada rašome taip:
1 |
User-agent: * |
Čia nurodome, kad katalogas "img" indeksacijai uždraustas, tačiau jame esantis katalogas "peizažas" indeksuoti leidžiamas.Ir pabaigai, kad palengvinti robotams indeksaciją reikia pateikti tinklapio žemėlapį. Taigi susikuriame sitemaps (Joomloje tam yra skirti pluginai) ir pabaigoje robots.txt failo nurodome kelia iki jo:
1 |
Sitemap: http://www.manotinklapis.lt/sitemap.xml
|
Joomla123.lt is not affiliated with or endorsed by Open Source Matters or the Joomla! Project.
The Joomla!® name is used under a limited license from Open Source Matters in the United States and other countries.


