• База знань
  • /
  • Блог
  • /
  • Wiki
  • /
  • ONLINE CHAT
+380 (44) 364 05 71

Файл robots.txt предназначен для управления поведением поисковыми ботами на сайте. С помощью этого файла можно задать список страниц, которые должны быть проиндексированы в первую очередь, страницы или каталоги индексацию которых нужно запретить, а так же задать частоту индексирования.

Поэтому Прежде чем описывать составление robots.txt для CMS, давайте остановимся на его директивах.

robots.txt это обычный текстовый файл, который располагается в корне сайта. Редактировать его можно любым текстовым редактором, например блокнотом или Notepad++. Клиенты FREEhost.UA могут редактировать этот файл прямо в панели управления, в разделе robots.txt.

Первая директива файла User-Agent. С помощью нее можно указать для каких поисковых ботов данный файл написан.

Самые популярные боты это:
Google – User-agent: Googlebot;
Yandex – User-agent: Yandex;
Yahoo! – User-agent: Yahoo! Slurp;
MSN – User-agent: MSNbot;

Например для управления ботом Яндекса нужно добавить в файл

User-Agent: Yandex

Если директивы следующие за коммандой User-Agent предназначены для вех ботов используется символ *, вот так:

User-Agent: *

Яндекс любит, когда к нему обращаются в robots.txt отдельно, поэтому зачастую можно встретить два похожих блока для всех и для Yandex :)

После указания типа агента, для которого написан блок директив, не должно быть пустых строк, в противном случае робот будет считать это окончанием блока.

Директива Disallow используется для того чтоб указать боту что индексировать нельзя.

Самый простой robots.txt будет выглядеть так:

User-Agent: *
Disallow: /

Это будет означать, что весь сайт запрещен для индексирования.

Если Вы хотите запретить индексацию только определенного каталога или страницы, делается это следующим образом:
User-Agent: *
Disallow: /folder/
Disallow: /page.htm

Если в файл robots.txt будет добавлена директива Disallow: /page это будет означать, что запрещено индексирование всех файлов и каталогов расположенных в корне сайта начинающихся с page (/page/ page1.htm, page.html)

Для указания файлов и каталогов так же можно использовать символ *. Его значение это любой набор символов, и символ $, значение которого конец строки. Пример:

Disallow: *.pdf$

Означет что для индексации запрещены все файлы с расширением .pdf

Следующая важная директива Host. Она используется для того чтоб указать поисковому боту, какой домен является для сайта основным. Особенно она важна, если к сайту подключено несколько доменных имен. Вот как это выглядит:

User-Agent: *
host: freehost.com.ua

И последняя директива Sitemap. Ее необходимо использовать для того чтоб указать поисковой системы место расположения файла карты сайта. Используется следующим образом:
Sitemap: http://site/sitemap.xml

Теперь когда с robots.txt познакомились можно защищать наши CMS. В зависимости от используемых модулей и версии CMS набор файлов и каталогов может отличаться, но как правило он следующий:

robots.txt для Joomla:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: www.site.com.ua
Sitemap: http://site.com.ua/sitemap.xml

robots.txt для Wordpress:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: /feed/
Disallow: */feed
Disallow: */trackback
Disallow: */comments

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: /feed/
Disallow: */feed
Disallow: */trackback
Disallow: */comments
Host: site.com.ua
Sitemap: http://site.com.ua/sitemap.xml
Если в сайте на WordPress Вы используете ЧПУ, чтоб не было дублирования страниц в поисковой системе обязательно добавьте следующие строки:
Disallow: /*?
Disallow: /*?*
Disallow: /*.php

robots.txt для DRUPAL

User-agent: Yandex
# Directories
Disallow: /includes
Disallow: /misc
Disallow: /modules
Disallow: /profiles
Disallow: /scripts
Disallow: /themes
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.sqlite.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin
Disallow: /comment/reply
Disallow: /filter/tips
Disallow: /node/add
Disallow: /search
Disallow: /user
Disallow: /user/register
Disallow: /user/password
Disallow: /user/login
Disallow: /user/logout
# Paths (no clean URLs)
Disallow: /?q=admin
Disallow: /?q=comment/reply
Disallow: /?q=filter/tips
Disallow: /?q=node/add
Disallow: /?q=search
Disallow: /?q=user/password
Disallow: /?q=user/register
Disallow: /?q=user/login
Disallow: /?q=user/logout
User-agent: *
# Directories
Disallow: /includes
Disallow: /misc
Disallow: /modules
Disallow: /profiles
Disallow: /scripts
Disallow: /themes
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.sqlite.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin
Disallow: /comment/reply
Disallow: /filter/tips
Disallow: /node/add
Disallow: /search
Disallow: /user
Disallow: /user/register
Disallow: /user/password
Disallow: /user/login
Disallow: /user/logout
# Paths (no clean URLs)
Disallow: /?q=admin
Disallow: /?q=comment/reply
Disallow: /?q=filter/tips
Disallow: /?q=node/add
Disallow: /?q=search
Disallow: /?q=user/password
Disallow: /?q=user/register
Disallow: /?q=user/login
Disallow: /?q=user/logout
Host: YOUR-SITE.ru
Sitemap: http:// YOUR-SITE.ru/sitemap.xml
Проверить правильность составления файла robots.txt можно на http://webmaster.yandex.ua/robots.xml

 

Дата: 25.06.2014
Автор: Евгений
Голосування

Авторам статті важлива Ваша думка. Будемо раді його обговорити з Вами:

comments powered by Disqus
navigate
go
exit
Дякуємо, що обираєте FREEhost.UA