Файл robots.txt предназначен для управления поведением поисковыми ботами на сайте. С помощью этого файла можно задать список страниц, которые должны быть проиндексированы в первую очередь, страницы или каталоги индексацию которых нужно запретить, а так же задать частоту индексирования.
Поэтому Прежде чем описывать составление robots.txt для CMS, давайте остановимся на его директивах.
robots.txt это обычный текстовый файл, который располагается в корне сайта. Редактировать его можно любым текстовым редактором, например блокнотом или Notepad++. Клиенты FREEhost.UA могут редактировать этот файл прямо в панели управления, в разделе robots.txt.
Первая директива файла User-Agent. С помощью нее можно указать для каких поисковых ботов данный файл написан.
Самые популярные боты это:
Google – User-agent: Googlebot;
Yandex – User-agent: Yandex;
Yahoo! – User-agent: Yahoo! Slurp;
MSN – User-agent: MSNbot;
Например для управления ботом Яндекса нужно добавить в файл
User-Agent: Yandex
Если директивы следующие за коммандой User-Agent предназначены для вех ботов используется символ *, вот так:
User-Agent: *
Яндекс любит, когда к нему обращаются в robots.txt отдельно, поэтому зачастую можно встретить два похожих блока для всех и для Yandex :)
После указания типа агента, для которого написан блок директив, не должно быть пустых строк, в противном случае робот будет считать это окончанием блока.
Директива Disallow используется для того чтоб указать боту что индексировать нельзя.
Самый простой robots.txt будет выглядеть так:
User-Agent: *
Disallow: /
Это будет означать, что весь сайт запрещен для индексирования.
Если Вы хотите запретить индексацию только определенного каталога или страницы, делается это следующим образом:
User-Agent: *
Disallow: /folder/
Disallow: /page.htm
Если в файл robots.txt будет добавлена директива Disallow: /page это будет означать, что запрещено индексирование всех файлов и каталогов расположенных в корне сайта начинающихся с page (/page/ page1.htm, page.html)
Для указания файлов и каталогов так же можно использовать символ *. Его значение это любой набор символов, и символ $, значение которого конец строки. Пример:
Disallow: *.pdf$
Означет что для индексации запрещены все файлы с расширением .pdf
Следующая важная директива Host. Она используется для того чтоб указать поисковому боту, какой домен является для сайта основным. Особенно она важна, если к сайту подключено несколько доменных имен. Вот как это выглядит:
User-Agent: *
host: freehost.com.ua
И последняя директива Sitemap. Ее необходимо использовать для того чтоб указать поисковой системы место расположения файла карты сайта. Используется следующим образом:
Sitemap: http://site/sitemap.xml
Теперь когда с robots.txt познакомились можно защищать наши CMS. В зависимости от используемых модулей и версии CMS набор файлов и каталогов может отличаться, но как правило он следующий:
robots.txt для Joomla:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: www.site.com.ua
Sitemap: http://site.com.ua/sitemap.xml
robots.txt для Wordpress:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: /feed/
Disallow: */feed
Disallow: */trackback
Disallow: */comments
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: /feed/
Disallow: */feed
Disallow: */trackback
Disallow: */comments
Host: site.com.ua
Sitemap: http://site.com.ua/sitemap.xml
Если в сайте на WordPress Вы используете ЧПУ, чтоб не было дублирования страниц в поисковой системе обязательно добавьте следующие строки:
Disallow: /*?
Disallow: /*?*
Disallow: /*.php
robots.txt для DRUPAL
User-agent: Yandex
# Directories
Disallow: /includes
Disallow: /misc
Disallow: /modules
Disallow: /profiles
Disallow: /scripts
Disallow: /themes
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.sqlite.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin
Disallow: /comment/reply
Disallow: /filter/tips
Disallow: /node/add
Disallow: /search
Disallow: /user
Disallow: /user/register
Disallow: /user/password
Disallow: /user/login
Disallow: /user/logout
# Paths (no clean URLs)
Disallow: /?q=admin
Disallow: /?q=comment/reply
Disallow: /?q=filter/tips
Disallow: /?q=node/add
Disallow: /?q=search
Disallow: /?q=user/password
Disallow: /?q=user/register
Disallow: /?q=user/login
Disallow: /?q=user/logout
User-agent: *
# Directories
Disallow: /includes
Disallow: /misc
Disallow: /modules
Disallow: /profiles
Disallow: /scripts
Disallow: /themes
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.sqlite.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin
Disallow: /comment/reply
Disallow: /filter/tips
Disallow: /node/add
Disallow: /search
Disallow: /user
Disallow: /user/register
Disallow: /user/password
Disallow: /user/login
Disallow: /user/logout
# Paths (no clean URLs)
Disallow: /?q=admin
Disallow: /?q=comment/reply
Disallow: /?q=filter/tips
Disallow: /?q=node/add
Disallow: /?q=search
Disallow: /?q=user/password
Disallow: /?q=user/register
Disallow: /?q=user/login
Disallow: /?q=user/logout
Host: YOUR-SITE.ru
Sitemap: http:// YOUR-SITE.ru/sitemap.xml
Проверить правильность составления файла robots.txt можно на http://webmaster.yandex.ua/robots.xml
Дата: 25.06.2014 Автор: Евгений
|
|
Авторам статті важлива Ваша думка. Будемо раді його обговорити з Вами:
comments powered by Disqus