Решили мы немного поработать над блогом. Добавить новых рубрик, раскидать статьи по этим рубрикам, отдать в фид полные статьи и, наконец, обновить WordPress до самой свежей версии. А то у нас до сих пор стояла версия, актуальная на момент открытия блога.
Сегодня занимался обновлением WordPress, а пока заливались новые файлы на хостинг, я стал думать над тем, чтобы сделать правильный файл robots.txt.
О том, что такое robots.txt многие знают, но не все его создают и не желают разобраться для чего же он нужен. Специально посмотрел сайты наших читателей и проверил наличие файла robots.txt и его содержимое
.
Итак, для чего вообще нужен файл robots.txt.
Каждая поисковая система для индексирования документов (сайтов, страниц, файлов) использует специальную программу, которую называют роботом. Робот путешествуют по веб-страницам посредством ссылок, заносит в свою базу те страницы, которые считает нужными и те, которые не запрещены к индексации.
Как только робот попадает на страницу сайта, он первым делом ищет служебный файл – robots.txt. Если такой файл есть в корне сайта, то робот будет индексировать сайт по правилам, которые описаны в этом файле. Если же файл не найден, индексироваться будут все страницы сайта без ограничений.
В файле robots.txt описаны инструкции, которые указывает поисковым системам какие разделы, файлы и страницы сайта нужно индексировать, а какие упустить. Для чего это? Вроде бы, пусть индексирует все. Но сами поисковики рекомендуют веб-мастерам использовать этот файл.
Также в robots.txt можно указывать месторасположения файла Sitemap (карта сайта).
Конструкция robots.txt достаточно проста. Файл содержит внутри себя строки с директивами, спецсимволами и параметрами. Директив немного, поэтому их достаточно просто изучить. Я распишу только часто используемые директивы и спецсимволы.
Директива User-agent.
Как только робот поисковой системы нашел в корне сайта файл robots.txt, он ищет в этом файле строки, начинающиеся с директивы User-agent, далее он читает значение стоящее после User-agent. Это может быть символ «*» или имя робота какой-либо ПС. Пример:
Директива для всех поисковых систем.
Директива только для робота Яндекса. Если робот не находит директиву User-agent, то он считает, что доступ ему не ограничен.
Директива Disallow.
Эта директива запрещает роботу индексировать сайт или его определенные разделы. Примеры:
Disallow: /
Роботу запрещается индексировать весь сайт.
Disallow: /cgi-bin
Робот разрешается индексировать все, кроме страниц, начинающихся с cgi-bin.
Директива Allow.
Эта директива разрешает роботу индексировать ту или иную область. Если эта директива используется в блоке совместно с Disallow, то Allow должна стоять выше директивы Disallow. Пример:
Allow: /wp-content/uploads
Disallow: /wp-content
Роботу запрещается индексировать документы, начинающиеся с wp-content, но разрешается индексировать документы, начинающиеся с /wp-content/uploads.
Директива Sitemap.
Указывает роботу, где расположена карта сайта в xml. Пример:
Disallow: / wp-content
Sitemap: http://7bloggers.ru/sitemap.xml
Символ #.
Символ «#» говорит роботу о том, что все, что после # и до конца строки – это комментарий для человека и роботу он не к чему.
Как создать robots.txt?
В создании этого файла тоже нет ничего сложного. Нужно создать текстовый файл с именем robots и расширением .txt. Открыть его в блокноте или другом подобном редакторе и записать необходимые инструкции. После чего сохранить файл и залить в корень сайта. То есть файл будет доступен по адресу http://ваш_сайт.ru/robots.txt.
Как проверить файл robots.txt?
Для того, чтобы проверить работу, созданного вами файла robots.txt можно воспользоваться:
– Яндекс.Вебмастер: Анализ robots.txt
- Анализ Robots.txt в инструментах Гугл для веб-мастеров
Я составил для этого блога (WordPress) вот такой robots.txt:
Allow: /wp-content/uploads
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: */trackback
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Disallow: /xmlrpc.php
# Google Image
User-agent: Googlebot-Image
Allow: /
Sitemap: http://7bloggers.ru/sitemap.xml
Он, конечно, не идеален. Было бы неплохо закрыть от индексации теги и категории (добавить Disallow: /category/*/* и Disallow: /tag), для того, чтобы избежать дублированного контента. Но надо было делать это вначале. Сейчас, мне кажется, это может привести к потере PR и посещаемости.
Для того чтобы создать идеальный robots.txt нужно знать основные операторы и рекомендации поисковых систем. Основной рекомендацией является исключение из индексации страниц и файлов, которые не представляют никакой пользы для посетителя, либо дублируют контент.
Чтобы узнать все директивы для робота ПС Яндекс, смотрите здесь. Для робота ПС Гугл, смотрите здесь.


39 комментариев к теме
“Приручаем поискового робота с помощью robots.txt”
20 марта, 2009 года
пишет
Вполне согласен, именно такой и должен быть файл robots для WordPress, но думаю еще бы желательно добавить отдельные команды для Яндекса и указать хост с www или без, дабы избежать зеркал.
Ответить
марта 21, 2009 в 08:08
9SEO отвечает:
Согласен, можно добавить еще директиву host от греха подальше:). Хотя она является чисто рекомендацией для робота Яндекса и он сам выбирает главное зеркало. В этом блоге робот слава богу определился и главное зеркало посчтитал без www
Ответить
21 марта, 2009 года
пишет
Или я ошибаюсь или вы. Поисковик читает роботс.ткст построчно, сверху вниз. Поэтому, (по идее) команды, которые находятся ниже, могут перечеркнуть команды, которые находятся выше.
В самом начале роботса, ПС считает, что ограничений никаких нет, потом читает дальше и находит их. Подозреваю, что такая конструкция:
User-agent: *
Allow: /wp-content/uploads
Disallow: /wp-content
только запретит идексацию папки /wp-content и всё. Может быть я и ошибаюсь, но я бы написал так:
User-agent: *
Disallow: /wp-content
Allow: /wp-content/uploads
Ответить
марта 21, 2009 в 08:10
9SEO отвечает:
Скорее всего, Вы правы в том, что поисковик читает роботс построчно, но директиву Allow нужно ставить выше Disallow. В хелпах Гугла и Яндекса это хорошо показано на примерах.
Ответить
21 марта, 2009 года
пишет
Преполезнейший пост, спасибо – давненько я с роботсами не ковырялся, память хоть освежил
Ответить
марта 21, 2009 в 08:10
9SEO отвечает:
Не за что;)
Ответить
21 марта, 2009 года
пишет
Так вот кто его смотрел, а я то всю голову сломал
defs, правильно как раз allow ставить в начало. Если для одной страницы подходит несколько директив, то выбирается первая в блоке User-agent
Ответить
марта 21, 2009 в 08:12
9SEO отвечает:
О как ты следишь за своим блогом! Небось уже по ip вычислил где живет тот, кто заглядывал в роботс
.
Ответить
марта 22, 2009 в 08:17
TiamatInc отвечает:
Не то чтобы очень слежу, просто когда посещаемость невысокая в ежедневном отчете LI очень хорошо видны всякие странные посещения
Ответить
21 марта, 2009 года
пишет
Наверно все блоггеры думают об одном и том же (в какой-то мере), так как я начал писать вчера пост на эту тему, но теперь он видимо не актуален.
Ответить
21 марта, 2009 года
пишет
Про роботсы – интересно и пользительно. А вот фид целиком всё-таки не отдается.
Ответить
марта 22, 2009 в 12:27
9SEO отвечает:
Все, сделали. Теперь должен отдаваться полностью…)
Ответить
21 марта, 2009 года
пишет
А нельзя на теговых и категорийных страницах просто убрать дабл контент от индксации? На многих блогах так в начале не сделал, теперь хочу и кол-во страниц в индекс сохранить и дабл контент убрать
Ответить
марта 22, 2009 в 08:19
TiamatInc отвечает:
Используйте тег canonical, по крайней мере для буржуйских поисковиков эту проблему махом разрешите
Ответить
21 марта, 2009 года
пишет
Полезный пост.
У меня вообще одно время был сайт закрыт от индексации, а я ещё удивлялся, почему яндекс его не индексирует, пока не написа письмо Платону, он то мне глаза и открыл
Ответить
21 марта, 2009 года
пишет
Я где-то встречала, а теперь не найду, информацию о том, что лучше два разных файла robots.txt для Гугла и Яндекса. Или речь шла о двух вариантах карты сайта… Запуталась совсем
Ответить
марта 22, 2009 в 12:35
9SEO отвечает:
Роботс.тхт может быть всего один. А внутри него можно задать разные правила для роботов разных поисковиков.
Ответить
марта 22, 2009 в 14:04
Светлана отвечает:
Точно,значит речь шла о карте.
Мой robots.txt имеет несколько иной вид. Не знаю, тебуется ли вносить изменения, или того что есть достаточно:
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Disallow: /xmlrpc.php?rsd
Sitemap: http://www.vseuch.ru/sitemap.xml
Sitemap: http://www.vseuch.ru/sitemap.xml.gz
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Disallow: /xmlrpc.php?rsd
Sitemap: http://www.vseuch.ru/sitemap.xml
Sitemap: http://www.vseuch.ru/sitemap.xml.gz
Host: http://www.vseuch.ru
Ответить
марта 23, 2009 в 13:32
Алесей отвечает:
Светлана, в документации от Yandex написано “перед каждой директивой ‘User-agent’ рекомендуется вставлять пустой перевод строки” и Sitemap можно указать один раз, для нескольких роботов и “директиву ‘Host’ непосредственно после директив ‘Disallow’('Allow’)”. А посмотрев сам файл у вас, не понял, зачем вы поставили возле каждой строки “>”?
Ответить
марта 23, 2009 в 13:47
Светлана отвечает:
Алексей, я даже не заметила у себя этих скобочек…
Наверное, Яндексу они тоже не понравились.
Вот вам доказательство, что в блоггеры лезут совершенно неподготовленные товарищи.
Иду смотреть, что у Вас, и сравнивать. Как-нибудь общими усилиями доведу до ума своего роботса. Спасибо за подсказки.
Ответить
22 марта, 2009 года
пишет
а вот кто знает, нафига вот эта директива:
# digg mirror
User-agent: duggmirror
Disallow: /
многие советуют ее пихнуть, а вот для чего она, я как то упустил
Ответить
марта 22, 2009 в 12:38
9SEO отвечает:
Точно не знаю, но думаю это для буржуев полезно, кто статьи добавляет в digg.com и они становятся популярными…
Ответить
23 марта, 2009 года
пишет
Хотел спросить, А вот это не одно и то же делает?
Disallow: /*?*
Disallow: /*?
Так же не понятно правило для Google Image, зачем?
То же решил заняться robots.txt, тоже в блоге написал, и составил.
И, кстати, заметил, что у многих популярных блогеров файл robots.txt можно сказать пустой.
Ответить
25 марта, 2009 года
пишет
Правильно говорите, правильно! А я все-таки пренебрегла советом ”
Было бы неплохо закрыть от индексации теги и категории (добавить Disallow: /category/*/* и Disallow: /tag), для того, чтобы избежать дублированного контента. Но надо было делать это вначале. Сейчас, мне кажется, это может привести к потере PR и посещаемости.”
Исправила, добавила всё что надо в robots.txt и … потеряла свою десяточку. Вот.
Рискнула, потому что мне еще полгодика, может быть все выправится, а?
В принципе, место под рекламу я не продаю, а посетителей стараюсь контентом привлекать. Идут в основном из закладок и по ссылкам.
Ответить
марта 25, 2009 в 11:59
Алексей отвечает:
Я не думаю что бы так быстро отняли десятку из за этого. Возможно Яндекс глючит, темболее АПа тИЦ не было.
Ну вы всёравно не учли про Sitemap и Host. Ну и так, там несколько смысловых повторений.
Ответить
марта 25, 2009 в 12:52
Светлана отвечает:
Проверила программой Site-Auditor и она показывает ТИЦ10 PR1 а количество проиндексированных страниц теперь выровнялось.
Сейчас у меня Яндекс-Рамблер-Google идут как 65/58/68
Значит не зря-таки возилась.
Алексей, а почему Ваш сайт Яндекс не индексирует? И очень большой отрыв в цифрах (0/136/860), мне кажется так не должно быть, или это вообще несущественые показатели? На очень хорошем сайте встречала (16000/17/9000)
Так что же все-таки дает правильно составленный файл robots.txt ?
Ответить
марта 26, 2009 в 18:19
Алексей отвечает:
Светлана, сайт вылетал из Яндекса. Но он раньше вылетел, чем я начал заниматься robots.txt. Сейчас сайт вернулся.
Правильный robots.txt поидее должен исключить дубликат материала, ну и убрать страницы, не содержащие информации для посетителя. Собственно не вижу острого его применения, что собственно и доказали robots’ы на популярных блогах.
Ответить
25 марта, 2009 года
пишет
Спасибо за полезный пост, как раз искал мануал по роботсам.
Ответить
28 марта, 2009 года
пишет
Не знаю, что с чем связано, может быть просто совпадение, но после исправления файла robots.txt у меня ТИЦ поднялся. 20 это мало, но лучше чем 10!
Ответить
марта 29, 2009 в 04:51
TiamatInc отвечает:
Думаю совпадение, просто на днях был ап тИЦ
Ответить
19 мая, 2009 года
пишет
Подскажите, куда конкретно надо вставить файл robot.txt в .blogspot.com
Ответить
мая 19, 2009 в 19:25
TiamatInc отвечает:
А он там уже есть, гляньте по адресу ваш_блог/robots.txt
Ответить
19 мая, 2009 года
пишет
Смотрел, blogger пишет, что нет его.
Ответить
мая 19, 2009 в 20:11
TiamatInc отвечает:
Ну как это нет, а вот это http://kovbasahomemade.blogspot.com/robots.txt ???
Ответить
июня 5, 2009 в 10:04
revolt отвечает:
Спасибо, разобрался.
Ответить
14 июля, 2009 года
пишет
Я сейчас рыскаю по всем описаниям, пытаясь понять почему сервис на валидность показывает кучу ошибок. Везде роботс практически одинаков, и никто ничего не может толком объяснить, одни говорят allow не нужен, вторые нужен. Ну закрыть директории это понятно, сделать исключения тоже, но вот если исходить из чекера, то нужно исправлять ошибки.
Привожу сервис попробуйте,жду ответа.
http://tool.motoricerca.info/robots-checker.phtml
Ответить
26 Сен, 2009 года
пишет
Вообще, нужно отдельно читать список директив и правила использования robots.txt для роботов главных ПС, они там у них разные. К тому же новые добавляются время от времени.
Ответить
11 Дек, 2009 года
пишет
Вот и нашел на наглядном примере что и как! Спасибо большое.
Ответить