Составляем правильный robots.txt для блога на WordPress

Здравствуйте, уважаемые читатели. В этой статье мне бы очень хотелось поговорить о маленьком файле, который сильно упрощает индексацию вашего сайта или блога. Речь пойдет о robots.txt.

Не знаю, с чем это связано, но создатели WordPress посчитали, что данный файл в нем лишний, чего не скажешь о том же Drupal (просто с ним мне приходилось часто работать). Может быть, в чем- то они и правы. Однако наше все российского рунета – Яндекс, считает несколько иначе.

Что это за файл вы вдумчиво можете прочитать на том же Яндексе. Вкратце лишь скажу, что главная цель данного файла –принудительно указать поисковому роботу, что ему разрешено индексировать.

Фактически, без него спокойно можно обойтись. Поисковые роботы будут индексировать со временем содержимое вашего портала. Вот только в этом случае они будут индексировать абсолютно все , а нам это не нужно. Поэтому главной особенностью файла robots.txt является возможность создавать правила индексирования для поисковых машин.

Не хочу писать то, о чем написано уже неоднократно. Для создания этого файла я написал небольшую программку, которая позволит сделать robots.txt двумя щелчками мышки. Скачать ее можете здесь.

Интерфейс программы предельно прост – там нужно ввести ваш хост и нажать кнопку сформировать. Я не стал усложнять программу различными флажками с Disallow и Allow. Это только может запутать вас. Программа сгенерирует типичный файл, который сохранится в папке с программой. Вы можете сами посмотреть его и исправить, если разбираетесь. Потом это файл с помощью какого-нибудь клиента типа FileZilla залить в корень вашего сайта и проверить его уже Яндексом. Думаю, что с этим проблем возникнуть не должно.

Тем не менее, для тех, кто любит покопаться под «капотом», немного объясню суть файла robots.txt. В нем все просто, как дважды два. Есть две директивы: Allow и Dissalow. Первая разрешает индексировать, вторая –запрещает. Фактически, нам нужна только директива Dissalow, запрещающая индексацию роботом указанных страниц и директорий. Мой файл запрещает индексировать служебные папки WordPress, но вы можете сами поэкспериментировать. В любом случае, Яндекс.Вебмастер поможет исправить сделанные ошибки.

Помимо этих двух директив существует еще не менее важная для робота — User-agent. Она определяет, для какого робота существует набор правил в файле. Обычно достаточно указать через двоеточие *:

User-agent: *

Этим мы указываем, что данный набор правил открыт для всех поисковых роботов. Однако Яндекс любит, чтобы для него указывали имя явно. Ну и Бог с ним:

User-agent: Yandex

Теперь мы угодили Яндексу.

robots.txt весьма прост по своей структуре. Хотя без него можно и обойтись, тем не менее, он может быть весьма полезен. Создавайте правильный robots.txt и обязательно проверяйте его в Яндекс.Вебмастер.

Рубрика: Web-мастерская

Добавить комментарий

Внимание! Не будут добавляться комментарии в виде откровенного спама или прямого анкора на свои сайты. Все спамеры будут передаваться в базу Akismet

Подтвердите, что Вы не бот — выберите человечка с поднятой рукой: