Для управления работой поисковых систем в корневой папке веб-сайта создается текстовый файл под названием "robots.txt". Этот файл содержит инструкции для поисковых роботов. Инструкции могут содержать указания на разрешение индексации одних документов или запрет других, соблюдение временного интервала в период скачивания документов с сервера, повторный просмотр страниц через определенный промежуток времени. В качестве наглядного пособия приведен пример стандартного файла robots.txt, который должен будет определить для поискового робота список папок и документов, не предназначенных для индексирования.
User-Agent: *
Disallow: /cgi-bin/
User-Agent: StackRambler
Disallow: /tmp/
Disallow: /img/
User-Agent: Aport
User-Agent: Scooter
Disallow: /tmp/
User-Agent: Yandex
Disallow:
На первый взгляд код выглядит как набор английских слов, причем совершенно непонятно, почему их расположили именно в таком порядке. Давайте разбираться. Начнем с первой строки User-Agent: *.
При написании кода robots.txt всегда вводятся два параметра: User-Agent (имя поискового робота) и Disallow (имя папки/документа, который не будет индексироваться). Эти параметры являются свойствами файла robots.txt.
Значение свойства User-Agent с помощью знака *, введенного через пробел. Код User-Agent: * показывает, что свойство Disallow будет в равной мере применено ко всем поисковым системам.
Disallow: /cgi-bin/ - так как наличие в коде свойства disallow означает табу на индексирование определенных файлов или папок, а cgi-bin является именем папки, вторую строку можно расшифровать как "запрет поисковым системам производить индексирование файлов в папке cgi-bin.
Код файла robots.txt начинает обретать смысл.
Далее следует User-Agent: StackRambler. Что такое User-Agent вы знаете, поэтому логично будет предположить, что в качестве значения данного свойства указано имя поисковой машины Рамблер. У каждого поисковика существуют определенные особенности. Так, чтобы иметь возможность задать значение User-Agent для какой-либо поисковой машины следует знать, что для Рамблер - это уже известное вам StackRambler, для Яndex - Yandex, Апорт - Aport, Google - Googlebot, Yahoo - YahooBot.
Disallow: /tmp/ и Disallow: /img/ - запрет на индексирование для папок tmp и img.
Свойство Disallow позволяет вносить в него несколько поисковых роботов:
User-Agent: Aport
User-Agent: Scooter
Disallow: /tmp/
В этом случае, имя каждого работа записывается в отдельной строке.
Кроме того, в код файла robots.txt возможно добавление различных комментариев, начинающихся со знака #.
User-Agent: Yandex
Disallow:
#Отмена запрета на индексацию папок и файлов.
Создание сложной структуры файла robots.txt потребует глубоких знаний алгоритмов работы поисковых систем. Но если вы действительно заинтересованы в грамотном, а самое главное - эффективном продвижении веб-ресурса в Сети, стоит потратить время на изучение поисковых машин и написание robots.txt.
[Редактировать в визуальном редакторе] [Редактировать HTML код] [Удалить страницу]