Яндекс уже довольно давно поддерживает нестандартный robots.txt. Как известно этот файл обычно используется для указания поисковику – что индексировать, что не индексировать, с какой периодичностью и так далее.
Как пишет Яндекс (в своем блоге вебмастера), так как для больших проектов часто сложно указать, что можно индексировать, а что нельзя, к тому же такие порталы часто терпят большую нагрузку (поток пользователей), они ввели поддержку директив Allow, Crawl-delay и спецсимволов * и $.
Что они делают и как работают? Директива Allow позволяет разрешить к индексации определенную страницу сайта. Например, если написать:
Allow: /a.html
Disallow: /
То к индксации будет доступна страница a.html, но недоступно все остальное.
Знак доллара. Кроме того, по умолчанию считается, что если написано следующее:
Disallow: /hello/
То к индексации будет запрещена директория hello и все файлы и директории внутри ее. Но можно использовать знак доллара:
Disallow: /hello/$
Тогда директория hello будет запрещена к индексации, а ее содержимое – нет.
Звездочка используется в значении «любое количество любых символов». Например следующий файл:
Allow: /*.html$
Disallow: /
Разрешит к индексации все html-страницы в корне сайта и запретит все остальное.
Кроме того, введена еще одна директива: Crawl-delay. Я считаю, что это куда более полезное нововведение. Она позволяет указать поисковому роботу, сколько времени (в секундах) следует ожидать, если нет отклика от сайта. Предположим, что сервер сильно загружен и сайт не открывается в течение первых 5 секунд. Тогда следующая запись в robots.txt решит проблему:
Crawl-delay: 10 # таймаут будет равен 10 секундам
Оставьте свой комментарий
|
31.07.2008 в 2:11 пп
22.09.2008 в 10:37 дп
Это как то тупо выглядит, нет?