Как «приручить» бота?

Любой веб-мастер, оптимизирующий сайты для поисковых систем, знает, как создать страницу, легко читаемую поисковыми роботами, или ботами. Но что происходит, когда на страницу заходит «пиратский» робот, игнорирующий указания в файле robots.txt, чьи разработчики хотят скопировать содержимое вашего сайта и использовать его в своих целях?

Тони Райт, вице-президент отдела по работе с клиентами компании Kinetic Results, LLC, поднял эту тему в своем докладе на конференции по стратегиям поисковых систем, проходившей с 7 по 10 августа 2006 года в Сан-Хосе.

Многие владельцы Интернет-ресурсов рассказывают страшные истории о том, как им приходилось сталкиваться с простоями сайтов, незаконным копированием их содержимого и терять пропускную способность серверов в результате захода на их ресурс неисправных или «шпионских» ботов.

Несколько специалистов в области поисковых систем, в частности – представители компаний Google, Yahoo и Become.com, собрались на концеренции, чтобы обсудить угрозы, которые таят в себе подобные неконтролируемые программы, и определить для себя методы борьбы с ними.

Заседание открыл эксперт компании Become.com Джон Глик, обозначив суть проблемы:

«Поисковые роботы могут оценивать содержимое сайтов и пролистывать их страницы в поисках внутренних ссылок, – сказал Глик. – Но они не настолько совершенны, чтобы сохранять cookie и понимать JavaScript». Специалист продолжил свое выступление, подчеркнув, что необходимо дублировать навигацию на сайте для роботов обычными гиперссылками, а не полагаться только на JavaScript и Flash-ссылки. Динамически генерируемые URL адреса также могут сбить с толку ботов, поэтому для хорошей индексации ресурса в поисковых системах следует их избегать.

Дэн Тис из SEO Research Labs сконцентрировался в своем докладе на одном из самых тяжелых последствий посещения вашего сайта неконтролируемым ботом – на копировании его содержимого. Недобросовестные боты часто выбирают своей жертвой сайт с высокой посещаемостью, полностью копируют его наполнение и создают тысячи клонов по всему Интернету. Разумеется, такая «реклама» не принесет хороших результатов, а только собьет с толку возможных клиентов владельца сайта и вызовет низкое ранжирование ресурса в результатах поиска – ведь его наполнение перестанет быть уникальным. В худшем случае, сайт, ставший жертвой «пиратского» поискового робота, попадет в черные списки поисковых машин вместе со своими клонами.

Тему незаконного копирования сайтов продолжил Билл Аткинсон из компании Crawlwall.com. «Поисковые роботы постоянно крадут у меня содержимое сайтов. Однажды мой сайт подвергся такому наплыву ботов, что сервер не выдержал нагрузки. К тому моменту, как я смог как-то противостоять им, 10% посетителей моего сайта составляли боты, игнорировавшие команды файла robots.txt и листавшие страницы, скрытые от посторонних глаз». Чтобы отделить вредоносных ботов от ботов, индексировавших его сайт в поисковых системах, Аткинсон составил список различий между первыми и вторыми.

Вот черты «полезных» поисковых роботов:

  • Они придерживаются Интернет-стандартов, следуя инструкциям файла robots.txt
  • Они не пролистывают ваш сайт слишком быстро
  • Через некоторое время такие боты возвращаются на ваш сайт, чтобы проверить обновления на нем.
  • Когда сайт проиндексирован таким ботом, на нем возрастает количество посетителей.

В свою очередь, вредоносные поисковые роботы обладают следующими характерными чертами:

  • Индексируют весь объем страниц, чтобы украсть их содержимое
  • Игнорируют команды для роботов, перечисленные в файле robots.txt
  • Название «пиратского» бота часто очень похоже на название другого, добросовестного поискового робота
  • Чтобы избежать фильтров, часто могут менять параметр «User Agent»
  • Могут маскироваться под обычных посетителей, чтобы полностью избежать фильтров
  • Пролистывают сайт как можно быстрее, чтобы их не успели остановить
  • Пролистывают сайт как можно медленнее, чтобы их не засекли «радаром»
  • Пролистывают сайт с нескольких IP адресов, чтобы не быть обнаруженными
  • Часто возвращаются на сайт, чтобы следить за его обновлениями и обновлять свои копии вашего ресурса
  • Пренебрегают вашими авторскими правами
  • Занимают клонами вашего сайта ваши позиции в выдаче поисковых систем
  • Не предлагают ничего в обмен на свои посещения

Аткинсон выделил несколько способов, которые позволяют исключить вредоносных роботов из числа посетителей веб-ресурсов. Среди них есть «метод исключения» и «метод включения».

Первый предполагает создание черного списка ботов, которым запрещено заходить на сайт или на определенные его страницы. Список составляется на основе параметра “User Agent” посетителя. В большинстве случаев способ неэффективен, так как боты умело маскируются под обычных пользователей, обманывая сервер и посылая ложную информацию о типе “User Agent”. Запрещенные страницы, перечисленные в файле robots.txt, не становятся для «пиратских» ботов недоступными, и их список служит наводкой и, в некотором смысле, даже гидом для вредоносных роботов.

По словам Аткинсона, более надежным является «метод включения». Создается белый список роботов, которым разрешено заходить на сайт. Все остальные боты зайти не могут. Хотя метод и более рискованный – ведь есть шанс не пустить на сайт безвредный робот поисковой системы, не внесенный в белый список – риск этот с лихвой бывает вознагражден.

Представители компаний Yahoo и Google, Раят Махиржи и Ванесса Фокс соответственно, заявили, что поисковые боты их компаний всегда руководствуются указаниями в файле robots.txt.

Махиржи представил вниманию собравшихся новую версию программы Yahoo Site Explorer. Утилита позволяет следить за поведением поискового бота Yahoo на вашем сайте, экспортировать информацию в .csv формате и выполнять некоторые другие задачи.

Во время конференции из зала прозвучало предложение включить в тело всех «полезных» роботов-индексаторов специальную программу-индентификатор. Целью программы было бы подтверждать данные, сообщаемые серверу параметром бота “User Agent”. Предложение было встречено с энтузиазмом всеми участниками конференции.

По материалам статьи The Taming of the Bots, размещенной на сайте www.searchenginewatch.com

Один ответ на статью “Как «приручить» бота?”

  1. Комментарий от Бородин Роман:

    Так как же, всётаки «Приручить поискового бота»?

Оставить свой комментарий


Enhanced comment spam protection by PuzzCAPTCHA