Мэтт Каттс о ведении статистики.

В своем блоге Мэтт Каттс рассказывает о ведении статистики посещаемости сайтов и рассуждает о том, что иногда эта статистика перестает быть точной и объективной. Например, объективность статистики теряется, если данные о посещаемости собираются в непоказательный отрезок времени или только из одного источника. В статье «Немного о статистике» (A word about metrics, part II) Мэтт Каттс рассказывает о сильных и слабых сторонах одной из программ, измеряющих число посетителей веб-ресурсов – Alexa Rank.

«Одна из особенностей Alexa в том, что большинство анализируемых ею сайтов по своей тематике относятся к области создания сайтов», – пишет Каттс. Alexa Rank показывает, насколько популярен тот или иной веб-сайт, и, естественно, многие веб-мастера устанавливают на своем браузере панель этой программы. Некоторые делают это, чтобы их ежедневные путешествия по сети, включая заходы на их собственный сайт, добавлялись в статистику Alexa. В итоге это отражается на Alexa таким образом, что сайты, на которых публикуется информация, интересная для веб-мастеров и программистов, кажутся более посещаемыми и значимыми. Для иллюстрации Каттс приводит диаграмму графиков посещаемости сайтов mattcutts.com и ask.com:

Взгляните для начала на зеленый эллипс. На диаграмме изображена амплитуда, которая показывает, сколько человек из миллиона Интернет-пользователей заходят на сайт mattcutts.com и ask.com каждый день. Итак, если вы посмотрите на зеленый эллипс, вы увидите, что в мае на сайте Каттса царило оживление, а на сайте Ask в июне было затишье. По мнению Мэтта Каттса, Alexa обращалась за рейтингом посещаемости к его сайту в какой-то очень богатый на посетителей день, а к Ask в день небольшой активности пользователей, и таким образом коэффициент посещаемости сайта mattcutts.com в этот день превысил коэффициент Ask.com. Получается, что мы имеем дело с так называемой смещенной выборкой данных, при которой статистика может собираться в непоказательные периоды времени и не отражает реального положения дел.
Мэтт Каттс полагает, что рейтинг его блога повышается за счет частых посещений вебмастеров и программистов, установивших панель Alexa. Их же посещениям он приписывает и неожиданный скачок популярности его ресурса, по данным
Alexa, пришедшийся на 20-е числа апреля.
Многие веб-мастера заметили этот скачек популярности своих сайтов в конце апреля, а также то, что сайты, не связанные с программированием, скачком посещаемости затронуты не были. Что же могло вызвать этот внезапный прирост посетителей, зафиксированный на диаграмме?
Джейсон Стригел предположил, что причину надо искать на сайте Digg.com. Когда авторы ресурса
Digg объявили, что количество обращений к их сайту превысило число заходов на Slashdot, многие посетители Digg.com установили панель Alexа. Это событие, в свою очередь, могло повлиять на статистику Alexa. Между публикацией на Digg.com и всплеском активности на графике Alexa прошел месяц – может быть, сервер программы принимает данные с тулбаров Alexa примерно с месячным опозданием? Трудно сказать наверняка, но апрельский скачок на графике определенно интересен. Мало кто высказывал другие теории относительно этого апрельского скачка популярности.
Мэтт Каттс пишет, что Alexa очень полезна во многих отношениях и дает доступ к нужной информации. Надо лишь помнить о некоторых возможных ограничениях применительно к ней: например, о накрутке посещений, вызванной смещенной выборкой данных. Любые измерительные системы похожи на черный ящик. Тому, кто анализирует статистические данные, надо знать, каким образом они собираются, и как именно ведутся измерения. Если вы не обладаете такой информацией, вы не можете поручиться за верность полученных результатов.
Итак, как же решить для себя, насколько можно доверять результатам измерений? Во-первых, можно найти другую измерительную систему и сравнить с ней первую. Вот, например, диаграмма, показывающая статистику посещений mattcutts.com и zawodny.com:

Если верить диаграмме, то сайт Мэтта Каттса оставил далеко позади ресурс Заводного. Но взгляните на статистические данные, полученные из другого источника: это списки подписчиков блогов. У RSS-ленты Каттса их 1136 , а у Заводного – 5096. Таким образом, по количеству читателей Каттс уступает Заводному. И скорее всего, данные по подписчикам в нашем случае намного точнее всяких графиков.
Но можно ли им безоговорочно доверять? Вряд ли. Например, сайты, содержащие много информации о RSS и APl, будут иметь множество RSS подписчиков. Точно так же и в других областях – у сайтов с разной тематикой будет разная аудитория. За шесть недель, что Каттс не публиковал в своем блоге новые статьи, никак не изменилось число его подписчиков. Если число посетителей сайта падает, количество его подписчиков не уменьшается, потому что отписываться от тем бывает проблематично. Так что о падениях популярности лучше судить по заходам на сайт посетителей, а не по числу подписчиков темы.
Итак, какой из всего следует вывод? В любой методологии необходимо помнить об определенных ограничениях. Знайте, что смещенная выборка данных может переоценить или недооценить популярность сайта. Чтобы полностью доверять измерительной системе, надо знать, каким образом в систему поступает первичная информация и как она обрабатывается. Чтобы окончательно убедиться в истинности предлагаемых результатов, сравните их с результатами какой-нибудь другой измерительной системы. Если статистика более-менее совпадает, это уже добрый знак. Если статистика разнится, насторожитесь.

По материалам статьи Мэтта Каттса «A word about metrics, part II»

Оставить свой комментарий


Enhanced comment spam protection by PuzzCAPTCHA