Анализ и интерпретация лог-файлов
Лог-файл
Лог-файл (или просто лог) - это главный источник информации о поведении посетителя на вашем Web-сайте. Каждое обращение к сайту фиксируется сервером и о нем остается запись в лог-файле. По этим записям можно узнать огромное количество информации о посетителях. Лог-файл сервера представляет собой текстовый файл, в котором в особом формате записаны все данные об обращениях к сайту.
Формат лог-файлов
Лог-файлы серверов Apache имеют формат Common Log Format (CLF). При этом каждая строка является записью отдельного запроса, состоящего из нескольких полей, разделенных пробелами.
События, происходящие при обращении пользователя к сайту
Событие 1. Запрос страницы
Браузер посетителя передает на сервер (на котором находится сайт) запрос на выдачу страницы. При этом на сервере становится известной следующая информация:
- IP-адрес посетителя
- Запрашиваемый URL
- Дата и время запроса
- Географическое положение клиента
- Используемый пользователем браузер
- Адрес страницы, с которой зашел посетитель и т.д.
- Используемая операционная система и проч.
Событие 2. Выдача страницы
Сервер возвращает клиенту запрошенный документ (страницу, картинку, файл и пр.).
Событие 3. Запись в лог
Сервер записывает данные о произошедшей транзакции в журнал событий (лог-файл).
Пример записей в лог-файле.
213.180.195.231 - - [29/Jan/2007:00:07:17 +0000] "GET /excel/lsn015.html HTTP/1.1" 200 18918 "-" "YaDirectBot/1.0"
74.6.71.37 - - [29/Jan/2007:00:13:03 +0000] "GET /eralash HTTP/1.0" 301 317 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
74.6.71.37 - - [29/Jan/2007:00:13:06 +0000] "GET /eralash/ HTTP/1.0" 200 12234 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
213.186.116.166 - - [29/Jan/2007:00:26:51 +0000] "GET /eralash/soft/speed.zip HTTP/1.0" 200 217872 "-" "Wget/1.10.2 (Red Hat modified)"
213.180.207.25 - - [29/Jan/2007:00:27:14 +0000] "GET /robots.txt HTTP/1.1" 200 54 "-" "Yandex/1.01.001 (compatible; Win16; I)"
Лог-файлы представляют собой сырые данные, которые необходимо обработать. Качество обработки и определяет качество статистики.
В лог-файлах сайта содержится вся необходимая информация, которой вполне достаточно, чтобы знать все об аудитории, которая посещает сайт.
Следует иметь ввиду, что абсолютно "реальную" статистику получить практически невозможно, в силу ряда технических причин. Не существует каких-то корректных способов оценить величину отклонения "реальности" от измеренных характеристик, однако принято считать, что эти отклонения в среднем не превышают 5-10%. Если сайт живет "размеренной жизнью" (не проводятся активные рекламные кампании и проч.), то можно считать ошибку измерения постоянной и успешно сравнивать между собой данные по соседним дням, неделям и месяцам.
Существуют специализированные программы для работы с лог-файлами - это, так называемые, анализаторы лог-файлов. Наиболее известные - Analog, Webalizer, Webtrends, NetPromoter, WebAnalizer.
Как прочесть и интерпретировать записи лог-файла веб сайта
Например, запись в лог-файле
78.123.67.3 - - [21/Jul/2009:01:01:34 +0400] "GET http://<адрес_ресурса>/news.xml" 304 0 "http://<адрес_ресурса>" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; InfoPath.2; .NET CLR 3.5.30729; OfficeLiveConnector.1.4; OfficeLivePatch.1.3; .NET CLR 3.0.30729)" 127.0.0.1
означает, что 21 июля 2009 г. в 01:01:34 (по местному времени хостинг-провайдера) с ip-адреса 78.123.67.3 к RSS-ленте news.xml сайта http://<адрес_ресурса> обращался встроенный RSS-ридер браузера Internet Explorer 8 (при этом, операционная система – Windows Vista). Код 304 означает, что записей о новых веб-страницах сайта http://<адрес_ресурса> в RSS-ленте не появилось, поэтому браузер не загружал файл news.xml (о чем красноречиво свидетельствует 0).
Число уникальных ip адресов - количество уникальных обращений к серверу.
Число посетителей - людей, запросивших какую-либо информацию с сайта. К информационным файлам относятся все html страницы (с различными расширениями htm, html, asp и т.д.), а также файлы с данными (exe, zip и т.д.). Картинки и элементы оформления к таким ресурсам не относятся.
Просмотры страниц (Impressum Page)- суммарное число загрузок html страниц сайта.
Заходы с поисковых систем. Учитывается по каким словам и фразам посетитель зашёл на сайт. Обычно такие данные представлены отдельным отчётом, как вцелом, так и по каждой поисковой машине.
Статистика рефереров. Реферер, или ссылающийся ресурс, показывает откуда посетитель пришел на ваш сайт.
География. При каждом обращении к серверу в лог-файле остается запись, содержащая ip-адрес этого обращения. Анализируя ip можно определить страну запроса.
Точки входа
Точки выхода
Наиболее частые пути по сайту
Визиты поисковых роботов. Как известно, прежде чем попасть в выдачу поисковой системы, сайт должен быть проиндексирован и добавлен в базу поисковой системы. Это работой занимаются поисковые роботы - ищут новые страницы, отсутствующие в индексе, и обновляют информацию об уже известных. В данном отчете вы можете видеть информацию о посещениях поисковыми роботами вашего сайта.
Трафик - какой трафик сгенерировала данная страница.
Как правило, на каждом сайте устанавливается внешний бесплатный (реже – платный) счетчик. Ресурс, предоставивший счетчик, ведет расширенную статистику посещения ресурса (включая всю вышеуказанную информацию), с которой можно ознакомиться в любое время. Особенно с такими счетчиками удобно работать тем, кто размещает свои сайты на бесплатном хостинге.
Большинство хостинг-провайдеров (хостеров) платного хостинга предоставляют своим клиентам возможность использовать уже установленные средства анализа. Например, для серверов Apache часто используется программа Webalizer, которая устанавливается в качестве дополнительного модуля веб-сервера.
Анализ лог-файлов сайта
Всесторонний анализ логов сайта помогает понять, как используется сайт и каково направление его дальнейшего развития.
Что можно выяснить, анализируя логи веб-сайта
• Посещаемость. Конечно, этот показатель отражает и простой счетчик, устанавливаемый на каждой странице, но лог-файлы позволяют анализировать посещаемость более детально, например, по месяцам (Monthly Statistics), по дням (Daily Statistics), по часам (Hourly Statistics). Этот показатель позволяет выявлять часы всплеска посещаемости (пики посещаемости) и часы затишья, что очень важно знать при обслуживании сайта.
• Трафик – суммарный и отдельно по страницам.
• Уровень конверсии. Показывает, как посетители перемещаются по сайту, то есть смотрят ли они одну страницу или несколько. Уровень конверсии позволяет косвенно оценивать качество сайта.
• Точки входа (Entry, Entry Pages) – это веб-страницы, с которых пользователи начинают работу с сайтом. Это очень ценная информация! Например, если 80% посетителей не «видят» главную страницу вашего сайта, есть ли смысл тратить время и средства для ее украшения и улучшения? Кроме того, точки входа показывают наиболее значимые страницы вашего сайта. Точки входа, как правило, соответствуют наиболее популярным страницам сайта.
• Точки выхода (Exit, Exit Pages) – это веб-страницы, с которых пользователи покидают ваш сайт. Позволяют анализировать ситуацию: хорошо, если пользователь нашел то, что искал и потому уходит (довольный!), а если нет? Есть повод задуматься!
• «Заброшенные» страницы – это веб-страницы, посещаемые очень-очень редко. Требуется тщательный анализ ситуации: может быть, страницы неинтересны или их трудно отыскать на вашем сайте (например, они не указаны на карте сайта или не связаны ссылками с другими страницами сайта).
• Популярные страницы (URLs) – это веб-страницы, посещаемые наиболее часто. Можно использовать их как образец при создании других страниц сайта. Можно также направлять пользователей с этих страниц к другим, менее популярным или «заброшенным» страницам.
• Поисковики (Searches). Показывает, с каких поисковиков пришло больше всего посетителей.
• Поисковые запросы, приводящие на сайт (Search String). Этот показатель демонстрирует эффективность используемых вами названий веб-страниц, метатегов, ключевых слов…
• Рефереры (Referrers) – ссылающиеся на сайт ресурсы.
• География посетителей. Показывает из каких стран приходят посетители на сайт.
• Информация о посетителях: IP-адрес посетителя, используемые браузер и операционная система и т.д.
• …
Программы для анализа лог-файлов сайта
Лог сайта – это текстовый файл, поэтому можно работать с ним, открыв вручную в текстовом редакторе. Однако просматривать логи вручную – весьма утомительно, так как лог-файлы очень объемные: например, если сайт посещают около 6 тыс. посетителей ежедневно, которые просматривают около 10 тыс. страниц, то объем лог-файла за день составляет св. 9МБ!
Для работы с лог-файлами предназначены специальные программы – анализаторы лог-файлов. Например, Analog, AWStats, loganalyzer, NetPromoter, Webalizer, WebAnalizer, WebHound, Webtrends и др.
***
Примечания
1. По подсчетам исследовательской компании Netcraft, в июне 2009 г. в Интернете насчитывалось 238 027 855 сайтов. При этом доля веб-серверов Apache составила около 47%, Microsoft IIS – 24,80%, qq,com – 12,79%, Google – 4,98%, nginx – 3,69%, Sun – 0,30%.