Исследование сетевого трафика
web-ресурса www.energy-links.com
Петрозаводский
государственный университет,
zhukov@karelia.ru, iaminova@karelia.ru
На сегодняшний день
существуют экспериментальные подтверждения о том, что поведение Internet трафика
имеет самоподобную (фрактальную) структуру, [4-7]. Свойство самоподобия
характеризуется тем, что при изменении шкалы измерений корреляционная структура
рассматриваемого самоподобного процесса не изменяется.
В качестве объекта
исследования была выбрана Интернет система Energy-Links. База данных системы
содержит информацию о компаниях работающих в области энергоэффективных
технологий Баренцева региона и позволяет эффективно осуществлять поиск
необходимой информации. Это бесплатная система была создана совместными
усилиями Норвежской группы энергоэффективности (НГЭЭ), Российскими
демонстрационными зонами (РусДем), Центром энергетической эффективности
Мурманской области (ЦЭЭМО) и Карельской Ассоциации энергетической эффективности
(КАЦЭЭ). Заинтересованные организации размещают информацию о себе по адресу в
интернете http://www.energy-links.com. На сегодняшний день в базе
данных зарегистрировано более 2000 компаний.
В данной статье
анализируются статистика посещаемости, сведения об объеме информации,
полученной пользователями системы в
период с августа 2001 по июль 2002 года.
Для начала рассмотрим
основные определения. Пусть Z=(Zn, n ≥ 0) – стационарный
(2-го порядка) процесс в дискретном времени. Построим новый процесс Zn(m), получаемый
разделением исходного процесса на
блоки размера
m ≥ 1, т.е.
Znm +…+Z(n+1)m-1
Zn(m)=
mH
- это так
называемый агрегированный процесс.
Процесс Z с математическим
ожиданием EZ1< ∞ и дисперсией DZ1< ∞
называется самоподобным с параметром
(Херста) самоподобия H Є (0, 1), если для каждого m ≥
1 процессы (Zn(m), n ≥ 0) и (Zn, n ≥ 0) имеют одинаковые конечномерные распределения,
[1].
Таким образом, исходный
процесс и агрегированный процесс имеют одинаковую структуру для любого
параметра шкалы m ≥ 1. Если при этом ковариационная функция
агрегированного процесса не зависит от m, то исходный процесс Z называется самоподобным второго порядка, [1].
В качестве исследуемого
объекта мы рассматриваем количество посещений сервера www.energy-links.com
в период с по августа 2001г. по июль
2002г по дням. На рис.1 приведен график посещаемости сервера.
Для проверки процесса посещаемости на самоподобие строятся агрегированные процессы с изменением шкалы. На рис.2 а) и б) изображены графики агрегированных процессов с объединением данных по 3 дня, по 6 дней, соответственно (m=3; 6).
|
|
Рис. 2.
Агрегационный процесс Z(m),
а) m=3; б) m=6.
При различных параметрах m и H сравнивались
графики агрегированного и исходного процессов посещаемости. Визуально по
графикам было определено, что структура
исходного процесса не нарушается при параметре самоподобия H=0.84.
Таким
образом, мы экспериментально вычислили параметр Н, значение которого находится
в интервале (1/2, 1), что, кроме того,
подтверждает сохранение долговременной зависимости между данными, [1].
Одна
из возможных причин, объясняющих
самоподобную структуру и
долговременную зависимость сетевого трафика, – размеры передаваемых файлов и
количество одновременных подключений имеют распределение с тяжелым хвостом,
[1-3]. Это означает, что эти данные принимают большие значения с достаточно
большими вероятностями, что может приводить
к отказам и замедлению работы сервера.
Будем
говорить, что случайная величина (с.в.) X имеет распределение с тяжелым хвостом, если хвост ее функции распределения имеет следующий вид:
1-F(x) = x - α L(x),
где L(x) –
медленно меняющаяся функция, т.е. L(tx)/L(t) →1 при t→∞, для всех x > 0. Наиболее простой случай
медленно меняющейся функции – константа.
Тогда тангенс угла
наклона линии регрессии,
построенной по группам
данных { Ln ( x ) ; Ln (1-F(x))
}, равен значению индекса - α. На
рис. 3 приведен график хвоста эмпирической функции распределения 1-F(x) в
логарифмической шкале, где в качестве исходных данных рассматривались длины
пересылаемых файлов за период с августа 2001г. по июль 2002г.
Вычислив тангенс угла
наклона, мы получили, что индекс тяжести
хвоста α=0.4. Для того, чтобы убедиться в том, что исследуемая выборка
действительно имеет распределение с тяжелым хвостом с параметром α= 0.4 мы воспользовались критерием
Колмогорова-Смирнова для проверки гипотезы о виде функции распределения с
уровнем значимости 0.05. Аналогично был вычислен параметр α=0.8 для количества
уникальных посещений.
Таким образом, в ходе
исследований выяснено наличие
самоподобной структуры с индексом H=0.84 и долговременной зависимости
сетевого трафика www.energy-links.com. Кроме того, было доказано, что размеры
передаваемых файлов через этот web ресурс
имеют распределение с очень тяжелым хвостом с индексом тяжести хвоста
α = 0.4, а количество посещений - с индексом 0.8.