Методика box-counting
Прекрасно
развитая теория линейной множественной регрессии не оставляет и капли сомнения
в правильности полученных результатах и разработанных методов. Не оставляет
сомнения и тот факт, что подавляющее большинство природных процессов носят
нелинейный характер, а поэтому применение линейной регрессионной модели весьма
и весьма ограничено, а сама она и её развитие, и усовершенствование служит
средством удовлетворения, преимущественно,
научного разума.
Теория
нелинейных процессов, в части идентификации, оценки их качества, статистических
оценок, применения для прогнозирования развита слабо. Тому есть объективные и
субъективные причины. Не углубляясь в них, рассмотрим один из методов
определения значимости входных факторов, как аспект уменьшения начальной
энтропии, играющий особо важную роль при прогнозировании на «коротких»
выборках.
Речь
идет о методике «box-counting». Ее сущность
заключается в следующем. Есть входные факторы: , значение каждого из них находятся в ограниченной области,
т.е. , , .
Согласно
положений теорий информации и теории вероятностей, мерой предсказуемости
значения фактора Xк есть его энтропия, которая определяется как , где . Энтропия максимальная, когда все значения фактора
равновероятны. В методике «box-counting» энтропия
приближенно оценивается по набору чисел заполнения ячеек, на которые
разбивается интервал ее возможных значений (рис.1)
Таким
образом, качественно энтропия есть логарифм эффективного числа заполненных
ячеек .
Естественно,
что энтропия увеличивается с количеством заполненных ячеек.
Чем
больше энтропия (мера неопределенности), тем менее предсказуемыми
есть значения фактора. Когда все значения сосредоточены в одной ячейке, их
энтропия равна нулю (полная определенность). Равномерному заполнению ячеек
соответствует максимальная энтропия.
Предсказуемость
фактора Y,
обеспечиваемая знанием случайного фактора X определяется кросс-энтропией (количеством информации):
(1)
Качественно,
кросс-энтропия равна логарифму отношения разброса
значений переменной Y к
типичному разбросу этой переменной, но при известном значении переменой Х:
(2)
Nxy –
количество клеток в которых содержаться точка с координатами (Xi, Yi) (рис. 2). На
рисунке 2 Nxy =8.
Чем
больше есть кросс-энтропия, тем больше определенности вносит знание значения X в предсказание значения Y.
Подводя
итог, укажем алгоритм использования «box-counting».
Шаг 1. Пусть Y=F(х1,х2,…,хn). Зависимость F – не известна, но это пока
значения не имеет. Поскольку априорно Xi – имеют разную размерность, то их необходимо
нормировать и привести к [0; 1] шкале, что позволит проводить адекватный
анализ.
Шаг 2. Выбирают
единицу дискретности Е, определяемую точностью исследований. Для каждого
фактора разбивают отрезки [0; 1] на участке длиной Е и рассчитывают Nx .
Шаг 3. В
двухмерной плоскости (см. рис. 2) определяют Nxy для
каждого фактора.
Шаг 4. Рассчитываем отношение (2),
упорядочиваем последовательность I(X1,
Y), I(X2, Y),…, I(Xn,
Y) и исходя из начальных данных и опыта, факторы с наименьшей кросс-энтропией
отбрасываем. Остаются наиболее значимые факторы.
|