Предварительная обработка данных (часть 3).
В предыдущем
выпуске рассылки был рассмотрен метод «выбеливания» входов, согласно которому
матрица входных значений была преобразована к виду с некоррелированными
входами, имеющими нулевое среднее и единичную дисперсию. «Выбеливание» входов
увеличивает совместную энтропию входов и их информативность.
Продолжая
оптимизировать исходные данные неизбежно сталкиваются с двумя задачами:
- Удаление линейной зависимости среди входов.
- Выбор наиболее значимых входных факторов.
Рассматривая первую задачу, заметим, что
один из методов ее решения был изложен в
выпуске, посвященном мультиколлинеарности и базировался
на методе Фаррара-Глобера. Одним из способов устроения мультиколлинеарности есть удаление из множества
входов линейно зависимых. Второй – замена одного из линейно зависимых факторов
на их линейную комбинацию (наиболее распространенной является разность входов).
Еще один способ заключается в следующем:
Вычисляем матрицу ковариаций , и ее собственные числа из равенства , где – собственный
вектор. Известно, что собственные числа являются квадратами дисперсий матрицы К вдоль ее главных осей. Если собственные
числа достаточно малы, то это свидетельствует о том, что и дисперсия мала, а
значит гиперповерхность, описывающая входные данные теряет одно измерение
(превращает его в константу регрессионного уравнения) и, как следствие,
указывает на то, что реальная размерность входного множества меньше заданной.
Тогда размерность входов понижаем, исключая входы, которым соответствуют
собственные числа меньше некоторого заданного . Точность модели при этом теряется незначительно.
Задача выбора наиболее значимых факторов
также может быть решена различными способами. Так, если предположить, что осуществляется преобразование , причем , а и зависимости линейны, то поступим
следующим образом. Для идентификации зависимости используем однослойный
перцептрон (рис. 1). Обучая его на известной матрице исходных данных (рис. 2), получим матрицу
весовых коэффициентов (рис. 3).
|