Предварительная обработка данных (часть 3)

[ссылки]

[литература]

[проекты]

[программы]

[методические указания]

[монографии и статьи]

[вопросы и ответы]

[школы]

[учебники]

[новости]

ENG | Карта сайта

Информация

Проект преследует цель популяризации идей применения природных механизмов функционирования для решения задач прогнозирования, оптимизации и поддержки принятия решений

Cписок рассылки

Открыть в новом окне

Предварительная обработка данных (часть 3).

В предыдущем выпуске рассылки был рассмотрен метод «выбеливания» входов, согласно которому матрица входных значений была преобразована к виду с некоррелированными входами, имеющими нулевое среднее и единичную дисперсию. «Выбеливание» входов увеличивает совместную энтропию входов и их информативность.

Продолжая оптимизировать исходные данные неизбежно сталкиваются с двумя задачами:

Удаление линейной зависимости среди входов.
Выбор наиболее значимых входных факторов.

Рассматривая первую задачу, заметим, что один из методов ее решения был изложен в выпуске, посвященном мультиколлинеарности и базировался на методе Фаррара-Глобера. Одним из способов устроения мультиколлинеарности есть удаление из множества входов линейно зависимых. Второй – замена одного из линейно зависимых факторов на их линейную комбинацию (наиболее распространенной является разность входов).

Еще один способ заключается в следующем:

Вычисляем матрицу ковариаций , и ее собственные числа из равенства , где – собственный вектор. Известно, что собственные числа являются квадратами дисперсий матрицы К вдоль ее главных осей. Если собственные числа достаточно малы, то это свидетельствует о том, что и дисперсия мала, а значит гиперповерхность, описывающая входные данные теряет одно измерение (превращает его в константу регрессионного уравнения) и, как следствие, указывает на то, что реальная размерность входного множества меньше заданной. Тогда размерность входов понижаем, исключая входы, которым соответствуют собственные числа меньше некоторого заданного . Точность модели при этом теряется незначительно.

Задача выбора наиболее значимых факторов также может быть решена различными способами. Так, если предположить, что осуществляется преобразование , причем , а и зависимости линейны, то поступим следующим образом. Для идентификации зависимости используем однослойный перцептрон (рис. 1). Обучая его на известной матрице исходных данных (рис. 2), получим матрицу весовых коэффициентов (рис. 3).

москва вызов такси заказ автобуса cкания 47 мест в перми перевозка сыпучих грузов

Сайт создан в системе uCoz