Автором метода группового учёта
аргументов (МГУА) есть Алексей Григорьевич Ивахненко. Применение МГУА нашёл в
самых различных областях знания, использующих структурную, параметрическую идентификацию
и прогнозирование. Ранее считалось, что точность модели можно повысить
исключительно за счёт учёта большего количества факторов и их композиции. Но
такой подход требовал всё большей и большей ретроспективы (периода
рассмотрения статистических данных), что чаще всего было невозможным. Да и количество структурных элементов модели было ограниченным, что
вследствие теоремы Геделя о неполноте (одна из ее формулировок: “Для любой системы существует теорема, которая не может быть
доказана с помощью аксиом этой системы”) свидетельствовало о существовании
такой зависимости, таблично заданной, которая не могла бы быть аппроксимирована
композицией данного набора элементов.
Автор МГУА предложил использовать принцип
внешнего дополнения. Базируясь на теореме Вейерштрасса о том, что любую
непрерывную функцию можно как угодно точно представить полиномом, он предложил
следующую схему.
Пусть в качестве исходных данных
выбрана матрица , где и - векторы-столбцы размерностью
. - входные факторы, - выходная
характеристика. Задача заключается в идентификации зависимости
(1)
полиномом Колмогорова-Габора
(2)
Известно, что при увеличении
степени этого полинома точность приближения им функции возрастает, а потом
убывает. В момент, когда точность максимальна, процесс усложнения полинома
заканчивается. Количество точек экспериментов может быть значительно меньше
количества членов полинома.
На первом этапе выбирается опорная
функция. Чаще используются зависимости вида:
1. ,
2. ,
3. ,
4. .
Для первой
функции необходимы данные хотя бы трёх экспериментов, для (2) – 4, для (3) – 5,
для (4) – 7. Это вызвано тем, что для определения коэффициентов будет использован
метод наименьших квадратов (см. архив рассылки). Обозначим , где - одна из указанных
зависимостей, или, возможно, подобная.
Следующим шагом будет определение МНК
коэффициентов уравнений (2), , .. , , , .. , , где . Объяснить, почему такое, можно исходя из
следующих соображений. Всевозможные пары индексов составляют матрицу (табл. 1).
Те пары, которые мы используем, образуют верхнедиагональную матрицу.
Таблица 1
(1,1)
|
(1,2)
|
(1,3)
|
(1,4)
|
…
|
(1,n-1)
|
(1,n)
|
(2,1)
|
(2,2)
|
(2,3)
|
(2,4)
|
…
|
(2,n-1)
|
(2,n)
|
(3,1)
|
(3,2)
|
(3,3)
|
(3,4)
|
…
|
(3,n-1)
|
(3,n)
|
…
|
…
|
…
|
…
|
…
|
…
|
…
|
(n,1)
|
(n,2)
|
(n,3)
|
(n,4)
|
…
|
(n,n-1)
|
(n,n)
|
Количество элементов в ней .
После того, как все зависимости , идентифицированы, по
внешнему критерию отбирают лучшие. Определение их количества относят на свободу
выбора, обычно 40-60%. Те зависимости, которые остались, перенумеровываем и
получаем , где - количество
отобранных зависимостей. Первый шаг селекции закончен.
На следующем шаге с помощью МНК
определяем коэффициенты таких зависимостей:
, , .. , , .
(3)
Дальнейшая процедура аналогична вышеизложенной. Если значение внешнего критерия улучшается,
то селекция продолжается, в противном случае модель оптимальной сложности
получена.
Опишем
внешние критерии, которые базируются на принципе внешнего дополнения. Этот
принцип после работ А.Н. Тихонова, В.И. Иванова получил название принципа
регуляризации. В зависимости от типа задачи А.Г. Ивахненко предложил рассматривать
такие критерии: регулярности, несмещённости и баланса переменных. Известны два
критерия регулярности:
-
минимум среднеквадратической ошибки на новых
точках отдельной проверочной последовательности;
-
максимум коэффициента корреляции на тех же
точках.
Рассмотрим процедуру их
применения. В качестве исходных данных имеем выделенную часть таблицы 2.
Таблица 2
|
|
…
|
|
|
|
|
...
|
|
|
|
…
|
|
|
|
|
…
|
|
|
|
…
|
|
|
|
|
…
|
|
…
|
...
|
…
|
…
|
…
|
…
|
…
|
…
|
…
|
|
|
...
|
|
|
|
|
…
|
|
Разделим её на две части
(примерно 60% на 40%) . - количество точек
экспериментов в первой (обучающей) выборке, - во второй
(контрольной). должно
быть меньше числа слагаемых в опорной
функции . На элементах обучающей выборки находим коэффициенты
зависимостей (2). Так, например, . Далее рассматриваем значения ошибок на элементах
контрольной выборки
, , (4)
упорядочиваем по возрастанию ошибок и оставляем левые функций. После перенумерации они составят
значения функций следующего ряда селекции. Условия окончания итераций не “канонизированы”
и могут быть, например, такими:
-
среднее значение ошибки для следующего ряда селекции больше значения
ошибки для предыдущего ряда;
-
минимальное значение ошибки следующего ряда
больше минимального значения ошибки
предыдущего ряда;
-
максимальное значение ошибки следующего ряда
больше максимального значения ошибки
предыдущего ряда;
-
модуль отклонения ошибок следующего и
предыдущего ряда меньше некоторого числа .
|