Выпуск 39. Алгоритм ZET

Пусть задана таблица экспериментальных данных , , типа „объект-свойство”:

Объект\Свойство	1	2	…		…
1			…		…
2			…		…
…	…	…	…	…	…	…
			…	@	…
…	…	…	…	…	…	…
			…		…

где – количество строк-объектов, – количество столбцов-свойств, - пропуск, причем количество таких пропусков в таблице может быть довольно большим.

Ставится задача восстановления отсутствующих (пропущенных) значений @ в таблице .

Рассмотрим решение поставленной задачи с помощью алгоритма ZET [1]. Данный метод относится к локальным методам заполнения пробелов, так как использует для нахождения решения только некоторую локальную часть экспериментальных данных.

В основе его функционирования лежат три предположения (гипотезы):

1. Гипотеза избыточности: предполагается, что в таблице присутствует избыточность в строках (объекты могут быть похожи между собой) и столбцах (между свойствами могут быть зависимости). При отсутствии избыточности все строки и столбцы имеют одинаковый вес при прогнозировании и смысл локальности алгоритма теряется.

2. Гипотеза аналогичности: предполагается, что если два объекта «похожи» по значениям () свойств, то они «похожи» и по -му свойству.

3. Гипотеза локальной компетентности: предполагается, что избыточность строк и столбцов носит локальный характер, то есть для каждого пропущенного значения имеется только некоторое количество объектов – аналогов объекта с пропуском и свойств – аналогов свойства с пропуском. Поэтому предлагается использовать для прогнозирования только такие «компетентные» объекты и свойства, которые выбираются для каждого пропуска отдельно.

Основные этапы алгоритма ZET для обработки таблицы с пропусками:

1. Предварительная обработка начальных данных.

2. Прогнозирование пропуска - выполняется раз:

2.2. Подбор параметров модели прогнозирования.

1. Вначале столбцы матрицы нормируются по дисперсиям для приведения различных свойств объектов к единой шкале:

2. Следующие этапы выполняют раз. Пусть координаты текущего элемента с пропуском ,

2.1.1. Задать размеры компетентной матрицы , , , ,

2.1.2. Выбрать компетентных строк для строки с пропуском.

Компетентность строки по отношению к строке с пропуском определяется по формуле

где - комплектность, то есть число значений известных для обеих строк и , - декартово расстояние между строками (элементы с пропусками не учитываются). Компетентная строка не должна содержать пропуска на -й позиции.

2.1.3. Выбрать компетентных столбцов для столбца с пропуском.

Компетентность столбца по отношению к столбцу с пропуском определяется по формуле

где - комплектность столбцов и , - коэффициент корреляции между столбцами и . При расчете используются только те значения столбцов, которые принадлежат к компетентным строкам. Компетентный столбец не должен содержать пропуск на -й позиции.

2.2. Подбор параметров моделей прогнозирования (по строкам) и (по столбцам) – коэффициенты регулирующие влияние компетентности на результат предсказания.

2.2.1. Задаем пределы изменения коэффициентов и и шаг их изменения.

2.2.2. Находим оптимальные коэффициенты и для прогноза пропуска по

строкам и по столбцам по следующему алгоритму (одинаков для строк и столбцов). Подавая значения коэффициента ( для строк, для столбцов) в указанных пределах и с указанным шагом минимизируем функцию

где - реальное значение элемента строки (столбца) с пропуском, - прогноз этого элемента с помощью компетентных строк (столбцов). рассчитываются по формуле

где для строк и для столбцов, - прогноз для известных значений строки (столбца) с пропуском с помощью -й строки (столбца), рассчитывается с помощью линейной регрессии вида по МНК.

2.3.1. Прогнозирование пропуска по столбцам выполняется по формуле

2.3.2. Прогнозирование пропуска по столбцам выполняется по формуле

2.3.3. Общий прогноз получается усреднением прогнозов по строкам и столбцам

Программы заполнения пробелов могут работать в одном из следующих режимов:

1. Заполнение всех пробелов в таблице по указанному алгоритму.

2. Заполнение только тех пробелов, ожидаемая ошибка для которых не превышает заданной величины. Для определения ожидаемой ошибки предсказания вычисляется дисперсия значений подсказок , получаемых от всех столбцов и строк компетентной подматрицы.

3. Заполнение пробелов только на базе информации, имеющейся в исходной таблице.

4. Заполнение каждого следующего пробела с использованием исходной информации и прогнозных значений ранее заполненных пробелов.

1. Загоруйко Н.Г. Методы распознавания и их применение. – М.: Советское Радио, 1972.