Модель качественного прогноза

Прогноз класса токсичности осуществляется на основе моделей и алгоритмов распознавания образов и теории статистических решений. Мы рассматривали задачу распознавания образов применительно к случаю двух классов. Это весьма распространенный случай, так как при любом другом числе классов последовательным разбиением на два класса можно построить разделение и на произвольное число k классов. Для этого достаточно провести k разбиений по принципу: отделить элементы первого класса от смеси остальных, затем элементы второго класса от остальных и т. д.

Обозначим через соответствующий класс токсичности. Будем рассматривать объекты обучающей выборки, входящие в , как положительные примеры класса , а объекты, не входящие в , — как контрпримеры или отрицательные объекты класса , множество которых мы обозначим через . Запишем бинарный вектор наблюдений X в виде , где  или 0 в зависимости от того, присутствует или отсутствует i-й фрагмент структуры в описании соединения. Обозначим через  и  вероятности появления i-го дескриптора в классах  и  соответственно.

В предположении условной независимости можно записать условные плотности распределения вероятностей в каждом классе в виде произведения вероятностей для компонент вектора наблюдений.

Отношение правдоподобия при этом определяется выражением

.

Прологарифмировав это отношения и приведя подобные члены, получим байесовскую решающую функцию

 ,

где  — информационный вес k-го дескриптора, а

 — константа.

Байесовское решающее правило, минимизирующее среднюю вероятность ошибки, согласно [5], записывается следующим образом:

если  , то  , иначе .

При выводе решающего правила мы исходили из того, что потери при правильной классификации равны нулю, а при ошибочной единице. При построении систем распознавания возможны такие ситуации, когда априорные вероятности появления объектов соответствующих классов  и  неизвестны. Применительно к этой ситуации рационально использовать минимаксный критерий, который минимизирует максимально возможное значение среднего риска. Показано [16], что минимаксное правило представляет собой специальное правило Байеса для наименее благоприятных априорных вероятностей. В этом случае решающая граница выбирается так, чтобы обеспечить равенство ошибок первого и второго рода, которые соответственно равны:

 и .

Оценка величин pi и qi осуществляется по конечному числу выборочных представителей образов в соответствующих классах:

 ,  ,

где  — числа встречаемости i-го дескриптора в первом и втором классах, а  — объемы выборок в этих классах.

Отнесение химического соединения к соответствующему классу токсичности производилось в дипломном проекте по значениям  , где  — ошибка второго рода для k-го класса в зависимости от отношения правдоподобия l, а значение k, на котором достигается  , и является номером класса опасности.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: