Прогноз класса токсичности осуществляется на основе моделей и алгоритмов распознавания образов и теории статистических решений. Мы рассматривали задачу распознавания образов применительно к случаю двух классов. Это весьма распространенный случай, так как при любом другом числе классов последовательным разбиением на два класса можно построить разделение и на произвольное число k классов. Для этого достаточно провести k разбиений по принципу: отделить элементы первого класса от смеси остальных, затем элементы второго класса от остальных и т. д.
Обозначим через
соответствующий класс токсичности. Будем рассматривать объекты обучающей выборки, входящие в
, как положительные примеры класса
, а объекты, не входящие в
, — как контрпримеры или отрицательные объекты класса
, множество которых мы обозначим через
. Запишем бинарный вектор наблюдений X в виде
, где
или 0 в зависимости от того, присутствует или отсутствует i-й фрагмент структуры в описании соединения. Обозначим через
и
вероятности появления i-го дескриптора в классах
и
соответственно.
В предположении условной независимости можно записать условные плотности распределения вероятностей в каждом классе в виде произведения вероятностей для компонент вектора наблюдений.
Отношение правдоподобия при этом определяется выражением
.
Прологарифмировав это отношения и приведя подобные члены, получим байесовскую решающую функцию
,
где
— информационный вес k-го дескриптора, а
— константа.
Байесовское решающее правило, минимизирующее среднюю вероятность ошибки, согласно [5], записывается следующим образом:
если
, то
, иначе
.
При выводе решающего правила мы исходили из того, что потери при правильной классификации равны нулю, а при ошибочной единице. При построении систем распознавания возможны такие ситуации, когда априорные вероятности появления объектов соответствующих классов
и
неизвестны. Применительно к этой ситуации рационально использовать минимаксный критерий, который минимизирует максимально возможное значение среднего риска. Показано [16], что минимаксное правило представляет собой специальное правило Байеса для наименее благоприятных априорных вероятностей. В этом случае решающая граница выбирается так, чтобы обеспечить равенство ошибок первого и второго рода, которые соответственно равны:
и
.
Оценка величин pi и qi осуществляется по конечному числу выборочных представителей образов в соответствующих классах:
,
,
где
— числа встречаемости i-го дескриптора в первом и втором классах, а
— объемы выборок в этих классах.
Отнесение химического соединения к соответствующему классу токсичности производилось в дипломном проекте по значениям
, где
— ошибка второго рода для k-го класса в зависимости от отношения правдоподобия l, а значение k, на котором достигается
, и является номером класса опасности.






