Максимум правдоподобия: Используется для оценки значений параметров распределения. Параметры распределения – те, при которых наблюденные значения обращают вероятность наблюденной выборки в максимум. Очень успешен: удалось математически доказать, что оценки таких статистик как среднее и дисперсия по этому принципу – не смещенные. В последнее время дополняется принципом минимума длины описания, так как сам по себе о числе параметров не говорит.
Подход Бэйеса: Используется не для оценки значений параметров, но лишь для уточнения характера распределения. Исходное распределение f(y) заменяется при этом на распределение f(y/x), где - x наблюденные данные, с помощью теоремы Бэйеса, которая позволяет вычислить p(y/x) по известной p(x/y).
История и методология анализа данных
6.1 Понятие признака; виды шкал измерения; адекватность количественных утверждений.
Основные задачи анализа данных в связи с обогащением знаний
Аппроксимационный подход к анализу данных: метод наименьших квадратов как эвристический принцип; декомпозиция разброса данных.
|
|
Другие парадигмы в анализе данных (классической статистики, машинного обучения, обогащения знаний, эвристического моделирования)
Разработка данных и концепция «интересного».
6.6 Современные подходы к представлению знаний.
6.1 Понятие признака; виды шкал измерения; адекватность количественных утверждений.
Математик считает, что признак – это отображение множества (всех возможных) объектов в какое-либо множество, называемое множеством значений. Математический статистик полагает, что признак – это случайная величина. Физик или социолог включают сюда способ измерения с постоянной – и не очень-то решаемой – проблемой: как убедиться, что измеряется именно заявленный показатель (валидность), а также как понять насколько точно измерение –(надежность). Социальные измерения – это настоящая головная боль. Это особенно ясно, когда измеряешь такие характеристики как общественный продукт (сильно влияет количество трансформаций типа зерно/мука/хлеб или более сложных как, скажем, при строительстве домов) или производительность труда (задача нелегкая даже когда речь идет об относительно однородном труде, как вождение автофургона, а если речь идет о всех водителях региона за год – надо учесть, например, их болезни, отпуска, поломки и т.п.). Или возьмите Марксову категорию «общественно необходимый труд» - как узнать? – А ведь вся теория социализма опирается на это понятие.
Много внимания было уделено проблеме: как отделить количественные признаки от качественных.
|
|
На основе более ранних изысканий Гельмгольца и др. в физике, психолог С. Стивенс сформулировал понятие типа шкалы (1948 г.), которое в основном стало общепринятым. Тип шкалы x, понимаемой как отображение множества объектов в множество значений, кодированное вещественными числами, определяется множеством её допустимых преобразований Ф={j}, так что признак остается тем же после преобразования j(x) для всякого jÎФ. В соответствии с этим выделяют типы шкал:
- абсолютный (Ф состоит из одного тождественного преобразования j(x)=x; пример – счет индивидов),
- отношений или относительный (Ф состоит из преобразований вида j(x)=ax для произвольных вещественных a; всякое выбранное a соответствует выбору масштаба),
- интервалов или интервальный (Ф состоит из преобразований вида j(x)=ax+b для произвольных вещественных a, b; всякое выбранное a соответствует выбору масштаба, а b – выбору начала шкалы; пример – шкалы Цельсия и Фаренгейта для измерения температуры воздуха),
- порядка или порядковый или ординальный (Ф состоит из всех монотонно возрастающих преобразований j(x)),
- наименований или номинальный (Ф состоит из всех взаимно-однозначных преобразований j(x)).
Откуда берется множество Ф? Разные точки зрения. Репрезентационная теория (П. Суппис, Д. Льюс и др. 1963) – из свойств отношений между объектами, соответствующими данному признаку. Например, свойства отношений «масса а больше массы б», «разница между массами а и б больше разницы между массами в и г» приводят к тому, что масса выражается в относительной шкале. Физики утверждают, что из свойств инвариантности уравнений соответствующей физической теории. Радикалы как я выводят Ф из общественной практики. Например, практика использования среднего балла по результатам тестов/экзаменов для ранжирования студентов по успеваемости: если мы признаем справедливость (=осмысленность) этих сравнений, то мы тем самым признаем, что экзаменационные оценки выражаются в интервальной шкале (это – теорема, попробуйте доказать).