Вопрос 99. Связь номинального регрессионного анализа с детерминационным анализом и методами поиска детерминирующих сочетаний значений независимых признаков

Цветкова: «Нужно рассказать про 1. номинальные шкалы (зачем они нужны социологам)»

Анализ номинальных данных важен в социологии. Номинальные данные – данные полученные с помощью номинальных шкал. 1. Номинальные данные чаще всего используются социологами - их проще получить, интерпретировать. 2. Номинальные данные являются более надёжными, чем данные, полученные по шкалам более высокого типа, - за ними обычно не стоят трудно проверяемые модели восприятия (респондентами), при их интерпретации не используются сложные, зачастую, сомнительные допущения. 3. В методах, используемых для анализа номинальных данных, обычно бывают «заложены» модели, не вызывающие сомнения, отвечающие естественной логике социолога, изучающего собранную инф-ию «вручную», без использования математики и компьютера.

Цветкова: «Нужно рассказать про 2. изучение причинно-следственных связей при помощи перекрестных таблиц»

Изучение связей между переменными, как правило, интересует исследователя не само по себе, а как отражение соответствующих причинно-следственных отношений. Однако причинные отношения при изучении социальных явлений не удается выделить в “чистом” виде. Социолог может наблюдать только соответствующие статистические закономерности (статистические связи), в качестве измерителей которых и выступают известные показатели связи. Никакая математика не может нам доказать, что такой-то признак служит причиной (следствием) того или иного явления. Есть масса примеров, когда наличие даже самой сильной статистической связи совершенно не означает наличие соответствующей причинной зависимости. Например, у людей, как правило, одновременно появляется желание надеть легкое платье и пойти искупаться не потому, что одно причинно обусловливает другое, а потому, что оба эти желания вызваны одним и тем же обстоятельством – наступлением жаркой погоды. Подобные статистические, не являющиеся причинно-следственными, связи в литературе носят название ложной корреляции. Название не очень удачное – корреляция-то (т.е. статистическая связь) как раз истинна, ложно – причинно-следственное отношение. Итак, математические методы могут лишь навести нас на мысль о существовании причинных отношений, заставить быть более уверенными в своих предположениях, или, напротив, усомниться в них, скорректировать свои априорные представления или даже совсем отказаться от них.

Скажем, изучая связи между рассматриваемыми переменными, мы можем прийти к выводу, что профессия (это пример) никак не связана с полом (такой вывод можно сделать, использовав какой-либо коэффициент связи, рассчитывающихся на базе таблицы сопряженности "пол – профессия", скажем, критерий «Хи-квадрат»). Тем не менее, та же статистика может нам говорить, что почти все учителя – женщины, т.е. что соответствующее отдельное значение признака "профессия" связано с полом. Чтобы не "упустить" эту "локальную" связь, мы и должны рассмотреть отдельный дихотомический признак "быть учителем" с целью измерения величины его связи с признаком "пол".

В обосновании необходимости "склеивания" отдельных значений разных признаков просматривается актуальность решения следующей проблемы социологического измерения: чтобы отразить латентные свойства объекта, мы вынуждены "выдергивать" отдельные значения разных признаков, формировать из этих "надерганных" значений различные комбинации, надеясь, что какое-то сочетание хотя бы частично явится индикатором определенного "поведения" объекта.

Каждый рассматриваемый метод анализа связей номинальных признаков можно трактовать как реализацию следующего процесса: все исходные номинальные признаки как бы "рассыпаются" на отдельные градации, которые затем по-разному комбинируются, на их основе строятся новые признаки, взаимоотношения которых далее изучаются. Каждый метод анализа связей номинальных данных предлагается рассматривать как метод поиска либо связей между разными группами альтернатив, либо групп альтернатив, определяющих некоторое поведение респондентов (задаваемое разными способами).

Нетрудно заметить, что задачи (и отвечающие им методы), связанные с поиском групп альтернатив, определяющих некоторое поведение респондентов, очень похожи на задачи поиска того, что в математической статистике (в частности, в дисперсионном и регрессионном анализе), называется взаимодействием. Использование этого термина предполагает выделение среди всех признаков главного признака (зависимого, объясняемого) и группы детерминирующих его признаков (независимых, объясняющих, предикторов, признаков-причин). “Взаимодействие” означает сочетание значений независимых признаков, определяющих тот или иной уровень зависимого.

Короче, перекрестные таблицы мы делаем с помощью комп-ых программ. В них мы сможем увидеть, например, такую зависимость: большинство мужчин (пол – признак, мужчина – его значение) в возрасте от 20 до 30 лет (возраст – признак, интервал – его значение) в день выкуривают 5-10 сигарет. В более простом варианте таблицы можно обойтись, к примеру, без возраста.

(продолжение вопроса №99) Цветкова: «Нужно 3. дать определение регрессии, рассказать, что она может дать для прогнозирования»

Регрессио́нный анализ — статистический метод исследования влияния одной или нескольких независимых переменных Х1, Х2,..., Хn на зависимую переменную Y. Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа. Цели регрессионного анализа:

- Определение степени детерминированности (определяемости) вариации зависимой переменной независимыми переменными

- Предсказание значения зависимой переменной с помощью независимой(-ых)

- Определение вклада отдельных независимых переменных в вариацию зависимой

Включение понятия прогноза в представление о связи между номинальными признаками представляется разумным: наверное, трудно возражать против того, чтобы признаки считались связанными, если значение одного признака позволяет достаточно хорошо предсказать значение другого. Если мы опрашиваем только студентов, то сможем спрогнозировать их возраст: с уверенностью 90% будем полагать, что их возраст не превысит 30 лет.

Все прогнозные коэффициенты должны служить мерой улучшения качества прогноза значения одного признака за счет получении сведений о значении другого признака по сравнению с тем случаем, когда последнее значение неизвестно. Такие коэффициенты и будем называть опирающимися на модель прогноза. Возможность осуществления прогноза значений одного признака по значениям другого существенно зависит от того, значения какого признака прогнозируются. Скажем, значения первого могут хорошо прогнозироваться по значениям второго, а значения второго по значениям первого - очень плохо.

Детерминационный анализ позволяет говорить о влиянии какого-либо одного значения (альтернативы) рассматриваемого признака на произвольное значение некоторого другого признака (даются ответы на вопросы типа: насколько интенсивно учителя читают Учительскую газету? В какой мере аудитория Учительской газеты состоит из учителей?). Детерминационный анализ (теория правил) — это, с одной стороны, математическая теория детерминаций, а с другой — практический метод анализа правил, который позволяет искать и анализировать правила, обрабатывая данные опыта. Идея детерминационного анализа состоит в том, чтобы изучить математические свойства правил, сведения о которых люди черпают из опыта. Теория таких правил плюс методы анализа — это и есть детерминационный анализ. Термин «детерминация» происходит от латинского determinatio — определение, ограничение.

Правило — это особый математический объект, представляющий суждение вида «Если а, то b» (или сокращенно a → b), где a, b — соответственно, объясняющий и объясняемый признаки. В современной математической логике высказывания вида «Если a, то b» подразделяются на истинные, либо ложные. Им приписывается 1 («истина») либо 0 («ложь») в зависимости от того, «истинны» либо «ложны» по отдельности a и b. Так, если a «истинно», а b «ложно», высказывание «Если a, то b» считается «ложным», во всех остальных случаях — «истинным». (Пример: человек (a) смертен (b) - истина).

Задача «найти правила, которые объясняют то-то и то-то» одна из самых распространенных и самых полезных для практики. Правила объясняют, дают возможность прогнозировать, помогают связывать разные стороны жизни в единое целое. Связи между тем, что нужно объяснить, и тем, что позволяет построить объяснение, нередко довольно запутаны. Одни признаки, обстоятельства, события объясняют (определяют) наличие других, действуя на фоне третьих. Способ выразить такие связи знаком каждому — это правила. Правила в социологии: Что будут делать люди в определенных обстоятельствах, предсказать часто трудно или невозможно. Но в некоторых случаях социальное поведение поддается прогнозу. Такие объяснения всегда имеют вид правил, связывающих поведение с мотивами, ориентациями, отличительными признаками социальных групп, обстоятельствами жизни.