Какие виды связи между переменными вы знаете. Виды взаимосвязей между признаками. Корреляционный анализ. Проблема ложной корреляции. Коэффициенты корреляции

12.01.2024 Игры

Виды взаимосвязей между признаками. 3

Коэффициент корреляции. 8

Коэффициент корреляции Бравэ-Пирсона. 11

Ограничения использования коэффициента корреляции. 13

Проверка значимости корреляции. 14

Ранговая корреляция. 15

Множественная корреляция. 16

Библиографический список. 20


Виды взаимосвязей между признаками

Еще Гиппократ обратил внимание на то, что между телосложением и темпераментом людей, между строением их тела и предрасположенностью к заболеваниям существует определенная связь.
Чаще всего рассматриваются простейшие ситуации, когда в ходе исследования измеряют значения только одного варьирующего признака генеральной совокупности. Остальные признаки либо считаются постоянными для данной совокупности, либо относятся к случайным факторам, определяющим варьирование исследуемого признака. Как правило, исследования в спорте значительно сложнее и носят комплексный характер. Например, при контроле за ходом тренировочного процесса измеряется спортивный результат, и одновременно может оцениваться целый ряд биомеханических, физиологических, биохимических и других параметров (скорость и ускорения общего центра масс и отдельных звеньев тела, углы в суставах, сила мышц, показатели систем дыхания и кровообращения, объем физической нагрузки и энергозатраты организма на ее выполнение и т. д.). При этом часто возникает вопрос о взаимосвязи отдельных признаков. Например, как зависит спортивный результат от некоторых элементов техники спортивных движений? как связаны энергозатраты организма с объемом физической нагрузки определенного вида? насколько точно по результатам выполнения некоторых стандартных упражнений можно судить о потенциальных возможностях человека в конкретном виде спортивной деятельности? и т. п. Во всех этих случаях внимание исследователя привлекает зависимость между различными величинами, описывающими интересующие его признаки.

Этой цели служит математическое понятие функции, имеющее в виду случаи, когда определенному значению одной (независимой) переменной Х, называемой аргументом , соответствует определенное значение другой (зависимой) переменной Y, называемой функцией . Однозначная зависимость между переменными величинами Y и X называется функциональной , т.е. Y = f(X) (“игрек есть функция от икс”).
Например, в функции Y = 2X каждому значению X соответствует в два раза большее значение Y . В функции Y = 2X 2 каждому значению Y соответствует 2 определенных значения X .

Но такого рода однозначные или функциональные связи между переменными величинами встречаются не всегда. Известно, например, что между ростом (длиной тела) и массой человека существует положительная связь: более высокие индивиды имеют обычно и большую массу, чем индивиды низкого роста. То же наблюдается и в отношении качественных признаков: блондины, как правило, имеют голубые, а брюнеты - карие глаза. Однако из этого правила имеются исключения, когда сравнительно низкорослые индивиды оказываются тяжелее высокорослых, и среди населения хотя и нечасто, но встречаются кареглазые блондины и голубоглазые брюнеты. Причина таких “исключений” в том, что каждый биологический признак, выражаясь математическим языком, является функцией многих переменных; на его величине сказывается влияние и генетических и средовых факторов, в том числе и случайных, что вызывает варьирование признаков. Отсюда зависимость между ними приобретает не функциональный, а статистический характер , когда определенному значению одного признака, рассматриваемого в качестве независимой переменной, соответствует не одно и то же числовое значение, а целая гамма распределяемых в вариационный ряд числовых значений другого признака, рассматриваемого в качестве независимой переменной. Такого рода зависимость между переменными величинами называется корреляционной или корреляцией (термин “корреляция” происходит от лат. correlatio - соотношение, связь). При этом данный вид взаимосвязи между признаками проявляется в том, что при изменении одной из величин изменяется среднее значение другой.
Если функциональные связи одинаково легко обнаружить и на единичных, и на групповых объектах, то этого нельзя сказать о связях корреляционных, которые изучаются только на групповых объектах методами математической статистики.

· Существует ли связь между исследуемыми переменными?

· Как измерить тесноту связей?

Общая схема взаимосвязи параметров при статистическом исследовании приведена на рис. 1.

Рис 1. Взаимосвязь параметров при статистическом исследовании

На рисунке S – модель исследуемого реального объекта, Объясняющие (независимые, факторные) переменные описывают условия функционирования объекта. Случайные факторы – это факторы, влияние которых трудно учесть или влиянием которых в данный момент пренебрегают. Результирующие (зависимые, объясняемые) переменные характеризуют результат функционирования объекта.

Выбор метода анализа взаимосвязи осуществляется с учетом природы анализируемых переменных.

Корреляция – это статистическая зависимость между случайными величинами, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.

Различают парную, частную и множественную корреляцию.

Парная корреляция – это связь между двумя признаками (результативным и факторным или между двумя факторными).

Частная корреляция – это связь между двумя признаками (результативным и факторным или между двумя факторными) при фиксированном значении других факторных признаков.

Множественная корреляция – это связь между результативным и двумя или более факторными признаками, включенными в исследование.

В зависимость от количества признаков, включенных в модель, корреляционная связь может быть однофакторной (или парной) и многофакторной (или множественной).

Корреляционный анализ – это раздел математической статистики, посвященный изучению взаимосвязей между случайными величинами. Корреляционный анализ заключается в количественном

Задача корреляционного анализа сводится к установлению направления и формы связи между признаками, измерению ее тесноты и к оценке достоверности выборочных показателей корреляции.
Корреляционная связь между признаками может быть линейной и криволинейной (нелинейной), положительной и отрицательной.

Прямая корреляция отражает однотипность в изменении признаков: с увеличением значений первого признака увеличиваются значения и другого, или с уменьшением первого уменьшается второй.

Обратная корреляция указывает на увеличение первого признака при уменьшении второго или уменьшение первого признака при увеличении второго.
Например, больший прыжок и большее количество тренировок - прямая корреляция, уменьшение времени, затраченного на преодоление дистанции, и большее количество тренировок - обратная корреляция.

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (x i , y i ) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x i и y i . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.
Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x i и y i .
Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x i и y i г рафически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем .

При исследования корреляции используются графический и аналитический подходы.

Графический анализ начинается с построения корреляционного поля. Корреляционное поле (или диаграмма рассеяния) является графической зависимостью между результатами измерений двух признаков. Для ее построения исходные данные наносят на график, отображая каждую пару значений (xi,yi) в виде точки с координатами xi и yi в прямоугольной системе координат.

Визуальный анализ корреляционного поля позволяет сделать предположение о форме и направлении взаимосвязи двух исследуемых показателей. По форме взаимосвязи корреляционные зависимости принято разделять на линейные (см. рис. 2) и нелинейные (см. рис. 3). При линейной зависимости огибающая корреляционного поля близка к эллипсу. Линейная взаимосвязь двух случайных величин состоит в том, что при увеличении одной случайной величины другая случайная величина имеет тенденцию возрастать (или убывать) по линейному закону.

Рис 2. Линейная статистическая связь Рис 3. Нелинейная статистическая связь

Направление связи является положительным, если увеличение значения одного признака приводит к увеличению значения второго (см. рис. 4) и отрицательным, если увеличение значения одного признака приводит к уменьшению значения второго (см. рис. 5).

Зависимости, имеющие только положительные или только отрицательные направленности, называются монотонными.

Коэффициент корреляции

Количественная оценка тесноты взаимосвязи двух случайных величин осуществляется с помощью коэффициента корреляции. Вид коэффициента корреляции и, следовательно, алгоритм его вычисления зависят от шкалы, в которой производятся измерения изучаемых показателей и от формы зависимости.

Значение коэффициента корреляции может изменяться в диапазоне от -1 до +1:

Абсолютное значение коэффициента корреляции показывает силу взаимосвязи. Чем меньше его абсолютное значение, тем слабее связь. Если он равен нулю, то связь вообще отсутствует. Чем больше значение модуля коэффициента корреляции, тем сильнее связь и тем меньше разброс в значениях при каждом фиксированном значении . Знак коэффициента корреляции определяет направленность взаимосвязи: минус – отрицательная, плюс – положительная (см. рис. 6).

Рис.6. Корреляционные поля при различных значениях коэффициента корреляции

Рис.7. Коэффициенты корреляции при различной форме корреляционного поля.

Коэффициент корреляции отражает линейную зависимость и совсем не подходит для описания сложных, нелинейных зависимостей (нижняя строка).

Достаточно условно может быть использована следующая классификация взаимосвязей по значению коэффициента корреляции (см. табл. 1).

Таблица 1. Интерпретация значений коэффициент корреляции

Согласно исследованию научных публикаций в наиболее престижных зарубежных журналах, посвященных социальным и поведенческим наукам (Ч.Теддли, М.Элайс, 2010), 77% всех социологических исследований проведены в рамках количественного подхода. Из них 71% является корреляционными исследованиями или исследованиями, посвященными изучению связей между социальными явлениями.

Самый простой вид корреляционных исследований - изучение парных взаимосвязей или совместной изменчивости двух переменных. Такого рода исследования пригодны для решения двух научных задач:

а) доказательства существования причинно-следственной связи между переменными (наличие связи является важным, но не единственным, условием причинно-следственной зависимости);

б) предсказания: в случае наличия связи между переменными можно с определенным уровнем точности предсказывать значения одной переменной, если нам известно значение другой.

Связь между двумя переменными есть в том случае, когда изменение категории одной переменной ведет к изменению распределения второй:

Легко заметить, что в зависимости от категории переменной "Удовлетворенность работой" переменная "Продуктивность труда" меняет свое распределение. Следовательно, мы можем сделать вывод о существовании связи между переменными.

Также из этого примера видно, что каждому из значений одной переменной отвечает несколько значений другой. Такие связи называются статистическими или вероятностными. В данном случае, связь между переменными не является абсолютной. В нашем случае это означает, что кроме удовлетворенности работой есть и другие факторы, влияющие на продуктивность труда.

В случае же, когда одному значению первой переменной соответствует лишь одно значение второй, говорят о функциональных связях. Вместе с тем, даже когда есть основания говорить о функциональной связи, невозможно на все 100% продемонстрировать ее в эмпирической действительности по двум причинам: а) из-за погрешности измерительных инструментов; б) из-за невозможности контроля всех условий окружающей среды, влияющих на эту связь. И поскольку в социальных науках ученые имеют дело именно с вероятностными связями, постольку ниже речь пойдет именно о них.

Парные связи владеют тремя характеристиками: силой, направлением и формой.

Сила показывает насколько согласованна изменчивость двух переменных. Сила связи может изменяться в диапазоне от 0 до +1 (если хотя бы одна из переменных относится к номинальной шкале) или от -1 до +1 (если обе переменные относятся, по крайней мере, к порядковой шкале). При этом 0 и близкие к ней величины говорят об отсутствии связи между переменными, а величины близкие к +1 (прямая связь) или -1 (обратная связь) - о сильной связи. Один из вариантов интерпретации связи, с точки зрения ее силы, выглядит следующим образом:

Все значения в таблице приведены в модуле, т.е. должны анализироваться безотносительно к знаку. Так, например, связь -0,67 и +0,67 являются одинаковыми по силе, но разными по направлению.

Сила связи определяется с помощью коэффициентов корреляции. К коэффициентам корреляции относятся, например, фи и V-крамера (номинальные переменные, мало категорий/табличный вид), Гамма (порядковые переменные, мало категорий/табличный вид), Кендалла и Спирмена (порядковые переменные, много категорий), Пирсона (метрические переменные, много категорий).

Направление говорит о характере взаимного изменения категорий переменных. Если с увеличением значений одной переменной значения другой переменной также увеличиваются, то связь является прямой (или положительной). Если же ситуация противоположная и увеличение значений одной переменной ведет к уменьшению значений второй, то связь обратная (или отрицательная).

Направление связи может иметь место только в тех случаях, когда речи идет о порядковых и/или метрических переменных, то есть тех переменных, значения которых можно упорядочить от меньших к большим или наоборот. Таким образом, если хотя бы одна переменная относится к номинальной шкале, то можно говорить только о силе связи и ее форме, но не о направлении.

Направление связи можно определить либо с помощью таблиц сопряженности (мало категорий), либо с помощью диаграммы рассеяния (много категорий), либо с помощью знака коэффициента корреляции (количество категорий переменных не имеет значения):

А. Определение направления связи с помощью таблицы сопряженности.

Б. Определение направления связи с помощью диаграммы рассеяния.

В. Определение направления связи с помощью коэффициентов корреляции.

Форма связи указывает на особенности совместной изменчивости двух переменных. В зависимости от того, к какой шкале относится переменная, форму связи можно проанализировать либо с помощью столбчатой диаграммы/таблицы сопряженности (если хотя бы одна переменная является номинальной), либо с помощью диаграммы рассеяния (для порядковых и метрических шкал).

Выделяют несколько видов связи между переменными.

· Корреляционная зависимость предполагает взаимную согласованность изменений переменных величин, а также то, что эти изменения можно измерить однократно или многократно (в данном случае говорят о плотности связи переменных, но не о причинно-следственных связях); например, в современном российском обществе чем выше возраст, тем ниже социальный статус человека; отдельные проявления геронтократии эту закономерность не нарушают



· Функциональное воздействие предполагает, что изменения независимой переменной сопровождаются все более ускоряющимися изменениями зависимой переменной (причинно-следственные связи фиксируют влияние независимой переменной на зависимую); например, чем более радикальными политическими взглядами обладает человек, тем в большей степени он не приемлет существующий политический режим; в то же время нельзя утверждать, что чем в большей степени человек негативно оценивает власть, тем более радикальными взглядами он обладает

· Функциональная зависимость - связь переменных, означающая, что изменение одной переменной оказывает воздействие на изменение другой, которая в свою очередь воздействует на первую переменную, т.е. это связи взаимодействия; например, информированность человека

о политике напрямую связана с интересом к ней; чем больше человек политикой интересуется, тем больше в ней разбирается. Связь может быть нелинейной и немонотонной

Каким бы в итоге ни оказался тип связи между переменными, необходимо убедиться в ее наличии в принципе. Корреляционный анализ применяется для выяснения взаимодействия и тенденций изменения характеристик изучаемого явления.

Корреляция - наличие статистической взаимосвязи признаков, когда каждому определенному значению одного признака X соответствует определенное значение Y (или комплекс значений У-ряда распределения). Корреляционный анализ выясняет функциональную зависимость между переменными величинами, которая характеризуется тем, что каждому значению одной из них соответствует вполне определенное значение другой. Однако корреляционный анализ не предполагает выявления каузальных связей, поэтому при интерпретации результатов формулировки типа «переменная х влияет на переменную у» или «переменная х зависит от переменной у» недопустимы. Различают парную и множественную корреляции. Парная корреляция

характеризует тип, форму и плотность связи между двумя признаками, множественная - между несколькими. Корреляционная зависимость возникает чаще всего там, где одно явление находится под воздействием большого числа факторов, действующих с разной силой, поэтому существуют специальные меры корреляционной связи, называемые коэффициентами корреляции. Коэффициенты (в статистике их общее количество исчисляется десятками) показывают степень взаимосвязи явлений (плотность корреляционной связи, иногда исследователи говорят об интенсивности связи) и характер этой связи (направленность). Связь может быть прямой и обратной. Например, чем старше избиратель, тем более активно он участвует в выборах. Чем выше уровень доходов людей, тем в меньшей степени они склонны участвовать в выборах в качестве избирателей (обратная связь). Чем выше коэффициент корреляции между двумя переменными, тем точнее можно предсказать значения одной из них по значениям другой. Характер связи также определяется в категориях «монотонная» (направление изменения одной переменной не меняется при изменении второй переменной) и «немонотонная» связь. Помимо оценки плотности и направленности связи необходимо учитывать надежность (достоверность) связи.

44 . Корреляционный анализ. Проблема ложной корреляции. Коэффициенты корреляции: виды и условия использования.

Корреляционный анализ применяется для выяснения взаимодействия и тенденций изменения характеристик изучаемого явления.

Первоначальной стадией его развития считается период 1870- 1880-х годов, а автором понятия «коэффициент корреляции» - Фрэнсис Гальтон. Наиболее серьезные разработки в области корреляционного анализа на рубеже XIX-XX вв. выполнил Карл Пирсон. Традиционно корреляционный анализ используется для проверки гипотезы о статистической зависимости двух или нескольких переменных. В качестве вспомогательного средства анализ корреляций можно использовать при проверке пригодности экспериментальных гипотез и для включения переменных в факторный и регрессионный анализ.

Корреляционный анализ осуществляется с помощью сравнения и сопоставления рядов распределения, построенных на основании группировок по различным признакам.

Корреляция - наличие статистической взаимосвязи признаков, когда каждому определенному значению одного признака X соответствует определенное значение Y (или комплекс значений У-ряда распределения). Корреляционный анализ выясняет функциональную зависимость между переменными величинами, которая характеризуется тем, что каждому значению одной из них соответствует вполне определенное значение другой. Однако корреляционный анализ не предполагает выявления каузальных связей, поэтому при интерпретации результатов формулировки типа «переменная х влияет на переменную у» или «переменная х зависит от переменной у» недопустимы. Различают парную и множественную корреляции. Парная корреляция характеризует тип, форму и плотность связи между двумя признаками, множественная - между несколькими. Корреляционная зависимость возникает чаще всего там, где одно явление находится под воздействием большого числа факторов, действующих с разной силой, поэтому существуют специальные меры корреляционной связи, называемые коэффициентами корреляции. Коэффициенты (в статистике их общее количество исчисляется десятками) показывают степень взаимосвязи явлений (плотность корреляционной связи, иногда исследователи говорят об интенсивности связи) и характер этой связи (направленность). Связь может быть прямой и обратной. Например, чем старше избиратель, тем более активно он участвует в выборах. Чем выше уровень доходов людей, тем в меньшей степени они склонны участвовать в выборах в качестве избирателей (обратная связь). Чем выше коэффициент корреляции между двумя переменными, тем точнее можно предсказать значения одной из них по значениям другой. Характер связи также определяется в категориях «монотонная» (направление изменения одной переменной не меняется при изменении второй переменной) и «немонотонная» связь. Помимо оценки плотности и направленности связи необходимо учитывать надежность (достоверность) связи.

Корреляционный анализ последовательно решает три практические задачи:

1) определение корреляционного поля и составление корреляционной (в данном случае это комбинированная) таблицы;

2) вычисление выборочных корреляционных отношений или коэффициентов корреляции;

3) проверка статистической гипотезы значимости связи.

Коэффициент корреляции не содержит информации о том, является ли данная связь между ними причинно-следственной или сопутствующей (порожденной общей причиной).

Для установления корреляционной связи между двумя признаками необходимо доказать, что все другие переменные не оказывают воздействия на отношения двух переменных, являющихся предметом изучения. В противном случае возникает ситуация ложной корреляции. Секрет возникновения ложной корреляции заключается в том, что у двух явлений, связь которых формально подкрепляется наличием статистической связи, есть общая причина, в равной степени влияющая на каждое из них.

Во многих случаях статистически фиксируемая связь между признаками может быть объяснена третьей переменной.

Для выяснения типа связи является перспективным представление данных в виде графика, который позволяет визуально оценить степень рассеяния значений переменных. Особое внимание следует обратить на наличие «выбросов» (экстремально большие или малые значения признака), показывающих существенные отклонения от линии регрессии - условной прямой, которая показывает характер связи между

признаками на графике. Для выяснения факторов, определяющих причинно-следственную связь между переменными, прибегают к пат-анализу. Чтобы избежать ошибки в ситуации ложной корреляции, используют анализ взаимосвязи двух переменных с помощью контрольного (опосредующего) фактора. Итак, корреляционный анализ позволяет отбросить несуществующие или несущественные связи.

Специально следует оговорить, что для получения достоверных данных необходимо обеспечить достаточно большое число наблюдений, поскольку необоснованно сокращая объем выборки, мы снижаем уровень надежности полученных выводов о статистических зависимостях. Следовательно, необходимы специальные знания статистических расчетов. Операции по расчету коэффициентов корреляции осуществляют программы PC, но необходимо хотя бы иметь представление об элементарных процедурах анализа.

Корреляционному анализу предшествует стадия расчета статистики х2- Но на основании полученного значения статистики х2 мы ничего не можем сказать о плотности связи анализируемых переменных.

Для решения такой задачи необходимо обратиться к коэффициентам корреляционной связи.

Различные коэффициенты корреляции могут принимать значения от - 1 до + 1 или от 0 до +1. Специально следует оговорить, что значения коэффициентов, которые принимаются как статистически значимые, значительно разнятся между собой для различных видов коэффициентов корреляции

качестве предварительного замечания отметим, что принято признавать «сверхсильной» связью показатели корреляции свыше |±0,8|, «сильной» - от |±0,6| до |±0,8|, «умеренной» - от |±0,4| до |±0,6|, «слабой » - от |±0,2| до |±0,4|, связь отсутствует при показателях коэффициентов корреляции до |±0,2|. Применительно к значению коэффициента корреляции, приближающемуся к +1, обычно используют обозначение «строгая положительная корреляция» (perfect positive correlation), а к коэффициенту корреляции, равному -1, - «строгая отрицательная корреляция» {perfect negative correlation). А. Бююль и П. Цёфель, а также А. С. Ахременко предлагают несколько иной вариант интерпретации: до |±0,2| - очень слабая корреляция, от |+0,2| до |±0,5| - слабая корреляция, от |+0,5| до 1+0,7| - средняя корреляция, от |±0,7| до |±0,9| - высокая корреляция, свыше |±0,9| - очень высокая корреляция. Отметим, что высокие значения корреляции в реальных политических исследованиях встречаются крайне редко. И действительной исследовательской удачей является обнаружение просто статистически значимого коэффициента корреляции.

Важным показателем оценки коэффициента корреляции является показатель уровня значимости. Для корреляционного анализа он, как и для статистики хи-квадрат, не должен превышать 0,05 (р < 0,05), т.е. вероятность ошибки - подмена устойчивой статистически обоснованной случайной связи - не превышает 5%. Показатель уровня значимости является расчетным, однако как для статистики х2, так и для корреляционного анализа этот показатель формально принимают за константу.

Очень часто маркетолог ищет ответы на вопросы типа: «Увели­чится ли показатель рыночной доли при увеличении числа дилеров?», «Есть ли связь между объемом сбыта и рекламой?» Такие связи не всегда имеют причинно-следственный характер, а могут иметь просто статисти­ческую природу. В поставленных вопросах можно определенно говорить о влиянии одного фактора на другой. Однако степень влияния изучаемых факторов может быть различной; скорее всего, влияние могут оказывать также какие-то другие факторы. Выделяют четыре типа связей между двумя переменными: немонотонная, монотонная, линейная и криволи­нейная.

Немонотонная связь характеризуется тем, что присутствие (отсут­ствие) одной переменной систематически связано с присутствием (отсут­ствием) другой переменной, но ничего неизвестно о направлении этого взаимодействия (приводит ли, например, увеличение одной переменной к увеличению или уменьшению другой). Например, известно, что посети­тели закусочных в утренние часы предпочитают заказывать кофе, а в се­редине дня - чай.

Немонотонная связь просто показывает, что утренние посетители предпочитают также заказывать яйца, бутерброды и бисквиты, а в обе­денное время скорее заказывают мясные блюда с гарниром.

Монотонная связь характеризуется возможностью указать только общее направление связи между двумя переменными без использования каких-либо количественных характеристик. Нельзя сказать, насколько, например, определенное увеличение одной переменной приводит к уве­личению другой переменной. Существуют только два типа таких связей: увеличение и уменьшение. Например, владельцу обувного магазина из­вестно, что более взрослые дети обычно требуют обувь бoльших размеров. Однако невозможно четко установить связь между конкретным возрастом и точным размером обуви.

Линейная связь характеризует прямолинейную зависимость между двумя переменными. Знание количественной характеристики одной пе­ременной автоматически предопределяет знание величины другой пере­менной:

у=а+bх, (4.3)

где у - оцениваемая или прогнозируемая зависимая переменная (ре­зультативный признак);

а - свободный член уравнения;

b - коэффициент регрессии, измеряющий среднее отношение от­клонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения - вариация у, приходящаяся на единицу вариации х;

х - независимая переменная (факторный признак), используемая для определения зависимой переменной.

Коэффициенты а и b рассчитываются на основе наблюдений вели­чин у и х с помощью метода наименьших квадратов .

Предположим, что торговый агент продает детские игрушки, по­сещая квартиры случайным образом. Отсутствие посещения какой-то квартиры означает отсутствие продажи, или а = 0. Если в среднем каж­дый десятый визит сопровождается продажей на 62 доллара, то стоимость продажи на один визит составит 6,2 доллара, или b = 6,2.

у=0 + 6,2х.

Таким образом, можно ожидать, что при 100 визитах доход соста­вит 620 долларов. Надо помнить, что эта оценка не является обязатель­ной, а носит вероятностный характер.

Криволинейная связь характеризует связь между переменными, носящую более сложный характер по сравнению с прямой линией. На­пример, связь между переменными может описываться 5-образной кри­вой (см. раздел 7.3).

В зависимости от своего типа связь может быть охарактеризована путем определения: ее присутствия (отсутствия), направления и силы (тесноты) связи.

Присутствие характеризует наличие или отсутствие систематиче­ской связи между двумя изучаемыми переменными; оно имеет статисти­ческую природу. Проведя испытание статистической значимости, опреде­ляют, существует ли зависимость между данными. Если результаты ис­следования отвергают нулевую гипотезу, это говорит о том, что зависи­мость между данными существует.

В случае монотонных линейных связей последние могут быть опи­саны с точки зрения их направления - в сторону увеличения или уменьшения.

Связь между двумя переменными может быть сильной, умеренной, слабой или отсутствовать. Сильная зависимость характеризуется высокой вероятностью существования связи между двумя переменными, слабая - малой вероятностью.

Существуют специальные процедуры для определения указанных выше характеристик связей. Первоначально надо решить, какой тип свя­зей может существовать между двумя изучаемыми переменными. Ответ на этот вопрос зависит от выбранной шкалы измерений.

Шкала низкого уровня (наименований) может отразить только не­точные связи, в то время как шкала отношений, или интервальная, - очень точные связи. Определив тип связи (монотонная, немонотонная), надо установить, существует ли эта связь для генеральной совокупности в целом. Для этого проводятся статистические испытания.

После того как найдено, что для генеральной совокупности суще­ствует определенный тип связи, устанавливается ее направление. Нако­нец, необходимо установить силу (тесноту) связи.

Для определения, существует или нет немонотонная зависимость, используется таблица сопряженности двух переменных и критерий хи-квадрат. Как правило, критерий хи-квадрат применяется для анализа таб­лиц сопряженности номинальных признаков, однако он может использо­ваться и при анализе взаимосвязи порядковых, или интервальных, пере­менных. Если, скажем, было выяснено, что две переменные не связаны друг с другом, то их дальнейшим исследованием заниматься не стоит. Некоторые указания на связь скорее были обусловлены ошибкой выбор­ки. Если же тест на хи-квадрат указал на связь, то она существует в ре­альности для генеральной совокупности и ее, возможно, следует изучать. Однако этот анализ не указывает на характер связи.

Предположим, что изучалась лояльность к определенной марке пи­ва среди служащих и рабочих (двумя переменными, измеренными в шка­ле наименований). Результаты опроса затабулированы в следующем виде (табл. 4.16).

Таблица 4.16

Матрицы сопряженности частоты

Результаты первоначальной табуляции

Первоначальные процентные данные (деление на 200)

Проценты по колонкам

Первая из приведенных матриц содержит наблюдаемые частоты, которые сравниваются с ожидаемыми частотами, определяемыми как теоретические частоты, вытекающие из принимаемой гипотезы об отсут­ствии связи между двумя переменными (выполняется нулевая гипотеза). Величина отличия наблюдаемых частот от ожидаемых выражается с по­мощью величины х-квадрата. Последняя сравнивается с ее табличным значением для выбранного уровня значимости. Когда величина хи-квадрата мала, то нулевая гипотеза принимается, а следовательно, счита­ется, что две переменные являются независимыми и исследователю не стоит тратить время на выяснение связи между ними, поскольку связь является результатом выборочной ошибки.

Вернемся к нашему примеру и рассчитаем ожидаемые частоты, пользуясь таблицей частот:

=

где f ni - наблюдаемая частота в ячейке i;

f ai - ожидаемая частота в ячейке i;

n - число ячеек матрицы.

Из таблицы критических значений х-квадрата вытекает, что для степени свободы, равной в нашем примере 1, и уровня значимости альфа =0,05 критическое значение х-квадрата равно 3,841 . Видно, что рас­четное значение х-квадрата существенно больше его критического значе­ния. Это говорит о существовании статистически значимой связи между родом деятельности и лояльностью к исследованной марке пива, и не только для данной выборки, но и для совокупности в целом. Из таблицы следует, что главная связь заключается в том, что рабочие покупают пиво данной марки реже по сравнению со служащими.

Теснота связи и ее направление определяются путем расчета коэф­фициента корреляции, который изменяется от -1 до +1. Абсолютная ве­личина коэффициента корреляции характеризует тесноту связи, а знак указывает на ее направление .

Вначале определяется статистическая значимость коэффициента корреляции. Безотносительно к его абсолютной величине коэффициент корреляции, не обладающий статистической значимостью, бессмыслен. Статистическая значимость проверяется с помощью нулевой гипотезы, которая констатирует, что для совокупности коэффициент корреляции равен нулю. Если нулевая гипотеза отвергается, это означает, что коэф­фициент корреляции для выборки является значимым и его значение для совокупности не будет равно нулю. Существуют таблицы, с помощью которых, для выборки определенного объема, можно определить наи­меньшую величину значимости для коэффициента корреляции.


Таблица 4.17

Сила связи в зависимости от величины коэффициента корреляции

Рассмотрим пример. Исследуется возможная взаимосвязь между суммарными продажами компании на отдельных двадцати территориях и числом сбытовиков, осуществляющих эти продажи. Были рассчитаны средние величины продаж и средние квадратические отклонения. Сред­няя величина продаж составила 200 миллионов долларов, а среднее квадратическое отклонение - 50 миллионов долларов. Среднее число сбыто­виков равнялось 12 при среднем квадратическом отклонении, равном 4. Для стандартизации полученных чисел в целях проведения унифици­рованных сравнений объемы продаж в каждом регионе переводятся в величины средних квадратических отклонений от средней величины для всех регионов (путем вычитания объема продаж для каждого региона из среднего для регионов объема продаж и деления полученных величин на среднее квадратическое отклонение). Такие же расчеты проводятся и для сбытовиков, обслуживающих разные регионы (рис. 4.7). Из рис. 4.7 вид­но, что две линии изменяются подобным образом. Это говорит о поло­жительной, очень тесной связи двух исследуемых переменных.

Рис. 4.7. Корреляция между числом сбытовиков и объемами продаж

Исходные данные в рассматриваемом примере также возможно представить по-другому (рис. 4.8). Из рис. 4.8 вытекают относительно слабый разброс точек (если бы все они легли на одну линию, коэффици­ент корреляции был бы равен +1) и достаточно большой угол наклона воображаемой кривой, проведенной через эти точки, что говорит о силь­ном влиянии численности сбытовиков на объем продаж.

1. Значение изучения темы (актуальность изучаемой проблемы). Знание методов оценки взаимосвязи между отдельными признаками

дает возможность решать одну из кардинальных задач любого нау чного исследования: возможность предвидеть, прогнозировать развитие ситуации при изменении тех или иных известных характеристик объекта исследования.

2. Цели обучения: Знать:

- понятия корреляционной и функциональной зависимостей;

- понятия прямой и обратной корреляционной связи;

- понятие коэффициента корреляции;

- методики расчета коэффициентов корреляции Пирсона и Спир-

- использование коэффициентов корреляции в медицине и здраво-

охранении.

- отобразить численные данные на корреляционном поле;

- оценить силу и направление связи по величине коэффициента

корреляции;

- правильно выбрать метод корреляционного или регрессионного анализа для оценки имеющихся данных.

- методиками расчета коэффициентов корреляции Пирсона и

Спирмэна;

- навыками представления численных данных на корреляционном

3. Основные понятия и положения темы

Одной из задач большинства медико-биологических исследований, является выявление взаимной связи одного или нескольких явлений.

Свет в окне может означать (с той или иной вероятностью), что хозяева находятся дома, кашель с мокротой может означать заболевание хроническим бронхитом. Если в серии повторяющихся наблюдений один из признаков (или его часть) появляется одновременно с другим чаще, чем можно объяснить случайным стечением обстоятельств, то это служит основанием говорить о взаимосвязи, сопряженности появления этих признаков.

Постановка задачи в такого рода исследованиях обычно выглядит следующим образом: определить наличие и силу статистической связи какоголибо признака от одного или нескольких других признаков. Знание взаимосвязи отдельных признаков дает возможность решать одну из основных задач любого научного исследования : возможность предвидеть, прогнозировать раз-

витие ситуации при изменении тех или иных известных характеристик объекта исследования.

Термин зависимость при статистической обработке медикобиологических исследований должен использоваться весьма осторожно. С помощью статистических методов можно дать только формальную оценку взаимосвязи. Попытки механически перенести данные статистических расчетов в объективную реальность могут привести к ошибочным выводам.

Например, утверждение: «Чем громче утром кричат воробьи, тем выше встает солнце», несмотря на явную несуразность, с точки зрения формальной статистики, вполне правомерно. Таким образом, термин «зависимость» в статистическом анализе подразумевает только статистическую оценку взаимосвязи.

Любые явления в окружающем нас мире могут быть связаны прямой или обратной связью. Эта характеристика называется направленностью связи.

По направленности связь может быть прямой или обратной.

Прямая (или положительная) связь характеризует зависимость, при которой увеличение или уменьшение значения одного признака ведет, соответственно, к увеличению или уменьшению – второго. Например, при увеличение температуры возрастает давление газа (при сохранении неизменным его объема). При уменьшении температуры – снижается и давление.

Обратная (или отрицательная) связь характеризуется такой зависи-

мостью, когда при увеличении одного признака второй уменьшается или, наоборот, при уменьшении одного, второй – увеличивается. Обратная зависимость или обратная связь является основой нормального регулирования почти всех процессов жизнедеятельности любого организма.

По характеру связь может быть функциональной или корреляционной (статистической).

Функциональная зависимость – такой вид зависимости, когда каждому значению одного признака соответствует точное значение другого (зависимость может быть задана функцией). Например: взаимосвязь радиуса и длины окружности. Такую зависимость можно считать полной (исчерпывающей). Она полностью объясняет изменение одного признака изменением другого. Этот вид связи характерен для объектов, являющихся точкой приложения точных наук. В медико-биологических исследованиях сталкиваться с функциональной связью приходится крайне редко, поскольку объекты исследований имеют большую индивидуальную изменчивость. С другой стороны, характеристики биологических объектов зависят, как правило, от комплекса большого числа сложных взаимосвязей и не могут быть сведены к отношению двух или трех факторов.

Корреляционная зависимость – существует в том случае, когда при изменении величины одного признака наблюдается тенденция соответствующего изменения значений другого признака.

Например, при изменении роста человека меняется и масса тела. Однако, эта зависимость не является полной, т.е. функциональной. У людей с оди-

наковым ростом может быть разная масса тела, поскольку на нее влияют и многие другие факторы (питание, здоровье и т.п.). При оценке статистических связей можно говорить только о тенденции, когда возрастание одного признака вызывает тенденцию возрастания или уменьшения другого признака.

Корреляционная связь описывается с помощью различных статистических характеристик. Выбор характеристики для определения взаимосвязи обусловлен видом исследуемых признаков, способами их группировки и предполагаемым характером связи. Подчас, для выявления реально существующих взаимосвязей достаточно правильно составить статистическую таблицу распределения или построить наглядный график этого распределения.

Корреляционный анализ занимается измерением степени связи между двумя переменными (х и у). Вначале предполагаем, что как х, так и у - количественные величины, например, рост и вес.

Предположим, что есть пара величин (х, у), измеренных у каждого из пациентов в выборке. Мы можем отметить точку, соответствующую паре ве-

личин каждого пациента, на двухмерном графике рассеяния точек (рис

1,2,3). Обычно переменную х располагают на горизонтальной оси, а у - на вертикальной в той же диаграмме. Размещая точки для всех пациентов, получаем график рассеяния точек (корреляционное поле ), который говорит о взаимосвязи между этими двумя переменными.

В результате могут возникнуть следующие ситуации:

Рисунок 1. Положительная (прямая) корреляционная связь

Рисунок 2. Отрицательная (обратная) корреляционная связь

Рисунок 3. Корреляционная связь отсутствует

Если на графике рассеяния точек построить прямую линию, наилучшим образом описывающую изображенные данные (расстояния от точек до прямой минимальны), то полученная прямая является линией регрессии . Расчет коэффициентов корреляции дает численную характеристику того, насколько близко находятся наблюдения к линии регрессии. Основными коэффициентами корреляции являются коэффициент корреляции Пирсона и коэффициент корреляции Спирмэна .

Свойства коэффициентов корреляции:

Значения коэффициента корреляции изменяются в пределах от -1

до +1 .

Знак коэффициента корреляции показывает направление связи, увеличивается (положительный r , прямая связь) или уменьшается (отрицательный r , обратная связь) одна переменная, по мере того как увеличивается другая.

Величина коэффициента корреляции указывает, как близко расположены точки к прямой линии. В частности, если r = +1 или r = -1 , то имеется абсолютная (функциональная) корреляция по всем точкам, лежащим на линии (рис 1, рис. 2); если r = 0 , то линейной корреляции нет (рис. 3). Чем ближе r к крайним точкам (±1), тем больше степень линейной связи.

Коэффициент корреляции безразмерен, т.е. не имеет единиц из-

Величина коэффициента корреляции действительна только в диапазоне значений х и у в выборке. Невозможно заключить, что коэффициент будет иметь ту же величину при рассмотрении значений х или у, значительно больших, чем в выборке.

Неважно, какой из признаков обозначить за х , а какой за у; х и у могут заменять друг друга, не влияя на величину r (rху ~rух ).

Корреляция между х и у необязательно означает соотношение «причины и следствия».

Следует отметить, что в случае биологических факторов тот или иной характер связи сохраняется, как правило, только в определенном интервале изменений признаков. За пределами этого интервала связь может ослабнуть, стать прямо противоположной по направлению либо совсем исчезнуть.

Например, при увеличении возраста ребенка сила скелетной мускулатуры увеличивается. В зрелом возрасте такой связи уже нет. А в старших возрастных группах тенденция становится обратной.

Сила корреляционной связи между признаками оценивается по величине коэффициента корреляции согласно Таблице 1 :

Таблица 1

Распределение значений коэффициента линейной корреляции

Характеристики связи

Обратная

Связи нет

от 0 до -0,3

от 0,3 до 0,7

от - 0,3 до -0,7

от - 0,7 до - 1

Полная (функциональная)

Случаи, в которых не следует рассчитывать коэффициент линейной корреляции:

получено нелинейное соотношение между признаками, например, квадратичное соотношение (рис. 4,а);

данные включают более одного наблюдения по каждому пациенту;

присутствуют аномальные значения (рис. 4,б);

данные содержат подгруппы пациентов, для которых средние уровни наблюдений, по крайней мере, по одной из переменных, отличаются (рис. 4,в).

Рисунок 4. Диаграммы, показывающие, когда не следует рассчитывать коэффициент корреляции, (а) - соотношение нелинейно, (б) - при наличии выброса (выбросов), (в) - данные состоят из подгрупп.

Коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона () определяет силу и направле-

ние связи только для количественных данных (x, y – значения исследуемых признаков, n –количество пар данных):

∑ (∑)(∑)

Условия для расчета коэффициента корреляции Пирсона:

исследуемые признаки являются количественными;

выборка состоит из независимых пар величин х и у; по крайней мере, одна из этих двух переменных нормально распределена.

Достоверность коэффициента корреляции устанавливается по ве-

личине средней ошибки. Поскольку коэффициент корреляции в клинических исследованиях рассчитывается обычно для ограниченного числа наблюдений, нередко возникает вопрос о надежности полученного коэффициента. С этой целью определяют среднюю ошибку коэффициента корреляции. При достаточно большом числе наблюдений (больше 100) средняя ошибка коэффициента корреляции () вычисляется по формуле:

n – число наблюдений.

В том случае, если число наблюдений меньше 100 точнее определять среднюю ошибку коэффициента корреляции, по формуле:

С достаточной для медицинских исследований надежностью о наличии той или иной степени связи можно утверждать только тогда, когда величина коэффициента корреляции превышает или равняется величине трех своих ошибок (r ≥3m r ). Обычно это отношение коэффициента корреляции (r ) к его средней ошибке (m r ) обозначают буквой t r :

Если t r ≥3, то коэффициент корреляции является статистически значи-

Пример расчета коэффициента корреляции Пирсона

Необходимо определить, существует ли связь между количеством часов, посвященных студентом подготовке к тестовому экзамену по статистике и итоговым количеством правильных ответов (и соответственно итоговой оценкой). В тестирование включает в себя 100 вопросов из банка тестовых заданий. В таблице приведены данные о 6 случайно выбранных студентах.

Очевидно, что количество часов напрямую отражается на финальной оценке. Переменная «Часы подготовки» (х ) является независимой переменной, т.к. она приводит к наблюдаемой вариации переменной «Балл на экзамене» (у ). Причинная связь между зависимыми и независимыми переменными существует только в одном направлении: Независимая переменная (х)→ Зависимая переменная (у). В обратном направлении эта связь не работает.

Коэффициент корреляции Пирсона (r) вычисляется при помощи следующего уравнения

∑ (∑)(∑)

Таблица, приведенная ниже, поможет разбить это уравнение на несколько несложных вычислений.

Часы изучения

Балл на экза-

∑ =79

Используя эти значения и n=6 (общее количество студентов), получаем:

∑ (∑)(∑)

Теперь рассчитаем среднюю ошибку коэффициента корреляции

√ √

Установим, надежной, ли является установленная нами связь

Т.к. t r ≥3 , то коэффициент корреляции является статистически значи-

Таким образом, между числом часов, посвященных изучению предмета, и экзаменационной оценкой существует статистически значимая сильная положительная (прямая) корреляция. Отсюда следует, что экзаменационные результаты можно предугадать на основе определенного количества часов, посвященных изучению предмета.

Коэффициент корреляции Спирмэна

Ранговый коэффициент корреляции Спирмэна (rs ) – непараметриче-

ский аналог корреляционного коэффициента Пирсона.

Применение этого коэффициента корреляции может быть рекомендовано в случаях:

когда необходимо быстро ориентировочно определить связь между какими-то признаками;

если необходимо оценить связь между качественными (ранго-

выми) и количественными признаками или только между качественными признаками;

когда распределение значений учетных признаков (в том числе и количественных) не соответствует нормальному распределению или рас-

пределение неизвестно.

Вычисление:

1. Располагают величины х в возрастающем порядке, начиная с наименьшей величины, и придают им последовательные ранги (номера 1, 2, 3, .., n). Равные варианты получают среднее значение из суммы их порядковых номеров.

2. Подобным образом ранжируют у .

3. Рассчитывается r s - коэффициент корреляции между рангами х и у по формуле:

где (

) – разности между рангами соответствующих пар y и x;

n – число сопоставляемых пар.

Пример расчета коэффициента корреляции Спирмэна.

Необходимо определить по Таблице 2 , существует ли связь между количеством часов, посвященных студентом подготовке к тестовому экзамену по статистике, и итоговым количеством правильных ответов (и, соответственно, итоговой оценкой). Тестирование включает в себя 100 вопросов из банка тестовых заданий.

Составляем вариационный ряд x и ранжируем:

Составляем вариационный ряд y и ранжируем:

Для удобства расчета заполняем следующую таблицу:

Ry - Rx

(Ry - Rx ) 2

Таким образом, получено, что исследуемая корреляционная связь является прямой и сильной.

В ходе корреляционного анализа или анализа корреляционной связи решается целая группа взаимосвязанных задач:

1) Установление направления (прямая или обратная) и формы (линейная или нелинейная) корреляционной связи.

2) Оценка тесноты (силы, плотности) корреляционной связи.

3) Оценка репрезентативности статистических оценок взаимосвязей, полученных по выборочным данным (величина ошибки, доверительный интервал, уровень значимости).

4) Установление величины детерминации (доли взаимовлияния) коррелируемых факторов.

Таким образом, статистические методы изучения связи между переменными зависят от:

характера переменных (качественные, количественные)

характера распределения количественных переменных (нормальное,

ненормальное, неизвестное)

числа наблюдений (большое, малое)

взаимоотношения между наблюдениями (зависимые, независимые). Статистические методы изучения связи между переменными могут

однофакторными, т.е. принимающими во внимание только взаимоотношения между двумя анализируемыми переменными

многофакторными, т.е. учитывающими влияние на изучаемую связь между двумя переменными со стороны некоторых других переменных.

Понятие о регрессионном анализе

Регрессия определяет математическую зависимость между зависи-

мой переменной (отклик) и одной или более независимыми переменными (предикторами).

Регрессионный анализ с помощью коэффициента регрессии позволяет количественно прогнозировать изменения одной переменной при изменении другой.

Для описания связи могут использоваться различные математические функции, основными из которых являются:

■ линейная

экспоненциальная

■ логистическая

Простая линейная регрессия или множественная регрессия могут применяться для непрерывных признаков, например, давление, вес.

Логистическая регрессия применима в тех случаях, когда зависимые признаки являются бинарными (например, умер/жив, выздоровел/не выздоровел).

Линейная регрессия

Математическое уравнение, которое оценивает линию простой линейной регрессии:

х – называется предиктором – независимой или объясняющей переменной. Для данной величины х, Y - значение переменной у (называемой зави-

симой, выходной переменной, или переменной отклика), которое расположено на линии оценки. Это есть значение, которое мы ожидаем для у (в среднем), если мы знаем величину х, и называется она «предсказанное значение у» (рис. 5).

а – свободный член (пересечение) линии оценки; это значение Y, когда

b – угловой коэффициент или градиент оценённой линии; он представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем х на одну единицу (рис. 5). Коэффициент b называют коэффициентом регрессии.

Например : при увеличении температуры тела человека на 1о С, частота пульса увеличивается в среднем на 10 ударов в минуту.

Рисунок 5. Линия линейной регрессии, показывающая коэффициент а и угловой коэффициент b (величину возрастания Y при увеличении х на одну единицу)

Математически решение уравнения линейной регрессии сводится к вычислению параметров а и b таким образом, чтобы точки исходных данных корреляционного поля как можно ближе лежали к прямой регрессии .

Статистическое использование слова «регрессия» исходит из явления, известного как регрессия к среднему, приписываемого Френсису Гальтону (1889). Он показал, что, хотя высокие отцы имеют тенденцию иметь высоких сыновей, средний рост сыновей меньше, чем у их высоких отцов. Средний рост сыновей «регрессировал» или «двигался вспять» к среднему росту всех

отцов в популяции. Таким образом, в среднем высокие отцы имеют более низких (но всё-таки высоких) сыновей, а низкие отцы имеют сыновей более высоких (но всё-таки довольно низких).

Мы наблюдаем регрессию к среднему при скрининге и клинических исследованиях, когда подгруппа пациентов может быть выбрана для лечения потому, что их уровни определённой переменной, скажем, холестерина, крайне высоки (или низки). Если это измерение через некоторое время повторяется, средняя величина второго считывания для подгруппы обычно меньше, чем при первом считывании, имея тенденцию (т.е. регрессируя) к среднему, подобранному по возрасту и полу в популяции, независимо от лечения, которое они могут получить. Пациенты, набранные в клиническое исследование на основе высокого уровня холестерина при их первом осмотре, таким образом, вероятно, покажут в среднем падение уровня холестерина при втором осмотре, даже если в этот период они не лечились.

Часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.

Насколько хорошо линия регрессии согласуется с данными, можно судить, рассчитав коэффициент R (обычно выраженный в процентах и называемый коэффициентом детерминации), который равняется квадрату коэффициента корреляции (r2 ). Он представляет собой долю или процент дисперсии у, который можно объяснить связью с х, т.е. долю вариации признакарезультата, сложившуюся под влиянием независимого признака. Может принимать значения в диапазоне от 0 до 1, или соответственно от 0 до 100%. Разность (100% - R) представляет собой процент дисперсии у, который нельзя объяснить этим взаимодействием.

Соотношение между ростом (измеренным в см) и систолическим артериальным давлением (САД, измеренным в мм рт. ст.) у детей. Мы провели анализ парной линейной регрессии зависимости САД от роста (рис. 6). Имеется существенное линейное соотношение между ростом и САД.

Рисунок 6. Двумерный график, показывающий соотношение между систолическим артериальным давлением и ростом. Изображена оценённая линия регрессии, систолическое артериальное давление.

Уравнение линии оценённой регрессии имеет следующий вид: САД = 46,28 + 0,48 х рост.

В этом примере свободный член не представляет интереса (рост, равный нулю, явно вне диапазона величин, наблюдаемых в исследовании). Однако мы можем интерпретировать угловой коэффициент; предсказано, что у этих детей САД увеличивается в среднем на 0,48 мм рт.ст. при увеличении роста на один сантиметр

Мы можем применить уравнение регрессии для предсказания САД, которое мы ожидаем у ребёнка при данном росте. Например, ребёнок ростом 115 см имеет предсказанное САД, равное 46,28 + (0,48 х 115)=101,48 мм рт. ст., ребёнок ростом 130 имеет предсказанное САД, 46,28 + (0,48 х 130) =

108,68 мм рт. ст.

При расчете коэффициента корреляции, установлено, что он равен 0,55, что указывает на прямую корреляционную связь средней силы. В этом случае коэффициент детерминации r 2 = 0,55 2 = 0,3 . Таким образом, можно сказать, что доля влияния роста на уровень артериального давления у детей не превышает 30%, соответственно на долю других факторов приходится 70% влияния.

Линейная (простая) регрессия ограничивается рассмотрением связи между зависимой переменной и только одной независимой переменной. Если в связи присутствует более одной независимой переменной, тогда нам необходимо обратиться к множественной регрессии. Уравнение для такой регрессии выглядит так:

y = a + bx1 +b2 x2 +.... + bn хn

Можно интересоваться результатом влияния нескольких независимых переменных х1 , х 2 , .., х n на переменную отклика у. Если мы полагаем, что эти х могут быть взаимозависимы, то не должны смотреть по отдельности на эффект изменения значения одного х на у, но должны одновременно принимать во внимание величины всех других х.

Пример Поскольку между ростом и массой тела ребёнка существует сильная

зависимость, можно поинтересоваться, изменяется ли также соотношение между ростом и систолическим артериальным давлением, если принять во внимание также и массу тела ребёнка и его пол. Множественная линейная регрессия позволяет изучить совместный эффект этих нескольких независимых переменных на у.

Уравнение множественной регрессии в этом случае может иметь такой вид:

САД=79,44 –(0,03 х рост)+ (1,18 х вес) + (4,23 х пол)*

* - (для признака пол используют значения 0 – мальчик, 1 - девочка) Согласно этому уравнению, девочка, рост которой 115 см и масса те-

ла 37 кг, будет иметь прогнозируемое САД:

САД = 79,44 – (0,03 х 115) + (1,18 х 37) + (4,23 х 1) = 123,88 мм.рт.ст.

Логистическая регрессия очень похожа на линейную; её применяют, когда есть интересующий нас бинарный исход (т.е. наличие/отсутствие симптома или субъекта, который имеет/не имеет заболевания) и ряд предикторов. Из уравнения логистической регрессии можно определить, какие предикторы влияют на исход, и, используя значения предикторов пациента, оценить вероятность того, что он/она будет иметь определённый исход. Например: возникнут или нет осложнения, будет лечение эффективным или не будет.

Начинают создания бинарной переменной, чтобы представить эти два исхода (например, «имеет болезнь»=1, «не имеет болезни»=0). Однако мы не можем применить эти два значения как зависимую переменную в анализе линейной регрессии, поскольку предположение нормальности нарушено, и мы не можем интерпретировать предсказанные величины, которые не равны нулю или единице. Фактически, вместо этого мы берём вероятность того, что субъект классифицируется в ближайшую категорию (т.е. «имеет болезнь») зависимой переменной, и чтобы преодолеть математические трудности, применяют логистическое, преобразование, в уравнении регрессии - натуральный логарифм отношения вероятности «болезни» (p) к вероятности «нет болезни» (1-p).

Интегративный процесс, называемый методом максимального правдоподобия, а не обычная регрессия (так как мы не можем применить процедуру линейной регрессии) создаёт из данных выборки оценку уравнения логистической регрессии

logit (p) = a + bx1 +b2 x2 +.... + bn хn

Logit (р) - оценка значения истинной вероятности того, что пациент с индивидуальным набором значений для х 1 ... х n имеет заболевание;

а - оценка константы (свободный член, пересечение);

b 1 , b 2 , ... ,b n - оценки коэффициентов логистической регрессии.

4. Вопросы по теме занятия:

1. Дайте определение функциональной и корреляционной связи.

2. Приведите примеры прямой и обратной корреляционной связи.

3. Укажите размеры коэффициентов корреляции при слабой, средней и сильной связи между признаками.

4. В каких случаях применяется ранговый метод вычисления коэффициента корреляции?

5. В каких случаях применяется расчет коэффициента корреляции Пирсо-

6. Каковы основные этапы вычисления коэффициента корреляции ранговым методом?

7. Дайте определение «регрессии». В чем сущность метода регрессии?

8. Охарактеризуйте формулу уравнения простой линейной регрессии.

9. Дайте определение коэффициента регрессии.

10. Какой можно сделать вывод, если коэффициент регрессии веса по росту равен 0,26кг/см?

11. Для чего используется формула уравнения регрессии?

12. Что такое коэффициент детерминации?

13. В каких случаях используется уравнение множественной регрессии.

14. Для чего применяется метод логистической регрессии?

5. Тестовые задания:

1. ТЕРМИН «КОРРЕЛЯЦИЯ» В СТАТИСТИКЕ ПОНИМАЮТ КАК

1) связь, зависимость

2) отношение, соотношение

3) функцию, уравнение

4) коэффициент

2. СВЯЗЬ МЕЖДУ ПРИЗНАКАМИ МОЖНО СЧИТАТЬ СРЕДНЕЙ ПРИ ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

1) r = 0,13

2) r = 0,45

3) r = 0,71

4) r = 1,0

3. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ R = - 0,82 ГОВОРИТ О ТОМ, ЧТО КОРРЕЛЯЦИОННАЯ СВЯЗЬ

1) прямая, средней силы

2) обратная, слабая

4) обратная, сильная

4. ПРИ ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ В ДИАПАЗОНЕ ОТ 0 ДО 0,3 СИЛА СВЯЗИ ОЦЕНИВАЕТСЯ КАК

1) слабая

2) средняя

3) сильная

4) полная

5. СВЯЗЬ МЕЖДУ ПРИЗНАКАМИ МОЖНО СЧИТАТЬ СИЛЬНОЙ ПРИ ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

1) r = - 0,25

2) r = 0,62

3) r = - 0,95

4) r = 0,55

6. ЗАВИСИМОСТЬ, ПРИ КОТОРОЙ УВЕЛИЧЕНИЕ ИЛИ УМЕНЬШЕНИЕ ЗНАЧЕНИЯ ОДНОГО ПРИЗНАКА ВЕДЕТ К УВЕЛИЧЕНИЮ ИЛИ УМЕНЬШЕНИЮ – ВТОРОГО, ХАРАКТЕРИЗУЕТ СЛЕДУЮЩИЙ ВИД СВЯЗИ

2) обратная

3) полная

4) неполная

7. ЗАВИСИМОСТЬ, ПРИ КОТОРОЙ УВЕЛИЧЕНИЕ ОДНОГО ПРИЗНАКА ДАЕТ УМЕНЬШЕНИЕ ВТОРОГО, ХАРАКТЕРИЗУЕТ СЛЕДУЮЩИЙ ВИД КОРРЕЛЯЦИОННОЙ СВЯЗИ

2) обратная

3) полная

4) неполная

8. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА ОПРЕДЕЛЯЕТ

1) статистическую значимость различий между переменными

2) степень разнообразия признака в совокупности

3) силу и направление связи между зависимой и независимой переменными

4) долю дисперсии результативного признака объясняемую влиянием независимых переменных

9. УСЛОВИЕМ ДЛЯ РАСЧЕТА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ ПИРСОНА ЯВЛЯЕТСЯ

1) распределение переменных неизвестно

2) нормальное распределение по крайней мере, одной из двух переменных

3) по крайней мере, одна из двух переменных измеряется в ранговой шкале

4) отсутствует нормальное распределение переменных

10. РАНГОВЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ СПИРМЭНА РАССЧИТЫВАЕТСЯ, КОГДА

1) присутствует нормальное распределение переменных

2) необходимо оценить связь между качественными и количественными признаками

3) необходимо определить статистическую значимость различий между переменными

4) необходимо оценить степень разнообразия признака в совокупности

11. ЗАВИСИМОСТЬ, КОГДА КАЖДОМУ ЗНАЧЕНИЮ ОДНОГО ПРИЗНАКА СООТВЕТСТВУЕТ ТОЧНОЕ ЗНАЧЕНИЕ ДРУГОГО, НАЗЫВАЕТСЯ

1) прямой

2) обратной

3) корреляционной

4) функциональной

12. ЗАВИСИМОСТЬ, КОГДА ПРИ ИЗМЕНЕНИИ ВЕЛИЧИНЫ ОДНОГО ПРИЗНАКА ИЗМЕНЯЕТСЯ ТЕНДЕНЦИЯ (ХАРАКТЕР) РАСПРЕДЕЛЕНИЯ ЗНАЧЕНИЙ ДРУГОГО ПРИЗНАКА, НАЗЫВАЕТСЯ

1) прямой

2) обратной

3) корреляционной

4) функциональной

13. ДЛЯ ИЗОБРАЖЕНИЯ КОРРЕЛЯЦИОННОЙ ЗАВИСИМОСТИ ИСПОЛЬЗУЕТСЯ ГРАФИК

1) линейный

2) график рассеяния точек

3) радиальный

4) динамический

14. ЕСЛИ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ РАВЕН ЕДИНИЦЕ, ТО СВЯЗЬ ЯВЛЯЕТСЯ

1) сильной, прямой

2) сильной обратной

3) средней, прямой

4) полной (функциональной), прямой

15. СВЯЗЬ МЕЖДУ Y И X МОЖНО ПРИЗНАТЬ БОЛЕЕ СУЩЕСТВЕННОЙ ПРИ СЛЕДУЮЩЕМ ЗНАЧЕНИИ ЛИНЕЙНОГО КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

1) r = 0,35

2) r = 0,15

3) r = - 0,57

4) r = 0,46

16. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ИСПОЛЬЗУЕТСЯ ДЛЯ ИЗУЧЕНИЯ

1) взаимосвязи явлений

2) развития явления во времени

3) структуры явлений

4) статистической значимости различий между явлениями

17. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ МОЖЕТ ПРИНИМАТЬ ЗНАЧЕНИЯ

1) от 0 до 1

2) от -1 до 0

3) от -1 до 1

ПОКАЗЫВАЕТ, ЧТО

1) с увеличением признака х на 1 признак у увеличивается на 0,678

2) с увеличением признака х на 1 признак у увеличивается на 0,016

3) с увеличением признака х на 1 признак у уменьшается на 0,678

4) с увеличением признака х на 1 признак у уменьшается на 0,016

22. НЕЗАВИСИМАЯ ПЕРЕМЕННАЯ В УРАВНЕНИИ РЕГРЕССИИ НАЗЫВАЕТСЯ

1) вариантой

2) уровнем

3) предиктором

4) переменной отклика Кендела

4) Чупрова

26. ДОЛЮ ВАРИАЦИИ ПРИЗНАКА-РЕЗУЛЬТАТА, СЛОЖИВШУЮСЯ ПОД ВЛИЯНИЕМ НЕЗАВИСИМОГО ПРИЗНАКА ОБЪЯСНЯЕТ КОЭФФИЦИЕНТ

1) корреляции Пирсона

2) корреляции Спирмэна

3) детерминации

4) вариации

27. ДЛЯ ИЗУЧЕНИЯ СВЯЗИ, В КОТОРОЙ ПРИСУТСТВУЕТ БОЛЕЕ ОДНОЙ НЕЗАВИСИМОЙ ПЕРЕМЕННОЙ ИСПОЛЬЗУЕТСЯ

1) линейная регрессия

2) множественная регрессия

3) ранговая корреляция Спирмэна

4) расчет темпа прироста

28. ДЛЯ РАСЧЕТА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ СПИРМЭНА НЕОБХОДИМО

1) расположить переменные в порядке возрастания

2) расположить переменные в порядке убывания

3) возвести переменные в квадрат

4) присвоить переменным в порядке возрастания последовательные ранги (номера 1, 2, 3, .., n )

29. ЗАВИСИМОСТЬ ВЕСА ОТ РОСТА ЧЕЛОВЕКА (РОСТО-ВЕСОВОЙ ИНДЕКС) ОПИСЫВАЕТСЯ ПРИ ПОМОЩИ

1) логистической регрессии

2) множественной регрессии

3) экспоненциальной регрессии

4) линейной регрессии

30. ЗАВИСИМОСТЬ ПОЛОЖИТЕЛЬНОГО ИЛИ ОТРИЦАТЕЛЬНОГО РЕЗУЛЬТАТА ЛЕЧЕНИЯ ОТ РЯДА ФАКТОРОВ ОПИСЫВАЕТСЯ ПРИ ПОМОЩИ

1) логистической регрессии

2) множественной регрессии

3) экспоненциальной регрессии

4) линейной регрессии

31. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ИЗМЕРЯЕТСЯ В

1) процентах

2) тех же единицах, что и изучаемый признак

3) промилле

4) не имеет единиц измерения

32. ИЗ НИЖЕПЕРЕЧИСЛЕННЫХ ВЕЛИЧИН ДЛЯ ОПРЕДЕЛЕНИЯ РАЗМЕРА ОДНОГО ПРИЗНАКА ПРИ ИЗМЕНЕНИИ ДРУГОГО НА ЕДИНИЦУ ИЗМЕРЕНИЯ ПРИМЕНЯЕТСЯ

1) среднеквадратическое отклонение

2) коэффициент корреляции

3) коэффициент регрессии

4) коэффициент вариации

6. Ситуационные задачи по теме

Задача №1

Уравнение регрессии описывает зависимость систолического давления от роста, веса и пола:

y = 79,44 – 0,03х1 + 1,18х2 + 4,23х3

где х 1 – рост; х 2 – вес; х 3 – пол.

1. Рассчитайте ожидаемое систолическое давление у мальчика ростом 130см и весом 30кг. Как называется данный вид уравнения регрессии?

2. Рассчитайте ожидаемое систолическое давление у девочки ростом 111 см и весом 17кг. Как называется данный вид уравнения регрессии?

Задача №2

В таблице ниже представлен фонд заработной платы оплата 10 команд Высшей хоккейной лиги (в миллионах) за 2 года с указанием числа побед за этот период.

1. Вычислите коэффициент корреляции Пирсона, охарактеризуйте силу и направление корреляционной связи.

2. Вычислите коэффициент корреляции Спирмэна, охарактеризуйте силу и направление корреляционной связи.

Задача №3

В таблице приведены данные роста и веса студентов 117 группы КрасГМУ. Рассчитать коэффициент корреляции Спирмэна и выяснить, существует ли корреляционная зависимость между этими данными, ее силу и направление.

Задача №4

В таблице приведены данные роста и веса студентов 118 группы КрасГМУ. Рассчитать коэффициент корреляции Спирмэна и выяснить, существует ли корреляционная зависимость между этими данными, ее силу и направление.

7. Перечень практических умений:

1. Правильно выбрать метод корреляционного анализа, исходя из характера имеющихся данных.

3. Оценить силу корреляционной связи.

5. Правильно выбрать метод регрессионного анализа, исходя из характера имеющихся данных.

6. Использовать уравнения регрессии для прогнозирования результатов исследования.

8. Примерная тематика НИРС