Поиск

Полнотекстовый поиск:
Где искать:
везде
только в названии
только в тексте
Выводить:
описание
слова в тексте
только заголовок

Рекомендуем ознакомиться

'Пояснительная записка'
Рабочая программа составлена с учетом примерной программы основного общего образования по математике и скорректирована на её основе программа: «Матема...полностью>>
'Документ'
Сегодня при проектировании храмов остро стоит вопрос проектирования акустики. Проблема состоит в невозможности применения отделочных акустических мате...полностью>>
'Урок'
00 – 8.45 Математика 1 Математика Технология Английский язык 1/ 8.55 – 9.40 Английский язык Русский язык 9 Технология (практикум – сервировка страна)...полностью>>
'Учебно-методическое пособие'
Печатается по решению кафедры теории и технологий гуманитарно-художественного образования Института филологии и искусств Казанского (Приволжского) фед...полностью>>

Главная > Документ

Сохрани ссылку в одной из сетей:
Информация о документе
Дата добавления:
Размер:
Доступные форматы для скачивания:

Корреляционный анализ

До сих пор речь шла главным образом о таких статистических характеристиках, как среднее значение и отклонение, которых обычно достаточно при работе с одномерными данными (например, только с заработной платой служащих). Однако на практике существует достаточно большое количество явных и неявных взаимосвязей, например, между той же заработной платой служащего и его образованием, объемом выпускаемой предприятием продукции и затратами на производство, между объемом сбыта и уровнем дохода, между производительностью работников и их отношением к труду и т.д. Иначе говоря, на практике речь часто может идти о двухмерных данных и зависимостях между ними.

Существует два базовых инструмента, с помощью которых анализируются двухмерные данные (например, зарплата и образование): корреляционный анализ, позволяющий оценить степень взаимосвязи между двумя факторами (если такая взаимосвязь вообще существует), и регрессионный анализ, который показывает, как можно предсказать поведение одной из двух переменных или управлять ею с помощью другой. В этой главе речь пойдет о корреляционном анализе и исследовании взаимосвязей с помощью диаграмм рассеяния и корреляции.

Коэффициент корреляции Пирсона

Измерение, насколько тесная связь существует между двумя переменными, позволяет, прежде всего, убедиться в ее реальном наличии. Наиболее важным для практического использования является случай, когда связь между признаками X и Y. линейная: у(х) = Ь0 + Ь1х, где Ь0 и bl — коэффициенты уравнения регрессии. Мера силы линейной связи признаков X и Y называется коэффициентом корреляции (коэффициент линейной корреляции Пирсона) и определяется по следующей формуле:

(1)

Величина называется ковариацией случайных величин X и Y или корреляционным моментом. Для независимых случайных величин ковариация будет равна нулю. Однако равенство cov(X, Y) = 0 не означает в общем случае полной независимости величин X и Y, т.е. оно является необходимым, но не достаточным условием для независимости признаков.

Величина ковариации зависит от единиц измерения (изменяется, например, при переходе от метров к сантиметрам). Поэтому на практике чаще используют другой показатель — коэффициент корреляции, который является величиной безразмерной.

При вычислении выборочного (эмпирического) коэффициента корреляции теоретические величины заменяются их оценками.

(9.2)

При вычислении вручную пользуются модифицированной формулой.

(9.3)

Приведенные формулы в определенных случаях имеют некоторые преимущества друг перед другом. Например, при небольших значениях n (n <30) обычно используется формула (9.3).

Необходимо уточнить, что формулы (9.1)-(9.3) справедливы для генерального коэффициента корреляции (т.е. для коэффициента корреляции генеральной совокупности данных). Чтобы рассчитать выборочный коэффициент корреляции, необходимо в этих формулах среднее значение по генеральной совокупности заменить на среднее по выборке, а стандартное отклонение по генеральной совокупности — на стандартное отклонение по выборке, в соответствии с таблицей 1

Таблица 1

Наименование

характеристик

Генеральная

совокупность

Генеральная

Выборка

Средняя

( 1)

( 2)

Дисперсия

(3)

(4)

Доля

(5)

(6)

Свойства коэффициента корреляции.

1. Модуль |г| не меняется от прибавления к X и Y постоянных слагаемых и от умножения X и Y на положительные числа, т.е. при линейных преобразованиях случайных величин:.Таким образом, коэффициент корреляции не зависит от выбора начала отсчета и единиц измерения.

2. Если одну из величин умножить на -1, то коэффициент корреляции поменяет знак.

3. Коэффициент корреляции принимает значения в интервале

Коэффициент корреляции может быть равен -1 или 1, только если X и Y линейно зависят друг от друга, т.е. если существует функциональная связь у(х) = Ь0 + Ь1х. Величина |г|, близкая к 1, указывает, что зависимость между данными случайными величинами почти линейная. Значения |г|, близкие к нулю, означают, что связь между случайными величинами либо слабая, либо не носит линейного характера. Таким образом, можно сделать вывод, что коэффициент корреляции характеризует степень приближения зависимости между случайными величинами к линейной функциональной зависимости.

Если распределение величин X и Y близко к нормальному, то корреляция между ними линейная и выборочный коэффициент корреляции r является надежной оценкой генерального (теоретического) коэффициента ρ.

Если r > 0, то связь между переменными положительная (прямая). Иначе говоря, можно утверждать, что с точностью до случайных погрешностей величины X и Y одновременно возрастают или убывают. При r < 0 связь отрицательная (обратная), т.е. с возрастанием одной величины другая имеет устойчивую тенденцию к убыванию.

Коэффициент корреляции часто используют и при связях, отличающихся от линейных. Если |г| =0,8...0,9, то, независимо от реального вида связи, можно утверждать, что она достаточно тесна для того, чтобы можно было исследовать ее форму с помощью коэффициента корреляции.

Microsoft Excel располагает двумя функциями Корреляция (Correlation) и Ковариация (Covariance). Функция Ковариация используется для расчета генеральной ковариации на основе выборочных данных. Функция Корреляция предназначена для расчета генерального и выборочного коэффициентов корреляции на основе генеральных и выборочных данных соответственно.

Для вызова этих функций необходимо выбрать команду меню Сервис →Анализ данных (Tools→Data Analysis) и выбрать в раскрывшемся диалоговом окне Анализ данных (Data Analysis) значение Корреляция. В результате на экран будет выведено диалоговое окно Correlation, представленное на рис..1.

Для вызова функции Covariance в диалоговом окне Data Analysis следует выбрать значение Covariance. В результате на экране появится диалоговое окно Covariance, которое представлено на рис. 2.

Рис. 2

Рис. 1

В обоих диалоговых окнах, как Ковариация e, так и Корреляция, необходимо задать определенные параметры. Для этого выполните следующие действия:

1. В поле Входные данные (Input Range) введите диапазон ячеек, содержащих анализируемые данные.

2. Переключатель Группирование (Grouped By) установите в требуемое положение: По строкам (Rows) или По столбцам (Columns), в зависимости от расположения исходных данных во входном диапазоне.

3. Флажок опции Метки в первой строке (Labels in First Row) устанавливается в том случае, если первая строка во входном диапазоне содержит заголовок. Если такой заголовок отсутствует, сбросьте этот флажок. В этом случае для данных выходного диапазона будут автоматически созданы стандартные названия.

4. В зависимости от предполагаемого места размещения результатов расчета установите переключатель в группе Output options (Режимы вывода) в требуемое положение: Output Range (Выходной интервал), New Worksheet Ply (Новый рабочий лист) или New Workbook (Новая рабочая книга).

На рис.3 представлены исходные данные по срокам работы (в годах) и затратам на техническое обслуживание (в тысячах долларов в год) для пяти одинаковых печатных прессов. На основании этих данных вычислим корреляцию между сроком работы

Для нахождения коэффициента корреляции выведите на экран диалоговое окно Корреляция и установите в нем значения параметров так, как показано на рис..4, а затем щелкните на кнопке ОК. Результаты расчетов представлены на рис. .5.

Рис. 3

Рис. 4

К

Рис. 5

оэффициент корреляции для этих исходных данных равен 0,98. В данном случае коэффициент практически равен 1, что показывает очень сильную, практически линейную прямую зависимость между сроком работы пресса и затратами на его техническое обслуживание.

Отсюда можно сделать обоснованный вывод, что чем больше срок эксплуатации печатного пресса, тем больше приходится тратить средств на его ремонт и техническое обслуживание.

Диаграмма рассеяния

Двухмерная статистическая зависимость может быть наглядно представлена диаграммой рассеяния. Наблюдениями являются пары данных (xi, уj), образующие выборку. Множества значений xi и уj, разбиваются на интервалы группировки, границы которых определяют координатную сетку диаграммы. Каждая пара признаков (xi, уj) изображается в виде точки в соответствующей ячейке. Если в каждом интервале изменения величины X вычислить средние значения (i = 1, 2, ..., n) и соединить соответствующие точки (), где , — середины интервалов, то получается ломаная линия — эмпирическая линия регрессии, которая в первом приближении характеризует форму связи. По ней можно судить, как в среднем меняется величина у в зависимости от изменения величины х. Расположение точек относительно линии регрессии характеризует тесноту статистической связи.

Если (х) = const = a, т.е. линия регрессии является горизонтальной прямой, проходящей через центр распределения, то переменная Y не коррелирована с переменной X. Некореллированность не следует смешивать с независимостью, у функционально не зависит от х, если у = const при изменении х (всякое изменение у есть проявление зависимости от х). Случайные величины X и Y независимы, если Р(Х <х, Y<y) = P(X < x)P(Y< у).

Диаграмма рассеяния для небольшой двухмерной совокупности данных, представленной в таблице на рис. 3, показана на рис. 6.

Диаграмма строится в Microsoft Excel с помощью мастера Мастер диаграмм (Chart Wizard), который вызывается при выборе команды InsertChart. В начале работы мастера на экран выводится диалоговое окно Chart Wizard - Step 1 of 4 - Chart Type, в котором в списке Chart Type в нашем случае необходимо выбрать тип диаграммы XY (Scatter) — диаграмма рассеяния.

Далее в трех последующих диалоговых окнах (они здесь не приведены) задаются параметры, позволяющие создать диаграмму требуемого вида и формата.

На диаграмме рассеяния в наглядной форме представлена информация как о каждой отдельной переменной, так и о существующей между ними связи. Обратимся к нашему примеру. Во-первых, распределение количества переговоров для каждого работника (см. горизонтальную ось) находится приблизительно в диапазоне от 50 до 100, причем типическое значение равно приблизительно 90. Во-вторых, распределение объема продаж лежит в диапазоне от 50 000 руб. до 130 000 руб., причем типическое значение равно приблизительно 110 000 руб. Взаимосвязь между количеством переговоров с клиентами и объемом продаж оказалась положительной: точки на диаграмме выстраиваются снизу вверх при движении слева направо. Это свидетельствует о том, что сотрудники, имевшие больше контактов с клиентами, обеспечили компании большие объемы сбыта продукции. Отмеченная зависимость характерна для данных в целом, однако это справедливо не для всех имеющихся наблюдений. Это типично для статистического анализа, когда исследователя интересует тенденция', выявленные при этом закономерности могут оказаться полезны даже тогда, когда данные не соответствуют им идеально.

Коэффициент ранговой корреляции

Ранговые коэффициенты корреляции могут использоваться для измерения связи как порядковых, так и количественных признаков. При этом анализ конкретных значений признаков не проводится, используется лишь информация об их взаимной упорядоченности — по типу "больше—меньше", — которая не меняется при замене единиц измерения.

Пусть x1 , x2, ..., хn — значения признака X для исследуемого объекта, а у1; у2, ..., уn — значения признака Y для того же объекта. Каждое наблюдение над объектом характеризуется парой чисел (xi, уj), (i = 1, 2,..., n). От чисел х1 х2, ..., хn можно перейти к рангам г1, г2, ..., гn, от чисел у1; у2, ..., уn — к рангам s1, s2, ..., sn. Предположим, что среди чисел х, и у, нет повторяющихся, т.е. ранжировки для обоих признаков —без связей.

Теперь каждое наблюдение характеризуется парой натуральных чисел (гi, sj,). Если признаки X и Y взаимосвязаны, то последовательность рангов г1, г2, ..., гn в какой-то мере влияет на ранговую последовательность s1 , s2 , ..., sn. Если признаки независимы, то порядок среди гi, случаен по отношению к порядку среди sj.

Близость двух рядов г1, г2, ..., гn и s1, s2, ..., sn.характеризует коэффициент Спирмена.

Полная предсказуемость одной ранговой последовательности по другой возникает в двух случаях.

1. Когда последовательности полностью совпадают, при этом— наименьшее возможное значение.

2. Когда последовательности полностью противоположны, т.е. при гi = 1 значение sj, = n, при г, = 2 значение sj, = n - 1 и т.д. В этом случае

После нормировки можно перейти к коэффициенту корреляции рангов Спирмена:

(9-5)

который по абсолютной величине ограничен единицей: -1 ≤ ρ ≤ 1.

В качестве примера для расчета коэффициента корреляции рангов Спирмена воспользуемся данными, представленными на рис. 9.6. Вместо того чтобы напрямую рассчитать в Microsoft Excel коэффициент Спирмена по формуле 9.5, можно достичь тех же результатов иначе — проранжировать данные с помощью функции Rank, а затем найти коэффициент корреляции между двумя рядами рангов.

Функция Rank(number, ref, order) вызывается посредством выбора команды меню Insert→Function→Statistical→Rank. В результате на экране раскроется диалоговое окно Function Arguments, показанное на рис. 8.

В это диалоговое окно вводятся следующие параметры.

1. Число (Number) - - число, для которого определяется ранг.

2. Ссылка (Ref) — диапазон ячеек с массивом исходных данных (нечисловые значения в массиве игнорируются).

3. Порядок (Order) — число, определяющее способ упорядочения. Если этот аргумент равен нулю или просто опущен, то Microsoft Excel определяет ранг числа, упорядочивая исходный набор данных в порядке убывания. Если этот аргумент является любым ненулевым числом, то Microsoft Excel определяет ранг числа, упорядочивая исходный набор данных в порядке возрастания.

С помощью функций Rank и Correlation рассчитывается коэффициент ранговой корреляции Спирмена, который в данном случае равен 1, как показано на рис. 9.9.

Резюме

В данной главе были рассмотрены элементы корреляционного анализа, позволяющие сделать вывод о силе взаимосвязи между двумя переменными. Был рассмотрен такой инструмент корреляционного анализа, как диаграмма рассеяния, с помощью которой двухмерные данные можно представлять графически, а затем анализировать. Речь также шла о корреляции или коэффициенте корреляции, который характеризует силу и направление взаимосвязи. Были рассмотрены также разнообразные средства, которыми располагает Microsoft Excel для проведения корреляционного анализа: функции Correlation, Covariance, Rank и другие.

Вопросы

1. Чему равен коэффициент корреляции двух случайных величин X и Y, представленных в следующей таблице?

а)1; б) -0,36; в)-1.

2. Чему равен ранговый коэффициент корреляции Спирмена для данных из предыдущего примера?

а)0; б) -0,36; в)-1.

3. Если коэффициент корреляции — отрицательное число, то между переменными существует следующий тип связи:

а) прямая;

б) обратная.



Похожие документы:

  1. Елена Наймарк Александр Владимирович (биолог) Марков

    Документ
    ... до сих пор так и не вытеснили тех, кто размножается «обычным» образом, ... более тонкая настройка. До сих пор речь шла только о первой ... которых зависит, где, когда, при каких условиях и с какой интенсивностью будет работать близлежащий ген. Изучать такие ...
  2. Учебник для студентов высших учебных заведений

    Учебник
    ... в которое превращаются наши привычки. До сих пор речь шла о задачах, для решения которых у ... статистического аппарата обра- ботки результатов тестовых исследований (главным образом ... вас. Обычно эта эвристика работает достаточно хорошо, так как при прочих ...
  3. Т. В. Шиманская Редактор: В. Т. Рысин У67 Управление по результатам: Пер

    Документ
    ... фирм до сих пор опира­лась главным образом на то, что при продвижении ... отклонениям (management by crisis) к управлению по целям (management by objectives). Как обычно в таких ... группе должна быть такая работа, которая всем наверняка достаточно знако­ма и ...
  4. Владислав зубок неудавшаяся империя советский Союз в холодной войне от Сталина до Горбачева Москва 2011

    Документ
    ... войну «гнетущим образом, как беспрерывную бойню» (89). Образованная публика, проживавшая, главным образом, в Мо­скве ... и до сих пор не имели того действительно исторического поворота в гонке вооружений, который все-таки состоялся ...
  5. Издательство «мысль» Москва-2000

    Документ
    ... », 1922, № 14). IX До сих пор речь шла о социальной значительности имен, поскольку ... героизма, который для нее сводится главным образом к жертве, какое-то ... различных работах и генеалогических ис­следованиях Флоренский использовал такие характеристики, но ...

Другие похожие документы..