Поиск

Полнотекстовый поиск:
Где искать:
везде
только в названии
только в тексте
Выводить:
описание
слова в тексте
только заголовок

Рекомендуем ознакомиться

'Документ'
1. Программа для общеобразовательных учреждений: Математика. 5-11 кл./ Сост. Г.М. Кузнецова, Н.Г. Миндюк. – М.: Дрофа, 2002, рекомендованная Департаме...полностью>>
'Программа'
Вас ждет встреча с администрацией института, зам. декана по связям с общественностью, которые расскажут Вам о направлениях подготовки и их преимуществ...полностью>>
'Документ'
честность, коммуникабельность, пунктуальность, трудолюбие, ответственность, нацеленность на результат, активная жизненная позиция,...полностью>>
'Учебник'
Положение о порядке возмездной передачи учебников, приобретённых родителями (законными представителями) обучающихся для обеспечения учебного процесса ...полностью>>

Главная > Документ

Сохрани ссылку в одной из сетей:
Информация о документе
Дата добавления:
Размер:
Доступные форматы для скачивания:

МЕЖДУНАРОДНЫЙ БАНКОВСКИЙ ИНСТИТУТ

INTERNATIONAL BANKING INSTITUTE

Лабораторная работа 5
Простая и множественная регрессии

Цель работы: обучить студентов строить модели прогноза на основе простой и множественной регрессий.

Оглавление

Пакет Statistica, 6.0

1. Простая регрессия

  1. Открыть файл данных Poverty.sta через File – Open (Файл – Открыть). Приведенные данные основаны на сравнении результатов переписи 1960 и 1970 гг. для случайной выборки из 30 стран. Названия стран были введены как названия строк. Через пункт меню Data и выбора опции All Variable Specs укажем названия всех переменных этого файла:

POP_CHNG – Изменение населения за 1960-1970 гг.

N_EMPLD – Количество людей, занятых в сельском хозяйстве

PT_POOR – Процент семей, живущих ниже уровня бедности.

TAX_RATE – Ставка налога.

PT_PHONE – Процент квартир с телефоном.

PT_RURAL – Процент сельского населения.

AGE – Средний возраст.

Часть данных приведена в табл.1.

Таблица 1. Исходные данные

Теперь оценим связь параметра Pt_Poor, т. е. переменной, которая лучше всего отражает уровень бедности в стране, с другими параметрами. Таким образом, признак Pt_Poor считается независимой переменной, а все остальные параметры – зависимые. В данной задаче необходимо определить связь признака Pt_Poor с одним из других признаков.

  1. Из меню StatisticsAdvanced Linear/Nonlinear Models (Статистики-Расширенные линейные-нелинейные модели) выбрать General Linear Models (Общие линейные модели) для отображения стартовой панели (рис. 1).

Рис. 1. Стартовая панель общих линейных моделей

Выбрать в качестве типа анализа Simple regression (Простая регрессия) и в качестве метода решения – Quick specs dialog (Быстрый диалог). Затем нажать ОК для входа в диалоговое окно простой регрессии (рис. 2).

При нажатии клавиши Variables в этом окне появляется окно выбора переменных (рис. 3), в котором в качестве зависимой переменной следует указать признак Pt_Poor, а в качестве независимой – Pop_Chng.

Рис. 2. Диалоговое окно простой регрессии

Далее – нажать ОК для возврата к диалоговому окну регрессии.

Рис. 3. Окно выбора переменных

  1. Нажав ОК в последнем окне, приходим к окну результатов регрессионного анализа (рис. 4), где при выделенной опции Summary (Итог) нужно нажать клавишу Coefficients для отображения рассчитанных коэффициентов регрессии между выделенными переменными.

Рис. 4. Итоговое окно регрессионного анализа

  1. Коэффициенты регрессии представлены в табл. 2.

Таблица 2. Регрессионные коэффициенты

Полученное уравнение регрессии между переменными Pt_Poor и Pop_Chng имеет вид:

Pt_Poor = 26,2 - 0,4 Pop_Chng

Из уравнения следует, что на каждую единицу уменьшения населения приходится приблизительно 0,4 единицы увеличения числа семей, живущих ниже черты бедности. В таблице также приведены доверительные интервалы для обоих членов уравнения регрессии и стандартизированное значение коэффициента регрессии между выделенными переменными, равное -0,65. Эта величина также определяет и коэффициент корреляции между рассматриваемыми признаками.

2. Множественная регрессия

  1. Открыть тот же файл данных Poverty.sta через File – Open (Файл – Открыть).

  2. Из меню Statistics Advanced Linear / Nonlinear Models (Статистики-Расширенные линейные-нелинейные модели) выбрать General Linear Models (Общие линейные модели) для отображения стартовой панели, как и в случае простой регрессии.

Выбрать в качестве типа анализа Multiple regression (Множественная регрессия) и в качестве метода решения – Quick specs dialog (Быстрый диалог). Затем нажать ОК для входа в диалоговое окно множественной регрессии (рис. 5).

Рис. 5. Диалоговое окно множественной регрессии

При нажатии клавиши Variables в этом окне появляется окно выбора переменных (рис. 6), в котором в качестве зависимой переменной следует указать признак Pt_Poor, а в качестве независимых – все остальные.

Рис. 6. Окно выбора переменных для множественной регрессии

(Отметим, что при определении переменных правого столбца вначале нужно выделить все переменные, а затем при нажатой клавише Ctrl отметить признак Pt_Poor). Далее – нажать ОК для возврата к диалоговому окну регрессии.

  1. Нажав ОК в последнем окне, приходим к окну результатов регрессионного анализа, где при выделенной опции Summary (Итог) нужно нажать клавишу Coefficients для отображения рассчитанных коэффициентов регрессии между выделенными переменными. Полученные результаты приведены в табл. 3.

Таблица 3. Регрессионные коэффициенты

Эта таблица показывает регрессионные коэффициенты (В) и стандартизованные регрессионные коэффициенты (Beta). С помощью коэффициентов В устанавливается вид уравнения регрессии, которое в данном случае имеет вид

Включение в правую часть только этих переменных обусловлено тем, что лишь эти признаки имеют значение вероятности р меньше, чем 0,05 (см. четвертый столбец табл. 3). Такое значение вероятности принято при вычислении доверительных интервалов на коэффициенты регрессии

Величина коэффициентов Beta позволяет сравнить относительный вклад каждой независимой переменной в предсказание зависимой переменной. Как видно из таблицы, переменные Pop_Chng, Pt_Rural, (Изменение населения за 1960-1970 гг., процент сельского населения) являются наиболее важными предикторами: обладают статистической значимостью (выделены красным цветом). Регрессионный коэффициент для Pop_Chng отрицательный, что означает: чем меньше увеличение населения, тем больше число семей, живущих ниже черты бедности в соответствующей стране. Тот же коэффициент для переменной Pt_Rural – положительный: чем больше процент сельского населения, тем выше уровень бедности.

  1. Для анализа остатков следует в окне диалога GLM Results нажать кнопку More results, после чего выделить закладку Residuals 1 для рассмотрения различных видов представления остатков. Обычно оцениваются стандартизированные остатки с целью выявления выбросов, превышающих ± 3 sigma. Для этого необходимо выбрать опцию Standardized в поле Resids for default plots и нажать кнопку Case no. & res для построения графика, аналогичного показанному на рис. 7.

В этом диалоге имеется много возможностей построения различных графиков. Большинство из них интерпретируются достаточно просто, в частности, гистограмма распределения остатков, однако графики нормального распределения требуют отдельных комментариев. Как известно, множественная линейная регрессия допускает линейные соотношения между переменными уравнения и нормальность остатков. Если эти допущения нарушены, то окончательное заключение может быть неверным. График нормального распределения представляет собой индикатор того, являются или нет отклонения от допущений значительными. Для построения графика нажать кнопку Normal в поле Probab. plots of resides.

Рис. 7. График остатков

Если наблюдаемые остатки нормально распределены, то все значения должны укладываться на прямой линии (или близко от нее) приведенного графика (рис. 8). В противном случае точки, изображающие остатки, будут отклоняться от прямой линии.

Рис. 8. Индикатор нормальности остатков

Пакет Statgraphics 5.1

1. Простая регрессия

  1. Открыть через меню File – Open – Open Data File файл данных Carsales (Продажа машин). Данные представляют собой количество продаваемых машин (в тыс. шт.) по месяцам на протяжении 6 лет. В табл. 4 приведена часть этих данных.

Таблица 4. Исходные данные

  1. Через меню Relate – Simple Regression (Общность – Простая регрессия) перейти к окну простой регрессии. Выбрать в качестве независимой переменной параметр sales (продажи), независимой – переменную ADJUSTED (отрегулированные) и указать в поле Select: first(20) для ограничения объема данных первыми двадцатью строками. Результат – на рис. 9.

Рис. 9. Окно простой регрессии

Затем нажать ОК. На экране монитора появится окно результатов регрессионного анализа.

  1. Среди табличных опций выделить следующие: Analysis Summary, Comparison of Alternative Models (Суммарный итог, сравнение альтернативных моделей). В первой таблице приводятся результаты расчета коэффициентов регрессионного уравнения, стандартные отклонения каждого коэффициента, значения статистик (табл. 5).

Таблица 5. Результат регрессионного анализа

Консультант дает следующее пояснение:

Выход показывает результаты подгонки модели простой линейной регрессии для описания связи между переменными sales и Adjusted. Уравнение подогнанной модели имеет вид:

sales = -289,341 + 1,04594*ADJUSTED.

Вследствие того, что Р-значение в таблице итогового анализа меньше, чем 0,01, то имеется статистически значимая связь между переменными при доверительном уровне 99 %.

R-Squared статистика определяет, что подогнанная модель объясняет 93,16 % всей вариации переменной sales.

В таблице сравнения альтернативных моделей (табл. 6) приводятся различные виды моделей и значения коэффициента R-Squared (коэффициента детерминации) для этих моделей. Чем больше величина этого коэффициента, тем лучше выбранная модель объясняет вариации в переменной sales.

Таблица 6. Сравнение различных моделей

Из табл. 6 видно, что лучшей моделью для подгонки этих данных является мультипликативная модель.

Для просмотра результатов подгонки данных различными моделями необходимо нажать правую клавишу мыши и в появившемся окне указать: Analysis Options (Анализ опций). В результате всплывает окно опций простой регрессии с различными типами моделей, показанное на рис. 10.

Рис. 10. Окно опций простой регрессии

  1. Среди графических опций выделить Plot of Fitted Model (График подогнанной модели) и Residuals versus Row Number (Остатки в зависимости от номера строки). Эти графики показаны на рис. 11 и 12, соответственно.

Рис. 11. График подогнанной модели

 

Рис. 12. График остатков

Приведенные графики (для линейной модели) показывают, что выбранная модель не противоречит данным: значение коэффициента R-Squared (коэффициента детерминации) здесь составляет 93,16 %, а остатки имеют разные знаки отклонений от исходных данных, что, в свою очередь, не противоречит гипотезе о нормальном законе распределения остатков.

2. Множественная регрессия

  1. Открыть тот же файл данных Carsales (Продажа машин).

  2. Через меню Relate – Multiple Regression (Общность – Множественная регрессия) перейти к окну множественной регрессии. Выбрать в качестве независимой переменной параметр sales (продажи), независимых – все остальные переменные и указать в поле Select: first(20) для ограничения объема данных первыми двадцатью строками. Результат – на рис. 13.

  3. По умолчанию из табличных опций открывается Analysis Summary (Итоговый анализ), которой достаточно для анализа результатов. Здесь приводятся результаты расчета коэффициентов регрессионного уравнения, стандартные отклонения каждого коэффициента, значения статистик (табл. 7).

Рис. 13. Окно множественной регрессии

 

 

Таблица 7. Результат регрессионного анализа

Консультант дает следующее пояснение:

Выход показывает результаты подгонки модели множественной линейной регрессии для описания связи между переменной sales и остальными независимыми переменными. Уравнение подогнанной модели имеет вид:

sales = -8655,36 + 1,01188* ADJUSTED + 0,411272* RESIDS + 92,7932* SIND -0,0565496* AVGS

R-Squared статистика, приведенная в Итоговом анализе, определяет, что подогнанная модель объясняет 98,5 % всей вариации переменной sales.

При оценке возможности упрощения модели заметим, что наибольшие значения величины Р, равные 0,972 и 0,355, принадлежат переменным RESIDS и AVGS. Так как значение Р больше или равно 0,10, то эти переменные не является статистически значимыми на 90-процентном или более высоком доверительном уровне, следовательно, можно рассмотреть возможность исключения этих признаков из дальнейшего анализа.

  1. Среди графических опций выделить Component Effects и Residuals versus X. Проанализировать эти графики, изменяя переменные на горизонтальной оси.

Задание

По пакету Statistica, 6.0

  1. Открыть файл Cars.sta, состоящий из 22 строк (марок автомашин) и 5 столбцов (признаков, характеризующих в нормированном виде эксплуатационные свойства машин: цена, ускорение, время остановки со скорости 80 миль в час, коэффициент сцепления с покрытием, расход топлива).

Построить:

  • уравнение линейной регрессии между ценой и расходом топлива (переменные price и mileage);

  • уравнение множественной регрессии между ценой и всеми остальными признаками.

  1. Смоделировать матрицу данных из 20 объектов и 3 признаков (см. работу №2) со средними значениями и СКО признаков, соответственно, (1;3), (5;10), (10; 25).

По пакету Statgraphics, 5.1

  1. Перенести в этот пакет разыгранные данные и построить уравнение множественной регрессии между первым и остальными признаками.

 



Похожие документы:

  1. Методические указания к лабораторным работам (Цикл лабораторных работ) Издательство тпу

    Методические указания
    ... конкретной теме. Лабораторная работа № 1. Первичная обработка эмпирических данных Цель работы – ознакомиться с простейшими приемами статистической ... при этом модуль Multiple Regression (множественная регрессия). В стартовом диалоговом окне этого ...
  2. Учебно-методический комплекс по дисциплине методика исследований в социальной работе и социальная статистика для направления «Социальная работа» Рассмотрено и утверждено

    Учебно-методический комплекс
    ... исследований в социальной работе и социальная статистика» ... : полевой, лабораторный и естественный ... Простая и множественная регрессия. Интерпретация и оценки коэффициентов регрессии, уровень значимости коэффициентов. Модель логистической регрессии ...
  3. Образовательная программа основного общего образования Муниципального бюджетного общеобразовательного учреждения

    Образовательная программа
    ... Листья простые и сложные. Жилкование листьев. Лабораторная работа Листья простые и ... понятия «деление надвое», «множественное деление», «бесполое размножение», ... », «биологический прогресс», «биологический регресс», «ароморфоз», «идиоадаптация», « ...
  4. Сборник методических указаний для обучающихся к внеаудиторной (самостоятельной) работе для специальности 060103 Педиатрия (очная форма обучения) Красноярск 2014

    Документ
    ... . Практические работы: Работа №1. Выполнение лабораторной работы по изучению ... с увеличением доли простых углеводов (глюкозы), ... кровоток могут вызвать множественную системную недостаточность. 4. ... с почти полным регрессом неврологических расстройств ( ...
  5. Учебно-тематический план (биология 9 класс): Введение в основы общей биологии -3 часа

    Учебно-тематический план
    ... цитоплазму Отчет по лабораторной работе. Проведение простых биологических исследований. ... генов в природе; -множественного действия генов; -понятие генотипическая ... а какие –к биологическому регрессу Формулировать основные особенности эволюции ...

Другие похожие документы..