Парная линейная регрессия - Ниворожкина Л.И., Чернова Т.В. Теория статистики

Л.И. Ниворожкина, Т.В. Чернова
Теория статистики (с задачами и примерами по региональной экономике)
Учебное пособие. – Ростов н/Д: «Мини Тайп», «Феникс», 2005. – 220 с.

Оглавление

9.7. Парная линейная регрессия

Для характеристики влияния изменений х на вариацию у служат методы регрессионного анализа. Регрессия – это линия, показывающая вид зависимости средней результативного признака от факторного. Термин, введенный английским статистиком Гальтоном при изучении наследственности. Уравнение регрессии является аналитическим уравнением, с помощью которого выражается связь между признаками. В случае парной линейной зависимости строится регрессионная модель

где n - число наблюдений; а₀, а₁ - неизвестные параметры уравнения;

e_i - ошибка случайной переменной Y.

Уравнение регрессии записывается как:

Y_i_теор=a₀ +a₁X_i,

где Y_i_теор - рассчитанное выравненное значение результативного признака после подстановки в уравнение X.

Параметры а₀ и а₁ оцениваются с помощью процедур, наибольшее распространение из которых получил метод наименьших квадратов. Линия должна быть проведена так, чтобы сумма отклонений точек поля корреляции от соответствующих точек теоретической линии регрессии равнялась нулю, а сумма квадратов этих отклонений была бы минимальной величиной. Значит, наилучшие оценки a₀ и а₁, получают, когда

т.е. сумма квадратов отклонений эмпирических значений зависимой переменной от вычисленных по уравнению регрессии должна быть минимальной. Сумма квадратов отклонений является функцией параметров а₀ и а₁. Ее минимизация осуществляется решением системы уравнений

;

; .

Можно воспользоваться и другими формулами, вытекающими из метода наименьших квадратов, например:

Аппарат линейной регрессии достаточно хорошо разработан и, как правило, имеется в наборе стандартных программ оценки взаимосвязи для ЭВМ. Важен смысл параметров: а₁ – это коэффициент регрессии, характеризующий влияние, которое оказывает изменение X на Y. Он показывает, на сколько единиц в среднем изменится Y при изменении X на одну единицу. Если а, больше 0. то наблюдается положительная связь. Если а имеет отрицательное значение, то увеличение X на единицу влечет за собой уменьшение Y в среднем на а₁. Параметр а₁ обладает размерностью отношения Y к X.

Параметр a₀ – это постоянная величина в уравнении регрессии. На наш взгляд, экономического смысла он не имеет, но в ряде случаев его интерпретируют как начальное значение Y.

Значение функции Y_теор = a₀ + а₁X называется расчетным значением и на графике образует теоретическую линию регрессии. Смысл теоретической регрессии в том, что это оценка среднего значения переменной Y для заданного значения X.

Например, рассмотрим построение однофакторного уравнения регрессии зависимости производительности труда Y от стажа работы X по представленным данным о бригаде из десяти рабочих, занятых производством электротехнических изделий. Для расчета коэффициентов уравнения регрессии воспользуемся расчетной таблицей:

Расчетные значения подставим в формулу и получим параметры для данного уравнения регрессии:

Следовательно, регрессионная модель распределения выработки по стажу работы для данного примера имеет вид: Y_теор= 4 + 0.6X.

Это уравнение характеризует зависимость среднего уровня выработки рабочим бригады от стажа работы.

Парная корреляция или парная регрессия могут рассматриваться как частный случай отражения связи некоторой зависимой переменной, с одной стороны, и одной из множества независимых переменных – с другой. Когда же требуется охарактеризовать связь всего указанного множества независимых переменных с результативным признаком, говорят о множественной корреляции или множественной регрессии.

Многофакторный корреляционный и регрессионный анализ позволяет оценить меру влияния на исследуемый результативный показатель каждого из включенных в модель (уравнение) факторов при фиксированном положении (на среднем уровне) остальных факторов, а также при любых возможных сочетаниях факторов с определенной степенью точности найти теоретическое значение этого показателя (важным условием является отсутствие между факторами функциональной связи).

Для оценки взаимосвязи между признаком Y и несколькими факторными признаками X_iиспользуется коэффициент множественной корреляции (совокупный коэффициент корреляции, коэффициент детерминации). Для случая двух факторных признаков x₁ и x₂ он имеет вид:

где r – парные коэффициенты корреляции между признаками.

Множественный коэффициент корреляции изменяется от 0 до 1 и численно не может быть меньше, чем любой из образующих его парных коэффициентов. Приближение R к единице свидетельствует о сильной зависимости между признаками.

При небольшом числе наблюдений величина коэффициента множественной корреляции, как правило, завышается. Чтобы оценить общую вариацию результативного признака в зависимости от факторных признаков, величина коэффициента множественной корреляции корректируется на основании следующего выражения:

где - скорректированное значение; n – число наблюдений;

k – число факторных признаков.

Корректировку можно не производить, если

Среднеквадратическая ошибка коэффициента множественной корреляции:

если > 3, то с вероятностью близкой к 0,99 можно считать R значимым.

Частные коэффициенты корреляции характеризуют степень тесноты связи между двумя признаками при фиксированном значении всех остальных.

Для случая двух факторных признаков x₁ и x₂ они имеют вид:

;

В первом случае исключено влияние факторного признака x₂, а во втором x₁. Значения парного и частного коэффициентов корреляции отличаются друг от друга, так как парный коэффициент характеризует связь между двумя признаками без учета влияния других признаков, а частный учитывает наличие и влияние других факторов.

Проверка значимости и расчет доверительных интервалов для частных коэффициентов корреляции аналогичны, как и для парных коэффициентов корреляции, с тем лишь отличием, что число степеней свободы n определяется так: n = n - k, где k – порядок коэффициента частной корреляции.

Оглавление

Глава 9. Статистическое изучение взаимосвязей

9.7. Парная линейная регрессия