공부

회귀분석 공부 :: 개념

AB87 2022. 4. 14. 10:48
반응형

개요

여러 자료들 간의 관계성을 수학적으로 추정하여 설명하는 방법

 

회귀분석은 인과관계를 증명하는 방법이 아니라,

인과관계가 상정된 모델을 구현할 수 있는 것에 불과하다.

원인은 잘 모르겠는데 확률적으로 그런가보다 하는 모델을 만든다는 것 같은데,

 

형태에 따라,

하나의 종속변수에 대해 독립변수가 하나인 경우를 단순회귀분석(Simple Regression Analysis)

하나의 종속변수에 대해 독립변수가 둘 이상인 경우를 다중회귀분석(Multiple Regression Analysis)

측정 가능한 변수(독립변수)의 변화에 따른 결과의 변화(종속변수)를 예측한다라는 설명같은데,

실험을 해서 a변수를 바꿔서 측정된 결과값 b의 데이터는 가지고 있고,

a와 b의 연관관계는 증명할 수 없다면,

a와 b의 연관관계를 통계적으로 예측한다는 것 같은데,

 

회귀분석을 통해 다음을 알 수 있다.

  • 종속변수와 독립변수간에 선형관계가 존재하는지 알 수 있다.
  • 종속변수에 영향을 미치는 독립변수가 유의 한지와 영향력의 정도를 알 수 있다.
  • 추정된 회귀모형을 통해 종속변수의 예측치를 알 수 있다.

독립변수와 종속변수를 설정하고 이들의 관계를 통계적으로 살펴보는 대부분의 방법론을 다 회귀분석이라고 부르기도 한다. 시계역 데이터를 사용하면 시계역 회귀분석이고 패널 자료를 사용하면 패널 회귀 분석인 식이다.


◎ 상세

회귀분석은 주어진 자료들이 특정한 경향성을 띄고 있다는 아이디어로부터 비롯된다.

변수들 사이 나타나는 경향성을 설명하는 것을 주 목적으로 한다.

 

변수들 사이의 함수적인 관련성을 규명하기 위해 어떤 수학적 모형을 가정하고 이 모형을 측정된 변수들의 자료로부터 추정하는 통계적 분석 방법이다.

 

어떤 관계가 있을지에 대한 여러 가지 가설들을 회귀 '모형'이라 부르며,

회귀모형은 수학적으로 표현했을 때,

크게 트렌드를 나타내는 부분과

통제할 수 없는 오차를 나타내는 부분으로 분리된다.

 

'모형'은 간단히 말하면 현실을 간략하게 표현한 것이다. 앞에선 이야기한 여러 가설들을 회귀'모형'이라고 부르는 이유는, 그 모형이 100%까지는 아니라고 하더라도 간단한 가설을 통해 현실의 많은 부분을 설명해줄 수 있기 때문이다. "경제학의 많은 문제는 검증이 불가능하여 가설 설정에 그치기 때문에 모형"이 된다는 설명은, 오히려 수리적으로 모형을 검증하기 위한 실험이나 자료수집 역시 있다는 것을 생각해보면 다소 부적절한 설명이다.

뭔 소린지 모르겠음

 

오차를 작게 만드는 모형을 찾는 방법들,

"최소제곱법"

가장 일반적으로 접하게 되는 것

자료와 평균의 오차를 제곱해서 더했을 때, 그 합이 가장 작아지는 모형을 찾아내는 방법

자료와 평균의 오차만 구해서 그대로 더하게 되면, '평균'의 정의로 인해 오차의 합은 반드시 0이 된다. 때문에 일부러 오차를 제곱해서 0보다 큰 수들로 만든 다음에 이 값들을 누적하여 사용하는 것이다.

 

주어진 자료를 분석하는 작업의 관점에서는 '회귀분석'이라고 부르는 일이 많지만, 이 분석 작업에 사용되는 것은 주어진 자료들 사이의 관계에 대한 모형이라는 점에서 '회귀모형'이라는 말 역시 빠지지 않고 접하게 된다.

 

자료를 설명해줄 수 있는 중심적인 경향를 찾는 것이 회귀분석의 목적이기 때문에, 이를 통해 만들어진 회귀모형은 상당히 활용할 수 있는 여지가 넓다. 예를 들어 (비록 쉽지는 않은 작업이지만) 많은 회귀모형이 '예측'의 맥락에서 사용되기도 한다. 물론 회귀모형을 이용해 알지 못하는 자료의 특징을 '예측'하는 것은 결코 쉽지 않은 일이기는 하지만, 원론적으로 이야기한다면 이런 것에도 써먹을 수 있다는 이야기이다. 그런 의미에서, '회귀분석' '결과에서 원인으로의 역산'이라고 이야기하는 것은 회귀분석의 일부분만을 설명하는 것밖에 지나지 않는다.

 

회귀 방정식은 독립변수 표본의 범위를 벗어나는 값에 대한 예측에 쓰면 안 된다. 여기에서 쓰면 안된다는 것의 의미는 '값을 구할 수는 있지만 그 결과가 그다지 유의한 의미는 없다'는 것이다. 선형추정의 특징 중 하나가 구간추정을 했을 때, 변수들의 표본평균벡터에서 예측구간이 가장 좁고, 그 점에서 멀어질수록 구간이 넓어진다는 것이다. 같은 유의수준 하에서라면 예측구간은 좁을수록 좋다. 그런데 독립변수의 값이 표본의 밖으로 넘어가면 예측 구간이 너무 넓어져서 예측의 의미가 없기 때문이다.

이해가 필요한 부분 같은데 잘모르겟음.

 

일반적으로 예측된 Y 값과 실제 데이터 사이에는 오차가 존재한다. 오차의 양은 다양하지만 평균적인 오차의 양은 상관관계의 강도와 직접적으로 연관된다.

 

종속변수의 예측값(predicted value, fitted value)과 종속변수 실제값(actual value)상관 계수 r의 제곱인 결정 계수(coefficient of determination)R^2 "전체 제곱합 중에서 회귀 제곱합이 설명하는 비중", "모형의 설명력"이다.

 

-1 ≤ r ≤ 1

0 ≤ R^2 = SSR/SST ≤ 1

 

총 제곱합(total sum of square) SST, 회귀 제곱합(regression sum of square) SSR, 잔차 제곱합(residual sum of square) SSE이다. , 위의 부등식은 절편을 포함한 선형회귀에 대해서만 성립한다.

위 부분까지만 봐도 될 듯

 

 

◎ 참조

회귀 분석 - 나무위키 (namu.wiki)

 

엑셀로 회귀분석 하기 : 네이버 블로그 (naver.com)

 

엑셀로 회귀분석 하기

오늘은 엑셀을 통해 회귀분석(Regression Analysis)을 하는 법을 배워보겠습니다. 데이터를 보시면, 16명...

blog.naver.com

 

엑셀로 통계 분석하는 방법 : 네이버 블로그 (naver.com)

 

엑셀로 통계 분석하는 방법

엑셀로 통계 분석 하는 방법에 대해 알아볼게요. 엑셀이 통계 전문 프로그램은 아니지만, 통계 패키지의 라...

blog.naver.com

 

반응형