πŸ’Ό 일

νšŒκ·€λΆ„μ„ 곡뢀 :: κ°œλ…

AB87 2022. 4. 14. 10:48
λ°˜μ‘ν˜•

β—Ž κ°œμš”

μ—¬λŸ¬ μžλ£Œλ“€ κ°„μ˜ 관계성을 μˆ˜ν•™μ μœΌλ‘œ μΆ”μ •ν•˜μ—¬ μ„€λͺ…ν•˜λŠ” 방법

 

νšŒκ·€λΆ„μ„μ€ 인과관계λ₯Ό 증λͺ…ν•˜λŠ” 방법이 μ•„λ‹ˆλΌ,

인과관계가 μƒμ •λœ λͺ¨λΈμ„ κ΅¬ν˜„ν•  수 μžˆλŠ” 것에 λΆˆκ³Όν•˜λ‹€.

원인은 잘 λͺ¨λ₯΄κ² λŠ”데 ν™•λ₯ μ μœΌλ‘œ κ·ΈλŸ°κ°€λ³΄λ‹€ ν•˜λŠ” λͺ¨λΈμ„ λ§Œλ“ λ‹€λŠ” 것 같은데,

 

ν˜•νƒœμ— 따라,

ν•˜λ‚˜μ˜ μ’…μ†λ³€μˆ˜μ— λŒ€ν•΄ λ…λ¦½λ³€μˆ˜κ°€ ν•˜λ‚˜μΈ 경우λ₯Ό λ‹¨μˆœνšŒκ·€λΆ„μ„(Simple Regression Analysis)

ν•˜λ‚˜μ˜ μ’…μ†λ³€μˆ˜μ— λŒ€ν•΄ λ…λ¦½λ³€μˆ˜κ°€ λ‘˜ 이상인 경우λ₯Ό λ‹€μ€‘νšŒκ·€λΆ„μ„(Multiple Regression Analysis)

μΈ‘μ • κ°€λŠ₯ν•œ λ³€μˆ˜(λ…λ¦½λ³€μˆ˜)의 변화에 λ”°λ₯Έ 결과의 λ³€ν™”(μ’…μ†λ³€μˆ˜)λ₯Ό μ˜ˆμΈ‘ν•œλ‹€λΌλŠ” μ„€λͺ…같은데,

μ‹€ν—˜μ„ ν•΄μ„œ aλ³€μˆ˜λ₯Ό λ°”κΏ”μ„œ μΈ‘μ •λœ κ²°κ³Όκ°’ b의 λ°μ΄ν„°λŠ” 가지고 있고,

a와 b의 μ—°κ΄€κ΄€κ³„λŠ” 증λͺ…ν•  수 μ—†λ‹€λ©΄,

a와 b의 연관관계λ₯Ό ν†΅κ³„μ μœΌλ‘œ μ˜ˆμΈ‘ν•œλ‹€λŠ” 것 같은데,

 

νšŒκ·€λΆ„μ„μ„ 톡해 λ‹€μŒμ„ μ•Œ 수 μžˆλ‹€.

  • μ’…μ†λ³€μˆ˜μ™€ λ…λ¦½λ³€μˆ˜κ°„μ— μ„ ν˜•κ΄€κ³„κ°€ μ‘΄μž¬ν•˜λŠ”μ§€ μ•Œ 수 μžˆλ‹€.
  • μ’…μ†λ³€μˆ˜μ— 영ν–₯을 λ―ΈμΉ˜λŠ” λ…λ¦½λ³€μˆ˜κ°€ 유의 ν•œμ§€μ™€ 영ν–₯λ ₯의 정도λ₯Ό μ•Œ 수 μžˆλ‹€.
  • μΆ”μ •λœ νšŒκ·€λͺ¨ν˜•μ„ 톡해 μ’…μ†λ³€μˆ˜μ˜ 예츑치λ₯Ό μ•Œ 수 μžˆλ‹€.

λ…λ¦½λ³€μˆ˜μ™€ μ’…μ†λ³€μˆ˜λ₯Ό μ„€μ •ν•˜κ³  μ΄λ“€μ˜ 관계λ₯Ό ν†΅κ³„μ μœΌλ‘œ μ‚΄νŽ΄λ³΄λŠ” λŒ€λΆ€λΆ„μ˜ 방법둠을 λ‹€ νšŒκ·€λΆ„μ„μ΄λΌκ³  λΆ€λ₯΄κΈ°λ„ ν•œλ‹€. μ‹œκ³„μ—­ 데이터λ₯Ό μ‚¬μš©ν•˜λ©΄ μ‹œκ³„μ—­ νšŒκ·€λΆ„μ„μ΄κ³  νŒ¨λ„ 자료λ₯Ό μ‚¬μš©ν•˜λ©΄ νŒ¨λ„ νšŒκ·€ 뢄석인 식이닀.


β—Ž 상세

νšŒκ·€λΆ„μ„μ€ 주어진 μžλ£Œλ“€μ΄ νŠΉμ •ν•œ κ²½ν–₯성을 띄고 μžˆλ‹€λŠ” μ•„μ΄λ””μ–΄λ‘œλΆ€ν„° λΉ„λ‘―λœλ‹€.

λ³€μˆ˜λ“€ 사이 λ‚˜νƒ€λ‚˜λŠ” κ²½ν–₯성을 μ„€λͺ…ν•˜λŠ” 것을 μ£Ό λͺ©μ μœΌλ‘œ ν•œλ‹€.

 

λ³€μˆ˜λ“€ μ‚¬μ΄μ˜ ν•¨μˆ˜μ μΈ 관련성을 규λͺ…ν•˜κΈ° μœ„ν•΄ μ–΄λ–€ μˆ˜ν•™μ  λͺ¨ν˜•μ„ κ°€μ •ν•˜κ³  이 λͺ¨ν˜•μ„ μΈ‘μ •λœ λ³€μˆ˜λ“€μ˜ μžλ£Œλ‘œλΆ€ν„° μΆ”μ •ν•˜λŠ” 톡계적 뢄석 방법이닀.

 

μ–΄λ–€ 관계가 μžˆμ„μ§€μ— λŒ€ν•œ μ—¬λŸ¬ 가지 가섀듀을 νšŒκ·€ 'λͺ¨ν˜•'이라 λΆ€λ₯΄λ©°,

νšŒκ·€λͺ¨ν˜•μ€ μˆ˜ν•™μ μœΌλ‘œ ν‘œν˜„ν–ˆμ„ λ•Œ,

크게 νŠΈλ Œλ“œλ₯Ό λ‚˜νƒ€λ‚΄λŠ” λΆ€λΆ„κ³Ό

ν†΅μ œν•  수 μ—†λŠ” 였차λ₯Ό λ‚˜νƒ€λ‚΄λŠ” λΆ€λΆ„μœΌλ‘œ λΆ„λ¦¬λœλ‹€.

 

'λͺ¨ν˜•'은 κ°„λ‹¨νžˆ λ§ν•˜λ©΄ ν˜„μ‹€μ„ κ°„λž΅ν•˜κ²Œ ν‘œν˜„ν•œ 것이닀. μ•žμ—μ„  μ΄μ•ΌκΈ°ν•œ μ—¬λŸ¬ 가섀듀을 νšŒκ·€'λͺ¨ν˜•'이라고 λΆ€λ₯΄λŠ” μ΄μœ λŠ”, κ·Έ λͺ¨ν˜•μ΄ 100%κΉŒμ§€λŠ” μ•„λ‹ˆλΌκ³  ν•˜λ”λΌλ„ κ°„λ‹¨ν•œ 가섀을 톡해 ν˜„μ‹€μ˜ λ§Žμ€ 뢀뢄을 μ„€λͺ…해쀄 수 있기 λ•Œλ¬Έμ΄λ‹€. "κ²½μ œν•™μ˜ λ§Žμ€ λ¬Έμ œλŠ” 검증이 λΆˆκ°€λŠ₯ν•˜μ—¬ κ°€μ„€ 섀정에 그치기 λ•Œλ¬Έμ— λͺ¨ν˜•"이 λœλ‹€λŠ” μ„€λͺ…은, 였히렀 수리적으둜 λͺ¨ν˜•μ„ κ²€μ¦ν•˜κΈ° μœ„ν•œ μ‹€ν—˜μ΄λ‚˜ μžλ£Œμˆ˜μ§‘ μ—­μ‹œ μžˆλ‹€λŠ” 것을 생각해보면 λ‹€μ†Œ λΆ€μ μ ˆν•œ μ„€λͺ…이닀.

λ­” μ†Œλ¦°μ§€ λͺ¨λ₯΄κ² μŒ

 

였차λ₯Ό μž‘κ²Œ λ§Œλ“œλŠ” λͺ¨ν˜•μ„ μ°ΎλŠ” 방법듀,

"μ΅œμ†Œμ œκ³±λ²•"

κ°€μž₯ 일반적으둜 μ ‘ν•˜κ²Œ λ˜λŠ” 것

μžλ£Œμ™€ ν‰κ· μ˜ 였차λ₯Ό μ œκ³±ν•΄μ„œ λ”ν–ˆμ„ λ•Œ, κ·Έ 합이 κ°€μž₯ μž‘μ•„μ§€λŠ” λͺ¨ν˜•μ„ μ°Ύμ•„λ‚΄λŠ” 방법

μžλ£Œμ™€ ν‰κ· μ˜ 였차만 κ΅¬ν•΄μ„œ κ·ΈλŒ€λ‘œ λ”ν•˜κ²Œ 되면, '평균'의 μ •μ˜λ‘œ 인해 였차의 합은 λ°˜λ“œμ‹œ 0이 λœλ‹€. λ•Œλ¬Έμ— μΌλΆ€λŸ¬ 였차λ₯Ό μ œκ³±ν•΄μ„œ 0보닀 큰 μˆ˜λ“€λ‘œ λ§Œλ“  λ‹€μŒμ— 이 값듀을 λˆ„μ ν•˜μ—¬ μ‚¬μš©ν•˜λŠ” 것이닀.

 

주어진 자료λ₯Ό λΆ„μ„ν•˜λŠ” μž‘μ—…μ˜ κ΄€μ μ—μ„œλŠ” 'νšŒκ·€λΆ„μ„'이라고 λΆ€λ₯΄λŠ” 일이 λ§Žμ§€λ§Œ, 이 뢄석 μž‘μ—…μ— μ‚¬μš©λ˜λŠ” 것은 주어진 μžλ£Œλ“€ μ‚¬μ΄μ˜ 관계에 λŒ€ν•œ λͺ¨ν˜•μ΄λΌλŠ” μ μ—μ„œ 'νšŒκ·€λͺ¨ν˜•'μ΄λΌλŠ” 말 μ—­μ‹œ 빠지지 μ•Šκ³  μ ‘ν•˜κ²Œ λœλ‹€.

 

자료λ₯Ό μ„€λͺ…해쀄 수 μžˆλŠ” 쀑심적인 κ²½ν–₯λ₯Ό μ°ΎλŠ” 것이 νšŒκ·€λΆ„μ„μ˜ λͺ©μ μ΄κΈ° λ•Œλ¬Έμ—, 이λ₯Ό 톡해 λ§Œλ“€μ–΄μ§„ νšŒκ·€λͺ¨ν˜•μ€ μƒλ‹Ήνžˆ ν™œμš©ν•  수 μžˆλŠ” 여지가 λ„“λ‹€. 예λ₯Ό λ“€μ–΄ (비둝 μ‰½μ§€λŠ” μ•Šμ€ μž‘μ—…μ΄μ§€λ§Œ) λ§Žμ€ νšŒκ·€λͺ¨ν˜•μ΄ '예츑'의 λ§₯λ½μ—μ„œ μ‚¬μš©λ˜κΈ°λ„ ν•œλ‹€. λ¬Όλ‘  νšŒκ·€λͺ¨ν˜•μ„ μ΄μš©ν•΄ μ•Œμ§€ λͺ»ν•˜λŠ” 자료의 νŠΉμ§•μ„ '예츑'ν•˜λŠ” 것은 κ²°μ½” 쉽지 μ•Šμ€ μΌμ΄κΈ°λŠ” ν•˜μ§€λ§Œ, μ›λ‘ μ μœΌλ‘œ μ΄μ•ΌκΈ°ν•œλ‹€λ©΄ 이런 것에도 써먹을 수 μžˆλ‹€λŠ” 이야기이닀. 그런 μ˜λ―Έμ—μ„œ, 'νšŒκ·€λΆ„μ„'이 'κ²°κ³Όμ—μ„œ μ›μΈμœΌλ‘œμ˜ μ—­μ‚°'이라고 μ΄μ•ΌκΈ°ν•˜λŠ” 것은 νšŒκ·€λΆ„μ„μ˜ μΌλΆ€λΆ„λ§Œμ„ μ„€λͺ…ν•˜λŠ” 것밖에 μ§€λ‚˜μ§€ μ•ŠλŠ”λ‹€.

 

νšŒκ·€ 방정식은 λ…λ¦½λ³€μˆ˜ ν‘œλ³Έμ˜ λ²”μœ„λ₯Ό λ²—μ–΄λ‚˜λŠ” 값에 λŒ€ν•œ μ˜ˆμΈ‘μ— μ“°λ©΄ μ•ˆ λœλ‹€. μ—¬κΈ°μ—μ„œ μ“°λ©΄ μ•ˆλœλ‹€λŠ” κ²ƒμ˜ μ˜λ―ΈλŠ” '값을 ꡬ할 μˆ˜λŠ” μžˆμ§€λ§Œ κ·Έ κ²°κ³Όκ°€ 그닀지 μœ μ˜ν•œ μ˜λ―ΈλŠ” μ—†λ‹€'λŠ” 것이닀. μ„ ν˜•μΆ”μ •μ˜ νŠΉμ§• 쀑 ν•˜λ‚˜κ°€ ꡬ간좔정을 ν–ˆμ„ λ•Œ, λ³€μˆ˜λ“€μ˜ ν‘œλ³Έν‰κ· λ²‘ν„°μ—μ„œ μ˜ˆμΈ‘κ΅¬κ°„μ΄ κ°€μž₯ 쒁고, κ·Έ μ μ—μ„œ λ©€μ–΄μ§ˆμˆ˜λ‘ ꡬ간이 λ„“μ–΄μ§„λ‹€λŠ” 것이닀. 같은 μœ μ˜μˆ˜μ€€ ν•˜μ—μ„œλΌλ©΄ μ˜ˆμΈ‘κ΅¬κ°„μ€ μ’μ„μˆ˜λ‘ μ’‹λ‹€. 그런데 λ…λ¦½λ³€μˆ˜μ˜ 값이 ν‘œλ³Έμ˜ λ°–μœΌλ‘œ λ„˜μ–΄κ°€λ©΄ 예츑 ꡬ간이 λ„ˆλ¬΄ λ„“μ–΄μ Έμ„œ 예츑의 μ˜λ―Έκ°€ μ—†κΈ° λ•Œλ¬Έμ΄λ‹€.

이해가 ν•„μš”ν•œ λΆ€λΆ„ 같은데 잘λͺ¨λ₯΄κ²ŸμŒ.

 

일반적으둜 예츑된 Y κ°’κ³Ό μ‹€μ œ 데이터 μ‚¬μ΄μ—λŠ” μ˜€μ°¨κ°€ μ‘΄μž¬ν•œλ‹€. 였차의 양은 λ‹€μ–‘ν•˜μ§€λ§Œ 평균적인 였차의 양은 μƒκ΄€κ΄€κ³„μ˜ 강도와 μ§μ ‘μ μœΌλ‘œ μ—°κ΄€λœλ‹€.

 

μ’…μ†λ³€μˆ˜μ˜ μ˜ˆμΈ‘κ°’(predicted value, fitted value)κ³Ό μ’…μ†λ³€μˆ˜ μ‹€μ œκ°’(actual value)의 상관 κ³„μˆ˜ r의 제곱인 κ²°μ • κ³„μˆ˜(coefficient of determination)R^2은 "전체 μ œκ³±ν•© μ€‘μ—μ„œ νšŒκ·€ μ œκ³±ν•©μ΄ μ„€λͺ…ν•˜λŠ” 비쀑", 즉 "λͺ¨ν˜•μ˜ μ„€λͺ…λ ₯"이닀.

 

-1 ≀ r ≀ 1

0 ≀ R^2 = SSR/SST ≀ 1

 

총 μ œκ³±ν•©(total sum of square)이 SST, νšŒκ·€ μ œκ³±ν•©(regression sum of square)이 SSR, μž”μ°¨ μ œκ³±ν•©(residual sum of square)이 SSE이닀. 단, μœ„μ˜ 뢀등식은 μ ˆνŽΈμ„ ν¬ν•¨ν•œ μ„ ν˜•νšŒκ·€μ— λŒ€ν•΄μ„œλ§Œ μ„±λ¦½ν•œλ‹€.

μœ„ λΆ€λΆ„κΉŒμ§€λ§Œ 봐도 될 λ“―

 

 

β—Ž μ°Έμ‘°

νšŒκ·€ 뢄석 - λ‚˜λ¬΄μœ„ν‚€ (namu.wiki)

 

μ—‘μ…€λ‘œ νšŒκ·€λΆ„μ„ ν•˜κΈ° : 넀이버 λΈ”λ‘œκ·Έ (naver.com)

 

μ—‘μ…€λ‘œ νšŒκ·€λΆ„μ„ ν•˜κΈ°

μ˜€λŠ˜μ€ 엑셀을 톡해 νšŒκ·€λΆ„μ„(Regression Analysis)을 ν•˜λŠ” 법을 λ°°μ›Œλ³΄κ² μŠ΅λ‹ˆλ‹€. 데이터λ₯Ό λ³΄μ‹œλ©΄, 16λͺ…...

blog.naver.com

 

μ—‘μ…€λ‘œ 톡계 λΆ„μ„ν•˜λŠ” 방법 : 넀이버 λΈ”λ‘œκ·Έ (naver.com)

 

μ—‘μ…€λ‘œ 톡계 λΆ„μ„ν•˜λŠ” 방법

μ—‘μ…€λ‘œ 톡계 뢄석 ν•˜λŠ” 방법에 λŒ€ν•΄ μ•Œμ•„λ³Όκ²Œμš”. 엑셀이 톡계 μ „λ¬Έ ν”„λ‘œκ·Έλž¨μ€ μ•„λ‹ˆμ§€λ§Œ, 톡계 νŒ¨ν‚€μ§€μ˜ 라...

blog.naver.com

 

λ°˜μ‘ν˜•