![](https://t1.daumcdn.net/cfile/tistory/2517FA3C538411B315)
![](https://t1.daumcdn.net/cfile/tistory/23466E3C538411B33B)
OLS 최소제곱법: Yhat(예측된Y값) and Y(원래Y값) 두값에 대한 최소의 직선관계를 찾는 것이 OLS이다.
BLUE 최적선형불편추정
(1)Linearity 직선관계이어야 한다.
(2)No Multicollinearity 다중공선성이 없어야 한다. (R < 0.7 공차 > 0.4랑 VIF < 4를 봐야한다.)
다중공선성이란 중다회귀모형에 포함된 독립변수들이 서로 지나치게 밀접한 관게를 가짐으로 인해 분석결과를 왜곡시키는 경우가 발생하는데 이러한 현상을 가리켜 다중공선성이라고 한다.
(3)No Autocorrelation 자기상관성 (Durbin-Watson값이 1.5보다 크고 2.5보다 작으면 자기상관성이 없다.)
자기상관성이란 패널연구와 같은 시계열자료에서 흔히 볼 수 있는데
(4)No Heteroscadasticity = Homoscedasiticity 이분산성 = 등분산성,동분산성
등분산성이란 어떤 독립변수의 모든 변수값에 대해 오차들의 분산이 일정해야 한다는 것을 의미한다.
이분산성이란 모든 변수값에 대해 오차들의 분산이 일정하지 않은 것을 가리킨다.
(5)Normality 정규성
(6)No Outlier 이상점
![](https://t1.daumcdn.net/cfile/tistory/263E583C538411B41F)
자기상관성, 이분산성, 정규성은 Errors과 과련이있다.
![](https://t1.daumcdn.net/cfile/tistory/2772AB3C538411B419)
Diagnosis 진단 scatterplot 우리가 측정한것 과 예측한 Y값의 차이 그림5를 보면 첫번째 사진이 정상이고 이분산성이 없는 동분산이 가정된 것이다. 뒤에있는 사진은 잘못된 것이다.
![](https://t1.daumcdn.net/cfile/tistory/2133413C538411B420)
다중공선성
Tolerence value 허용값, 공차한계라고도 한다. 0.4(0.2)보다 크면 다중공선성이 없는것이다. 반면에 VIF는 4보다 작으면 다중공선성이 없는 것이다.
자기상관성
Durbin-Watson값이 1.5보다 크고 2.5보다 작으면 자기상관성이 없다.
이상점
Leverage 에있는 K는 사례수이다. CD는 Cook's Distance이다.
![](https://t1.daumcdn.net/cfile/tistory/2613D83C538411B515)
![](https://t1.daumcdn.net/cfile/tistory/2218773C538411B504)
![](https://t1.daumcdn.net/cfile/tistory/23605D3F5384223B10)
![](https://t1.daumcdn.net/cfile/tistory/2111FD42538422850D)
![](https://t1.daumcdn.net/cfile/tistory/2121E03F5384223B1C)
사회복지 자료분석론 POP QUIZ 17
(1)가난한 국가일수록 출산율이 높다는 가설을 증명하시오.
![](https://t1.daumcdn.net/cfile/tistory/2749BA455386C1F733)
![](https://t1.daumcdn.net/cfile/tistory/241C44455386C1F702)
![](https://t1.daumcdn.net/cfile/tistory/251C35455386C1F728)
변두가 두개이기 때문에 공선성 진단을 하 필요가 없다. 변수가 다양하게 있을 때 공선성 진단을 해야한다.
위 변수들이 타임시리즈가 아니라서 Durbin-Watson값은 볼 필요가 없다.
Durbin-Watson값은 autocorrelation을 확인하기 위해서 쓰는 것이다.
![](https://t1.daumcdn.net/cfile/tistory/2158E4445386C2BB19)
이분산성을 보기 위해서 도표의 Y에는 ZRESID를 X에는 ZPRED를 넣는다.
![](https://t1.daumcdn.net/cfile/tistory/23098B445386C2BB10)
아웃라이어를 보기위해서 거리의 Magalanobis의 거리 Cook의 거리 레버리지 값을 봐야한다.
![](https://t1.daumcdn.net/cfile/tistory/237018425386C33D24)
![](https://t1.daumcdn.net/cfile/tistory/223222425386C33D1B)
(2)영아사망율 변수를 통제한 가운데 위 가설을 증명하시오
![](https://t1.daumcdn.net/cfile/tistory/2338AC3E5386C37C37)
![](https://t1.daumcdn.net/cfile/tistory/213C003E5386C37C14)
![](https://t1.daumcdn.net/cfile/tistory/240C883E5386C37D08)
(3) (2)번의 회귀식은 다중회귀분석이 가지는 기본적인 가정을 모두 충족하고 있습니까?
하나. 공차값이 0.2보다크고 VIF가 4보다 작으면 Safe 한 것이다.
둘. 변두가 두개이기 때문에 공선성 진단을 하 필요가 없다. 변수가 다양하게 있을 때 공선성 진단을 해야한다.
셋. 위 변수들이 타임시리즈가 아니라서 Durbin-Watson값은 볼 필요가 없다.
다중공선성문제는 더욱 심각해짐 이분산성
(4)LogGNP와 square root death에 기초하여 다중회귀분석을 실시하고, 결과를 (2)번의 그것과 비교하시오
![](https://t1.daumcdn.net/cfile/tistory/2176B0365386C4BA17)
![](https://t1.daumcdn.net/cfile/tistory/221875365386C4BB04)
![](https://t1.daumcdn.net/cfile/tistory/2473C8365386C4BC19)
![](https://t1.daumcdn.net/cfile/tistory/2769B8365386C4BC20)
상수의 유의확률이 0.05를 넘는 것은 그렇게 크게 신경안써도 된다.
loggnp가 0.05<0.430이므로 logGnp를 볼 필요가 없다.
![](https://t1.daumcdn.net/cfile/tistory/27577A365386C4BC2C)
(1)메탄의 양에 대한 광산의 깊이의 회귀분석을 실시하고, 결과를 해석하시오.
![](https://t1.daumcdn.net/cfile/tistory/2231233C5386C5AA31)
![](https://t1.daumcdn.net/cfile/tistory/2741AA3C5386C5AA1D)
![](https://t1.daumcdn.net/cfile/tistory/242C5C3C5386C5AA32)
(2)위 회귀식에 기초하여, residuals(e)과 predicted values(Y hat)의 평균값과 sd를 구하시오
![](https://t1.daumcdn.net/cfile/tistory/2272B13B5386C66706)
![](https://t1.daumcdn.net/cfile/tistory/2315D03B5386C66718)
(3)위 모형과 관련하여, 가장 문제가 되는 회귀식의 기본과정은 무엇입니까?
Durbin-Watson 값은 0.874인데 변수가 두개여서 볼 필요가 없다.
R = 0.870 이고 87%로 광산이 메탄을 설명하고 있다.
이분산성이 문제가 된다. 정규성도 완벽하지가 않다.
이분산성을 고쳤으나 정규성이 흐트러진다.
(4)메탄의 양에 대한 logarithm 광산의 깊이 (log10 X)의 회귀분석을 실시하고, 결과를 해석하시오.
![](https://t1.daumcdn.net/cfile/tistory/255FC7335386C6CC36)
![](https://t1.daumcdn.net/cfile/tistory/247596335386C6CD1B)
![](https://t1.daumcdn.net/cfile/tistory/231DE9335386C6CD10)
![](https://t1.daumcdn.net/cfile/tistory/256B1E335386C6CD01)
(5)위 모형과 관련하여, 가장 문제가 되는 회귀식의 기본가정은 무엇인지 제시하시오.
정규성(normality)가 가장 문제가 된다.