OLS 최소제곱법: Yhat(예측된Y값) and Y(원래Y값) 두값에 대한 최소의 직선관계를 찾는 것이 OLS이다.
BLUE 최적선형불편추정
(1)Linearity 직선관계이어야 한다.
(2)No Multicollinearity 다중공선성이 없어야 한다. (R < 0.7 공차 > 0.4랑 VIF < 4를 봐야한다.)
다중공선성이란 중다회귀모형에 포함된 독립변수들이 서로 지나치게 밀접한 관게를 가짐으로 인해 분석결과를 왜곡시키는 경우가 발생하는데 이러한 현상을 가리켜 다중공선성이라고 한다.
(3)No Autocorrelation 자기상관성 (Durbin-Watson값이 1.5보다 크고 2.5보다 작으면 자기상관성이 없다.)
자기상관성이란 패널연구와 같은 시계열자료에서 흔히 볼 수 있는데
(4)No Heteroscadasticity = Homoscedasiticity 이분산성 = 등분산성,동분산성
등분산성이란 어떤 독립변수의 모든 변수값에 대해 오차들의 분산이 일정해야 한다는 것을 의미한다.
이분산성이란 모든 변수값에 대해 오차들의 분산이 일정하지 않은 것을 가리킨다.
(5)Normality 정규성
(6)No Outlier 이상점
자기상관성, 이분산성, 정규성은 Errors과 과련이있다.
Diagnosis 진단 scatterplot 우리가 측정한것 과 예측한 Y값의 차이 그림5를 보면 첫번째 사진이 정상이고 이분산성이 없는 동분산이 가정된 것이다. 뒤에있는 사진은 잘못된 것이다.
다중공선성
Tolerence value 허용값, 공차한계라고도 한다. 0.4(0.2)보다 크면 다중공선성이 없는것이다. 반면에 VIF는 4보다 작으면 다중공선성이 없는 것이다.
자기상관성
Durbin-Watson값이 1.5보다 크고 2.5보다 작으면 자기상관성이 없다.
이상점
Leverage 에있는 K는 사례수이다. CD는 Cook's Distance이다.
사회복지 자료분석론 POP QUIZ 17
(1)가난한 국가일수록 출산율이 높다는 가설을 증명하시오.
변두가 두개이기 때문에 공선성 진단을 하 필요가 없다. 변수가 다양하게 있을 때 공선성 진단을 해야한다.
위 변수들이 타임시리즈가 아니라서 Durbin-Watson값은 볼 필요가 없다.
Durbin-Watson값은 autocorrelation을 확인하기 위해서 쓰는 것이다.
이분산성을 보기 위해서 도표의 Y에는 ZRESID를 X에는 ZPRED를 넣는다.
아웃라이어를 보기위해서 거리의 Magalanobis의 거리 Cook의 거리 레버리지 값을 봐야한다.
(2)영아사망율 변수를 통제한 가운데 위 가설을 증명하시오
(3) (2)번의 회귀식은 다중회귀분석이 가지는 기본적인 가정을 모두 충족하고 있습니까?
하나. 공차값이 0.2보다크고 VIF가 4보다 작으면 Safe 한 것이다.
둘. 변두가 두개이기 때문에 공선성 진단을 하 필요가 없다. 변수가 다양하게 있을 때 공선성 진단을 해야한다.
셋. 위 변수들이 타임시리즈가 아니라서 Durbin-Watson값은 볼 필요가 없다.
다중공선성문제는 더욱 심각해짐 이분산성
(4)LogGNP와 square root death에 기초하여 다중회귀분석을 실시하고, 결과를 (2)번의 그것과 비교하시오
상수의 유의확률이 0.05를 넘는 것은 그렇게 크게 신경안써도 된다.
loggnp가 0.05<0.430이므로 logGnp를 볼 필요가 없다.
(1)메탄의 양에 대한 광산의 깊이의 회귀분석을 실시하고, 결과를 해석하시오.
(2)위 회귀식에 기초하여, residuals(e)과 predicted values(Y hat)의 평균값과 sd를 구하시오
(3)위 모형과 관련하여, 가장 문제가 되는 회귀식의 기본과정은 무엇입니까?
Durbin-Watson 값은 0.874인데 변수가 두개여서 볼 필요가 없다.
R = 0.870 이고 87%로 광산이 메탄을 설명하고 있다.
이분산성이 문제가 된다. 정규성도 완벽하지가 않다.
이분산성을 고쳤으나 정규성이 흐트러진다.
(4)메탄의 양에 대한 logarithm 광산의 깊이 (log10 X)의 회귀분석을 실시하고, 결과를 해석하시오.
(5)위 모형과 관련하여, 가장 문제가 되는 회귀식의 기본가정은 무엇인지 제시하시오.
정규성(normality)가 가장 문제가 된다.
'학교(3학년1학기) > 사회복지자료분석' 카테고리의 다른 글
Assignment (0) | 2014.06.09 |
---|---|
수업 - 6월 3일 (화) 5일 (목) (0) | 2014.06.03 |
수업 - 5월 13일 (화) 15일 (목) (0) | 2014.05.13 |
수업 5월 8일 (0) | 2014.05.08 |
수업 - 5월2일(목) Pearson r score (0) | 2014.05.01 |