달력

22025  이전 다음

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28

'학교(3학년1학기)/사회복지자료분석'에 해당되는 글 17건

  1. 2014.06.10 기말
  2. 2014.06.09 Assignment
  3. 2014.06.03 수업 - 6월 3일 (화) 5일 (목)
  4. 2014.05.27 수업 - 27일(화) 29(목)
  5. 2014.05.13 수업 - 5월 13일 (화) 15일 (목)
  6. 2014.05.08 수업 5월 8일
  7. 2014.05.01 수업 - 5월2일(목) Pearson r score
  8. 2014.04.10 수업 - 4월 10 일 (목)
  9. 2014.04.08 수업 - 4월 8일 (화)
  10. 2014.04.03 수업 - 4월 3일 (목)

log했을때 정규성을 완화하기 위해서 하는 것이다.

log후에 한쪽으로 더욱 치우친다면 square를하는 것이다.

그다음에 시도하는것이 root이다.

그래도 안되면 조사에서 빼자?

이 변수는한쪽에 치우친데이타라는 것이라고 알 수가 있다.

대체로 소득이나 큰 것들

 

chi-square

R score

회귀분석

 

표준화된 계수는 단위를 동일화 한 것이다.!!!!!

대부분 B값과 표준오차값을 써서 통계분석을 한다.

 

상수에는 큰 의미를 두지 말자.

log나 square, root를 한우 변수를 log변수다 square변수다라고할필요는 없다. 그저 변수라고 하면된다.

 

통계에서 중요시하는 것 3가지 1.빈도 2.평균 3.correlation상관관계,연관성

 

시험에 이상점이 나왔을 때 지워야하나?

'학교(3학년1학기) > 사회복지자료분석' 카테고리의 다른 글

Assignment  (0) 2014.06.09
수업 - 6월 3일 (화) 5일 (목)  (0) 2014.06.03
수업 - 27일(화) 29(목)  (0) 2014.05.27
수업 - 5월 13일 (화) 15일 (목)  (0) 2014.05.13
수업 5월 8일  (0) 2014.05.08
Posted by 전설의아이
|

1. jawhal2.sav는 충북지역 자활지원사업에 참여하고 있는 사람들의 다양한 정보를 가지고 있는 자료입니다. 자료에 기초하여 다음의 문제를 해결하시오.

변수에 대한 설명

(1) 연령() (2) 성별 (1: 여성, 2: 남성) (3) 교육년수 ()

(4) 가구수급형태 (1: 조건부수급자 중 비취업대상자, 2: 조건부수급자 중 취업대상자,

3: 일반수급자, 4: 자활특례자, 5: 차상위계층 및 일반 저소득층)

(5) 가구근로소득 () (6) 가족 수 () (7) 참여기간 () (8) 자활의지 ()

(1) ‘자활의지에 영향을 미치는 변수들이 무엇인지 연속변수들만 포함하여 분석하고, 분석

결과를 설명하세요.

변수

계수

표준오차

t

 

연령()

0.007

0.004

1.93

 

가구근로소득()

2.412E-007

0.000

2.822

**

가족 수()

0.037

0.02

1.819

 

참여기간()

-0.01

0.004

-2.549

*

상수

3.382

0.219

15.411

 

0.058

F

4.956 **

. * P < 0.05, ** P < 0.01, *** P < 0.001

 위 표에 의하면 충북지역 자활지원사업에 참여하고 있는 사람들이 자활의지에 영향을 미치는 변수들은 연령, 가구근로소득, 가족 수, 참여기간이 있다. 이 중에서 가구근로소득이 높을 수록 자활의지에 많은 영향을 미치는 것으로 나타났으며, 다음으로는 참여기간이 짧을 수록 자활의지가 높은 것으로 결과가 나왔다. 연령과 가족 수는 자활의지에 영향을 미치지만 엄청난 영향을 미치지 않는 것으로 나왔고 교육년수와 자활의지와는 전혀 상관이 없는 것으로 밝혀졌다.

 

(2) 새롭게 분석 모형을 구성하여 분석합니다. 우선 수급형태 변수를 일반수급자와 그 외로

구분하여 recoding하십시오. 그 변수와 성별 변수를 분석 모델에 포함하고, (1) 모델에서 유

의미하지 않았던 연속변수를 분석 모델에서 제외합니다. 이 모델에 대한 분석 후, 결과를 설

하세요. 모델은 회귀식의 기본 가정을 모두 충족시키고 있습니까?

변수

계수

표준오차

t

 

연령()

0.008

0.004

2.053

*

가구근로소득()

2.181E-007

0.000

2.542

*

가족 수()

0.037

0.02

1.809

 

참여기간()

-0.011

0.004

-2.664

**

일반수급자

-0.24

0.118

-2.031

*

상수

3.409

0.219

15.581

 

0.07

F

4.828 ***

. * P < 0.05, ** P < 0.01, *** P < 0.001

 새롭게 분석 모형을 구성한 후 충북지역 자활지원사업에 참여하고 있는 사람들이 자활의지에 영향을 미치는 변수들은 연령, 가구근로소득, 가족 수, 참여기간, 일반수급자가 있다. 성별이란 변수를 포함하였으나, 남녀 간에 자활지원사업에 참여할 때 자활의지와는 무관한 것으로 나타났다. 참여기간이 적을수록 자활의지가 가장 높은 것으로 나왔으며 그 다음으로는 가구근로소득의 증가, 연령의 증가, 기타수급자인 순으로 자활의지가 높게 나오는 것으로 나왔다. 가족 수는 자활의지에 아주 미미한 영향을 미치는 것으로 나왔다.

모델의 회귀식은 패널연구나 시계열 자료가 아니고 Durbin-Watson값이 1.734 로 나왔으므로 자기상관성이 없다. 각 변수들간의 상관계수를 분석한 결과 유의미한 확률에서는 0.7이상인 값이 없었고 공차와 VIF값은 전부다 공차는 0.4 이상 VIF4 이하로서 다중공선성이 없는 것으로 결과가 나왔다. 산점도를 보면 고르게 퍼져있는 이상점이 없는 그림이 나왔다. 마지막으로 중심극한정리에 의해서 사례수가 330이고 도표를 보면 정규성은 보장이 되었다. 이로써 이 모델은 회귀식의 기본 가정을 모두 충족하고 있다.

 

(3) 종속변수를 자활의지 **2transform 한 뒤, 동일한 독립변수에 기초하여 분석하고,

결과를 설명하세요. 모델은 회귀식의 기본 가정을 모두 충족시키고 있습니까?

변수

계수

표준오차

t

 

연령()

0.056

0.027

2.03

*

가구근로소득()

1.522E-006

0.000

2.37

*

가족 수()

0.311

0.152

2.048

*

참여기간()

-0.083

0.03

-2.745

*

일반수급자

-1.869

0.885

-2.111

*

상수

12.003

1.638

7.328

 

0.071

F

4.972 ***

. * P < 0.05, ** P < 0.01, *** P < 0.001

 종속변수를 자활의지 **2transform 한 뒤, 동일한 독립변수에 기초하여 분석한 결과 충북지역 자활지원사업에 참여하고 있는 사람들이 자활의지에 영향을 미치는 변수들은 연령, 가구근로소득, 가족 수, 참여기간, 일반수급자가 있다. 성별이란 변수를 포함하였으나, 남녀 간에 자활지원사업에 참여할 때 자활의지와는 무관한 것으로 나타났다. 연령은 높을수록, 가구근로소득은 높을수록, 가족 수가 많을수록, 참여기간이 적을수록, 기타수급자일수록 자활의지가 증가하는 영향을 미치는 것으로 나타났다.

모델의 회귀식은 패널연구나 시계열 자료가 아니고 Durbin-Watson값이 1.712 로 나왔으므로 자기상관성이 없다. 각 변수들간의 상관계수를 분석한 결과 유의미한 확률에서는 0.7이상인 값이 없었고 공차와 VIF값은 전부다 공차는 0.4 이상 VIF4 이하로서 다중공선성이 없는 것으로 결과가 나왔다. 산점도를 보면 고르게 퍼져있는 이상점이 없는 그림이 나왔다. 마지막으로 중심극한정리에 의해서 사례수가 330이고 도표를 보면 정규성은 보장이 되었다. 이로써 이 모델은 회귀식의 기본 가정을 모두 충족하고 있다.

'학교(3학년1학기) > 사회복지자료분석' 카테고리의 다른 글

기말  (0) 2014.06.10
수업 - 6월 3일 (화) 5일 (목)  (0) 2014.06.03
수업 - 27일(화) 29(목)  (0) 2014.05.27
수업 - 5월 13일 (화) 15일 (목)  (0) 2014.05.13
수업 5월 8일  (0) 2014.05.08
Posted by 전설의아이
|

 

 

 

 


 

 

변수설명어느지역에 오염된 땅이나 물이 발견되었다.

 

종속변수 (Y)의속성이 ( 2 ) 개일 경우 로지스틱 ( 3 )개 이상일 경우 멀티Norninal를쓴다.

P는 이벤트가 발생할 확률 특정사건이 발생할 빈도

Odds 오즈 하나의 사건이 발생할 확률과 하나의 사건이 발생하지 않을 확률

Odds = P / 1 - P (위의피피티가 잘못된 것이다.)

Log(Odds) = Log (P / 1 - P)

Log(P / 1 - P) = β0 + β1x1 + ······ + βixi + ε

 

 

Wald

R제곱 값은 허구의 값을 구한다.

 

 

 산점도를 그리면 종속변수를 가장 잘 설명하는 선을 찾아야 하는데 위의 산점도를 보면 적절한 선을 찾지 못하기 때문에 로지스틱 회귀모형을 쓴다.

 

 

 

 

PPT5.Results 는 이런 과정을 통해서 나온 것이다.

 

 

변수가 없었을 때의 값

 

변수를 하나 넣었을 때의 값

 

 

모형에다가 변수를 하나 넣었을 때의 값이 좋아졌다? 나빠졌다? 를 알려주는 표 유의확률이 0.05보다 크면 안좋은 것

 

R제곱 값처럼 해석하면 된다. 8.7%로설명한다. 11.7%로 설명한다.

-2 Log 우도를 비교함으로 써 이 숫자가 0에 가까울 수록 좋은 값이다.

 

휴교하기를 원하는 것을 감소한다. 부적인 관계 유의미한 수 이다.

Exp(B)를 통해서 학교를 닫을 수 있는 확률은 1보다 작으면 반대 1보다 크면 찬성이란 것을 알 수가 있다.

 

 

 

여기서 -2 Log 우도 값이 위의 -2 Log 우도 값보다 작으니 7가지 요인으로 설명하는 것이 좋은 것이다.

이 표를 보면 B에서 -가 있는 것은 부정적인 것이고 +는 정적인 것이다.

유의확률을 보면 0.05 보다 작은것을 보고 큰것을 지운다 여기서는 female 과 kids를 지운다.

Exp(B)를 통해서 1보다 작으면 반대이고 1보다 크면 찬성하는 것이다. 여기서는 hsc가 11.223으로 제일 찬성한다.

 

 

female 과 kids를 지운후 새롭개 다시 한다.

여기서도 일반 회귀분석처럼 전진 후진 개념이 있다.

 

여기서는 이 분산성의 문제는 신경을 안 써도 된다. 왜냐면 이분산성문제 때문에 Odds로 바꾸었지 때문이다.

여기서는 다중공선성과 아웃라이어에 대해서

다중공선성을 판별하는 방법은 첫째, 독립변수 끼리 상관관계분석을 하던가, 둘째 독립변수 하나를 종속변수로 하여 나머지 독립변수는 원래 독립변수에 넣어서 로지스틱 회귀분석을 한 후 공차(TOL)와 VIF 값을 본다.

 

이것을 하는 이유는 비교집단중 참조범주를 마지막으로 설정하였을때 한 집단 안에서의 카테고리별로 비교하는 방법이다.

 

돌렸을 때의 결과물이 우리에게 말해주는 것이 무엇인가?

 

 

팝퀴즈19번

 

 

1번과 2,3,4번과 비교를 한것이고

범주형을 하면 아래그림 처럼 나온다.

 

 

범주형을 marr를 설정로 한후에 하면 marr 1 과 marr 2가 뜨는데

이것은 중간에 있는 변수와 비교를 한 값을설명하는 것이다.

 

 

이것은 변수가 5개있을 때 log우도 값이 469.042가 나왔고

 

위에있는 edu값이 유의미하지 않기 때문에 제거를 한 후 분석을 돌리면 log 우도 값은 468.664가 나온다.

 

 

'학교(3학년1학기) > 사회복지자료분석' 카테고리의 다른 글

기말  (0) 2014.06.10
Assignment  (0) 2014.06.09
수업 - 27일(화) 29(목)  (0) 2014.05.27
수업 - 5월 13일 (화) 15일 (목)  (0) 2014.05.13
수업 5월 8일  (0) 2014.05.08
Posted by 전설의아이
|

 

 

OLS 최소제곱법: Yhat(예측된Y값) and Y(원래Y값) 두값에 대한 최소의 직선관계를 찾는 것이 OLS이다.

BLUE 최적선형불편추정

(1)Linearity 직선관계이어야 한다.

(2)No Multicollinearity 다중공선성이 없어야 한다. (R < 0.7 공차 > 0.4랑 VIF < 4를 봐야한다.)

 다중공선성이란 중다회귀모형에 포함된 독립변수들이 서로 지나치게 밀접한 관게를 가짐으로 인해 분석결과를 왜곡시키는 경우가 발생하는데 이러한 현상을 가리켜 다중공선성이라고 한다.

(3)No Autocorrelation 자기상관성  (Durbin-Watson값이 1.5보다 크고 2.5보다 작으면 자기상관성이 없다.) 

 자기상관성이란 패널연구와 같은 시계열자료에서 흔히 볼 수 있는데

(4)No Heteroscadasticity = Homoscedasiticity 이분산성 = 등분산성,동분산성

 등분산성이란 어떤 독립변수의 모든 변수값에 대해 오차들의 분산이 일정해야 한다는 것을 의미한다.

 이분산성이란 모든 변수값에 대해 오차들의 분산이 일정하지 않은 것을 가리킨다.

(5)Normality 정규성 

(6)No Outlier 이상점

자기상관성, 이분산성, 정규성은 Errors과 과련이있다.

 

 Diagnosis 진단 scatterplot 우리가 측정한것 과 예측한 Y값의 차이 그림5를 보면 첫번째 사진이 정상이고 이분산성이 없는 동분산이 가정된 것이다. 뒤에있는 사진은 잘못된 것이다.

 

다중공선성

 Tolerence value 허용값, 공차한계라고도 한다. 0.4(0.2)보다 크면 다중공선성이 없는것이다. 반면에 VIF는 4보다 작으면 다중공선성이 없는 것이다.

 

자기상관성

 Durbin-Watson값이 1.5보다 크고 2.5보다 작으면 자기상관성이 없다. 

 

 이상점

Leverage 에있는 K는 사례수이다. CD는 Cook's Distance이다.

 

 

 

 

 

 

 

사회복지 자료분석론 POP QUIZ 17

(1)가난한 국가일수록 출산율이 높다는 가설을 증명하시오.

 

 

 

변두가 두개이기 때문에 공선성 진단을 하 필요가 없다. 변수가 다양하게 있을 때 공선성 진단을 해야한다.

위 변수들이 타임시리즈가 아니라서 Durbin-Watson값은 볼 필요가 없다.

Durbin-Watson값은 autocorrelation을 확인하기 위해서 쓰는 것이다.

 

이분산성을 보기 위해서 도표의 Y에는 ZRESID를 X에는 ZPRED를 넣는다.

 

아웃라이어를 보기위해서 거리의 Magalanobis의 거리 Cook의 거리 레버리지 값을 봐야한다.

 

 

 

(2)영아사망율 변수를 통제한 가운데 위 가설을 증명하시오

 

 

 

(3) (2)번의 회귀식은 다중회귀분석이 가지는 기본적인 가정을 모두 충족하고 있습니까?

하나. 공차값이 0.2보다크고 VIF가 4보다 작으면 Safe 한 것이다.

둘. 변두가 두개이기 때문에 공선성 진단을 하 필요가 없다. 변수가 다양하게 있을 때 공선성 진단을 해야한다.

셋. 위 변수들이 타임시리즈가 아니라서 Durbin-Watson값은 볼 필요가 없다.

다중공선성문제는 더욱 심각해짐 이분산성

 

 

(4)LogGNP와 square root death에 기초하여 다중회귀분석을 실시하고, 결과를 (2)번의 그것과 비교하시오

 

 

 

 

상수의 유의확률이 0.05를 넘는 것은 그렇게 크게 신경안써도 된다.

loggnp가 0.05<0.430이므로 logGnp를 볼 필요가 없다. 

 

 

 

 

 

 

 

(1)메탄의 양에 대한 광산의 깊이의 회귀분석을 실시하고, 결과를 해석하시오.

 

 

 

(2)위 회귀식에 기초하여, residuals(e)과 predicted values(Y hat)의 평균값과 sd를 구하시오

  

 

(3)위 모형과 관련하여, 가장 문제가 되는 회귀식의 기본과정은 무엇입니까?

Durbin-Watson 값은 0.874인데 변수가 두개여서 볼 필요가 없다.

R = 0.870 이고 87%로 광산이 메탄을 설명하고 있다.

이분산성이 문제가 된다. 정규성도 완벽하지가 않다.

이분산성을 고쳤으나 정규성이 흐트러진다.

 

 

(4)메탄의 양에 대한 logarithm 광산의 깊이 (log10 X)의 회귀분석을 실시하고, 결과를 해석하시오.

 

 

 

 

(5)위 모형과 관련하여, 가장 문제가 되는 회귀식의 기본가정은 무엇인지 제시하시오.

정규성(normality)가 가장 문제가 된다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

'학교(3학년1학기) > 사회복지자료분석' 카테고리의 다른 글

Assignment  (0) 2014.06.09
수업 - 6월 3일 (화) 5일 (목)  (0) 2014.06.03
수업 - 5월 13일 (화) 15일 (목)  (0) 2014.05.13
수업 5월 8일  (0) 2014.05.08
수업 - 5월2일(목) Pearson r score  (0) 2014.05.01
Posted by 전설의아이
|

간단하게표현: Y = aX +b

단순회귀분석: Y = β1X1 + β0 + ε   (Ordingary Least Square Linear Simple Regression)

X 라는 것이 Y에 대한 영향력을 파악하는 것이 단순 회귀 분석이다.

다중회귀분석: Y = β1X1 + β2X2 + ... + βiXi + β0 + ε   (Ordingary Least Square Linear Multiple Regression)

각각의 X 라는 것이 Y에 대한 영향력을 파악하는 것이 다중 회귀분석이다.

 

Linear Regression mean the X and Y should be line relation in graph

직선관계가 되려면 X와Y는 직선관계가 되어야 한다.

 

Logistic Regression

Muliti?nowlege Regression

 

Data

X(결석횟수)

10 

12 

14 

Y(점수)

 

X-meanX 

Y-meanY 

 Sxy

 SSx

 Yhat

 ε=(Y -Yhat)

 ε제곱(RSS)

 SSy(TSS)

 9

 -6

 3

 -18

 36

 8.4  0.6  0.36  9

 4

 6

 -4

 0

 0

 16

 7.6  -1.6  2.56  0

 6

 8

 -2

 2

 -4

 4

 6.8  1.2  1.44  4

 8

 7

 0

 1

 0

 0

 6  1  1  1

 10

 5

 2

 -1

 -2

 4

 5.2  -0.2  0.04  1

 12

 3

 4

 -3

 -12

 16

 4.4  -1.4  1.96  9

 14

 4

 6

 -2

 -12

 36

 3.6  0.4  0.16  4

 meanX=8

meanY=6 

 

 

 Sum=-48

 Sum = 112

     7.52 (OLS값)  28

회귀계수a = Sxy / SSx = [Σ(X - mean X)(Y -mean Y)/(n - 1)] / [Σ(X - mean X)게곱 / (n -1)] = -0.4

a = -0.4 meanX = 8 meanY = 6

위세가지를 통해서

b갑을 구할수가있다. b = 9.2

Y = -0.4X + 9.2

Sxy 와 SSx 를 구해서 위의 Y = -0.4X + 9.2이 공식을 구한후에

이제 이 새로운 식에다가 X값을 넣은 후에 Y값을 구하고

기존의 Y값과 새로운 Yhat값의 차이를 구한다 = ε = (Yi -Yhat)

ε끼리 그냥 더하면 값이 0 이므로 ε제곱값을 구한다. ε제곱값을 다합친 값이 OLS값이 된다.

위의 Y = -0.4X + 9.2 공식을 이용하여 Y값과 Yhat값을 구하고 RSS, ESS, TSS를 구한다.

RSS = (Yi - Yhat)제곱 7.52

TSS = (Yi - meanY)제곱 = 28

ESS = (Yhat - meanY)제곱

R제곱 = 0.7314

영가설 H0 : β = 0

전체에 대한 영가설은 H0 : β1 = β2 = 0

 

1. slope기울기 and equation

2. predicted value and residuals

3. RSS, ESS, TSS

4. R제곱 = ESS / TSS = 1 - RSS / TSS

5. t test : beta = 0, significant test for slope

6. F test : beta 1 = beta 2 = 0, Goodness of Fit test

7. dummy variable

8. basic assumptions for regression analysis

9. Transformation

10. interaction term

 

WLS

GLS

Y = 50X + 30

 

 


농구선수들의 play 시간과 득점에 대한 data이다. 회귀분석을 실시하라. 

시간

득점 

10 

17 

26 

37 

17 

65 

50 

26 

37 

 

 

 

 

 

R값이 0.982라는 뜻은 98.2%로 시간에 따라 득점이 높다는 것을 매우 잘 설명해준다.

 

 

 

교육수준이 높으면 소득수준이 높다는 가설이 있다. income.sav 자료에 기초하여

(1)학년수와 근로소득 간 관계를 회귀분석하고, 그 결과를 해석하시오

 

 

R제곱 = 0.152 15.2%로 학년수는 근로소득을 설명하고 있으므로 쓸모가 없다. Y = 9.89X +25.56

(2)연령과 근로소득 간 관계는 어떠한가?

 

 

R제곱 = 0.055 5.5%로 연령은 근로소득을 설명하고 있으므로 쓸모가 없다. Y = -2.03X + 227.16

5.5%라는 의미는 어떤 역할을 하지 못한다는 뜻이다. 연령의 영향력이 없으니 아래의 회귀식에서는 굳이 이 데이타를 사용할 필요가 없다.

(3)연령을 통제한 가운데, 학년수와 근로소득 간 관계는 어떠한가?

 

 

 

R제곱 = 0.152 15.2%로 학년수와 연령수가 근로소득을 설명하고 있으므로 쓸모가 없다. Y = 9.5X1 -0.24X2 + 41.435

위의 식을 설명을 할 때 ①연령변수를 통제하였을 때 학년 변수가 9.5씩 올라간다. ②학년수를 통제하였을 때 연령이 증가합에 따라 소득은 0.24식 줄어든다. 통제라는 의미는 변수를 통제한다는 뜻이다.

 

회귀분석에는 남자와 여자, 교수와 학생등 두개의 명목변수로 구성된것도 회귀분석이 가능하다. 이것을 dummy varies라고한다.

'학교(3학년1학기) > 사회복지자료분석' 카테고리의 다른 글

수업 - 6월 3일 (화) 5일 (목)  (0) 2014.06.03
수업 - 27일(화) 29(목)  (0) 2014.05.27
수업 5월 8일  (0) 2014.05.08
수업 - 5월2일(목) Pearson r score  (0) 2014.05.01
수업 - 4월 10 일 (목)  (0) 2014.04.10
Posted by 전설의아이
|

Concord1.Sav는 1981년 Concord, New Hampshire 시의 Water Department에서, 496가구를 대상으로, 물 소비량과 관련 변수를 조사한 자료이다.

water81: 81년도 물소비량, people81: 81년도 가구원수, income: 년소득(천달러), educ: 교육년수(년), retire: 은퇴여부(1:은퇴)

 

(1) 물소비량(water use in 1979,1980,1981)간 상관관계는 어떻습니까?

 

상관관계가 모두 0.5보다 크고 1에 가까우니 물소비량이 비슷하다는 것을 알 수가 있다.

 

(2)가구원수, 소득, 교육년수 변수 간 상관관계는 어떻습니까?

이문제는 81년도를 기준으로 하기로 정했다. 위의 박스 설명에는 81년도를 기준으로 잡고 있어서 그렇다.

 

분석결과 유의확률이 0.05보다 낮으면 받아들이 만한 것인데 상관계수는 0.346으로 0.5보다 낮음으로 상관이 없다이다.

 

(2)위 6개 변수 간 상관관계는 어떻습니까?

 

 

 

 

 

 

 

 

Posted by 전설의아이
|

 Pearson r score 에 대해서 배웠다.

 

↑여기서다양한 것을 볼수가 있다

 

유의확률을 봐서 해당되지 않을 경우 Pearson 상관계수를 볼 필요가 없다.

유의확률이 0.05보다 큰지? 아닌지를 확인해봐야함

유의확률이 0.05보다 작을 경우 볼필요가없고

유의확률이 0.05보다 클경우 볼 필요가 있다.

 

PopQuiz 11

농구선수들의 Play 시간과 득점에 대한 data이다. 아래의 자료에 기초하여 두 변수간의 상관관계분석을 실시하라.

 

 

 

그래프를 보고 싶으면↓

 

 

 

'학교(3학년1학기) > 사회복지자료분석' 카테고리의 다른 글

수업 - 5월 13일 (화) 15일 (목)  (0) 2014.05.13
수업 5월 8일  (0) 2014.05.08
수업 - 4월 10 일 (목)  (0) 2014.04.10
수업 - 4월 8일 (화)  (0) 2014.04.08
수업 - 4월 3일 (목)  (0) 2014.04.03
Posted by 전설의아이
|

 

 

 

 

 

Group A, B, C  간의 mean score의 차이가 있나?

통계 

Group A 

 Group B

Group C 

전체 그룹 

 Mean

17.27 

20.95 

31.80 

25.7 

sd 

3.41 

2.72 

2.95 

6.92 

11 

19 

30 

60 

BSS(집단간평균), WSS(집단내평균), TSS 값은 각각 몇인가?

BSS = 11(17.27)제곱 + 19(20.95)제곱 + 30(31.8)제곱 - (11x17.27+ 1 9x20.95 + 30x31.8)제곱/60 = 2326.7

WSS = (11-1)3.41제곱 + (19 - 1)2.72제곱 + (30-1)2.95제곱 = 501.8

(BSS/K-1)/(WSS/N-K)=132.1 > 3.15

 

 

사례/집단

집단 1(청소년 복지)

집단 2(노인복지)

집단 3(장애인복지) 

49 

56 

54 

52 

57 

52 

52 

57 

56 

53 

60 

50 

49 

60 

53 

 

집단1

mean = 51

제곱합 = 14

집단2

mean =  58

제곱합 = 14

집단3

mean = 53

제곱합 = 20

총집단

총mean = 54

총제곱합 = 130

집단간제곱합 = 총집단제곱합 = 130

집단내제곱합 = 집단1제곱합 + 집단2제곱합 + 집단3제곱합 = 14+14+20 = 48

자유도로 나누기

집단간분산 = 집단의 수 -1 = 3 - 1 = 2

집단내분산 = 전체사례수 - 집단수 = 15 - 3 = 12

①집단간제곱합/집단간분산 = 130/2 = 65

②집단내제곱합/집단내분산 = 48/12 = 4

F = ①/② = 65/4 = 16.25

유의확률 P= 0.000<0.05

가설인 H0: 유1=유2=유3 Reject가 됨으로

원가설인 '청소년복지 집단, 노인복지 집단, 장애인복지 집단 간 종속자들의 직무만족도에는 차이가 있을 것이다.'는 맞다. 

 

 

'학교(3학년1학기) > 사회복지자료분석' 카테고리의 다른 글

수업 5월 8일  (0) 2014.05.08
수업 - 5월2일(목) Pearson r score  (0) 2014.05.01
수업 - 4월 8일 (화)  (0) 2014.04.08
수업 - 4월 3일 (목)  (0) 2014.04.03
수업 - 4월 1일 (화)  (0) 2014.04.01
Posted by 전설의아이
|

 

 

 

종속변수 continuous 독립변수 categorical

Independent T-test 위주로한다.

자유도개념알아두자!!!!!!!!!!!!!!!!!!!!!!!!!!!

 

 

 

n은 사람들의 숫자를 의미한다.

우리는 아래 자료에 기초하여 남자가 여자보다 mean score가 높다고 말할 수 있나?

①mean score for men=571.1 sd=91.2 n=9

②mean score for women=493.6 sd=83.0 n=22

여기서①의 n 은 n1이고 ②의 n 은 n2이다. 위의 공식에 대입해서 공통표준오차인 SEp를 구해야한다.

 

전제: 언제쓰느냐?

전제1: 하나는 독립변수어야하고 하나는 종속변수어야 한다.

전제2: 두개의집단의 종속변수는 정규분포를 띄어야 한다.

전제3: 두개의 집단이 등분산을 가져야한다.

 

 

 

 

Question: TV시청에 관한 남녀 간 차이를 알아보자

 

남성 

여성 

평균 

4.224 

1.784 

표준편차

0.389 

0.369 

사례수 

25 

25 

①가설의 설정 H0: 4.224 = 1.784  H1:4.224 ≠ 1.784

②알파수준의 결정(0.05) = 0.05

③df구하기 df = n1 + n2 -2 = 25 + 25 - 2 = 48

④알파수준과 df를 이용하여, critical value구하기 = 책봐야함

⑤SDp=Root{[(25-1)(0.389제곱)+(25-1)(0.369제곱)]/(25+25-2)}

         = Root[(24*0.151321+24*0.136161)/48]

   = Root[24*0.287482)/48]

   = Root(6.899568/48)

   = Root 0.143741

   = 0.3791319031682773

   = 0.38

   SEp= SDp Root(1/n1+1/n2)

   = 0.38 Root 2/25

   = 0.38 * 0.28

   = 0.1064

   t = mean1-mean2 / SEp

     = (4.224-1.784)/0.1064

     = 2.44/0.1064

     = 22.93

 

 

'학교(3학년1학기) > 사회복지자료분석' 카테고리의 다른 글

수업 - 5월2일(목) Pearson r score  (0) 2014.05.01
수업 - 4월 10 일 (목)  (0) 2014.04.10
수업 - 4월 3일 (목)  (0) 2014.04.03
수업 - 4월 1일 (화)  (0) 2014.04.01
수업 - 3월 25일 (화)  (0) 2014.03.25
Posted by 전설의아이
|

 

 

가설을 테스트한다는 것은

가설: 변수의 관계 간에 대한 잠정적 결론

모집단의 특성 추정, 가설을 만들고 가설이 정확한지 안한지 추론 분석을 통해 확인한다.

0가설:Null Hypothesis 과 대립 가설:Alternative Hypothesis

우리가 가지는 평균의 값이 특정 값과 같다(0가설) or 같지 않다(대립가설).

만들어진 가설을 테스트하는데 이 테스트하는 가설이 0가설이다.

0가설은 대부분 부정적인 표현이 있다. 

보통 0가설을 테스트를 함으로서 기각하게되면 1가설이 True가 되고 만약 기각이 안된다면 0가설이 True이다.

 

Question:공업진흥청의 자료에 의하면, 우리나라 여성의 평균 키는 160cm라고 한다. 정말로 여성의 평균키가 160cm인지를 검증하기 위해, 한 class64명의 여대생을 대상으로 그들의 키를 측정하였다. 표본이 된 집단의 평균 키는 163cm 이었고, 표준편차는 4cm 이었다. 검증의 결과는 어떠한다.

Answer: n=64 rootn=8 SD=4 SE=0.5 Qmean=160 Tmean=163

H0:163=160 H1:163≠160

68% mean ± SE = 162.5~163.5

95%mean ±  SE = 162~164

99%,mean ± SE = 161.5~164.5

160 is out of 99%mean ± SE

so H0 be reject H1 is true

if we use Z-score

Z=분모:163-160 / 분자 4/Root64 =3/(1/2)=6 

Z-score=6>Critical Value=1.96

so we can reject H0, then H1 is true

 

 

 

 

Z값이 Critical value 보다 크면 reject So H0≠H1

 

 

 

검정값에다가 검증할 값을 치면 컴터에서 P값을 알려준다.

실제로 컴퓨터에서할때는 p값을 그냥 주기 때문에 0.05 보다 작으면 reject이고 0.05보다 크면 Cannot reject이다.

자유도: n-1 주어진 조건중에서 자유롭게 변할 수 있는수

 

 

ANOVA:3개이상의 집단을 비교하는 것[Ex: ①학년별(1~4학년) 자료분석론 평균점수 비교, ②취업형태별(정규직, 임시직, 일용직) 평균 소득수준의 비교, ③학력별(초졸, 중졸, 고졸, 대졸) 평균 소득수준의 비교]

t-test(independent):두 개의 집단 한심점을 비교[Ex; ①남성과 여성의 자료분석론 평균점수 비교, ②고소득자와 저소득자의 자동차보유대수 비교, ③가구주여부(가구주, 비가구주)의 평균소득 비교]

Chi-square test:집단간 비교를 할때[Ex: ①학년별(1~4학년) 종교(기독교, 천주교, 불교) 비교, ②학력별(초졸, 중졸, 고졸, 대졸) 소득수준(상층, 중층, 하층) 비교]

t-test(paired): 하나의 집단 두개의 시점을 비교[Ex: ①실험집단의 자아존중감 사전, 사후검사 점수 비교, ②통제집단의 IQ 사전, 사후검사 점수 비교]

 

귀무가설이 실제 옳은데도 불구하고 검정 결과가 그 가설을 기각하는 오류를 말한다. 알파오류(α-error)라고도 한다. 이에 대해 틀린 귀무가설이 옳은 것으로 받아들여지는 오류를 제2종 오류라 한다.

 

 

 

'학교(3학년1학기) > 사회복지자료분석' 카테고리의 다른 글

수업 - 4월 10 일 (목)  (0) 2014.04.10
수업 - 4월 8일 (화)  (0) 2014.04.08
수업 - 4월 1일 (화)  (0) 2014.04.01
수업 - 3월 25일 (화)  (0) 2014.03.25
수업 3월 20일  (0) 2014.03.20
Posted by 전설의아이
|