1.사회과학 연구방법
명제와 가설
과학의 본질은 사물이나 현상의 관계성(relationship)을 경험적으로 규명하는데 있다. 같은 맥락에서 사회과학은 사회적 현상이나 개념들의 관계를 탐구하고 그 흐름을 밝히는 학문이라 하겠다. 일반적으로 과학적 연구에서 관계 없는 개념들을 연구 주제로 선택하는 경우는 거의 없다. 즉 사회과학연구의 핵심은 서로 관계가 있을 법한 개념들의 관계성을 경험적으로 증명해 내는 것이라 하겠다.
명제(proposition): 개념과 개념간의 관계를 논리적으로 도출한 문장을 뜻한다. 예로 가정1.교육수준이 높으면 더 행복할 것이다. 가정2.교육수준이 높으면 덜 행복할 것이다. 명제가 성립되려면 두 개 이상의 개념과 그 개념들의 방향성(direction)이 필요하다.
정적 관계(positive relationship): 가정1 과 같이 두 개념이 같은 방향으로 변화하는 관계.
부적관계(negative relationship): 가정2 와 같이 두 개념이 서로 다른 방향으로 변화하는 관계.
이론적 틀(theoretical frame): 연구자는 보통 기존 이론에 기초하여 자신의 연구명제를 설정한다. 여기서 보통 기존이론이 이론적 틀이다.
탐색적 연구(exploratory study):축적된 이론이 전무한 새로운 개념을 연구에 도입할 때 연구자는 관계의 방향성에 관심을 두기 보다는 개념들간의 관계 그 자체를 밝히는데 초점을 두게 되는데 이러한 형태의 연구를 가리켜 탐색적 연구라고 한다.
연구명제는 경험적 검증이 가능하도록 두 단계의 정제과정(개념화와 조작화)을 거치게 된다. 첫번째 과정은 연구에서 사용될 개념의 범위를 명확히 한정하는 것이다. 두번째 과정은 개념화의 과정을 통해 일단 그 범위가 한정된 개념을 현실에서 측정(measurement) 가능하도록 만드는 것이다.
개념화: 오해의 여지를 줄이기 위해 우리 연구에서 사용되는 개념이 정확히 무엇을 의미하는지 규정해 주는 과정을 개념화라한다.
조작화: 개념화의 과정을 통해 일단 그 범위가 한정된 개념을 현실에서 측정 가능하도록 만드는 것이다.
변수:조작화를 거친 개념 즉 경험적으로 측정 가능한 수준의 개념을 가리켜 변수라고 한다.
오늘날 사회과학에서는 추상성이 강한 개념들을 측정하는 좋은 방법은 이미 개발되어있는 타당성(validity)과 신뢰성(reliability)을 검증 받은 측정도구를 사용하는 것이다. 특히 조작화의 과정에서 연구자들이 반드시 고려해야 할 사항이 있는데 그것은 바로 측정가능성(feasibility)이다. 아무리 좋은 변수라 하더라도 실제 데이터를 얻는 과정에서 많은 제한이 있다면 이는 결코 좋은 변수라 할 수 없다. 따라서 연구자는 변수를 설정할 때 타당성과 신뢰성을 검토하는 것과 더불어 변수의 측정가능성을 꼭 확인해야 한다
"교육수준이 높으면 더 행복할 것이다."를 개념화와 조작화의 과정을 거쳐 연구자는 개념들을 변수로 대체한 새로운 서술문을 만들 수 있다. "정규교육을 받은 연수가 긴 사람일수록 생활만족도지수가 높을 것이다"라는 서술문은 기존 명제를 측정 가능한 수준으로 끌어내린 것이다. 결국 연구자는 연구가설이 옳은지 그른지를 경험적으로 검증해 봄으로서 연구문제의 해답을 찾아내느 것이다. 따라서 가설은 연구의 핵심이며 자료분석의 기본 틀이라 할 수 있다.
가설:변수들간의 관계성으로 구성된 문장을 뜻한다. 위의 "정규교육을 받은 연수가 긴 사람일수록 생활만족도지수가 높을 것이다" 이 가설이다.
가설의 검증
가설이 설정되면 이제 남은 단계는 가설을 직접 검증하는 것이다. 우선 연구대상을 결정해야하고 연구대상이 결정되면 이제 연구자는 그 연구대상을 통하여 가설을 검증하게 된다. 가장 완벽하게 가설을 검증하기 위해서는 연구대상에 속한 모든 개체(individual)들을 다 조사해야 할 것이다. 모든개체를 조사하는 데는 막대한 경비와 시간이 소요됨으로 연구대상중에서 일부만을 선택하여 조사하고 전체연구대상의 성격을 추론한다.
연구대상: 연구자가 연구결과를 적용시키고자 하는 집단 즉 연구의 주된 관심이 되는 집단을 의미한다.
추론(inference): 전체 연구대상중에서 일부만을 선택하여 조사한 후 그 결과를 바탕으로 전체 연구대상의 성격을 파악하는 것.
표본(sample): 전체 연구대상 중에서 선택된 일부를 가리켜 표본이라 한다.
표본추출: 전체 연구대상 중에서 선택하는 과정.
여기까지 오면은 연구자는 무엇을 측정할 것인지(가설) 그리고 누구를 대상으로 측정 할 것인지(표본)에 대해 결정하였다. 이제 남은 과제는 어떻게 측정할지(연구설계)를 결정하는 것이다. "두 변수가 서로 관계 있다"는 것과 "어떤 변수가 다른 변수에 영향을 준다"는 것은 엄연히 다른 문제이다.
인과성(causality): "어떤 변수가 다른 변수에 영향을 준다"를 뜻한다.
인과관계와 통계
인과관계의 성립 조건: ①두 변수간에 상관관계가 있다. ②하나의 변수(원인)가 다른 변수(결과)를 시간적으로 선행한다. ③두 변수간의 관계가 외부의 다른 변수로부터 영향 받지 않는다.
지금까지 개발된 그 어떤 통계기법도 연구자에게 원인과 결과를 직접 제시해 주지는 않는다. 원인변수와 결과변수를 구분하는 것은 전적으로 연구자의 논리에 달려 있다. 이 논리는 이론을 통해 정당화 될 수 있다. 연구에서는 생활만족도에 미치는 영향 요소들은 다양하다. 이에 반해 우리 연구에서는 이런 요소들에 대한 고려가 전혀 없기 때문에 교육연수가 생활만족도에 미치는 순수한 영향을 가려내기 어렵다. 그래서 통제를 해야한다. 사회과학연구에서 다른 변수들을 통제하는 궁극적인 이유는 주요 변수간의 인과관계를 정확히 파악하기 위해서다.
통제(control): 연구자가 보고자 하는 변수만 남기고 나머지 조건은 다 동일하게 만드는 것이다. 이렇게 조건을 동일하게 만드는 것을 가리켜 통제라고한다.
통제방법중 가장 직접적인 통제방법은 표본에서 동일한 조건을 지닌 개체만 추려내는 것이다. 그러나 이러한 방법으로 변수들을 통제한다면 엄청난 크기의 표본이 필요하다. 변수가 많을 수록 표본의 크기도 더 커야하기 때문에, 이와 같은 방식의 통제는 실현가능성이 희박할 뿐만 아니라 매우 비효율적이다. 그래서 두번째 방법인 실험설계를 통해 다른 요인들을 통제한다.
실험설계(experimental design)의 필요충분조건:
①무작위표본추출(random sampling): 연구대상(혹은 모집단)에서 표본을 추출할 때 확률표본추출법(probability sampling)을 사용하는 것을 의미한다.
②무작위할당(random assignment):이렇게 추출된 표본을 실험집단과 통제집단으로 배정할 때 역시 확률표본추출법을 사용하는 것을 의미한다.
③실헙집단(experiment group)과 통제집단(control group): 실험집단이란 계획된 개입을 제공하는 집단이고, 통제집단이란 개입을 제공하지 않는 집단을 의미한다.
실험설계는 우선 무작위 표본추출과 무작위할당을 통해 '확률적'으로 나머지 조건들을 동일하게 만든다. 이제 다른 변수들을 통제한 가운데 개입(원인변수)을 제공하고 실험집단과 통제집단의 차이(결과변수)를 관찰함으로써 두 변수간의 정확한 인과성을 파악하는 것이다. 연구자는 회귀분석이라는 통계기법을 통해 여러 변수들을 한꺼번에 분석하고 통계적으로 통제할 수 있다. 통계적 통제를 통해 연구자는 원인변수와 결과변수의 순수한 관계성을 파악할 수 있을 뿐만 아니라 그 외의 변수들이 결과변수에 얼마나 영향을 미치는지 개별적으로 파악할 수도 있다. 그래서 사람들이 회귀분석을 사용한다.
2. 변수의 유형
독립변수(independent variable): 연구모형에서 원인이 되는 변수를 독립변수라고 한다. 설명변수와 예측변수도 이와 같다.
종속변수(dependent variable): 결과가 되는 변수, 반응변수 피예측변수라고도 한다.
매개변수(intermediate variable):독립변수의 영향을 받아서 이를 다시 종속변수에 전달하는 변수가 있는데 이를 가리켜 매개변수라 한다. 매개변수는 독립변수의 입장에서는 영향을 받는 종속변수이지만 종속변수의 입장에서는 영향을 미치는 독립변수로 작용한다.
통제변수(control variable): 우리가 직접 관심을 갖는 변수는 아니지만 독립변수와 종속변수간에 순수한 인과성을 파악하기 위해 연구모형에 포함시키는 변수가 통제변수이다.
독립변수나 종속변수를 규전하는 것과 마찬가지로 어떤 변수를 매개변수로 혹은 통제변수로 설정할 것인가는 전적으로 이론에 근거한 연구자의 판단에 달려있다. 실제 통계분석을 통해 얻은 자료에는 변수들간의 관계 정도만 나타난다. 변수는 연구모형에서 어떤 역할을 하느냐에 따라 독립변수나 종속변수로 혹은 매개변수나 통제변수로 구분되기도 하지만 그 자체가 지니는 속성에 따라 다른 방식으로 구분되기도 한다. 보다 엄밀히 말해서 어떤 형태의 변수값을 갖느냐에 따라 그 변수의 수준이 달라지는 것이다.
변수값:변수가 갖는 하위범주를 의미하며 실제 변수를 측정하는 단위이기도 하다.
명목변수(nominal variable): 측정대상의 특징을 구분만 할 수 있는 변수이다. 명목변수에서는 변수값들 간에 서열이나 크기가 존재하지 않는다. 가령 성별이라는 변수는 남성과 여성이라는 두 개의 변수값을 갖는다. 이 때 남성은 '1'로 여성은 '2'로 표현할 수 있는데 이는 단지 기호일 뿐이지 여성이 남성의 2배라거나 남성이 여성보다 높거나 낮다고 말 할 수는 없다. 실제 사회과학에서 사용되는 많은 변수들이 명목변수에 속한다. 거주지역(경기도:1, 충청도:2, 전라도:3, 경상도:4 등)이라던가 지지정당(공화당:1, 민주당:2 자유당:3)과 같은 변수들이 여기에 속한다.
서열변수(ordinal variable): 변수값들 간에 순서(서열)가 존재하는 변수이다. 예컨대 생활만족도라는 변수를 '매우 만족:1, 만족:2, 불만족:3, 매우 불만족:4'으로 측정할 수 있다 이 때 각 변수값들 간에는 일정한 순서가 존재한다. 즉 변수의 값이 커질수록 불만족도가 커진다는 것을 의미한다. 그러나 순서 사이의 거리가 같다고 할 수 없기 때문에 변수값들의 정확한 크기는 알 수는 없으며 따라서 사칙연산도 불가능하다.
등간변수(interval variable): 변수값의 순서뿐만 아니라 순서 사이의 가격을 알 수 있는 변수로 지능지수나 생활만족도등과 같은 척도들이 여기에 속한다. 가령 100점 만점의 생활만족도를 측정하여 갑의 점수는 80점 을의 점수는 40점이라고 했을 때 갑이 을보다 더 높은 만족도를 보인다고 할 수 있으며 그 차이는 40점이라고 말 할 수 있다. 그러나 사회과학영역에서 엄밀한 의미의 등간변수는 그리 많지 않다. 생활만족도의 예만 보더라도 갑이 을보다 높은 만족도를 보인다고 말할 수 있을 뿐이지 40점의 차이가 정확히 무엇을 의미하는지 알 수는 없다. 또한 등간변수는 비율변수와 달리 절대값 0이 존재하지 않는다. 즉 생활만족도 점수가 0이라고 해서 그 사람의 만족도가 전혀 없다는 것은 아니기 때문이다. 따라서 원칙적으로 곱하기와 나누기가 불가능하나 사회과학영역에서는 이를 허용하는 것이 일반적이다.
비율변수(ratio variable): 등간변수의 모든 특성에 더하여 절대값 0이 포함된 변수이다. 따라서 비율변수에서는 사칙연산이 완전히 가능해진다. 그러나 아쉽게도 사회과학영역에서 비율변수의 형태로 측정할 수 있는 변수는 그리 많지 않다. 대표적인 비율변수는 소득이나 가족 수 등이라 하겠다.
높은 수준의 변수형태는 낮은 수준의 변수형태로 전환할 수 있지만 그 반대는 불가능하다. 예를 들어 소득수준을 비율변수로 측정한 후 연구모형에 따라 얼마든지 등간변수나 서열변수로 바꿀 수 있지만 일단 서열변수로 측정된 소득수준을 비율변수나 등간변수로 바꿀 수는 없다. 실제 사회과학연구에서는 간단한 방식으로 변수를 구분하는 것이 일반적이다. 보편적으로 등간변수와 비율변수는 연속변수(continuous variable)로 그리고 명목변수와 서열변수는 범주형변수(categorical variable)로 구분한다. 학자에 따라서는 연속변수를 양적변수(quantitative variable)로 범주형변수를 질적변수(qualitative variable)로 부르기도 한다. 연속변수인지 범주형변수인지 구분하는 것이 중요한 이유는 어떤 형태의 변수들이 결합했느냐에 따라 분석 가능한 통계기법이 다르기 때문이다.
변수의 결합 형태 |
가능한 분석 방법 | |
이분/다분변수 - 이분/다분변수 다분변수 - 연속변수 연속변수 - 연속변수 |
카이제곱(chi-square)검증 t-검증(t-test) 분산분석(ANOVA) 상관분석(correlation) | |
종속변수 |
연속변수 이분변수 다분변수 |
선형회귀분석(linear regression) 다항로지스틱(multinomial logistic regression) |
3. 유용한 통계 기법들
'학교(3학년1학기) > 사회복지자료분석' 카테고리의 다른 글
수업 - 3월 25일 (화) (0) | 2014.03.25 |
---|---|
수업 3월 20일 (0) | 2014.03.20 |
수업 - 3월 11일, 13일 (화) (목) (0) | 2014.03.11 |
수업 - 3월 6일 (목) (0) | 2014.03.06 |
사회복지자료분석 - 실습계획표 (0) | 2014.01.28 |