본문 바로가기
Reference/Statistics

상관 분석

by study room 2020. 4. 9.
반응형

상관 분석

변수의 관계성 정도

상관관계분석(correlation analysis)의 기본적인 목적은 변수간의 관계성을 파악하는 것이다.

예를 들어, 국어점수와 산수점수간의 관계성이 어떠한가를 알고자 할 때 대표적으로 상관관계분석을 수행하게 된다.

ANOVA가 변수간의 인과성을 검증하는 대표적인 방법이라면, 상관은 변수간의 관계성만을 파악하는 방법이다.

따라서 상관관계분석에서는 국어점수는 원인변수이고 산수점수는 결과변수이다.

혹은 그 반대이다와 같이 진술할 수 없다.

변수의 관계성 정도는 관계성의 강도라 할 수 있다.

보통 상관은 상관계수(correlation coefficient: r)로 표시되는데, 상관계수 r이 크다는 것은 두 변수가 강한 관계성을 가지고 있다는 의미이다.

변수 관계성의 방향

상관관계분석은 변수간 관계성의 정도를 나타내지만 관계성의 방향을 함께 설명한다.

상관계수 r-1.0에서 +1.0까지의 범위를 갖는다(-1.0r +1.0). 상관계수 r+1.0이라는 의미는 완전한 정적상관, 즉 국어점수와 산수점수가 완전히 1:1로 완전히 일치하며 국어점수가 증가할 때 산수점수가 동일한 점수로 증가하는 것을 말한다.

예를 들어, 5명의 학생이 각각 국어점수는 10, 20, 30, 40, 50점이고 산수점수도 10, 20, 30, 40, 50점이라면 r=+1.0이 된다.

한편 r=-1.0이라면, 국어점수와 산수점수가 일치하지만 국어점수가 증가할 때 산수점수는 거꾸로 감소한다는 것을 말한다.

예를 들어, 5명 학생의 국어점수는 10, 20, 30, 40, 50점이고 산수점수는 50, 40, 30, 20, 10점이라면 r=-1.0이 된다.

상관의 문제와 예측의 문제

상관관계분석은 본질적으로 상관의 문제(XY)이며, 예측의 문제(XY 혹은 YX)의 문제는 아니다.

예측의 문제는 회귀분석의 주된 목적이다.

그럼에도 불구하고, 상관의 문제가 종종 예측의 문제로 대두되는 것은 상관과 회귀가 이론적으로 매우 근접해 있기 때문이다.

보통 회귀식은 Y=bx+c로 표시되고 회귀계수 b는 상관계수와 각 표준편차로 구해진다.

따라서 X에서 Y를 예측하는 경우(XY)Y에서 X를 예측하는 경우(YX)를 생각한다면, 상관은 두 가지의 예측(XY)을 모두 포함한다.

회귀식 Y=bx+c가 최소자승의 원리에 따라 변수 X를 통해 예측되는 Y의 점수범위를 선을 그릴 수 있으며, 이를 회귀선이라 한다. 따라서 (XY)(YX)를 고려할 때, 두 변수의 관계성(즉 상관의 문제)에서 두 개의 회귀선을 가정할 수 있으므로 결국 상관은 예측의 문제가 된다.

그래서 상관계수 r이 크다는 것은 예언력이 높다는 것을 말하고, XY의 예언의 오차가 작아짐을 의미한다.

실제 상관의 일반 정의공식 를 표준화시키면 이 되고, 회귀계수 b를 표준화시키면 된다. r=β이고 zy'=rzx가 된다. 그러므로 rβ는 다음과 같은 관계를 갖는다.

 

zy'=rzx에서 r에 의해 y'z점수가 예측된다. 즉 회귀의 정도를 알 수 있다.

rxyryx에서 두 개의 회귀선을 가정할 수 있다.

r2(결정계수)의 해석은 회귀정도를 해석하는 것이 된다. 이와 같은 해석은 변량의 관점에서 해석된다.

 

상관관계의 해석

일반적으로 모수통계에서 사용되는 상관계수 r은 피어슨의 적률상관(Pearson‘s product moment correlation)을 말한다.

상관계수 r의 의미는 앞서 설명하였으므로 여기서는 r의 해석에 대해 논의하기로 한다.

상관계수 r은 결정계수 r2로 해석된다.

r이 클 때 예언의 오차가 작다는 것은 변량적 관점에서 예언되지 않는 변량(오차변량)이 작다는 것을 말한다. 간단히 Y의 전체변량 = X에 의해 예측되는 변량 + X에 의해 예측되지 않는 변량이라고 하면, r=±1.0일 때 X에 의해 예측되지 않는 변량은 0이 된다.

Y의 전체변량이 X에 의해 예언됨을 말한다.

r은 전체변량에서 예언되는 부분이므로 r2X에 의해 설명되는 Y의 변량비율이다.

예를 들어, r=.90이면 r2=.81이므로 Y변량의 81%X에 의해 설명된다는 것을 말한다.

 

상관관계분석의 기본가정

분포의 정상성(normality)

다른 모수통계와 마찬가지로 변수들의 분포가 정상분포하여야 한다.

정상성에 대한 가정은 집단의 크기가 충분히 클 때 중심극한정리에 의해 만족될 수 있다.

또한 SPSS for Windows의 메뉴에서 'GraphicQ-Q...'를 선택하여 각 변수의 정상성을 확인할 수 있다.

독립된 측정

모든 집단의 측정치는 모두 독립적으로 측정되어야 한다.

등간척도 이상의 측정수준

피어슨의 적률상관을 산출하기 위해 변수들은 최소한 등간척도 이상으로 측정되어야 한다.

상관분석

 

반응형

'Reference > Statistics' 카테고리의 다른 글

모수검정과 비모수 검정  (0) 2019.07.31