대부분의 공대생은 학부 1-2학년 과정에 확률 과목이 포함 되어있다. 나는 고 모교수님이 진행하시는 확률 및 랜덤프로세스 라는 이름의 강의를 들었는데, 당시에는 친구와 함께 공대 회장에 도전하겠다는 아름다운 명분을 가지고 당당하게 시험지에 이름만 쓰고 나왔다. 그 수업에서 기억에 남는 것은 random variable 이라는 단어 하나.. 그리고 우리가 관측하는건 다 랜덤이구나 근데 내 학점은 랜덤이 아니었구나 역시 인생은 열심히 살아야해 라는 다짐을 마음에 새기는 것으로 확률과의 인연은 마무리 되는 듯 했다.
하지만 그 후의 연계과목들은 계속해서 확률에 대한 배경지식을 요구했고, 그 때마다 다시 확률 책을 꺼내보면서 (당시에도 위키피디아가 있긴 했는데 지금처럼 대중적이지는 않아서 인터넷 검색보다는 교과서를 먼저 보는 것이 습관이었다) 부족했던 부분을 채워나갔다. 대학원에 와서도 나의 성취도는 별반 다를게 없었는데, 그래도 예전에는 헷갈렸던 부분이 조금씩 단단해 지는 느낌이 들면서 속도가 붙기 시작했다. 오늘 내가 포스팅 하고 싶은 내용은 대학원에 와서야 깨달았던 dependence와 correlation의 차이의 이해에 관한 것이다.
확률과목에서 아주 유명한 명제가 있다. 두 랜덤 변수 에 대해서
-
가 independent하면 uncorrelated이다.
-
하지만 역은 성립하지 않는다 (uncorrelated라고 해서 independent는 아니다).
아주 쉬운 내용이다. 학부 1-2학년이 비웃고 갈지도 모르지만 나에게는 대학원 와서도 여전히 혼란스러운 명제였다. 두 변수가 독립적이면 상관이 없는데, 상관이 없으면 독립이 아닐 수도 있다니. 이게 도대체 무슨 말일까. 나와 같은 이유로 헷갈렸던 사람들에게 나의 설명이 도움이 되었으면 좋겠다.
사실 이 명제가 헷갈리는 이유는 단순하다. 영어로는 분명히 다른 뉘앙스를 주는 표현인지는 확실히 모르겠으나, 한국어로는 독립적independent이라는 단어와 상관이없는uncorrelated이라는 표현을 둘 다 그저 관계가 없다는 것이구나라고 이해하기 쉽다. 이렇게 인생을 대충 살면 위의 명제를 말로 풀었을 때 관계가 없으면 관계가 없지만 관계가 없다고 해서 관계가 없는 것은 아니다 라는 참담한 해석이ㅠㅠ 나온다. 둘의 정의는 엄연히 다르며 아래 그림과 같은 포함 관계를 가진다.
두 변수 가 독립적independent이라는 의미는, 두 변수에 대한 사건event이 동시에 일어날 확률은 각각이 개별적으로 발생할 확률을 곱한 것과 같다는 것이다:
.
주사위와 동전을 각각 로 생각하면 쉽다. 주사위를 통해 숫자를 얻는 과정과 동전을 던지는 과정은 독립적으로 수행된다. 그러므로 주사위가 6이 나오는 동시에 동전이 앞면이 나올 확률은 간단하게 각각을 곱해서 계산할 수 있다:
.
반면 correlation은 선형적인 관계만을 기술하는 단어이다. 변수 하나를 다른 변수의 사칙연산으로 표현 가능 할 때, 두 변수는 correlation이 1인 관계라고 말할 수 있다 ( iff ). 그러니까, 두 변수가 uncorrelated라는 것은 두 변수에 대한 수 많은 관계식 중에서 오직 선형적인 관계식 하나만 만족하지 않는 것이고, independent는 어떤식으로건 두 변수간의 관계식을 표현할 수 없음을 뜻한다.
예를 들면, 랜덤 변수 는 -1과 1사이에 uniformly distributed 되어 있고, 랜덤 변수 는 를 제곱해서 얻어진다고 하자 (). 둘 사이의 관계가 선형적이지는 않으니 uncorrelated이다. 하지만 제곱이라는 관계가 있으므로 는 에 dependent하다. 즉, 위 명제의 역이 성립하지 않는 경우다 (uncorrelated인데 dependent하다). 결론적으로, uncorrelatation이 위 그림과 같이 넓은 의미에서의 관계없음을 정의하는 말이라면, independence는 보다 엄격한 의미에서의 관계없음 이라고 할 수 있다. 계산량에 있어서도, 두 랜덤 변수의 independence를 체크하는 연산이 correlation 계수에 대한 계산보다 훨씬 더 많을 수 밖에 없다.
comments powered by