(이 글에서는 Uniform 분포, 독립성분분석(ICA)에 대한 Uniform 분포 측면에서의 설명을 쓴다.)
가장 유용한 확률분포는 무엇일까. 그것은 바로 (가끔 어떤이들이 말하던데) Uniform 분포이다. 이상하게 들릴 것이다. Uniform 분포는 아무 정보도 주지 못하지 않는가.
사실 Uniform 분포는, 아무 정보도 주지 못 한다는 정보는 준다. 그리고 그게 매우, 대단히 중요한 정보이다. 역설적이게도.
예를 들어보자.
어떤 해의 9월에 태어난 아이들은 (다른 달보다) A형이 많다고 해보자. 이 가설이 맞는지를 알아보기위해서 사실 제일 먼저 해야하는게 있는데 분석 종사자의 99.9퍼센트가 지금 할 말과 다른 말을 할 것이다.
가장 먼저 해야할건, 그 해에 각 달별로 태어난 아이들이 균등한지이다. 사실 이는 현실을 약간 무시한 이상적인 강한 조건이고 실제는, 1년중 달별로 태어난 아이의 분포가 전후 몇년과 유사한가를 보면 된다.
그러나 좀 더 강하게, Uniform 한지를 보는걸로 주제를 좁혀보자.
이걸 봐야만 하는 쉽고도 상식적인 이유는, 그렇지 않은 경우, 즉 어느해가 특별히도 편중되어 아이들이 태어난 경우를 보면 된다.
그런해라면, 위 애초 질문의 답이 어떻게 나오건 그 결과가 그닥 큰 의미가 없게 된다.
이제 왜, ....일때라는 조건이 속하는 전체 population이 이산구간인 bin들로 나누어져 있을 때, 그 분포가 Uniform 분포인게 중요한지 이해가 될 것이다.
즉, Uniform 분포인 어떤 분포는 그 자체로는 정보를 주지 못하지만 다른 분포를 살피는데에 있어 신뢰성을 주는 기반, 출발점이 된다. (말하자면, 이는 베이지안적이다. 베이지안은 하나의 확률분포보다 그 확률분포간의 관계에 초점 맞춘다. 필요하면 확률분포를 더 만들어내 사용하고. 이상에서 사실 확률분포는 확률변수로 바꾸어 말해야 엄밀하긴 하다.)
사실 이 문제를 따지는건 맥카시가 말한 맥락범위라는 문제를 건드리게되는데 그건 일단 슬쩍 넘어가고 다음에 논하기로 한다.
출발이 되는 전체 데이터셋이 Uniform하기를 바라는건 사실 여러군데에 녹아있는 것이다. 데이터를 많이 확보하려는 것도 사실 이러한 방향이라 얘기할 수 있고 이미 상관관계가 강하게 밝혀진 변수에 대해 더 분석하지 않는 것도 이것이 Uniform 분포가 아님이 밝혀졌기 때문이다.
바로 마지막 논의는 결국 당연한 것이지만 (상관관계가 눈에 뻔히 보이는데 그 변수들간에 뭘 더 밝혀내나..) 그 상황은 사실 2차원을 넘어 3차원으로 확장되어 논해질 수 있다.
상관계수는 2변수간에 반복적으로 조사할 경우 임의의 변수개수 차원의 데이터에 대해서도 적용은 가능하다.
2차원보다 큰 차원에 대해 Uniform한 정도를 살피려면 먼저 화이트닝을 해야한다. 그리고 상호정보량 최대화 규준에 따라 새 내재변수들을 구해내야 한다. 이 내재변수들을 독립성분이라 하고 위 규준에 따라 내재변수들을 뽑아내는 방법을 독립성분분석(ICA, Independet Component Analysis)이라 한다.
각 독립성분은 Uniform정도 최대화 관점에서 선택되어진 새로운 결합변수로 볼 수 있다. 이들은 새로운 조사를 위한 출발지, 확률분포의 정의역이 된다.
가장 유용한 확률분포는 무엇일까. 그것은 바로 (가끔 어떤이들이 말하던데) Uniform 분포이다. 이상하게 들릴 것이다. Uniform 분포는 아무 정보도 주지 못하지 않는가.
사실 Uniform 분포는, 아무 정보도 주지 못 한다는 정보는 준다. 그리고 그게 매우, 대단히 중요한 정보이다. 역설적이게도.
예를 들어보자.
어떤 해의 9월에 태어난 아이들은 (다른 달보다) A형이 많다고 해보자. 이 가설이 맞는지를 알아보기위해서 사실 제일 먼저 해야하는게 있는데 분석 종사자의 99.9퍼센트가 지금 할 말과 다른 말을 할 것이다.
가장 먼저 해야할건, 그 해에 각 달별로 태어난 아이들이 균등한지이다. 사실 이는 현실을 약간 무시한 이상적인 강한 조건이고 실제는, 1년중 달별로 태어난 아이의 분포가 전후 몇년과 유사한가를 보면 된다.
그러나 좀 더 강하게, Uniform 한지를 보는걸로 주제를 좁혀보자.
이걸 봐야만 하는 쉽고도 상식적인 이유는, 그렇지 않은 경우, 즉 어느해가 특별히도 편중되어 아이들이 태어난 경우를 보면 된다.
그런해라면, 위 애초 질문의 답이 어떻게 나오건 그 결과가 그닥 큰 의미가 없게 된다.
이제 왜, ....일때라는 조건이 속하는 전체 population이 이산구간인 bin들로 나누어져 있을 때, 그 분포가 Uniform 분포인게 중요한지 이해가 될 것이다.
즉, Uniform 분포인 어떤 분포는 그 자체로는 정보를 주지 못하지만 다른 분포를 살피는데에 있어 신뢰성을 주는 기반, 출발점이 된다. (말하자면, 이는 베이지안적이다. 베이지안은 하나의 확률분포보다 그 확률분포간의 관계에 초점 맞춘다. 필요하면 확률분포를 더 만들어내 사용하고. 이상에서 사실 확률분포는 확률변수로 바꾸어 말해야 엄밀하긴 하다.)
사실 이 문제를 따지는건 맥카시가 말한 맥락범위라는 문제를 건드리게되는데 그건 일단 슬쩍 넘어가고 다음에 논하기로 한다.
출발이 되는 전체 데이터셋이 Uniform하기를 바라는건 사실 여러군데에 녹아있는 것이다. 데이터를 많이 확보하려는 것도 사실 이러한 방향이라 얘기할 수 있고 이미 상관관계가 강하게 밝혀진 변수에 대해 더 분석하지 않는 것도 이것이 Uniform 분포가 아님이 밝혀졌기 때문이다.
바로 마지막 논의는 결국 당연한 것이지만 (상관관계가 눈에 뻔히 보이는데 그 변수들간에 뭘 더 밝혀내나..) 그 상황은 사실 2차원을 넘어 3차원으로 확장되어 논해질 수 있다.
상관계수는 2변수간에 반복적으로 조사할 경우 임의의 변수개수 차원의 데이터에 대해서도 적용은 가능하다.
2차원보다 큰 차원에 대해 Uniform한 정도를 살피려면 먼저 화이트닝을 해야한다. 그리고 상호정보량 최대화 규준에 따라 새 내재변수들을 구해내야 한다. 이 내재변수들을 독립성분이라 하고 위 규준에 따라 내재변수들을 뽑아내는 방법을 독립성분분석(ICA, Independet Component Analysis)이라 한다.
각 독립성분은 Uniform정도 최대화 관점에서 선택되어진 새로운 결합변수로 볼 수 있다. 이들은 새로운 조사를 위한 출발지, 확률분포의 정의역이 된다.



덧글