Principal Component Analysis(PCA, 주성분분석) 간단하게 설명하면, "N차원의 변수들을 가장 잘 설명할 수 있는 축" 이다. 이러한 PC(주성분)에는 아래와 같은 특징이 있다.
첫번째 PC 에는 대부분의 변수들의 정보를 최대한 압축하여 입력한 다음 두번째 PC 에 나머지 정보들을 최대한 압축하여 입력하고 세번째 PC 에서도 마찬가지로 나머지 정보들을 최대한 압축하여 진행하는 방식으로 정보를 재활용하지 않기 때문에 서로간의 연관성이 없는, 각 PCs는 서로 연관성이 없다. 이런 정보는 GWAS과 같이 많은 변이를 예측 변수로 포함하는 고차원 데이터세트에서 발생할 수 있는 차원의 저주(Curse of dimensionality)를 해결하기 위해 유용하게 쓰인다.
차원의 저주(Curse of dimensionality) 차원의 저주란 변수의 수가 급격히 증가하는 고차원 데이터를 다룰 때 발생하는 어려움을 지칭하는데, GWAS 또한 같이 수 많은 변이를 예측변수로 ...
원문 링크 : GWAS) PCA란