기초 노트 53

데이터의 Cardinality란 무엇인가?

Cardinality Cardinaltiy는 쉽게 말해 각 피처에 속한 유니크한 범주의 갯수를 말한다. 예를 들어 성별이라는 피처의 경우 남,녀 두가지 범주만 존재함으로 Cardinality는 상대적으로 낮다고 말할 수 있다. 그러나 회원번호와 같은 피처는 모두 개별적인 ID를 갖음으로 Cardinality는 상당히 높다고 할 수 있다. Cardinality의 중요성높은 카디널리티를 가진 특성은 모델의 학습에 있어서 노이즈와 오버피팅을 유발 할 수 있어 주의가 필요하다. 또한 데이터의 전처리 부분이 중요해진다. 범주형 변수에 대해서 원하는 ouput이 수치형 변수일때 high Cardinality에 대해 다음과 같은 전략을 취할 수 있다. - 타겟 인코딩 (Target Encoding) 각 범주의 레이블..

차원의 저주(Curse of dimensionality)

차원의 저주(Curse of dimensionality)는 데이터의 차원이 증가함에 따라 발생하는 문제를 말한다. 데이터의 차원이 증가하면, feature space내에서 데이터 샘플들간의 공간상의 거리가 기하급수적으로 멀어지게 된다. 이는 공간 내에 데이터 포인트들이 sparse한 형태로 자리하게 만들며, sparse data를 학습한 모델은 train data의 예외적 상황까지 학습하여 일반화 성능이 떨어지게 된다. 모델이 데이터의 구조와 패턴을 학습하기 어렵게 만드는 문제를 일으키는 것이다. 따라서 데이터의 차원이 높아짐에 따라, 모델을 효과적으로 훈련시키기 위해서는 데이터가 지수적으로 필요하게 된다. 차원의 저주를 해결하기 위해서는 결국 데이터 특성(feature)를 적절히 조정해야 하는데, PC..

Stacking과 Blending의 차이 설명

Stacking Stacking은 단일 모델의 예측값을 조합하여 최종적인 예측을 함으로써, 개별 모델의 강점을 활용하고 약점을 상쇄시키는 방법이다. 트리기반 모델은 데이터의 비선형 관계를 잘 포착하고, 선형 모델들은 데이터의 선형관계를 잘 포착한다. 이러한 모델의 예측 결과를 조합함으로써, 단일 모델이 놓칠 수 있는 정보를 포착하고자 하는 것이다. 먼저 Stacking은 위의 그림과 같이 진행된다. 각 level0에 위차한 각기의 learner(모델)들은 예측값을 생성하고, 이러한 예측값들을 결합하여 Stacked Dataset을 만든다. 이러한 Stacked Dataset을 Meta model이라고하는 level1에 있는 최종 모델이 다시 한번 예측을 수행하고, 이러한 예측의 결과를 최종적인 outpu..

샘플링(Sampling)과 리샘플링(Resampling)

샘플링, 표본추출이 무엇인가? 샘플링(Sampling)은 전체 모집단에 대해서 표본 추출하는 것인데, 이러한 모집단으로부터의 데이터 수집은 비용이 발생할 뿐만 아니라 Sampling Bias가 발생하며, 뽑힌 표본은 어떠한 모집단도 정확히 대변한다는 보장이 없다. 그럼에도 불구하고, 표본을 통하여 데이터를 살펴보는 이유는 무엇일까? 이것은 마치 우리가 요리할때 음식의 간을 보는 것과 같다. 예를 들어, 국을 끓이는 상황에서 우리는 단지 국자로 한스푼 뜬 후 맛을 본뒤 '잘 되었네!' 라며 , 마치 전체 국의 맛이 괜찮을거라고 장담한다. 국자 한스푼에 담긴것이 표본과 같다. 표본(한 스푼)이 전체 모집단(국)의 성질인 맛(통계량)을 대변하는 것이다. 앞서 말했듯이, 국자 한스푼이 정확히 전체 국의 맛을 대..

translation-equivariance vs invariance 설명, "CNN은 translation invariant하다."

CNN은 translation invariance하다.traslation-invariance / equivariance는 이미지 처리의 다양한 CNN Architecture 소개에 자주 등장하는 개념이다.CNN(Convolution Neural Networks)는 translation-invariance하여, 고양이가 오른쪽에 있는지 혹은 왼쪽에 있는지를 구분하지 못한다. translation-invariance란 아래의 사진처럼 이미지 내에 고양이가 어디에 있든이동에 불변하게, 동일하게 "cat"이라고 classification할 수 있는 특징을 말한다.   원본 input 이미지에 비해 픽셀이 이동된 이미지에 대해서도 'Cat detector'는 여전히 동일하게 'Cat'이라고 판단한다. 이것이 tr..