전체 글 94

원-핫 인코딩의 모든 것(feat.OneHotEncoder vs pd.get_dummies)

범주형 변수의 인코딩 정형데이터를 다룰때, 머신러닝 알고리즘에 수치형 변수가 아닌 카테고리형 변수(범주형 변수)를 적용시키려면 반드시 범주형 변수를 숫자값으로 변환시키는 작업이 필요하다. 이 작업에서는 사이킷런에서 제공하는 아래와 같은 Encoder클래스를 사용한다. 그 중 범주형 변수의 인코딩의 가장 대표격인 원-핫 인코딩에 대해서 알아보자. 1. 원핫 인코딩이란? 원-핫 인코딩은 위의 그림과 같이 'color' 칼럼에 해당하는 'red,blue,green'을 다음과 같이 'color_red, color_blue, color_green'의 각 고유한 피쳐로 나누고 값 칼럼에 해당하는 값을 0 또는 1의 binary 값으로 매핑한다. 0의 값은 관찰 데이터에 해당 피쳐가 속하지 않는다는 뜻이고 1은 관찰..

고유값(eigen value)와 고유벡터(eigen vector)에 대해 설명해주세요. 그리고 머신러닝에서 왜 중요할까요?

어떠한 정방 행렬 $A$ $(n \times n)$ 에 의해 특정 벡터 $x$ $(n \times 1)$은 선형변환이 된 이후에도 여전히 그 방향이 평행한 경우가 있다. 이 때, 그 특정 벡터 $x$를 고유 벡터$(eigen vector)$라고 하고, 변하는 크기의 정도를 고윳값 $(eigen value)$라고 한다. 주성분 분석(PCA), 선형판별분석(LDA), 시계열분석의 주요 추세와 패턴, 고전적인 이미지 처리, 추천시스템 등에서 행렬을 분해하는 기법으로써 널리 사용되고 있다. Reference) 데이터 사이언스 인터뷰 질문 : https://github.com/zzsza/Datascience-Interview-Questions GitHub - zzsza/Datascience-Interview-Qu..

EECS 498-007 Lecture3 : Linear Classifiers 정리

3강에서는 Linear Classifier에 대해서 다룬다. Linear Classifier는 심플하지만 Neural Network를 만들때 중요하다. Neural Net은 블럭을 쌓아 만드는 것과 같은데, 이러한 레고 블럭의 가장 기본이 Linear Classifier이다. CIFAR10 데이터셋을 다시 떠올려보자 이전 강의 및 K-NN Classifier와 달라진 점은 Learnable parameter인 W가 추가되었다는 점이다. 이것이 Parametric Approach이다. parameter 혹은 weight(가중치)라고 불리는 이 W에 우리의 training data의 모든 정보를 요약하여 담길 원한다. f(x,W)의 함수의 형태는 input x와 W를 통해 여전히 10개 클래스 스코어를 뱉어..

EECS 498-007 Lecture2 : Image Classification 정리

Image Classification은 컴퓨터 비전에서 가장 핵심적인 task이다.Image Classification task는 Input으로 고양이 이미지가 주어지면, Output으로 정답지(고정된 카테고리 셋) 중 하나를 할당하는 작업이다.그러나 그것이 마냥 쉽지는 않다.컴퓨터는 고양이 이미지를 보고 인간처럼 단박에 고양이('cat')라고 알 수는 없기 때문이다.(Computer can't get holistic idea of cat)    컴퓨터가 보는 것은 단순히 [0,255] 의 숫자로 표현된 픽셀 값으로 이루어진 그리드 형태이다.이것을 "고양이"라는 의미론과 대비되는 "Semantic Gap"이라고 한다.  Image Classification Task의 난점 중 하나는 Viewpoint V..

빈도 주의자와 베이지언 주의자 그리고 불확실성(uncertainty)

여러분들은 아마도 여러번 "확률(Probability)"이 무엇인가에 대해서 질문을 받거나, 간혹 생각해볼 기회가 있었을 것이다. 그럴때마다 아마 적당히 무어라고 대답하고 넘어갔던 기억은 나는데 그 내용 자체는 잘 기억이 나지 않을 것 같다. 일전에 수학적 확률의 정의와 근원사건 그리고 표본공간에 대한 이야기를 하였는데 이번에는 좀 더 철학적인 접근에 대해서 이야기 해보려고 한다. https://ploradoaa.tistory.com/4 수학적 확률의 정의와 근원사건 : 주사위의 눈이 1이 나올 확률은 정말 1/6인가? 보통 우리가 확률을 이야기 할때, 주사위 던지기 게임, 동전던지기 게임을 예시로 많이 든다. 가장 명료하면서도 확률의 여러 개념들을 포괄하는 예시이기 때문이다. 가장 처음에, 누구에게나 ..