기초 노트/인공지능 수학 8

Diagonal Gaussian Distribution 설명

Diagonal Guassian Distribution - Diagonal Gaussian Distribution은 다변량 정규분포(Multivariate Gaussian Distribution)의 특수한 경우로, 공분산 행렬이 대각선(diagonal) 형태를 띠는 분포를 말한다.- 여기서 "diagonal(대각선)"이라는 의미는 공분산 행렬의 비대각원소들이 모두 0임을 의미하는데, 이는 각 변수들이 서로 상관관계가 없다는 (즉, 독립적이라는) 중요한 가정을 내포한다.  Covariance Matrix Covariance Matrix는 공분산 행렬로. 각 변수들의 선형적인 관계와 방향을 나타내며 n x n 의 정방행렬(square matrix)로 주어진다.   주로 사용하는 notation은 위와 같이 ..

marginalize (적분)의 의미

Marginalize란?Bayesian Inference관련 논문을 읽다 보면 marginalize라는 표현을 자주 마주하게 되는데, 가끔가다 헷갈리는 경우가 있어 정확한 의미를 정리해보고자 한다.Marginalize는 통계학과 확률론에서 주로 사용되는 개념으로, 다변수 확률 분포에서 특정 변수(또는 변수들)에 대한 영향을 '통합(integrate out)'하거나 '합산(summing out)'하여 다른 변수(또는 변수들)의 단독 확률 분포만을 얻는 과정을 말한다. 즉, 다변수 시스템에서 특정 변수에만 집중하기 위해 다른 변수들의 영향을 제거(또는 흡수)하는 기법이다.  결합 확률 분포와 주변 확률 분포다변수 시스템을 구성하는 확률분포는 결합 확률 분포(joint probability distributi..

신뢰수준 95%의 의미

신뢰수준(confidence level)은 아마도 고교 통계 시간에서부터 접하는 개념으로, 데이터 사이언스 분야에서는 파라미터의 추정치에 관하여 신뢰할 수 있는 정도를 알고자 할때 사용되곤 하는 것 같다. 그런데 여기서 신뢰(confidence)라는 것은 사실은 묘한 뉘앙스인 것이 정확(precise)과 믿을 수 있는(reliable)것의 중간적인 성격이다. 신뢰수준이라는 개념을 배울때 처음에 반드시 헷갈리는것이 "신뢰수준 95%의 의미는 신뢰구간에 95%의 확률로 모평균이 포함될것이다." 라는 해석을 내놓는 것이다. 이 말의 의미를 조금 더 살펴보면, 95%확률이라는 것은 대게 100번중 95번은 모평균이 저 신뢰구간에 포함될 수 있다는 말인데, 어떻게 결정된 값인 모평균이 확률적으로 저 구간에 포함될..

샘플링(Sampling)과 리샘플링(Resampling)

샘플링, 표본추출이 무엇인가? 샘플링(Sampling)은 전체 모집단에 대해서 표본 추출하는 것인데, 이러한 모집단으로부터의 데이터 수집은 비용이 발생할 뿐만 아니라 Sampling Bias가 발생하며, 뽑힌 표본은 어떠한 모집단도 정확히 대변한다는 보장이 없다. 그럼에도 불구하고, 표본을 통하여 데이터를 살펴보는 이유는 무엇일까? 이것은 마치 우리가 요리할때 음식의 간을 보는 것과 같다. 예를 들어, 국을 끓이는 상황에서 우리는 단지 국자로 한스푼 뜬 후 맛을 본뒤 '잘 되었네!' 라며 , 마치 전체 국의 맛이 괜찮을거라고 장담한다. 국자 한스푼에 담긴것이 표본과 같다. 표본(한 스푼)이 전체 모집단(국)의 성질인 맛(통계량)을 대변하는 것이다. 앞서 말했듯이, 국자 한스푼이 정확히 전체 국의 맛을 대..

고유값(eigen value)와 고유벡터(eigen vector)에 대해 설명해주세요. 그리고 머신러닝에서 왜 중요할까요?

어떠한 정방 행렬 $A$ $(n \times n)$ 에 의해 특정 벡터 $x$ $(n \times 1)$은 선형변환이 된 이후에도 여전히 그 방향이 평행한 경우가 있다. 이 때, 그 특정 벡터 $x$를 고유 벡터$(eigen vector)$라고 하고, 변하는 크기의 정도를 고윳값 $(eigen value)$라고 한다. 주성분 분석(PCA), 선형판별분석(LDA), 시계열분석의 주요 추세와 패턴, 고전적인 이미지 처리, 추천시스템 등에서 행렬을 분해하는 기법으로써 널리 사용되고 있다. Reference) 데이터 사이언스 인터뷰 질문 : https://github.com/zzsza/Datascience-Interview-Questions GitHub - zzsza/Datascience-Interview-Qu..