layout | title | date | summary | categories | tags | ||||
---|---|---|---|---|---|---|---|---|---|
post |
2022-07-04 Log |
2022-07-04 20:00:00 +0900 |
선형대수와 통계학으로 배우는 머신러닝 with 파이썬 2 |
|
|
- 고윳값, 고유 벡터 = 특성 값, 특성 벡터 = 행렬의 특성
- 고유 벡터(eigenvector): 벡터에 선형 변환을 취했을 때, 방향은 변하지 않고 크기만 변하는 벡터
- 고윳값(eigenvalue): 선형 변환 이후 변한 크기, 고유 벡터가 변환되는 크기의 정도
- 닮음(similar):
$P^{-1}AP=B$ 를 만족하는 가역 행렬$P$ 가 존재 시, 정사각 행렬$A, B$ 는 서로 닮음 - 직교 닮음(orthogonally similar):
$B=P^{-1}AP$ 를 만족하는 직교 행렬$P$ 가 존재 시,$B$ 는$A$ 에 직교 닮음 - 직교 대각화(orthogonal diagonalization): 직교 닮음의 경우에서 정사각 행렬
$B$ 가 대각 행렬$D$ 일 경우 - 직교 대각화가 가능하기 위해
$A$ 는 반드시 대칭 행렬 ($A^T=A$ ) 이어야 함 (공분산 행렬 등)
- 행렬을 고유 벡터, 고윳값의 곱으로 분해하는 것
- 직교 벡터
$P$ 를 고유 벡터를 이용해 만들고 대각 행렬의 원소에 해당하는 것이 고윳값 $A=PDP^T$
- 정사각 행렬을 대상으로 하는 고윳값 분해와 달리 대상 행렬을
${m}\times{n}$ 행렬로 일반화 - 인수 분해처럼 행렬의 차원 축소를 위한 도구로 사용
- 차원 축소를
$n$ 개의 점을 표현할 수 있는 기존$p$ 보다 작은 차원인$d$ 차원인 부분 공간(subspace)을 찾는 문제 - 데이터와 부분 공간으로부터의 수직 거리를 최소화(제곱합
$A^TA,AA^T$ 사용)하여 부분 공간을 찾음 - 특이값(singular value): 행렬
$A$ 를 제곱한 행렬의 고윳값에 루트를 씌운 값,$\sigma_1=\sqrt{\lambda_1}$ $A=U\Sigma{V^T}$ - 행렬 U의 열벡터는
$AA^T$ 의 고유 벡터로 구성되는 left singular vector - 행렬 V의 열벡터는
$A^TA$ 의 고유 벡터로 구성되는 right singular vector -
$\Sigma$ 의 대각 원소는 행렬 A의 특이값
- 다항식을 벡터 형태로 나타낼 때 사용하는 방법
- 대칭 행렬
$W$ 에 대해$x^TWx$ 형태로 표현한 식 - 양정치(positive definite):
$x^TWx>0, \text{ for all }x\neq{0}$ (행렬 W의 고윳값이 모두 0보다 큼) - 음정치(negative definite):
$x^TWx<0, \text{ for all }x\neq{0}$ (행렬 W의 고윳값이 모두 0보다 작음)
- 타깃
$y=w^Tx=x^Tw$ 를 데이터 벡터 x에 대해 미분하면 w가 나옴
- 확률(probability): 어떤 사건이 일어날 가능성을 수치화시킨 것
- 모든 확률은 0에서 1 사이에 있으며, 모든 경우인 표본 공간(sample space)의
$P(S)=1$ - 동시에 발생할 수 없는 사건들에 대해 각 사건의 합의 확률은 개별 확률이 일어날 확률의 합과 같음
- 확률 변수(random variable): 확률적으로 정해지는 변수, 동전 던지기에서 확률 변수
$X$ 는 0 또는 1의 값을 가짐 - 상수(constant): 변수와 다르게 항상 값이 고정된 수,
$\pi=3.14$ 등 - 함수(function): 한 집합의 임의의 한 원소를 다른 집합의 한 원소에 대응시키는 관계
- 확률 변수가 특정값을 가질 확률의 함수
- 이산 확률 변수: 확률 변수가 가질 수 있는 값을 셀 수 있음
- 확률 질량 함수: 이산 확률 변수에서 특정값에 대한 확률을 나타내는 함수,
$p_X(x)=P(X=x)$ - 연속 확률 변수: 확률 변수가 가질 수 있는 값의 개수를 셀 수 없음
- 확률 밀도 함수: 연속 확률 변수의 분포를 나타내는 함수,
$P(a\lt{X}\lt{b})=\int_a^bf_X(x)dx$ - 누적 분포 함수: 주어진 확률 변수가 특정값보다 작거나 같은 확률,
$F_X(x)=P(X\in{-\infty,x}$ - 결합 확률 밀도 함수: 확률 변수 여러 개를 함께 고려하는 확률 분포,
$P_{X,Y}(x,y)=P(X=x,Y=y)$ - 독립 항등 분포: 두 개 이상의 확률 변수를 고려할 때, 각 확률 변수가 통계적으로 독립이고 동일한 확률 분포(iid)를 따름
- 모집단(population)은 관심이 있는 대상 전체, 표본(sample)은 모집단의 일부
- 모집단의 특성을 나타내는 대푯값을 모수(population parameter), 표본의 대푯값(sample statistic)을 표본 통계량
- 산술 평균: 모든 데이터값을 덧셈한 후 데이터 개수로 나누는 것
- 모평균: 모집단의 평균,
$E(X)=\mu$ - 표본 평균: 모평균의 추정량,
$\bar{X}=\frac{1}{n}\Sigma^n_{i=1}{x_i}$ - Location parameter: 평균의 변화로, 그래프의 위치 변화를 나타냄
- 분산: 데이터가 얼마나 퍼져 있는지를 수치화, 평균에 대한 편차 제곱의 평균
- 모분산:
$Var(X)=E[(X-\mu)^2]=\sigma^2=E(X^2)-\mu^2$ - 표본 분산:
$\sigma^2=s^2=\frac{1}{n-1}\Sigma^n_{i=1}(x_i-\bar{x})^2$ -
$x_i-\bar{x}$ 는 평균에 대한 편차를 의미하며, 편차 제곱의 합을 n-1로 나누는 것은 자유도와 관련 - 자유도는 변수가 얼마나 자유로운지 나타내는 것으로,
분산을 구하는 시점에서 이미 표본 평균이 정해져 있어 자유롭게 정할 수 있는 데이터가 n-1개인 것을 의미 - Scale parameter: 분산과 같이 데이터의 흩어짐 정도를 결정하는 파라미터
- 표준 편차: 분산의 양의 제곱근으로 정의, 분산 계산 중 제곱으로 커진 결과를 다시 원래 단위로 조정하는 과정
- 공분산(covariance): 두 확률 변수의 상관관계를 나타내는 값, 같은 방향으로 움직이면 양수, 반대의 경우 음수
- 공분산은 변수 X의 편차와 변수 Y의 편차를 곱한 값의 평균,
$Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]$ - 공분산 행렬: 확률 변수 간 분산, 공분산을 행렬로 표현한 것, 차원 축소 등에서 자주 사용
- 상관 계수: 공분산을 각 변수의 표준 편차로 나누어 계산
- 특정 범위 내에서 확률 분포가 균일한 분포
- 이산형 균일 분포라면 모든 확률 변수의 확률값이 동일,
$X~U(1,N)$ - 연속형 균일 분포는 확률 변수의 범위가 연속형,
$X~U(a,b)$
- 정규 분포 또는 가우시안 분포는 평균을 중심으로 대칭 형태를 띠는 종 모양 분포
-
$\frac{x-\mu}{\sigma}$ 는 머신러닝에서 쓰이는 데이터 표준화와 일치 - 표준 정규 분포: 평균이 0, 분산이 1인 정규 분포
- 베르누이 분포, 베르누이 시행: 한 가지 실험에서 결과가 오직 2개인 시행
- 베르누이 시행의 성공 확률이 p일 때, 실패 확률은 1-p
- 이항 분포: 성공 확률이 p인 독립적인 베르누이 시행을 n회 했을 때, 성공 횟수 X가 따르는 이산형 확률 분포
- 다항 분포: 이항 분포를 일반화한 분포, 각 시행에서 나올 수 있는 결과가 m개로 확장
- 가능도, 우도(likelihood): 파라미터가 주어질 때 해당 표본이 수집될 확률
- 가능도가 높다는 것은 해당 파라미터가 실젯값일 확률이 높다는 뜻
- 가능도 함수
$L(\theta|x)=\Pi^n_{i=1}{f(x_i|\theta)}$ - 로그 함수가 1대1 함수이기 때문에 가능도 함수에 로그 함수를 취할 수 있음 (log-likelihood function)
- 많은 확률을 곱할 경우 0에 가까워지기 때문에 계산상의 오류를 해결하기 위해 로그를 취함
- 최대 가능도 추정량(MLE): 파라미터별 가능도를 구해 가장 높은 가능도를 파라미터 추정값으로 사용
- 조건부 확률: 조건이 주어질 때의 확률,
$P(A|B)=\frac{P({A}\bigcap{B})}{P(B)}$ - 두 사건이 독립일 경우, 두 사건이 동시에 발생할 확률(
$P({A}\bigcap{B}$ )은 각 사건이 일어날 확률의 곱과 같음 - Bayesian: 확률 분포의 파라미터를 상수로 보는 일반적인 빈도주의(Frequentist)와 달리 파라미터를 확률 변수로 보는 방법
- 베이즈 추정: 파라미터
$\theta$ 가 확률 변수이므로 사전 확률 밀도 함수$P(\theta)$ 를 구할 수 있음 $P(\theta,x)=P(x|\theta)P(\theta)$ - 사후 확률 밀도 함수
$P(\theta|x)\propto{P(x|\theta)P(\theta)}$ - 최대 사후 추정(MAP): 사후 확률 밀도 함수
$P(\theta|x)$ 를 최대화하는 파라미터$\theta$
- 직선은 시작과 끝이 존재하지 않지만, 선분은 시작과 끝 지점이 존재
- 아핀 셋(affine set):
$wx_1+(1-w)x_2\in{C}$ 를 만족하는 집합 C - 함수
$f:\mathbb{R}^n\rightarrow\mathbb{R}^m$ 가 존재할 때,
선형 함수$f(x)=Wx$ ,
아핀 함수$f(x)=Wx+b$ - 컨벡스 셋(convex set): 두 점
$x_1,x_2\in{C}$ 에 대해 아래 조건을 만족하는 집합 C
- 컨벡스 셋은 두 점을 잇는 직선을 포함하는 아핀 셋과 달리 두 점 사이의 선분을 포함 (집합의 경계가 존재, 컨벡스 셋
$\subset$ 아핀 셋) - 컨벡스 헐(convex hull): 선분이 아닌, 주어진 점들을 포함하는 컨벡스 셋
- 초평면(hyperplane): 서포트 벡터 머신 알고리즘의 핵심 개념,
${x|w^Tx=b}$ - 내적값 b가 0일 경우 벡터 w와 벡터
$x-x_0$ 는 수직 - 반공간(halfspace): 초평면으로 나뉜 공간의 일부,
${w^Tx\le{b}}$
- 컨벡스 함수:
$$f(wx_1+(1-w)x_2 \le wf(x_1)+(1-w)f(x_2)$$ - 컨벡스 함수에서 등호가 없고
$0 \le w \le 1$ 이면 strictly 컨벡스라고 말함 - 콘케이브(concave): 컨벡스의 반대되는 개념 (-f가 컨벡스할 경우의 f)
- 컨벡스 함수의 예로 지수 함수, 절댓값 함수, 멱함수, 지시 함수, 최대 함수 등이 있음
- 미분이 가능하다는 말은 그래디언트(gradient)
$\nabla f$ 가 존재한다는 뜻 - 1차 미분 조건: 최적값 탐색에 사용,
$f(x_2) \ge f(x_1)+\nabla{f(x_1)^T}(x_2-x_1)$ - 그래디언트 값이 0일 때,
$x_1$ 은 함수 f에 대한 전역 최솟값(global minimizer) - 2차 미분 조건: 함수 f가 두 번 미분 가능할 경우,
$\nabla^2f(x) \ge 0$ - 얀센의 부등식:
$f(wx_1+(1-w)x_2) \le wf(x_1)+(1-w)f(x_2)$