케일리-해밀튼 정리
수학이야기/기하벡터 2020. 11. 19. 10:10$n$차 행렬 $A$와 항등 행렬 $I_n$이 있을 때, $A$의 특성 방정식은 $p(\lambda)= det(\lambda I_n -A)$이다. 행렬식(det)은 $\lambda$에 대한 최고차항 계수가 $1$인 다항식으로 나타낼 수 있다.
$$p(\lambda)=\lambda^n +c_{n-1}\lambda^{n-1}+\cdots+c_1 \lambda+c_0$$
스칼라 변수 $\lambda$ 자리에 행렬 $A$를 넣은 식은 아래와 같다.
$$p(A)=A^n +c_{n-1}A^{n-1}+\cdots+c_1 A+c_0 det(A) I_n.$$
이때, $P(A)=\mathbf{O}$이다.
$1 \times 1$ 행렬
$A=(a_{11})$의 특성 방정식은 $p(\lambda)=\lambda-a$이므로 $p(A)=(a)-a_{11}=0$이다.
$2 \times 2$ 행렬
$$A = \begin{pmatrix}1&2\\3&4\end{pmatrix}.$$
특성 방정식은 아래와 같다.
$$\begin{align}p(\lambda)&=\det(\lambda I_2-A)\\&=\begin{vmatrix}\lambda-1&-2\\ -3&\lambda-4\end{vmatrix}\\&=(\lambda-1)(\lambda-4)-(-2)(-3)\\&=\lambda^2-5\lambda-2\end{align}$$
캐일리-해밀튼 정리가 성립하는가 알아보자.
$$p(X)=X^2-5X-2I_2,$$
$$p(A)=A^2-5A-2I_2=\begin{pmatrix}0&0\\0&0\\\end{pmatrix}.$$
계산해 보면
$$A^2-5A-2I_2=\begin{pmatrix}7&10\\15&22\\\end{pmatrix}-\begin{pmatrix}5&10\\15&20\\\end{pmatrix}-\begin{pmatrix}2&0\\0&2\\\end{pmatrix}=\begin{pmatrix}0&0\\0&0\\\end{pmatrix}.$$
일반적인 2차 행렬로 알아보자.
$$A=\begin{pmatrix}a&b\\c&d\\\end{pmatrix} $$
특성 방정식은 $p(\lambda)=\lambda^2-(a+d)\lambda+(ad-bc)$이므로
$$p(A)=A^2-(a+d)A+(ad-bc)I_2=\begin{pmatrix}0&0\\0&0\\\end{pmatrix}$$
이다. 따라서 케일리-해밀튼 정리가 잘 작동하고 있음을 확인할 수 있다.
하지만 이 정리가 일반적으로 모든 자연수 $n$에 성립하는가를 증명하는 일은 쉽지 않다. 아니 매우 어렵다. 선형 대수를 한 학기는 배워야 알 수 있을 것이다.
$n$차 정사각 행렬은 아래와 같이 쓰자.
$$A=(a_{ij})_{i,j=1}^n$$
선형 대수를 참고하면 행렬식은 아래와 같다.
$$ \begin{align} p(t) & = \det(t I_n - A) = \begin{vmatrix}t-a_{1,1}&-a_{1,2}&\cdots&-a_{1,n} \\ -a_{2,1}&t-a_{2,2}&\cdots&-a_{2,n} \\ \vdots & \vdots & \ddots & \vdots \\ -a_{n,1}&-a_{n,2}& \cdots& t-a_{n,n} \end{vmatrix} \\[5pt] & = t^n+c_{n-1}t^{n-1}+\cdots+c_1t+c_0, \end{align} $$
$A$가 영 행렬이면 간단하게 확인할 수 있다.
$$A^n+c_{n-1}A^{n-1} + \cdots + c_1 A + c_0 I_n = \begin{pmatrix} 0 & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & 0 \end{pmatrix}.$$
기초
$n$차원 벡터 $v$가 고윳값 $\lambda$를 가지는 행렬 $A$의 고유 벡터($Av=\lambda v$)라면
$$\begin{align} p(A)\cdot v & = A^n\cdot v+c_{n-1}A^{n-1}\cdot v+\cdots+c_1A\cdot v+c_0I_n\cdot v \\[6pt] & = \lambda^nv+c_{n-1}\lambda^{n-1}v+\cdots+c_1\lambda v+c_0 v=p(\lambda)v \end{align}$$
이다.
$p (λ) = 0$ ($A$의 고윳값은 정확히 $p(t)$의 근임)이므로 $p(A)\cdot v$는 영 벡터이다. 가능한 모든 고윳값 λ에 대해 성립하므로 정리에 의해 동일한 두 행렬은 모든 고유 벡터에 적용될 때 같은 결과가 나온다. 이제 $A$를 고유 벡터의 기저에 대한 표현이라면, 즉 $A$를 대각화 할 수 있다면 케일리-해밀튼 정리가 $A$에 대해 성립해야 한다. 기저의 각 요소에 적용될 때 동일한 값을 제공하는 두 행렬은 같아야 하기 때문이다.
$A=XDX^{-1}, \quad D=\operatorname{diag}(\lambda_i), \quad i=1,2,...,n $
$\displaystyle{p_A(\lambda)=|\lambda I-A|=\lambda I -A}$의 대각 성분의 곱$\displaystyle{=\prod_{i=1}^n (\lambda-\lambda_i)\equiv \sum_{k=0}^n c_k\lambda^k}$
$p_A(A)=\sum c_k A^k=X p_A(D)X^{-1}=X C X^{-1} $
$C_{ii}=\sum_{k=0}^n c_k\lambda_i^k=\prod_{j=1}^n(\lambda_i-\lambda_j)=0, \qquad C_{i,j\neq i}=0$
$\therefore p_A(A)=XCX^{-1}=O .$
$n \times n$ 행렬에서 $n \times n$ 행렬로의 함수 $e\colon M_n \to M_n$는 아래와 같이 표현된다.
$$e(A)=p_A(A)$$
즉 $A$가 특성 방정식 안으로 들어간다. 모든 행렬을 대각 행렬로 만들 수는 없지만 성분이 복소수인 행렬은 다음과 같다. 대각화가 가능한 $n$차 정사각 복소 행렬의 집합 $D$는 조밀하다.(예를 들면 특성 방정식이 다중근을 가지지 않는 조건만 있으면 대각 행렬로 만들 수 있다.)
$e\colon C^{n^2}\to C ^{n^{2}}$(성분이 $n^2$개)는 연속이다.
$$e(D) = \left\{\begin{pmatrix} 0 & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & 0 \end{pmatrix}\right\}$$
집합 $D$는 조밀하다. $n \times n$ 행렬은 모두 영 행렬에 사상된다.
정리가 복소수에서 성립하므로 성분이 유리수 $Q$ 또는 실수 $R$인 행렬에서도 성립한다.
수반 행렬[1]은 딸림 행렬로도 부르는데 아래와 같은 성질을 가지고 있다.
$$\operatorname{adj}(M)\cdot M=\det(M)I_n=M\cdot\operatorname{adj}(M)~.$$
바로 이어지는 증명에서 쓰게 될 이 성질에 대한 간단한 설명은 아래 글을 참고하자.
가우스 소거법(Gaussian elimination)
미지수가 같은 1차 연립방정식은 하나의 체계를 이룬다. 1차 연립방정식이 이루고 있는 체계를 연구하는 것이 선형대수(Linear Algebra)다. 먼저 연립방정식을 쉽게 풀어보자. \begin{alignat}{7} x &&\; + \;
suhak.tistory.com
이 증명은 케일리-해밀튼 정리를 공식으로 만드는데 필요한 요소인 성분이 다항식인 행렬만 사용한다.
행렬식이 $A$의 특성 방정식인 행렬 $tI_n-A$은 다항식을 성분으로 가지고, 교환 군에서 나온 다항식이므로 수반 행렬을 가진다.
$$B=\operatorname{adj}(tI_n-A).$$
라고 하면 기본 정리에 따라 아래가 성립한다.
$$(t I_n - A)B = \det(t I_n - A) I_n = p(t) I_n~.$$
행렬 $B$도 $t$에 대한 다항식을 성분으로 가진다. 각 $i$에 대하여 $t^{i}$의 계수를 모아서 계수 행렬 $B_i$를 만들 수 있다.
$$B = \sum_{i = 0}^{n - 1} t^i B_i ~.$$
(B의 성분은 $t^{n-1}$보다 높은 차수를 가지지 않음은 분명하다.) 이것은 행렬을 계수로 갖는 다항식처럼 보이지만 그러한 개념을 고려하지 않는다. 이것은 성분이 모두 상수인 행렬 $n$ 개를 선형 조합하여 다항식 성분이 있는 행렬을 표현하는 방법일 뿐이라 이 관점을 강조하기 위해 $t^i$를 행렬의 왼쪽에 기록했다.
이제 행렬 곱을 아래와 같이 두 가지로 표현할 수 있다.
$$\begin{align} p(t) I_n &= (t I_n - A)B \\ &=(t I_n - A)\sum_{i = 0}^{n - 1} t^i B_i \\ &=\sum_{i = 0}^{n - 1} tI_n\cdot t^i B_i - \sum_{i = 0}^{n - 1} A\cdot t^i B_i \\ &=\sum_{i = 0}^{n - 1} t^{i + 1} B_i- \sum_{i = 0}^{n - 1} t^i AB_i \\ &=t^n B_{n - 1} + \sum_{i = 1}^{n - 1} t^i(B_{i - 1} - AB_i) - AB_0~. \end{align}\tag{1}$$
$$p(t)I_n=t^nI_n+t^{n-1}c_{n-1}I_n+\cdots+tc_1I_n+c_0I_n~,\tag{2}$$
(1) $t^i$와 성분이 모두 상수인 행렬의 곱으로 표현된 행렬이고 (2)는 $t^i$와 항등 행렬의 곱으로 표현된 행렬이다. (1)과 (2)에서 $t^i$에 곱해진 행렬은 서로 같아야 한다. 이것을 따로 적으면 다음과 같다.
$$B_{n - 1} = I_n, \qquad B_{i - 1} - AB_i = c_i I_n\quad \text{for }1 \leq i \leq n-1, \qquad -A B_0 = c_0 I_n~.$$
이제 위에 $t^i$와 곱해진 각각의 행렬에 $A_i$를 곱하고 변변 더하면 된다.
$$A^n B_{n-1} + \sum\limits_{i=1}^{n-1}\left( A^i B_{i-1} - A^{i+1}B_i\right) -A B_0 =A^n+c_{n-1}A^{n-1}+\cdots+c_1A+c_0I_n~. $$
왼쪽은 합이 망원 합이므로 영 행렬이 되고 오른쪽은 $p(A)$와 같다.
$$\mathbf{O}= p(A)~.$$
$\blacksquare$
3차 행렬인 경우 확인을 위해 아래 문제로 정리해 둔다. 케일리-해밀튼 정리를 더 깊이 공부하고 싶다면 아래 글을 참고하자.
해석 함수가 아래와 같이 주어졌다.
$$f(x) = \sum_{k=0}^\infty a_k x^k$$
계속 미분 가능한 함수라면 매크로린 급수로 표현하였다고 생각하면 좋겠다.
$$f(x) = q(x) p(x) + r(x)$$
$f(x)$를 $p(x)$로 나눈 $q(x)$는 몫이고, $r(x)$는 나머지인 다항식으로 차수는 $0 ≤ deg r(x) < n$.
케일리-해밀튼 정리에 따라 $x$를 $p(A) = 0$인 행렬 $A$로 바꾼다면 $$f(A) = r(A). $$이다.
따라서 해석 함수는 $n$차보다 낮은 행렬 다항식으로 바꾸어 표현할 수 있다.
나머지는 아래와 같다고 하자.
$$r(x) = c_0 + c_1 x + \cdots + c_{n-1} x^{n-1}.$$
$p(λ) = 0$이므로 $f(x)$ 행렬 $A$는 고윳값 $n$개를 계산하여 구할 수 있다.
$$ f(\lambda_i) = r(\lambda_i) = c_0 + c_1 \lambda_i + \cdots + c_{n-1} \lambda_i^{n-1}, \qquad \mathrm{for} \qquad i=1,2,...,n.$$
이것은 계수 $c_i$를 결정하는 선형 연립방정식이다. 따라서 하나는 아래와 같다.
$$f(A) = \sum_{k=0}^{n-1} c_k A^k.$$
$i ≠ j$이지만 $λ_i = λ_J$으로 고윳값이 반복될 때, 둘 이상의 방정식이 서로 같아서 해가 유일하지 않다. 그런 경우는 $m$중근인 고윳값 $λ$에 대해서는 첫 번째 $p(x)$의 $m-1$계 도함수가 고윳값에서 0이 된다. 이것은 추가로 $m-1$ 선형 독립을 이끈다.
$$\frac{\mathrm{d}^k f(x)}{\mathrm{d}x^k}\Big|_{x=\lambda} = \frac{\mathrm{d}^k r(x)}{\mathrm{d}x^k}\Big|_{x=\lambda}\qquad \qquad( k = 1, 2, \ldots, m-1)$$
다른 것과 결합하여 $c_i$를 찾기 위한 $n$개의 방정식이 필요하다.
점 ($λI$, $f$ ($λI$))를 지나는 다항식을 찾는 라그랑제나 뉴턴의 보간법이 필요하고 실베스터 공식을 이끌어 낸다.
보기를 들면 이래를 만족하는 다항식을 찾는 것이다.
$$f(A) = e^{At} \qquad \mathrm{where} \qquad A = \begin{pmatrix}1&2\\0&3\end{pmatrix}.$$
특성 방정식은 $p(x) = (x - 1)(x - 3) = x^2 -4x+ 3$이고 고윳값은 $λ = 1, 3$이다. $r(x) =c_0 + c_1 x$라고 놓자.$f(λ) = r(λ)$를 계산하면 고윳값 하나에 선형 방정식 둘을 얻는다.
$$e^t =c_0 +c_1,\quad e^{3t}=c_0 +3c_1$$
$c_0=(3e^t -e^{3t})/2$, $C_1=(e^{3t}-e^t)/2$인 조건에서 방정식을 풀자. 그러면 아래와 같다.
$$e^{At} = c_0 I_2 + c_1 A = \begin{pmatrix}c_0 + c_1 & 2 c_1\\ 0 & c_0 + 3 c_1\end{pmatrix} = \begin{pmatrix}e^{t} & e^{3t} - e^{t} \\ 0 & e^{3t}\end{pmatrix}. $$
함수 $f(A) = \sin At$를 대입하면 계수는 $c_0 =(3\sin t-\sin 3t)/2$, $c_1=(\sin 3t-\sin t)/2$이므로
$$\sin(At) = c_0 I_2 + c_1 A = \begin{pmatrix}\sin t & \sin 3t - \sin t \\ 0 & \sin 3t\end{pmatrix}.$$
추가로 예를 들면
$$f(A) = e^{At} \qquad \mathrm{where} \qquad A = \begin{pmatrix}0 & 1\\-1 & 0\end{pmatrix},$$
특성 다항식은 $p(x) = x_2 + 1$이므로 $e^{it} = c_0 + i c_1$와 $e^{-it}= c_0 -ic_1$이다.
해는 $c_0= (e^{it} + e^{-it})/2 = \cos t$와 $c_1 =(e^{it} -e^{-it})/2 = \sin t$.
따라서 이 경우는 회전 변환 행렬이다.
$$e^{At} = (\cos t) I_2 + (\sin t) A = \begin{pmatrix}\cos t & \sin t\\ -\sin t & \cos t \end{pmatrix}$$
en.wikipedia.org/wiki/Cayley-Hamilton_theorem
Cayley–Hamilton theorem - Wikipedia
From Wikipedia, the free encyclopedia Jump to navigation Jump to search Every square matrix over a commutative ring satisfies its own characteristic equation Arthur Cayley, F.R.S. (1821–1895) is widely regarded as Britain's leading pure mathematician of
en.wikipedia.org
[1] 수반 행렬은 여인자 행렬(cofactor matrix)을 행과 열을 뒤바꾼 행렬(transpose matrix)이다. 여인자 행렬은 소행렬식을 성분으로 하는 행렬이다. 소행렬식 $|M_{ij}|$은 행렬에서 $i$행과 $j$열을 뺀 나머지 행렬의 행렬식이다.
$$A = \begin{bmatrix} 2 & 0 & 0 \\ 0 & 3 & 4 \\ 0 & 4 & 9 \end{bmatrix}$$
$$\begin{align} det(tI_3 -A)=|t I_3 -A| &= \left|t\begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix}-\begin{bmatrix} 2 & 0 & 0 \\ 0 & 3 & 4 \\ 0 & 4 & 9 \end{bmatrix} \right| \\&= \begin{vmatrix} t-2 & 0 & 0 \\ 0 & t-3 & -4 \\ 0 & -4 & t-9 \end{vmatrix}\\ \\ &= (t-2)\bigl[(t-3)(t-9) - 16\bigr] \\&= t^3 - 14t^2 + 35t - 22\\&=(t-1)(t-2)(t-11). \end{align}$$
방정식 $det(tI-A)=0$은 특성 방정식과 같아서 고윳값 $2, 1, 11$을 해로 가진다.
소행렬식은 아래와 같다.
$$M_{11}=\begin{vmatrix} t-3 & -4 \\ -4 & t-9 \end{vmatrix}=(t-3)(t-9)-16=t^2 -12t+11 $$
$$M_{12}=\begin{vmatrix} 0 & -4 \\ 0 & t-9 \end{vmatrix}=0 $$
$$M_{13}=\begin{vmatrix} 0 & t-3 \\ 0 & -4 \end{vmatrix}=0$$
$$M_{21}=\begin{vmatrix} 0 & 0 \\ -4 & t-9 \end{vmatrix}=0 $$
$$M_{22}=\begin{vmatrix} t-2 & 0 \\ 0 & t-9 \end{vmatrix}=(t-2)(t-9)=t^2 -11t +18$$
$$M_{23}=\begin{vmatrix} t-2 & 0 \\ 0 & -4 \end{vmatrix}=-4t+8$$
$$M_{31}=\begin{vmatrix} 0 & 0 \\ t-3 & -4 \end{vmatrix}=0$$
$$M_{32}=\begin{vmatrix} t-2 & 0 \\ 0 & -4 \end{vmatrix}=-4t+8$$
$$M_{33}=\begin{vmatrix} t-2 & 0 \\ 0 & t-3 \end{vmatrix}=(t-2)(t-3)=t^2 -5t +6$$
여인자 행렬 $C$는 아래와 같다.
$$C=\begin{pmatrix} t^2 -12t+11 & 0 & 0 \\ 0 & t^2 -11t +18 & 4t-8 \\ 0 & 4t-8 & t^2 -5t +6 \end{pmatrix}$$
위 행렬은 대각선에 대칭이므로 행과 열을 뒤바꾼 수반 행렬은 여인자 행렬과 같다.
$$C^{T}=adj(tI_3-A)=\begin{pmatrix} t^2 -12t+11 & 0 & 0 \\ 0 & t^2 -11t +18 & 4t-8 \\ 0 & 4t-8 & t^2 -5t +6 \end{pmatrix}$$
위에 있는 성질을 확인해 보자.
$$\begin{split}(tI_3 -A)adj(tI_3 -A)&=\begin{pmatrix} t-2 & 0 & 0 \\ 0 & t-3 & -4 \\ 0 & -4 & t-9 \end{pmatrix}\begin{pmatrix} t^2 -12t+11 & 0 & 0 \\ 0 & t^2 -11t +18 & -4t+8 \\ 0 & -4t+8 & t^2 -5t +6 \end{pmatrix}\\ \\&=\begin{pmatrix} t^3 - 14t^2 + 35t - 22 & 0 & 0 \\ 0 & t^3 - 14t^2 + 35t - 22 & 0 \\ 0 & 0 & t^3 - 14t^2 + 35t - 22 \end{pmatrix}\\ \\&=(t^3 - 14t^2 + 35t - 22)I_3\end{split}$$
$$\begin{split}adj(tI_3-A)=B&=\begin{pmatrix} t^2 -12t+11 & 0 & 0 \\ 0 & t^2 -11t +18 & 4t-8 \\ 0 & 4t-8 & t^2 -5t +6 \end{pmatrix}\\ \\&=t^2 \begin{pmatrix}1 & 0 & 0 \\ 0 & 1 & -1 \\ 0 & 0& 1 \end{pmatrix}+t\begin{pmatrix} -12 & 0 & 0 \\ 0 & -11 & 4 \\ 0 & 4 & -5 \end{pmatrix}+\begin{pmatrix} 11 & 0 & 0 \\ 0 & 18 & -8 \\ 0 & - & 6 \end{pmatrix}\\ \\&=t^2 B_2 +tB_1 +B_0\end{split}$$
$$ \begin{split}(tI_3 -A)adj(tI_3 -A)&=(tI_3 -A)B=(tI_3 -A)(t^2 B_2 +tB_1 +B_0)\\ & =t^3 B_2 +t^2B_1+tB_0 -t^2 AB_2-tAB_1-AB_0\\&=t^3 B_2 +t^2(B_1-AB_2)+t(B_0-AB_1)-AB_0\end{split}$$
위에서 확인한 $(tI_3 -A)adj(tI_3 -A)=(t^3 - 14t^2 + 35t - 22)I_3$와 비교하면 아래와 같다.
$$\begin{split}B_2&=&I_3 \quad &\Rightarrow& \quad A^3 B_2&=&A^3 \\ B_1-AB_2&=&-14I_3 \quad &\Rightarrow& \quad A^2B_1-A^3B_2&=&-14A^2 \\B_0-AB_1&=&35I_3 \quad &\Rightarrow& \quad AB_0-A^2B_1&=&35A \\-AB_0&=&-22I_3 \quad &\Rightarrow&\quad -AB_0&=&-22I_3 \end{split}$$
결론 부분인 오른쪽 등식을 변변끼리 더하면 케일리-해밀튼 정리가 성립함을 확인할 수 있다.
$$\mathbf{O}= A^3 -14A^2 +35A -22I_3 = p(A)~.$$