케일리-해밀튼 정리

수학이야기/기하벡터 2020. 11. 19. 10:10
반응형
케일리-해밀튼 정리

$n$차 행렬 $A$와 항등 행렬 $I_n$이 있을 때, $A$의 특성 방정식은 $p(\lambda)= det(\lambda I_n -A)$이다. 행렬식(det)은 $\lambda$에 대한 최고차항 계수가 $1$인 다항식으로 나타낼 수 있다.

$$p(\lambda)=\lambda^n +c_{n-1}\lambda^{n-1}+\cdots+c_1 \lambda+c_0$$

스칼라 변수 $\lambda$ 자리에 행렬 $A$를 넣은 식은 아래와 같다.

$$p(A)=A^n +c_{n-1}A^{n-1}+\cdots+c_1 A+c_0 det(A) I_n.$$

이때, $P(A)=\mathbf{O}$이다.

보기

$1 \times 1$ 행렬

$A=(a_{11})$의 특성 방정식은 $p(\lambda)=\lambda-a$이므로 $p(A)=(a)-a_{11}=0$이다.


$2 \times 2$ 행렬

$$A = \begin{pmatrix}1&2\\3&4\end{pmatrix}.$$

특성 방정식은 아래와 같다.

$$\begin{align}p(\lambda)&=\det(\lambda I_2-A)\\&=\begin{vmatrix}\lambda-1&-2\\ -3&\lambda-4\end{vmatrix}\\&=(\lambda-1)(\lambda-4)-(-2)(-3)\\&=\lambda^2-5\lambda-2\end{align}$$

캐일리-해밀튼 정리가 성립하는가 알아보자.

$$p(X)=X^2-5X-2I_2,$$

$$p(A)=A^2-5A-2I_2=\begin{pmatrix}0&0\\0&0\\\end{pmatrix}.$$

계산해 보면

$$A^2-5A-2I_2=\begin{pmatrix}7&10\\15&22\\\end{pmatrix}-\begin{pmatrix}5&10\\15&20\\\end{pmatrix}-\begin{pmatrix}2&0\\0&2\\\end{pmatrix}=\begin{pmatrix}0&0\\0&0\\\end{pmatrix}.$$

일반적인 2차 행렬로 알아보자.

$$A=\begin{pmatrix}a&b\\c&d\\\end{pmatrix} $$

특성 방정식은 $p(\lambda)=\lambda^2-(a+d)\lambda+(ad-bc)$이므로

$$p(A)=A^2-(a+d)A+(ad-bc)I_2=\begin{pmatrix}0&0\\0&0\\\end{pmatrix}$$

이다. 따라서 케일리-해밀튼 정리가 잘 작동하고 있음을 확인할 수 있다.

하지만 이 정리가 일반적으로 모든 자연수 $n$에 성립하는가를 증명하는 일은 쉽지 않다. 아니 매우 어렵다. 선형 대수를 한 학기는 배워야 알 수 있을 것이다.

증명의 시작

$n$차 정사각 행렬은 아래와 같이 쓰자.

$$A=(a_{ij})_{i,j=1}^n$$

선형 대수를 참고하면 행렬식은 아래와 같다.

$$ \begin{align} p(t) & = \det(t I_n - A) = \begin{vmatrix}t-a_{1,1}&-a_{1,2}&\cdots&-a_{1,n} \\ -a_{2,1}&t-a_{2,2}&\cdots&-a_{2,n} \\ \vdots & \vdots & \ddots & \vdots \\ -a_{n,1}&-a_{n,2}& \cdots& t-a_{n,n} \end{vmatrix} \\[5pt] & = t^n+c_{n-1}t^{n-1}+\cdots+c_1t+c_0, \end{align} $$

$A$가 영 행렬이면 간단하게 확인할 수 있다.

$$A^n+c_{n-1}A^{n-1} + \cdots + c_1 A + c_0 I_n = \begin{pmatrix} 0 & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & 0 \end{pmatrix}.$$

기초

$n$차원 벡터 $v$가 고윳값 $\lambda$를 가지는 행렬 $A$의 고유 벡터($Av=\lambda v$)라면

$$\begin{align} p(A)\cdot v & = A^n\cdot v+c_{n-1}A^{n-1}\cdot v+\cdots+c_1A\cdot v+c_0I_n\cdot v \\[6pt] & = \lambda^nv+c_{n-1}\lambda^{n-1}v+\cdots+c_1\lambda v+c_0 v=p(\lambda)v \end{align}$$

이다.

$p (λ) = 0$ ($A$의 고윳값은 정확히 $p(t)$의 근임)이므로 $p(A)\cdot v$는 영 벡터이다. 가능한 모든 고윳값 λ에 대해 성립하므로 정리에 의해 동일한 두 행렬은 모든 고유 벡터에 적용될 때 같은 결과가 나온다. 이제 $A$를 고유 벡터의 기저에 대한 표현이라면, 즉 $A$를 대각화 할 수 있다면 케일리-해밀튼 정리가 $A$에 대해 성립해야 한다. 기저의 각 요소에 적용될 때 동일한 값을 제공하는 두 행렬은 같아야 하기 때문이다.

$A=XDX^{-1}, \quad D=\operatorname{diag}(\lambda_i), \quad i=1,2,...,n $

$\displaystyle{p_A(\lambda)=|\lambda I-A|=\lambda I -A}$의 대각 성분의 곱$\displaystyle{=\prod_{i=1}^n (\lambda-\lambda_i)\equiv \sum_{k=0}^n c_k\lambda^k}$

$p_A(A)=\sum c_k A^k=X p_A(D)X^{-1}=X C X^{-1} $

$C_{ii}=\sum_{k=0}^n c_k\lambda_i^k=\prod_{j=1}^n(\lambda_i-\lambda_j)=0, \qquad C_{i,j\neq i}=0$

$\therefore p_A(A)=XCX^{-1}=O .$

$n \times n$ 행렬에서 $n \times n$ 행렬로의 함수 $e\colon M_n \to M_n$는 아래와 같이 표현된다.

$$e(A)=p_A(A)$$

즉 $A$가 특성 방정식 안으로 들어간다. 모든 행렬을 대각 행렬로 만들 수는 없지만 성분이 복소수인 행렬은 다음과 같다. 대각화가 가능한 $n$차 정사각 복소 행렬의 집합 $D$는 조밀하다.(예를 들면 특성 방정식이 다중근을 가지지 않는 조건만 있으면 대각 행렬로 만들 수 있다.)

$e\colon C^{n^2}\to C ^{n^{2}}$(성분이 $n^2$개)는 연속이다.

$$e(D) = \left\{\begin{pmatrix} 0 & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & 0 \end{pmatrix}\right\}$$

집합 $D$는 조밀하다.  $n \times n$ 행렬은 모두 영 행렬에 사상된다.

정리가 복소수에서 성립하므로 성분이 유리수 $Q$ 또는 실수 $R$인 행렬에서도 성립한다.

수반 행렬(Adjugate matrices)

수반 행렬[1]은 딸림 행렬로도 부르는데 아래와 같은 성질을 가지고 있다.

$$\operatorname{adj}(M)\cdot M=\det(M)I_n=M\cdot\operatorname{adj}(M)~.$$

바로 이어지는 증명에서 쓰게 될 이 성질에 대한 간단한 설명은 아래 글을 참고하자.

suhak.tistory.com/295

 

가우스 소거법(Gaussian elimination)

미지수가 같은 1차 연립방정식은 하나의 체계를 이룬다. 1차 연립방정식이 이루고 있는 체계를 연구하는 것이 선형대수(Linear Algebra)다. 먼저 연립방정식을 쉽게 풀어보자. \begin{alignat}{7} x &&\; + \;

suhak.tistory.com

대수적으로 증명

이 증명은 케일리-해밀튼 정리를 공식으로 만드는데 필요한 요소인 성분이 다항식인 행렬만 사용한다.

행렬식이 $A$의 특성 방정식인 행렬 $tI_n-A$은 다항식을 성분으로 가지고, 교환 군에서 나온 다항식이므로 수반 행렬을 가진다.

$$B=\operatorname{adj}(tI_n-A).$$

라고 하면 기본 정리에 따라 아래가 성립한다.

$$(t I_n - A)B = \det(t I_n - A) I_n = p(t) I_n~.$$

행렬 $B$도 $t$에 대한 다항식을 성분으로 가진다. 각 $i$에 대하여 $t^{i}$의 계수를 모아서 계수 행렬 $B_i$를 만들 수 있다.

$$B = \sum_{i = 0}^{n - 1} t^i B_i ~.$$

(B의 성분은 $t^{n-1}$보다 높은 차수를 가지지 않음은 분명하다.) 이것은 행렬을 계수로 갖는 다항식처럼 보이지만 그러한 개념을 고려하지 않는다. 이것은 성분이 모두 상수인 행렬 $n$ 개를 선형 조합하여 다항식 성분이 있는 행렬을 표현하는 방법일 뿐이라 이 관점을 강조하기 위해 $t^i$를 행렬의 왼쪽에 기록했다.

이제 행렬 곱을 아래와 같이 두 가지로 표현할 수 있다.

$$\begin{align} p(t) I_n &= (t I_n - A)B \\ &=(t I_n - A)\sum_{i = 0}^{n - 1} t^i B_i \\ &=\sum_{i = 0}^{n - 1} tI_n\cdot t^i B_i - \sum_{i = 0}^{n - 1} A\cdot t^i B_i \\ &=\sum_{i = 0}^{n - 1} t^{i + 1} B_i- \sum_{i = 0}^{n - 1} t^i AB_i \\ &=t^n B_{n - 1} + \sum_{i = 1}^{n - 1} t^i(B_{i - 1} - AB_i) - AB_0~. \end{align}\tag{1}$$

$$p(t)I_n=t^nI_n+t^{n-1}c_{n-1}I_n+\cdots+tc_1I_n+c_0I_n~,\tag{2}$$

(1) $t^i$와 성분이 모두 상수인 행렬의 곱으로 표현된 행렬이고 (2)는 $t^i$와 항등 행렬의 곱으로 표현된 행렬이다. (1)과 (2)에서 $t^i$에 곱해진 행렬은 서로 같아야 한다. 이것을 따로 적으면 다음과 같다.

$$B_{n - 1} = I_n, \qquad B_{i - 1} - AB_i = c_i I_n\quad \text{for }1 \leq i \leq n-1, \qquad -A B_0 = c_0 I_n~.$$

이제 위에 $t^i$와 곱해진 각각의 행렬에 $A_i$를 곱하고 변변 더하면 된다.

$$A^n B_{n-1} + \sum\limits_{i=1}^{n-1}\left( A^i B_{i-1} - A^{i+1}B_i\right) -A B_0 =A^n+c_{n-1}A^{n-1}+\cdots+c_1A+c_0I_n~. $$

왼쪽은 합이 망원 합이므로 영 행렬이 되고 오른쪽은 $p(A)$와 같다.

$$\mathbf{O}= p(A)~.$$

$\blacksquare$

3차 행렬인 경우 확인을 위해 아래 문제로 정리해 둔다. 케일리-해밀튼 정리를 더 깊이 공부하고 싶다면 아래 글을 참고하자.

행렬 함수

해석 함수가 아래와 같이 주어졌다.

$$f(x) = \sum_{k=0}^\infty a_k x^k$$

계속 미분 가능한 함수라면 매크로린 급수로 표현하였다고 생각하면 좋겠다.

$$f(x) = q(x) p(x) + r(x)$$

$f(x)$를 $p(x)$로 나눈 $q(x)$는 몫이고, $r(x)$는 나머지인 다항식으로 차수는 $0 ≤ deg r(x) < n$.

케일리-해밀튼 정리에 따라 $x$를 $p(A) = 0$인 행렬 $A$로 바꾼다면 $$f(A) = r(A). $$이다.

따라서 해석 함수는 $n$차보다 낮은 행렬 다항식으로 바꾸어 표현할 수 있다.

나머지는 아래와 같다고 하자.

$$r(x) = c_0 + c_1 x + \cdots + c_{n-1} x^{n-1}.$$

$p(λ) = 0$이므로 $f(x)$ 행렬 $A$는 고윳값 $n$개를 계산하여 구할 수 있다.

$$ f(\lambda_i) = r(\lambda_i) = c_0 + c_1 \lambda_i + \cdots + c_{n-1} \lambda_i^{n-1}, \qquad \mathrm{for} \qquad i=1,2,...,n.$$

이것은 계수 $c_i$를 결정하는 선형 연립방정식이다. 따라서 하나는 아래와 같다.

$$f(A) = \sum_{k=0}^{n-1} c_k A^k.$$

$i ≠ j$이지만 $λ_i = λ_J$으로 고윳값이 반복될 때, 둘 이상의 방정식이 서로 같아서 해가 유일하지 않다. 그런 경우는 $m$중근인 고윳값 $λ$에 대해서는 첫 번째 $p(x)$의 $m-1$계 도함수가 고윳값에서 0이 된다. 이것은 추가로 $m-1$ 선형 독립을 이끈다.

$$\frac{\mathrm{d}^k f(x)}{\mathrm{d}x^k}\Big|_{x=\lambda} = \frac{\mathrm{d}^k r(x)}{\mathrm{d}x^k}\Big|_{x=\lambda}\qquad  \qquad( k = 1, 2, \ldots, m-1)$$

다른 것과 결합하여 $c_i$를 찾기 위한 $n$개의 방정식이 필요하다.

점 ($λI$, $f$ ($λI$))를 지나는 다항식을 찾는 라그랑제나 뉴턴의 보간법이 필요하고 실베스터 공식을 이끌어 낸다.

보기를 들면 이래를 만족하는 다항식을 찾는 것이다.

$$f(A) = e^{At} \qquad \mathrm{where} \qquad A = \begin{pmatrix}1&2\\0&3\end{pmatrix}.$$

특성 방정식은 $p(x) = (x - 1)(x - 3) = x^2 -4x+ 3$이고 고윳값은 $λ = 1, 3$이다. $r(x) =c_0 + c_1 x$라고 놓자.$f(λ) = r(λ)$를 계산하면 고윳값 하나에 선형 방정식 둘을 얻는다.

$$e^t =c_0 +c_1,\quad e^{3t}=c_0 +3c_1$$

$c_0=(3e^t -e^{3t})/2$, $C_1=(e^{3t}-e^t)/2$인 조건에서 방정식을 풀자. 그러면 아래와 같다.

$$e^{At} = c_0 I_2 + c_1 A = \begin{pmatrix}c_0 + c_1 & 2 c_1\\ 0 & c_0 + 3 c_1\end{pmatrix} = \begin{pmatrix}e^{t} & e^{3t} - e^{t} \\ 0 & e^{3t}\end{pmatrix}. $$

함수 $f(A) = \sin At$를 대입하면 계수는 $c_0 =(3\sin t-\sin 3t)/2$, $c_1=(\sin 3t-\sin t)/2$이므로

$$\sin(At) = c_0 I_2 + c_1 A = \begin{pmatrix}\sin t & \sin 3t - \sin t \\ 0 & \sin 3t\end{pmatrix}.$$

추가로 예를 들면

$$f(A) = e^{At} \qquad \mathrm{where} \qquad A = \begin{pmatrix}0 & 1\\-1 & 0\end{pmatrix},$$

특성 다항식은 $p(x) = x_2 + 1$이므로 $e^{it} = c_0 + i c_1$와 $e^{-it}= c_0 -ic_1$이다.

해는 $c_0= (e^{it} + e^{-it})/2 = \cos t$와 $c_1 =(e^{it} -e^{-it})/2 = \sin t$.

따라서 이 경우는 회전 변환 행렬이다.

$$e^{At} = (\cos t) I_2 + (\sin t) A = \begin{pmatrix}\cos t & \sin t\\ -\sin t & \cos t \end{pmatrix}$$

 

en.wikipedia.org/wiki/Cayley-Hamilton_theorem

 

Cayley–Hamilton theorem - Wikipedia

From Wikipedia, the free encyclopedia Jump to navigation Jump to search Every square matrix over a commutative ring satisfies its own characteristic equation Arthur Cayley, F.R.S. (1821–1895) is widely regarded as Britain's leading pure mathematician of

en.wikipedia.org


[1] 수반 행렬은 여인자 행렬(cofactor matrix)을 행과 열을 뒤바꾼 행렬(transpose matrix)이다. 여인자 행렬은 소행렬식을 성분으로 하는 행렬이다. 소행렬식 $|M_{ij}|$은 행렬에서 $i$행과 $j$열을 뺀 나머지 행렬의 행렬식이다.

연습. 아래와 같은 3차 행렬을 생각하자.

$$A = \begin{bmatrix} 2 & 0 & 0 \\ 0 & 3 & 4 \\ 0 & 4 & 9 \end{bmatrix}$$

$$\begin{align} det(tI_3 -A)=|t I_3 -A| &= \left|t\begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix}-\begin{bmatrix} 2 & 0 & 0 \\ 0 & 3 & 4 \\ 0 & 4 & 9 \end{bmatrix}  \right| \\&= \begin{vmatrix} t-2 & 0 & 0 \\ 0 & t-3 & -4 \\ 0 & -4 & t-9 \end{vmatrix}\\ \\ &= (t-2)\bigl[(t-3)(t-9) - 16\bigr] \\&= t^3 - 14t^2 + 35t - 22\\&=(t-1)(t-2)(t-11). \end{align}$$

방정식 $det(tI-A)=0$은 특성 방정식과 같아서 고윳값 $2, 1, 11$을 해로 가진다.

소행렬식은 아래와 같다.

$$M_{11}=\begin{vmatrix}  t-3 & -4 \\ -4 & t-9 \end{vmatrix}=(t-3)(t-9)-16=t^2 -12t+11 $$

$$M_{12}=\begin{vmatrix} 0  & -4 \\ 0  & t-9 \end{vmatrix}=0 $$

$$M_{13}=\begin{vmatrix}  0 & t-3  \\ 0 & -4 \end{vmatrix}=0$$

$$M_{21}=\begin{vmatrix}  0 & 0  \\ -4 & t-9 \end{vmatrix}=0 $$

$$M_{22}=\begin{vmatrix} t-2 & 0 \\  0  & t-9 \end{vmatrix}=(t-2)(t-9)=t^2 -11t +18$$

$$M_{23}=\begin{vmatrix} t-2 & 0   \\ 0 & -4  \end{vmatrix}=-4t+8$$

$$M_{31}=\begin{vmatrix}  0 & 0 \\  t-3 & -4  \end{vmatrix}=0$$

$$M_{32}=\begin{vmatrix} t-2  & 0 \\ 0 & -4 \end{vmatrix}=-4t+8$$

$$M_{33}=\begin{vmatrix} t-2 & 0  \\ 0 & t-3   \end{vmatrix}=(t-2)(t-3)=t^2 -5t +6$$

여인자 행렬 $C$는 아래와 같다.

$$C=\begin{pmatrix} t^2 -12t+11 & 0 & 0 \\ 0 & t^2 -11t +18 & 4t-8 \\ 0 & 4t-8 & t^2 -5t +6 \end{pmatrix}$$

위 행렬은 대각선에 대칭이므로 행과 열을 뒤바꾼 수반 행렬은 여인자 행렬과 같다.

$$C^{T}=adj(tI_3-A)=\begin{pmatrix} t^2 -12t+11 & 0 & 0 \\ 0 & t^2 -11t +18 & 4t-8 \\ 0 & 4t-8 & t^2 -5t +6 \end{pmatrix}$$

위에 있는 성질을 확인해 보자.

$$\begin{split}(tI_3 -A)adj(tI_3 -A)&=\begin{pmatrix} t-2 & 0 & 0 \\ 0 & t-3 & -4 \\ 0 & -4 & t-9 \end{pmatrix}\begin{pmatrix} t^2 -12t+11 & 0 & 0 \\ 0 & t^2 -11t +18 & -4t+8 \\ 0 & -4t+8 & t^2 -5t +6 \end{pmatrix}\\ \\&=\begin{pmatrix} t^3 - 14t^2 + 35t - 22 & 0 & 0 \\ 0 & t^3 - 14t^2 + 35t - 22 & 0 \\ 0 & 0 & t^3 - 14t^2 + 35t - 22 \end{pmatrix}\\ \\&=(t^3 - 14t^2 + 35t - 22)I_3\end{split}$$

$$\begin{split}adj(tI_3-A)=B&=\begin{pmatrix} t^2 -12t+11 & 0 & 0 \\ 0 & t^2 -11t +18 & 4t-8 \\ 0 & 4t-8 & t^2 -5t +6 \end{pmatrix}\\ \\&=t^2 \begin{pmatrix}1 & 0 & 0 \\ 0 & 1 & -1 \\ 0 & 0& 1 \end{pmatrix}+t\begin{pmatrix} -12 & 0 & 0 \\ 0 & -11 & 4 \\ 0 & 4 & -5 \end{pmatrix}+\begin{pmatrix} 11 & 0 & 0 \\ 0 & 18 & -8 \\ 0 & - & 6 \end{pmatrix}\\ \\&=t^2 B_2 +tB_1 +B_0\end{split}$$

$$ \begin{split}(tI_3 -A)adj(tI_3 -A)&=(tI_3 -A)B=(tI_3 -A)(t^2 B_2 +tB_1 +B_0)\\ & =t^3 B_2 +t^2B_1+tB_0 -t^2 AB_2-tAB_1-AB_0\\&=t^3 B_2 +t^2(B_1-AB_2)+t(B_0-AB_1)-AB_0\end{split}$$

위에서 확인한 $(tI_3 -A)adj(tI_3 -A)=(t^3 - 14t^2 + 35t - 22)I_3$와 비교하면 아래와 같다.

$$\begin{split}B_2&=&I_3 \quad &\Rightarrow& \quad A^3 B_2&=&A^3 \\ B_1-AB_2&=&-14I_3 \quad &\Rightarrow& \quad A^2B_1-A^3B_2&=&-14A^2 \\B_0-AB_1&=&35I_3 \quad &\Rightarrow& \quad AB_0-A^2B_1&=&35A \\-AB_0&=&-22I_3 \quad &\Rightarrow&\quad -AB_0&=&-22I_3 \end{split}$$

결론 부분인 오른쪽 등식을 변변끼리 더하면 케일리-해밀튼 정리가 성립함을 확인할 수 있다.

$$\mathbf{O}= A^3 -14A^2 +35A -22I_3 = p(A)~.$$

 

반응형