"

Định nghĩa

Ma trận Hess của một hàm khả vi hai lần [latex]f: \mathbb{R}^n \rightarrow \mathbb{R}[/latex] tại một điểm [latex]x\in {\bf dom} f[/latex] là ma trận chứa các đạo hàm cấp hai của hàm tại điểm đó. Tức là, Hessian là ma trận với các phần tử được cho bởi

[latex]\begin{align*} H_{ij} = \frac{\partial^2 f}{\partial x_i \partial x_j}(x),\quad 1\leq i,j \leq n. \end{align*}[/latex]

Ma trận Hess của [latex]f[/latex] tại [latex]x[/latex] thường được ký hiệu là [latex]\nabla^2 f(x)[/latex].

Đạo hàm cấp hai không phụ thuộc vào thứ tự lấy đạo hàm. Do đó, [latex]H_{ij} = H_{ji}[/latex] với mọi cặp [latex](i,j)[/latex]. Vì vậy, Hessian là một ma trận đối xứng.

Ví dụ

Ma trận Hess của một hàm bậc hai

Xét hàm bậc hai

[latex]\begin{align*} q(x) = x_1^2 + 2x_1 x_2 + 3x_2^2 + 4x_1 + 5x_2 +6 \end{align*}[/latex]

Ma trận Hess của [latex]q[/latex] tại [latex]x[/latex] được cho bởi

[latex]\begin{align*} \frac{\partial^2 q}{\partial x_i \partial x_j}(x) = \left(\begin{array}{cc} \dfrac{\partial^2 q}{\partial x_1^2}(x) & \dfrac{\partial^2 q}{\partial x_1 \partial x_2}(x) \\[3ex] \dfrac{\partial^2 q}{\partial x_2 \partial x_1}(x) & \dfrac{\partial^2 q}{\partial x_2^2}(x) \end{array}\right) = \left(\begin{array}{ll} 2 & 2 \\ 2 & 6 \end{array}\right) \text{. } \end{align*}[/latex]

Đối với các hàm bậc hai, ma trận Hess của nó là một ma trận hằng, tức là, nó không phụ thuộc vào điểm mà tại đó nó được tính.

Ma trận Hess của hàm log-sum-exp

Xét hàm ‘‘log-sum-exp’’ [latex]\mathrm{lse}: \mathbb{R}^2 \rightarrow \mathbb{R}[/latex], với các giá trị

[latex]\begin{align*} \mathrm{lse}(x):= \log(e^{x_1}+e^{x_2}). \end{align*}[/latex]

Gradient của [latex]\mathrm{lse}[/latex] tại [latex]x[/latex] là

[latex]\begin{align*} \nabla \mathrm{lse}(x) = \frac{1}{z_1 + z_2}\left(\begin{array}{c} z_1 \\ z_2 \end{array}\right). \end{align*}[/latex]

trong đó [latex]z_i: = e^{x_i}[/latex], [latex]i=1,2[/latex]. Ma trận Hessian được cho bởi

[latex]\begin{align*} \nabla^2 \mathrm{lse}(x) = \frac{z_1 z_2}{(z_1 +z_2)^2}\left(\begin{array}{cc} 1 & -1 \\ -1 & 1 \end{array}\right) \end{align*}[/latex]

Một cách tổng quát hơn, Hessian của hàm [latex]f: \mathbb{R}^n \rightarrow \mathbb{R}[/latex] với các giá trị

[latex]\begin{align*} \mathrm{lse}(x):= \log\sum\limits_{i=1}^{n} \left(e^{x_i}\right). \end{align*}[/latex]

như sau.

● Đầu tiên, gradient tại một điểm [latex]x[/latex] là:

[latex]\begin{align*} \nabla \mathrm{lse}(x) = \frac{1}{\sum_{i=1}^n e^{x_i}}\left(\begin{array}{c} e^{x_1} \\ \cdots\\ e^{x_n} \end{array}\right) = \frac{1}{Z} z, \end{align*}[/latex]

trong đó [latex]z=\left(\begin{array}{c} e^{x_1} \\ \cdots\\ e^{x_n} \end{array}\right)[/latex], và [latex]Z = \sum_{i=1}^n z_i[/latex].

● Bây giờ, Hessian tại một điểm [latex]x[/latex] được thu được bằng cách lấy đạo hàm của mỗi thành phần của gradient. Nếu [latex]g_i(x)[/latex] là thành phần thứ [latex]i[/latex], tức là,

[latex]\begin{align*} g_i(x) = \frac{e^{x_i}}{\sum_{i=1}^n e^{x_i}} = \frac{z_i}{Z} \end{align*}[/latex]

khi đó

[latex]\begin{align*} \frac{\partial g_i(x)}{\partial x_i} = \frac{z_i}{Z} - \frac{z_i^2}{Z^2}, \end{align*}[/latex]

và, với [latex]j \neq i[/latex]:

[latex]\begin{align*} \frac{\partial g_i(x)}{\partial x_j} = -\frac{z_i z_j}{Z^2}. \end{align*}[/latex]

Ở dạng gọn hơn:

[latex]\begin{align*} \nabla^2 \mathrm{lse}(x) = \frac{1}{Z^2} (Z {\bf diag}(z) - zz^T). \end{align*}[/latex]

License

Icon for the Public Domain license

This work (Đại số tuyến tính by Tony Tin) is free of known copyright restrictions.