Định nghĩa
Với một véctơ [latex]z \in \mathbb{R}^m[/latex], hiệp phương sai mẫu [latex]\sigma^2[/latex] đo lường độ lệch trung bình của các hệ số của nó so với trung bình mẫu [latex]\hat{z}[/latex]:
[latex]\begin{align*} \hat{z} &:= \frac{1}{m}(z(1)+\ldots+z(m)), \quad \sigma^2 := \frac{1}{m}\left((z(1)-\hat{z})^2+\ldots+(z(m)-\hat{z})^2\right), \end{align*}[/latex]
Bây giờ xét một ma trận [latex]X = [x_1, \cdots, x_m] \in \mathbb{R}^{n\times m}[/latex], trong đó mỗi cột [latex]x_i[/latex] biểu diễn một điểm dữ liệu trong [latex]\mathbb{R}^n[/latex]. Ta quan tâm đến việc mô tả lượng phương sai trong tập dữ liệu này. Để làm điều này, ta xem xét các số mà ta thu được bằng cách chiếu dữ liệu dọc theo một đường thẳng được xác định bởi phương [latex]u \in \mathbb{R}^n[/latex]. Điều này tương ứng với véctơ trong [latex]\mathbb{R}^m[/latex].
[latex]\begin{align*} z &= \begin{pmatrix} u^Tx_1 \\ \vdots \\ u^T x_m \end{pmatrix} = X^T u \in \mathbb{R}^m. \end{align*}[/latex]
Trung bình mẫu và phương sai mẫu tương ứng là
[latex]\begin{align*} \hat{z} &= u^T \hat{x}, \quad \sigma^2(u) := \frac{1}{m} \sum\limits_{k=1}^m (u^Tx_k - u^T \hat{x})^2, \end{align*}[/latex]
trong đó [latex]\hat{x} := \displaystyle\frac{1}{m}(x_1 + \cdots + x_m) \in \mathbb{R}^n[/latex] là trung bình mẫu của các véctơ [latex]x_1, \cdots, x_m[/latex].
Phương sai mẫu dọc theo phương [latex]u[/latex] có thể được biểu diễn dưới dạng một dạng toàn phương theo [latex]u[/latex]:
[latex]\begin{align*} \sigma^2(u) &= \frac{1}{m} \sum_{k=1}^m [u^T(x_k-\hat{x})]^2 = u^T\Sigma u, \end{align*}[/latex]
trong đó [latex]\Sigma[/latex] là một ma trận đối xứng cỡ [latex]n \times n[/latex], được gọi là ma trận hiệp phương sai mẫu của các điểm dữ liệu:
[latex]\begin{align*} \Sigma &= \frac{1}{m} \sum_{k=1}^m (x_k-\hat{x})(x_k - \hat{x})^T. \end{align*}[/latex]
Các tính chất
Ma trận hiệp phương sai thỏa mãn các tính chất sau:
- Ma trận hiệp phương sai mẫu cho phép tìm phương sai dọc theo một phương bất kỳ trong không gian dữ liệu.
- Các phần tử trên đường chéo của [latex]\Sigma[/latex] cho ta phương sai của mỗi thành phần của các véctơ dữ liệu.
- Vết của [latex]\Sigma[/latex] cho ta tổng của tất cả các phương sai.
- Ma trận [latex]\Sigma[/latex] là nửa xác định dương, vì dạng toàn phương tương ứng [latex]u \rightarrow u^T\Sigma u[/latex] không âm với mọi [latex]u[/latex].