"

15

15.1 Ví dụ: Ảnh hưởng của nhiễu trong một hệ thống tuyến tính

Chúng ta đã thấy cách một ma trận (ví dụ, [latex]A \in \mathbb{R}^{m \times n}[/latex]) tạo ra, thông qua tích ma trận-vectơ, một ánh xạ tuyến tính [latex]x \rightarrow Ax[/latex]. Ở đây, [latex]x[/latex] là một vectơ đầu vào và [latex]y=Ax[/latex] là đầu ra. Ánh xạ (tức là, [latex]A[/latex]) có thể đại diện cho một bộ khuếch đại tuyến tính với đầu vào là một tín hiệu âm thanh [latex]x[/latex] và đầu ra là một tín hiệu âm thanh khác [latex]y[/latex].

Bây giờ, giả sử rằng có một số nhiễu trong vectơ [latex]x[/latex]: đầu vào thực tế là [latex]x+v[/latex], trong đó [latex]v \in \mathbb{R}^{n}[/latex] là một vectơ lỗi. Điều này ngụ ý rằng sẽ có nhiễu trong đầu ra: đầu ra có nhiễu là [latex]A(x+v)[/latex], vì vậy lỗi trên đầu ra do nhiễu là [latex]Av[/latex]. Làm thế nào chúng ta có thể định lượng ảnh hưởng của nhiễu đầu vào lên nhiễu đầu ra?

Một cách tiếp cận là cố gắng đo chuẩn của vectơ lỗi, [latex]||Av||[/latex]. Rõ ràng, chuẩn này phụ thuộc vào nhiễu [latex]v[/latex], mà chúng ta không biết. Vì vậy, chúng ta sẽ giả định rằng [latex]v[/latex] có thể nhận các giá trị trong một tập hợp. Chúng ta cần đưa ra một số duy nhất nắm bắt theo một cách nào đó các giá trị khác nhau của [latex]||Av||[/latex] khi [latex]v[/latex] trải rộng trên tập hợp đó. Vì việc tỷ lệ [latex]v[/latex] chỉ đơn giản là tỷ lệ chuẩn [latex]||Av||[/latex] tương ứng, chúng ta sẽ giới hạn các vectơ [latex]v[/latex] có một chuẩn nhất định, chẳng hạn như [latex]||v||=1[/latex].

Rõ ràng, tùy thuộc vào việc lựa chọn tập hợp, các chuẩn mà chúng ta sử dụng để đo độ dài chuẩn và cách chúng ta chọn để nắm bắt nhiều số [latex]||Av||[/latex] bằng một số, v.v., chúng ta sẽ thu được các số khác nhau.

15.2 RMS (căn trung bình bình phương) – Chuẩn Frobenius

Trước tiên, hãy giả định rằng vectơ nhiễu [latex]v[/latex] có thể nhận một tập hợp hữu hạn các hướng, cụ thể là các hướng được biểu diễn bằng cơ sở chuẩn, [latex]e_{1},\dots,e_{n}[/latex]. Sau đó, hãy xem xét giá trị trung bình của chuẩn lỗi bình phương:

\[\dfrac{1}{n}\sum_{i=1}^{n}||Ae_{i}||_{2}^{2}=\dfrac{1}{n} \sum_{i=1}^{n}||a_{i}||_{2}^{2},\] trong đó [latex]a_{i}[/latex] là cột thứ [latex]i[/latex] của [latex]A[/latex].

Đại lượng trên có thể được viết là [latex]\dfrac{1}{n} ||A||_{F}^{2}[/latex], trong đó:

\[||A||_{F} := \sqrt{\sum_{i=1}^{m}\sum_{j=1}^{n}A_{ij}^{2}}=\sqrt{Tr(A^{T}A)}\]

chuẩn Frobenius của [latex]A[/latex].

Hàm [latex]A \rightarrow ||A||_{F}[/latex] hóa ra thỏa mãn các điều kiện  chuẩn trong không gian ma trận [latex]\mathbb{R}^{m \times n}[/latex]. Trên thực tế, nó là chuẩn Euclid của vectơ có độ dài [latex]nm[/latex] được hình thành với tất cả các hệ số của [latex]A[/latex]. Hơn nữa, đại lượng này sẽ không thay đổi nếu chúng ta đã chọn bất kỳ cơ sở trực chuẩn nào khác ngoài cơ sở chuẩn.

Chuẩn Frobenius rất hữu ích để đo độ lợi RMS (căn trung bình bình phương) của ma trận và phản hồi trung bình của nó dọc theo các hướng trực giao cho trước trong không gian. Rõ ràng, cách tiếp cận này không nắm bắt tốt phương sai của lỗi, mà chỉ nắm bắt ảnh hưởng trung bình của nhiễu.

Việc tính toán chuẩn Frobenius  đòi hỏi khoảng [latex]nm[/latex] phép toán.

15.3 Độ lợi đỉnh: Chuẩn giá trị kỳ dị cực đại (LSV)

Để tìm phương sai của nhiễu đầu ra, chúng ta có thể áp dụng một cách tiếp cận trường hợp xấu nhất. Giả sử rằng vectơ nhiễu bị chặn nhưng không được biết. Cụ thể, tất cả những gì chúng ta biết về [latex]v[/latex] là [latex]||v||_{2} \le \alpha[/latex], trong đó [latex]\alpha[/latex] là lượng nhiễu tối đa (được đo bằng chuẩn Euclid). Giá trị trường hợp xấu nhất (đỉnh) của chuẩn của nhiễu đầu ra là gì? Điều này được trả lời bởi bài toán tối ưu hóa:

\[\max_{v}||Av||_{2}: ||v||_{2} \le \alpha.\]

Đại lượng

\[||A||_{LSV} := \max_{v}||Av||_{2}: ||v||_{2} \le 1\]

đo độ lợi đỉnh của ánh xạ [latex]A[/latex], theo nghĩa là nếu vectơ nhiễu bị chặn trong chuẩn bởi [latex]\alpha[/latex], thì nhiễu đầu ra bị chặn trong chuẩn bởi [latex]\alpha||A||[/latex]. Bất kỳ vectơ [latex]v[/latex] nào đạt được giá trị tối đa ở trên đều tương ứng với một hướng trong không gian đầu vào được khuếch đại tối đa bởi ánh xạ [latex]A[/latex].

Đại lượng [latex]||A||_{LSV}[/latex] thực sự là một chuẩn ma trận, được gọi là chuẩn giá trị kỳ dị cực đại (LSV), vì những lý do sẽ thấy ở đây. Nó có lẽ là chuẩn ma trận phổ biến nhất.

Việc tính toán chuẩn giá trị dị thường lớn nhất của một ma trận không dễ dàng như với chuẩn Frobenius. Tuy nhiên, nó có thể được tính toán bằng các phương pháp đại số tuyến tính được thấy ở đây, trong khoảng [latex]\min(n,m)\times nm[/latex] phép toán. Mặc dù việc tính toán tốn kém hơn so với chuẩn Frobenius, nhưng nó cũng hữu ích hơn vì nó vượt ra ngoài việc nắm bắt phản hồi trung bình đối với nhiễu.

Các chuẩn khác

Nhiều chuẩn ma trận khác có thể có và đôi khi hữu ích. Đặc biệt, chúng ta có thể tổng quát hóa khái niệm chuẩn đỉnh bằng cách sử dụng các chuẩn khác nhau để đo kích thước vectơ trong không gian đầu vào và đầu ra. Ví dụ, đại lượng:

\[||A||_{\infty,1} := \max_{v}||Av||_{1}: ||v||_{\infty} \le 1\]

đo độ lợi đỉnh với đầu vào bị chặn trong chuẩn tối đa và đầu ra được đo bằng chuẩn [latex]l_{1}[/latex]. Các chuẩn mà chúng ta vừa giới thiệu, chuẩn Frobenius và chuẩn giá trị dị thường lớn nhất, là những chuẩn phổ biến nhất và dễ tính toán. Nhiều chuẩn khác rất khó tính toán.

15.4 Ứng dụng

Khoảng cách giữa các ma trận

Chuẩn ma trận là những cách để đo kích thước của một ma trận. Điều này cho phép định lượng khoảng  giữa các ma trận.

Giả sử, chẳng hạn, chúng ta đang cố gắng ước tính một ma trận [latex]A[/latex] và đưa ra một ước tính [latex]\hat{A}[/latex]. Làm thế nào chúng ta có thể đo lường chất lượng ước tính của chúng ta? Một cách là đánh giá xem chúng khác nhau bao nhiêu khi chúng tác động lên một cơ sở chuẩn. Điều này dẫn đến chuẩn Frobenius.

Một cách khác là xét đại lượng:

\[||Av – \hat{A}v||_{2}\]

với mọi [latex]v[/latex] Rõ ràng, chúng ta cần phải tỷ lệ hoặc giới hạn kích thước của [latex]v[/latex], nếu không, sự khác biệt trên có thể lớn tùy ý. Hãy xem xét sự khác biệt trường hợp xấu nhất khi [latex]v[/latex] thỏa mãn [latex]||v||_{2} \le 1[/latex]. Chúng ta nhận được:

\[\max_{v}||Av-\hat{A}v||_{2}: ||v||_{2} \le 1,\]

đây là chuẩn giá trị kỳ dị cực đại của [latex]A - \hat{A}[/latex].

Hướng của phương sai tối đa

Xét một tập dữ liệu được mô tả như một tập hợp các vectơ [latex]a_{1},\dots,a_{n}[/latex], với [latex]a_{i} \in \mathbb{R}^{m}[/latex]. Chúng ta có thể tập hợp tập dữ liệu này trong một ma trận duy nhất [latex]A = [a_{1},\dots,a_{n}] \in \mathbb{R}^{m \times n}[/latex]. Để đơn giản, chúng ta hãy giả định rằng vectơ trung bình bằng không: \[\hat{a} := \dfrac{1}{n}\sum_{i=1}^{n}a_{i}=0.\] Hãy cố gắng trực quan hóa tập dữ liệu bằng cách chiếu nó lên một đường thẳng duy nhất đi qua gốc tọa độ. Đường thẳng do đó được xác định bởi một vectơ [latex]x \in \mathbb{R}^{m}[/latex], mà không mất tính tổng quát, chúng ta có thể giả định là có chuẩn Euclid bằng 1. Các điểm dữ liệu, khi được chiếu trên đường thẳng, được biến thành các số thực [latex]x^{T}a_{i}, i=1,\dots,n[/latex].
Có thể lập luận rằng một đường thẳng tốt để chiếu dữ liệu lên là một đường thẳng làm trải rộng các số [latex]x^{T}a_{i}[/latex] càng nhiều càng tốt. (Nếu tất cả các điểm dữ liệu được chiếu thành các số rất gần nhau, chúng ta sẽ không thấy gì, vì tất cả các điểm dữ liệu sẽ sụp đổ về các vị trí gần nhau.)
Chúng ta có thể tìm thấy một hướng trong không gian thực hiện điều này, như sau. Giá trị trung bình của các số là:
\[\dfrac{1}{n}\sum_{i=1}^{n}a_{i}^{T}x= \left(\dfrac{1}{n}\sum_{i=1}^{n}a_{i}\right)^{T}x = \hat{a}^{T}x=0,\]
trong khi phương sai của chúng là:
\[\dfrac{1}{n}\sum_{i=1}^{n}(a_{i}^{T}x-\hat{a}^{T}x)^{2}= \dfrac{1}{n}\sum_{i=1}^{n}(a_{i}^{T}x)^{2} = \dfrac{1}{n}x^{T}AA^{T}x = \dfrac{1}{n}||A^{T}x||_{2}^{2}.\]
Hướng của phương sai tối đa được tìm thấy bằng cách tính chuẩn LSV của [latex]A^{T}[/latex]: \[\max_{v} \left\{||A^{T}v||_{2} : ||v||_{2} \le 1\right\} = ||A^{T}||_{LSV}.\]
(Đại lượng này chính là chuẩn giá trị kỳ dị cực đại của [latex]A[/latex].)

License

Icon for the Public Domain license

This work (Đại số tuyến tính by Tony Tin) is free of known copyright restrictions.