"

image

Trong nghiên cứu này, chúng ta lấy dữ liệu từ các cuộc bỏ phiếu về các dự luật tại Thượng viện Hoa Kỳ (2004-2006), được hiển thị dưới dạng bảng bên trái, và khám phá cách chúng ta có thể trực quan hóa dữ liệu bằng cách chiếu nó, trước tiên lên một đường thẳng, sau đó lên một mặt phẳng. Chúng ta tìm hiểu cách chúng ta có thể chọn đường thẳng hoặc mặt phẳng theo cách tối đa hóa phương sai trong kết quả, thông qua phương pháp phân tích thành phần chính (PCA). Cuối cùng, chúng ta xem xét cách một biến thể của PCA khuyến khích tính thưa của các phương chiếu cho phép hiểu được những dự luật nào chịu trách nhiệm chính cho phương sai trong dữ liệu.

Dữ liệu bỏ phiếu Thượng viện và bài toán trực quan hóa

Dữ liệu

Dữ liệu bao gồm các lá phiếu của [latex]n = 100[/latex] Thượng nghị sĩ trong Thượng viện Hoa Kỳ khóa 2004-2006, cho tổng cộng [latex]m = 542[/latex] dự luật. Các phiếu “Đồng ý” (“Yay”) được biểu diễn bằng số [latex]1[/latex], các phiếu “Không đồng ý” (“Nay”) bằng số [latex]-1[/latex], và các phiếu khác được ghi nhận là [latex]0[/latex]. (Một số yếu tố phức tạp bị bỏ qua ở đây, chẳng hạn như khả năng bỏ phiếu cặp.)

Dữ liệu này có thể được biểu diễn ở đây dưới dạng một ma trận ‘‘bỏ phiếu’’ kích thước [latex]m \times n[/latex] [latex]X = [x_1, ..., x_n][/latex], với các phần tử lấy từ tập [latex]\{-1,0,1\}[/latex]. Mỗi cột của ma trận bỏ phiếu [latex]x_j, j = 1,...,n[/latex] chứa các lá phiếu của một Thượng nghị sĩ duy nhất cho tất cả các dự luật; mỗi hàng chứa các lá phiếu của tất cả các Thượng nghị sĩ cho một dự luật cụ thể.

Ma trận bỏ phiếu của Thượng viện: các phiếu “Không đồng ý” màu đen, các phiếu “Đồng ý” màu trắng, và các phiếu khác màu xám. Ma trận bỏ phiếu chuyển vị được hiển thị. Hình ảnh có nhiều vùng màu xám do một số Thượng nghị sĩ được thay thế theo thời gian. Việc chỉ đơn thuần vẽ ma trận dữ liệu thô thường không cung cấp nhiều thông tin.

Bài toán Trực quan hóa

Ta có thể thử trực quan hóa tập dữ liệu, bằng cách chiếu mỗi điểm dữ liệu (mỗi hàng hoặc cột của ma trận) lên (chẳng hạn) một không gian 1D, 2D hoặc 3D. Mỗi ‘góc nhìn’ tương ứng với một phép chiếu cụ thể, tức là một không gian con một, hai hoặc ba chiều mà trên đó ta chọn để chiếu dữ liệu. Bài toán trực quan hóa bao gồm việc chọn một phép chiếu thích hợp.

Có nhiều cách để phát biểu bài toán trực quan hóa, và không có cách nào vượt trội hơn các cách khác. Ở đây, chúng ta tập trung vào những điều cơ bản của bài toán đó.

Phép chiếu lên một đường thẳng và một mặt phẳng

Để đơn giản hóa, trước tiên chúng ta hãy xem xét bài toán đơn giản là biểu diễn tập dữ liệu nhiều chiều trên một đường thẳng đơn giản, sử dụng phương pháp được mô tả ở đây.

License

Icon for the Public Domain license

This work (Đại số tuyến tính by Tony Tin) is free of known copyright restrictions.