Hồi quy tuyến tính dựa trên ý tưởng khớp một hàm tuyến tính qua các điểm dữ liệu.
Ở dạng cơ bản, bài toán được phát biểu như sau. Ta được cho các dữ liệu [latex](y_i, x_i), i=1, \ldots, m[/latex] trong đó [latex]x_i \in \mathbb{R}^n[/latex] là “đầu vào” và [latex]y_i \in \mathbb{R}[/latex] là “đầu ra” cho phép đo thứ [latex]i[/latex]. Ta tìm một hàm tuyến tính [latex]f: \mathbb{R}^n \to \mathbb{R}[/latex] sao cho các giá trị [latex]f(x_i)[/latex] gần với các giá trị [latex]y_i[/latex] tương ứng.
Trong hồi quy bình phương tối thiểu, cách ta đánh giá một hàm ứng viên [latex]f[/latex] khớp với dữ liệu tốt đến đâu là thông qua chuẩn Euclid (bình phương):
$$
\sum_{i=1}^m\left(y_i-f\left(x_i\right)\right)^2 .
$$
Vì một hàm tuyến tính [latex]f[/latex] có dạng [latex]f(x)=\theta^T x[/latex] với một véctơ [latex]\theta \in \mathbb{R}^n[/latex] nào đó, bài toán tối thiểu hóa tiêu chuẩn trên có dạng
$$
\min _\theta \sum_{i=1}^m\left(y_i-x_i^T \theta\right)^2 .
$$
Ta có thể phát biểu bài toán này dưới dạng một bài toán bình phương tối thiểu:
$$
\min _\theta\|A \theta-y\|_2,
$$
trong đó
$$
A=\left(\begin{array}{c}
x_1^T \\
\vdots \\
x_m^T
\end{array}\right)
$$
The linear regression approach can be extended to multiple dimensions, that is, to problems where the output in the above problem contains more than one dimension (see ). It can also be extended to the problem of fitting non-linear curves.
Phương pháp hồi quy tuyến tính có thể được mở rộng cho nhiều chiều, tức là cho các bài toán mà đầu ra trong bài toán trên có nhiều hơn một chiều (xem tại đây ). Nó cũng có thể được mở rộng cho bài toán khớp các đường cong phi tuyến.
Xem thêm: