"

Xét câu sau:

Một véctơ (thực) chỉ là một tập hợp các số thực, được gọi là các thành phần (hay, phần tử) của véctơ; [latex]\mathbb{R}^n[/latex] ký hiệu tập hợp các véctơ có [latex]n[/latex] phần tử. Nếu [latex]x \in \mathbb{R}^n[/latex] ký hiệu một véctơ, chúng ta sử dụng chỉ số dưới để ký hiệu các phần tử, sao cho [latex]x_i[/latex] là thành phần thứ [latex]i[/latex] của [latex]x[/latex]. Các véctơ được sắp xếp theo cột, hoặc theo hàng. Nếu [latex]x[/latex] là một véctơ cột, [latex]x^T[/latex] ký hiệu véctơ hàng tương ứng, và ngược lại.

Véctơ hàng [latex]x = [5,3,4][/latex] chứa số lần mỗi từ trong danh sách \{vector, of, the\} xuất hiện trong đoạn văn trên. Do đó, véctơ có thể được sử dụng để biểu diễn các tài liệu văn bản. Biểu diễn này, thường được gọi là biểu diễn túi từ (bag-of-words), không hoàn toàn chính xác, vì nó bỏ qua thứ tự xuất hiện tương ứng của các từ. Ngoài ra, thường thì các từ dừng (chẳng hạn như ‘the’ hoặc ‘of’) cũng bị bỏ qua.

Xem thêm: Biểu diễn túi từ của văn bản: đo độ tương đồng tài liệu.

License

Icon for the Public Domain license

This work (Đại số tuyến tính by Tony Tin) is free of known copyright restrictions.