Hướng dẫn toàn diện về Phân tích thành phần chính

Apr 09 2022
Phần lý thuyết và thực hành của Phân tích thành phần chính với triển khai python
Bài viết này trình bày định nghĩa về PCA, cách triển khai Python trong phần lý thuyết của PCA không có thư viện Sklearn, sự khác biệt giữa PCA và lựa chọn tính năng & trích xuất tính năng, việc triển khai học máy & học sâu và các loại PCA được giải thích kèm theo một ví dụ. 2.

Table of Contents
1. Introduction
2. Principal Component Analysis (PCA)
3. Theory
3.1. Calculating PCA
3.1.1. Rescaling (Standardization)
3.1.2. Covariance Matrix
3.1.3. Eigenvalues and Eigenvectors
3.1.4. Sorting in Descent Order
3.2. Is PCA one of the feature extraction&feature selection methods?
4. Implementation
4.1. Traditional Machine Learning Approaches
4.2. Deep Learning Approaches
5. PCA Types
5.1. Kernel PCA
5.2. Sparse PCA
5.3. Randomized PCA
5.4. Incremental PCA

Bài viết này trình bày định nghĩa về PCA, cách triển khai Python trong phần lý thuyết của PCA không có thư viện Sklearn, sự khác biệt giữa PCA và lựa chọn tính năng & trích xuất tính năng, việc triển khai học máy & học sâu và các loại PCA được giải thích kèm theo một ví dụ.

Ảnh của Nathan Dumlao trên Unsplash

2. PCA

Phân tích thành phần chính là một phương pháp rất hữu ích dựa trên toán học và thống kê, giúp giảm kích thước bằng cách đánh giá tập dữ liệu từ các góc độ khác nhau. Nhiệm vụ của nó trong học máy là giảm kích thước của các đầu vào trong tập dữ liệu và đóng góp vào việc học theo thuật toán hoặc bằng cách nhóm tập dữ liệu theo các tính năng trong cách tiếp cận không giám sát. Quá trình giảm kích thước này là kết quả của các phép toán khác nhau. Nó được minh họa trong tập dữ liệu 2D (x, y) với 2 đối tượng trong mặt phẳng tọa độ. Việc phân loại tập dữ liệu trở nên dễ dàng hơn nhiều khi chúng tôi chuyển đổi nó thành 1D với PCA. Bây giờ chúng ta hãy triển khai và hình dung việc giảm kích thước với PCA:

Bộ dữ liệu ung thư (được định nghĩa là ung thư_data trong mã hoá) bao gồm 596 mẫu và 30 tính năng. Các tính năng số này đầu tiên được chia tỷ lệ bằng cách sử dụng StandardScaler, sau đó tập dữ liệu được tạo thành 2 chiều với phương pháp PCA được nhập với thư viện Sklearn và các mục tiêu 'ác tính' và 'lành tính' được tô màu như trong Hình 1. Dấu X -Axis đại diện cho thành phần đầu tiên trong 8 thành phần, và trục y đại diện cho thành phần thứ hai trong 8 thành phần.

Hình 1. Biểu đồ của thành phần chính đầu tiên và thành phần chính thứ hai, Hình ảnh của tác giả

Như có thể thấy trong Hình 1, sau quá trình PCA, việc phân loại được thực hiện mà không sử dụng bất kỳ thuật toán nào, hầu như mắt người có thể đoán được. Tuy nhiên, xem xét tập dữ liệu số của 30 tính năng, đây là điều mà con người không thể thực hiện được.

Khi xem xét giá trị phương sai của từng thành phần, người ta thấy rằng có [0,44272026, 0,18971182, 0,09393163, 0,06602135, 0,05495768, 0,04024522, 0,02250734, 0,01588724] . Thành phần thứ nhất và thứ hai tương ứng với 63% của toàn bộ tập dữ liệu. Đồ thị phương sai tích lũy của 8 thành phần được thể hiện trong Hình 2.

Hình 2. Phương sai tích lũy với số lượng thành phần, Hình ảnh của tác giả

Quá trình định vị dữ liệu theo các chiều mới được tạo ra trong khi tập dữ liệu được chuyển đổi sang các chiều khác nhau được gọi là phép chiếu . Trong Hình 3, sự khác biệt được nhìn thấy theo các chiều và phương sai mới được tạo với hình minh họa PCA trong thư viện mglearn .

Hình 3. Trực quan PCA với thư viện mglearn, Hình ảnh của tác giả

Vậy chính xác thì điều gì nằm đằng sau quá trình kỳ diệu biến 30 chiều thành 2 chiều này?

3. Lý thuyết

PCA thay đổi hướng của các thành phần để đạt được phương sai tối đa và theo cách này, nó nhằm mục đích giảm kích thước của tập dữ liệu.

Phương sai: cung cấp thông tin về phân phối của tập dữ liệu. Ví dụ, chúng ta hãy lấy một ví dụ về việc đổ đầy 5cl chất lỏng vào chai. Cho các chai trong trường hợp thứ nhất là 4cl, 5cl, 5cl, 5cl, 6cl và các chai trong trường hợp thứ hai là 2cl, 3cl, 5cl, 7cl, 8cl. Mặc dù giá trị trung bình của cả hai là 5cl, nhưng các chất trám trong trường hợp đầu tiên sẽ đồng đều hơn trong trường hợp thứ hai vì phương sai phân phối của các mẫu trong trường hợp đầu tiên thấp hơn trong trường hợp thứ hai. Điều này cho thấy rằng việc phân phối thành công hơn.

3.1. Tính toán PCA

Lưu đồ về cách thực hiện giảm kích thước với PCA được thể hiện trong Hình 4.

Hình 4. lưu đồ giảm kích thước, Hình ảnh của tác giả

PCA được tạo bằng các phép toán mà không sử dụng thư viện sklearn và các thành phần với thư viện sklearn được so sánh với nhau.

Kết quả đầu ra của mỗi bước được hiển thị trong bảng từng bước.

3.1.1. Thay đổi tỷ lệ (Chuẩn hóa)

Trong giai đoạn đầu tiên, tỷ lệ được áp dụng cho tập dữ liệu số. Đối với điều này, các giá trị trung bình và std của mỗi đối tượng địa lý được tính toán. Sử dụng các phép tính này, tập dữ liệu mới được tạo theo công thức: x_new = (x - mean (cột của x)) / std (cột của x). Đối với thao tác này, giá trị trung bình cho mỗi tính năng = 0 và std = 1 (Chuẩn hóa với StandardScaler)

Hình 5. Tập dữ liệu (trái) và Tập dữ liệu được chia tỷ lệ (phải), Hình ảnh của tác giả

3.1.2. Ma trận hiệp phương sai

Ma trận hiệp phương sai được tạo theo công thức sau và tập dữ liệu tỷ lệ được xây dựng lại hoàn toàn theo mối quan hệ giữa nhau:

Hình 6. Công thức ma trận hiệp phương sai, nguồn

Sau khi tính toán tất cả các giá trị hiệp phương sai theo phương trình này, sẽ thu được ma trận của (n_features, n_features). Mục tiêu chính là sắp xếp lại tập dữ liệu để tối đa hóa phương sai trong tập dữ liệu. Để phát hiện điều này, ma trận hiệp phương sai là cần thiết.

Hiệp phương sai là một thước đo của mối tương quan. Theo hiệp phương sai, chúng ta tìm hiểu xem hai biến số thay đổi theo chiều nào (cùng chiều nếu dương, ngược chiều nếu âm). thì chúng ta có thể sử dụng mối tương quan để tìm ra mức độ của sự thay đổi này. hiệp phương sai được đo bằng đơn vị. Trong khoa học dữ liệu, hiệp phương sai bao hàm mối quan hệ của hai biến hoặc tập dữ liệu.

Hình 7. Ma trận hiệp phương sai, Hình ảnh của tác giả

3.1.3. Vectơ riêng

Các giá trị riêng được tính từ tập dữ liệu với Ma trận phương sai và các giá trị riêng tương ứng thu được dưới dạng tổng số đối tượng.

Hình 8. Các giá trị riêng (trái) và các giá trị riêng tương ứng (phải), Hình ảnh của tác giả

3.1.4. Sắp xếp theo thứ tự giảm dần

Các giá trị riêng được xếp theo thứ tự từ cao nhất đến thấp nhất. Có bao nhiêu thành phần mong muốn được chọn cho PCA, bộ ký tự tương ứng với số giá trị riêng đó được chọn và kích thước tập dữ liệu được giảm xuống.

Gợi ý về eigenvalues:

Dấu vết của ma trận x bằng tổng các giá trị riêng của nó.

Định thức của ma trận x bằng tích của giá trị riêng của nó.

Hạng của ma trận x bằng số giá trị khác không của ma trận x.

Hình 9. Kết quả PCA không có Sklearn mà không có Sklearn (trái), kết quả PCA với Sklearn (phải), Hình ảnh của tác giả

Các thành phần chính đầu tiên và thứ hai của tập dữ liệu được tính toán bằng các phương trình toán học và có thể thấy rằng kết quả giống nhau khi nhập thư viện Sklearn.

3.2. PCA có phải là một trong những phương pháp lựa chọn tính năng & trích xuất tính năng không?

Cả có và không. Vì phân tích thành phần chính làm giảm kích thước của các tính năng, nó có thể được coi là trích xuất các tính năng hoặc chọn các tính năng hiệu quả nhất ảnh hưởng đến kết quả. Nhưng hiểu rõ phần lý thuyết đã nêu ở trên sẽ làm rõ điều này. Ngoài ứng dụng học máy PCA, nó là về việc diễn giải tập dữ liệu trong một hệ tọa độ khác. Chúng ta có thể coi đây là chuyển đổi tín hiệu từ trục thời gian sang trục tần số với Fourier Transform.

Các biến số và biến liên tục được đánh giá lại bằng cách xem xét các giá trị phương sai của chúng và tập dữ liệu được xem từ một cửa sổ khác với PCA. Mặc dù về mặt kỹ thuật có thể thực hiện nó, nhưng việc sử dụng PCA cho các biến phân loại sẽ không mang lại kết quả đáng tin cậy. Một lần nữa, khi hiểu phần lý thuyết ở trên, điều kiện thực hiện lựa chọn đối tượng với PCA là hợp lý vì các đặc điểm quan trọng nhất ảnh hưởng đến kết quả có phương sai nhiều nhất. Tất nhiên, về mặt kỹ thuật vẫn có thể thực hiện được, nhưng sự lựa chọn là ở quyết định của nhà phát triển.

4. Thực hiện

4.1. Các phương pháp học máy truyền thống

Người ta đã đề cập rằng PCA, là một phương pháp rất hữu ích mặc dù mất thông tin, làm giảm việc giảm kích thước và các giá trị tính năng. Trong bộ dữ liệu hình ảnh, mỗi pixel được coi là một đặc điểm. Nói cách khác, có 128 * 128 * 3 = 49152 tính năng cho hình ảnh 128x128 RGB (3 kênh). Con số này khá cao đối với mô hình học có giám sát. Trong phần này, trên tập dữ liệu hình ảnh đồ dùng nhà bếp bao gồm 81 chén, 74 đĩa và 78 đĩa, sau khi mở rộng tập dữ liệu bằng cách tăng hình ảnh và giảm kích thước bằng PCA, XGBoost được áp dụng như sau:

Sau khi tập dữ liệu được nhập từ thư mục cục bộ, nó được sao chép 15 lần với bộ tạo ảnh đã xác định và thu được 3495 mẫu. Trong mã hóa, x: đại diện cho tập dữ liệu, y: đại diện cho các nhãn. Sau đó, để đo lường hiệu suất tổng quát của mô hình từ một nguồn khác, 5 cốc, 5 đĩa và 5 đĩa được tải xuống và chúng cũng được nhập từ thư mục cục bộ. Sau khi xử lý trước dữ liệu cần thiết, hình ảnh được thêm vào cuối x và nhãn vào cuối y. Lý do để thêm các hình ảnh thu được vào tập dữ liệu đào tạo và kiểm tra để đánh giá hiệu suất tổng quát hóa mô hình là do cùng một quy trình PCA được áp dụng cho tất cả chúng.Sau khi tập dữ liệu được kết hợp, PCA được nhập bằng thư viện sklearn và 49152 pixel (tính năng) được giảm xuống còn 300. Tại thời điểm này, tập dữ liệu hiệu suất tổng quát hóa mô hình với 15 mẫu được trích xuất lại bằng NumPy và 3495 tập dữ liệu được tách thành tập dữ liệu huấn luyện và tập dữ liệu thử nghiệm. Vấn đề ở đây không phải là PCA có được sử dụng hay không, mà chỉ là một ứng dụng. Lựa chọn tính năng cũng có thể được thực hiện với SelectPercentile. Sau đó, sau khi các nhãn được điều chỉnh cho phù hợp với mô hình XGBoost, tập dữ liệu đào tạo được đào tạo và mô hình được đánh giá với tập dữ liệu thử nghiệm. Cuối cùng, các dự đoán của mô hình đã được kiểm tra với tập dữ liệu bên ngoài 15 mẫu được tách biệt.

Kết quả được thể hiện trong Hình 10.

Hình 10. Ma trận nhầm lẫn của tập dữ liệu bên ngoài (trái) và Ma trận nhầm lẫn của tập dữ liệu thử nghiệm (phải), Hình ảnh của tác giả

4.2. Phương pháp tiếp cận học tập sâu

Bộ mã hóa & giải mã chủ yếu được ưu tiên để xử lý trong Học sâu. Tuy nhiên, về mặt kỹ thuật có thể áp dụng PCA. Hãy phân loại tập dữ liệu được chuẩn bị với các hoạt động nhập và xử lý trước dữ liệu ở trên và giảm kích thước với PCA, với Lớp dày đặc.

Kết quả được thể hiện trong hình 11:

Hình 11. Ma trận nhầm lẫn của tập dữ liệu bên ngoài (trái) và Ma trận nhầm lẫn của tập dữ liệu thử nghiệm (phải), Hình ảnh của tác giả

5. Các loại PCA

5.1. Kernel PCA

Mặc dù PCA là một mô hình tuyến tính, nó có thể không cho kết quả thành công trong các tình huống phi tuyến tính. Kernel PCA là một phương pháp, còn được gọi là kernel-trick, có thể tách dữ liệu một cách không tuyến tính.

Hình 12. Tập dữ liệu (trái), Tập dữ liệu với PCA (giữa), Tập dữ liệu với Kernel PCA (phải), Hình ảnh của tác giả

5.2. PCA thưa thớt

nó nhằm mục đích giải thích các mô hình dễ dàng hơn trong PCA thưa thớt. Trong khi sự kết hợp tuyến tính của toàn bộ tập dữ liệu là từng thành phần chính trong PCA, thì mỗi thành phần chính là sự kết hợp tuyến tính của một tập con của tập dữ liệu trong PCA thưa thớt.

5.3. PCA ngẫu nhiên

PCA ngẫu nhiên hoạt động với Stochastic Gradient Descent và được gọi là Randomized PCA. Làm cho quá trình PCA nhanh hơn bằng cách tìm x thành phần chính đầu tiên.

5.4. PCA gia tăng

Nó thực hiện phương pháp PCA bằng cách giữ tập dữ liệu có kích thước lớn trong bộ nhớ trong các lô nhỏ.

Các phương thức ở trên được trình bày trong thư viện Sklearn và có thể được thực hiện theo một tập dữ liệu một cách dễ dàng.

Quay lại hướng dẫn bấm vào đây .

Hướng dẫn về Máy học

© Copyright 2021 - 2023 | vngogo.com | All Rights Reserved