19 Tính năng Sklearn ẩn mà bạn được cho là phải học theo cách khó

Apr 09 2022
Nhưng tôi cung cấp cho bạn phím tắt Tìm hiểu về 19 tính năng của Sklearn mà bạn chưa từng thấy, những tính năng thay thế trực tiếp và thanh lịch cho các thao tác thông thường mà bạn thực hiện thủ công. Giới thiệu Bằng cách xem tham chiếu API của Sklearn, tôi nhận ra rằng các mô hình và hàm được sử dụng phổ biến nhất chỉ là một phần nhỏ trong những gì thư viện có thể làm được.

Nhưng tôi đưa cho bạn con đường tắt

Tìm hiểu về 19 tính năng Sklearn mà bạn chưa từng thấy là những tính năng thay thế trực tiếp và thanh lịch cho các thao tác thông thường mà bạn thực hiện thủ công.

Ảnh của Uzunov Rostislav trên Pexels

Giới thiệu

Bằng cách xem tham chiếu API của Sklearn, tôi đã nhận ra rằng các mô hình và hàm được sử dụng phổ biến nhất chỉ là một phần nhỏ những gì thư viện có thể làm được. Mặc dù một số tính năng tập trung cực kỳ hẹp và được sử dụng cho các trường hợp cạnh hiếm gặp, tôi đã tìm thấy nhiều công cụ ước tính, máy biến áp và các chức năng tiện ích là những bản sửa lỗi thanh lịch hơn cho các thao tác thông thường mà mọi người làm thủ công.

Vì vậy, tôi đã quyết định tạo một danh sách những cái quan trọng nhất và giải thích ngắn gọn chúng để bạn có thể mở rộng đáng kể bộ công cụ Sklearn của mình trong một bài viết. Vui thích!

1️⃣. hiệp phương sai.EllipticEnvelope

Thông thường các bản phân phối có giá trị ngoại lai. Nhiều thuật toán đối phó với các ngoại lệ và EllipticalEnvelopelà một ví dụ được tích hợp trực tiếp vào Sklearn. Ưu điểm của thuật toán này là nó hoạt động đặc biệt tốt trong việc phát hiện các ngoại lệ trong các tính năng được phân phối chuẩn (Gaussian):

Để kiểm tra công cụ ước lượng, chúng tôi tạo một phân phối chuẩn với giá trị trung bình là 5 và độ lệch chuẩn là 2. Sau khi nó được huấn luyện, chúng tôi chuyển một số số ngẫu nhiên vào predictphương pháp của nó. Phương thức trả về -1 cho các giá trị ngoại lệ trong test, là 20, 10, 13.

2️⃣. feature_selection.RFECV

Lựa chọn các tính năng giúp ích nhiều nhất cho dự đoán là một bước bắt buộc để chống lại việc trang bị quá mức và giảm độ phức tạp của mô hình. Một trong những thuật toán mạnh mẽ nhất do Sklearn cung cấp là Loại bỏ tính năng đệ quy (RFE). Nó tự động tìm các tính năng quan trọng nhất bằng cách sử dụng xác nhận chéo và loại bỏ phần còn lại.

Một ưu điểm của công cụ ước tính này là nó là một trình bao bọc - nó có thể được sử dụng xung quanh bất kỳ thuật toán Sklearn nào trả về tầm quan trọng của tính năng hoặc điểm hệ số. Đây là một ví dụ về tập dữ liệu tổng hợp:

Tập dữ liệu giả mạo có 15 tính năng, 10 trong số đó là cung cấp thông tin và phần còn lại là dư thừa. Chúng tôi phù hợp với RFECV gấp 5 lần với Ridgehồi quy làm công cụ ước tính. Sau khi đào tạo, bạn có thể sử dụng transformphương pháp để loại bỏ các tính năng thừa. Gọi .shapecho chúng tôi thấy rằng công cụ ước tính đã quản lý để loại bỏ tất cả 5 tính năng không cần thiết.

Tôi đã viết toàn bộ một bài báo về thuật toán này bao gồm các chi tiết thực tế về cách nó hoạt động với tập dữ liệu trong thế giới thực:

3️⃣. quần thể.ExtraTrees

Mặc dù Rừng Ngẫu Nhiên đều rất hùng mạnh và mạnh mẽ, nhưng nguy cơ bị trang bị quá mức là rất cao. Do đó, Sklearn cung cấp một giải pháp thay thế thả vào RF được gọi là ExtraTrees (cả trình phân loại và trình hồi quy).

Từ 'thêm' không có nghĩa là nhiều cây hơn mà là ngẫu nhiên hơn. Thuật toán sử dụng một loại cây khác gần giống với cây quyết định. Sự khác biệt duy nhất là thay vì tính toán các ngưỡng phân tách trong khi xây dựng từng cây, các ngưỡng này được vẽ ngẫu nhiên cho từng đối tượng địa lý và ngưỡng tốt nhất được chọn làm quy tắc phân tách. Điều này cho phép giảm phương sai một chút với chi phí tăng nhẹ độ chệch:

Như bạn có thể thấy, ExtraTreesRegressor hoạt động tốt hơn Rừng ngẫu nhiên trên tập dữ liệu tổng hợp.

Đọc thêm về Cây cực kỳ ngẫu nhiên từ hướng dẫn sử dụng chính thức .

4️⃣. impute.IterativeImputer và KNNImputer

Nếu bạn đang tìm kiếm các kỹ thuật in ấn mạnh mẽ hơn và tiên tiến hơn SimpleImputer, Sklearn sẽ đề cập đến bạn một lần nữa. Gói imputecon bao gồm hai thuật toán áp đặt dựa trên mô hình - KNNImputerIterativeImputer.

Như tên cho thấy, KNNImputersử dụng thuật toán k-Nearest-Neighbors để tìm sự thay thế tốt nhất cho các giá trị bị thiếu:

Một thuật toán mạnh mẽ hơn là IterativeImputer. Nó tìm các giá trị bị thiếu bằng cách lập mô hình từng tính năng với các giá trị bị thiếu dưới dạng một hàm của những tính năng khác. Quá trình này được thực hiện theo kiểu tuần hoàn từng bước. Ở mỗi bước, một đối tượng địa lý bị thiếu các giá trị được chọn làm target ( y) và phần còn lại được chọn làm mảng đối tượng địa lý ( X). Sau đó, một bộ hồi quy được sử dụng để dự đoán các giá trị bị thiếu trong yvà quá trình này được tiếp tục cho từng tính năng cho đến max_iterthời điểm (một tham số của IterativeImputer).

Do đó, nhiều dự đoán được tạo cho một giá trị bị thiếu duy nhất. Điều này có lợi khi coi mỗi giá trị bị thiếu là một biến ngẫu nhiên và liên kết với sự không chắc chắn vốn có đi kèm với chúng:

BayesianRidge và ExtraTree hoạt động tốt hơn với IterativeImputer.

Bạn có thể tìm hiểu thêm về hai kỹ thuật áp đặt này trong bài viết riêng của tôi:

5️⃣. linear_model.HuberRegressor

Sự hiện diện của các giá trị ngoại lai có thể làm sai lệch rất nhiều các dự đoán của bất kỳ mô hình nào. Nhiều thuật toán phát hiện ngoại lệ loại bỏ các ngoại lệ và đánh dấu chúng là thiếu. Mặc dù điều này giúp ích cho chức năng học tập của các mô hình, nhưng nó hoàn toàn loại bỏ ảnh hưởng của các giá trị ngoại lai đối với việc phân phối.

Một thuật toán thay thế là HuberRegressor. Thay vì loại bỏ hoàn toàn chúng, nó mang lại cho các ngoại nhân ít trọng lượng hơn trong thời gian phù hợp. Nó có epsilonsiêu tham số kiểm soát số lượng mẫu nên được phân loại là ngoại lệ. Tham số càng nhỏ, nó càng mạnh đối với các giá trị ngoại lệ. API của nó cũng giống như bất kỳ bộ hồi quy tuyến tính nào khác. Dưới đây, bạn có thể xem so sánh của nó với bộ hồi quy Bayesian Ridge trên một tập dữ liệu với các giá trị ngoại lệ lớn:

Hình ảnh của hướng dẫn sử dụng Sklearn. Giấy phép - BSD-3

Có thể thấy, HuberRegressor với epsilon 1.35 1.5, 1.75 đã quản lý để nắm bắt được dòng phù hợp nhất mà không bị ảnh hưởng bởi các yếu tố ngoại lai

Bạn có thể tìm hiểu thêm về thuật toán từ hướng dẫn sử dụng .

6️⃣. tree.plot_tree

Sklearn cho phép bạn vẽ sơ đồ cấu trúc của một cây quyết định bằng cách sử dụng plot_treehàm. Tính năng này có thể hữu ích cho những người mới bắt đầu mới bắt đầu tìm hiểu về các mô hình dựa trên cây và tập hợp:

Hình ảnh của hướng dẫn sử dụng Sklearn. Giấy phép - BSD-3

Có các phương pháp vẽ biểu đồ cây khác, chẳng hạn như ở định dạng Graphviz. Tìm hiểu về chúng từ hướng dẫn sử dụng .

7️⃣. linear_model.Perceptron

Cái tên thú vị nhất trong danh sách này thuộc về # 7 - Perceptron. Mặc dù nó có một cái tên lạ mắt, nhưng nó là một bộ phân loại nhị phân tuyến tính đơn giản. Đặc điểm nổi bật của thuật toán là nó phù hợp với việc học tập trên quy mô lớn và theo mặc định:

  1. Nó không yêu cầu một tỷ lệ học tập.
  2. Không thực hiện chính quy hóa.
  3. Nó chỉ cập nhật mô hình của nó trên những sai lầm.

8️⃣. feature_selection.SelectFromModel

Một công cụ ước tính lựa chọn tính năng dựa trên mô hình khác trong Sklearn là SelectFromModel. Nó không mạnh như RFECV nhưng có thể là một lựa chọn tốt cho các bộ dữ liệu lớn vì nó có chi phí tính toán thấp hơn. Nó cũng là một công cụ ước tính trình bao bọc và hoạt động với bất kỳ mô hình nào có một trong hai .feature_importances_hoặc .coef_các thuộc tính:

Như bạn có thể thấy, thuật toán đã quản lý để loại bỏ tất cả 40 tính năng thừa.

9️⃣. metrics.ConfusionMatrixDisplay

Ma trận nhầm lẫn là chén thánh của các bài toán phân loại. Hầu hết các chỉ số đều bắt nguồn từ nó, chẳng hạn như độ chính xác, thu hồi, F1, ROC AUC, v.v. Sklearn cho phép bạn tính toán và vẽ một ma trận nhầm lẫn mặc định:

Hình ảnh của tác giả

Thành thật mà nói, tôi sẽ không nói rằng tôi thích ma trận nhầm lẫn mặc định. Định dạng của nó là cố định - các hàng là nhãn đúng và cột là dự đoán. Ngoài ra, hàng và cột đầu tiên là lớp âm và hàng và cột thứ hai là lớp dương. Một số người có thể thích một ma trận có định dạng khác, có thể hoán vị hoặc lật ngược.

Ví dụ: tôi muốn đặt lớp tích cực làm hàng đầu tiên và cột đầu tiên để căn chỉnh với định dạng được đưa ra trong Wikipedia. Điều này giúp tôi cô lập tốt hơn 4 thuật ngữ ma trận - TP, FP, TN, FN. May mắn thay, bạn có thể vẽ một ma trận tùy chỉnh với một hàm khác - ConfusionMatrixDisplay:

Hình ảnh của tác giả

Bạn có thể đặt ma trận nhầm lẫn cmở bất kỳ định dạng nào bạn muốn trước khi chuyển nó sang ConfusionMatrixDisplay.

Bạn có thể tìm hiểu tất cả về ma trận phân loại và nhầm lẫn từ bài viết này:

🔟. Mô hình tuyến tính tổng quát

Sẽ không có ích gì khi chuyển đổi mục tiêu ( y ) để làm cho nó được phân phối bình thường nếu có các lựa chọn thay thế có thể hoạt động trên các loại phân phối khác.

Ví dụ, Sklearn cung cấp 3 mô hình tuyến tính tổng quát cho các biến mục tiêu được phân phối Poisson, Tweedie hoặc Gamma. Thay vì mong đợi một phân phối chuẩn PoissonRegressorTweedieRegressorGammaRegressorthể tạo ra kết quả mạnh mẽ cho các mục tiêu có phân phối tương ứng.

Ngoài ra, các API của họ cũng giống như bất kỳ mô hình Sklearn nào khác. Để tìm hiểu xem phân phối của mục tiêu có khớp với ba mục tiêu trên hay không, bạn có thể vẽ biểu đồ PDF (Hàm mật độ xác suất) của chúng trên cùng các trục với phân phối hoàn hảo.

Ví dụ: để xem liệu mục tiêu có tuân theo phân phối Poisson hay không, hãy vẽ biểu đồ PDF của nó bằng cách sử dụng Seaborn's kdeplotvà vẽ biểu đồ phân phối Poisson hoàn hảo bằng cách lấy mẫu từ Numpy sử dụng np.random.poissontrên các trục giống nhau.

1️⃣1️⃣. quần thể.IsolationForest

Vì các mô hình dựa trên cây và mô hình tổng hợp thường tạo ra kết quả mạnh mẽ hơn, chúng cũng đã được chứng minh là hiệu quả trong việc phát hiện ngoại lệ. IsolationForesttrong Sklearn sử dụng một rừng cây cực kỳ ngẫu nhiên ( tree.ExtraTreeRegressor) để phát hiện những điểm bất thường. Mỗi cây cố gắng cô lập từng mẫu bằng cách chọn một đối tượng địa lý và chọn ngẫu nhiên một giá trị phân tách giữa các giá trị lớn nhất và nhỏ nhất của đối tượng địa lý đã chọn.

Kiểu phân vùng ngẫu nhiên này tạo ra các đường dẫn ngắn hơn đáng kể giữa nút gốc và nút cuối của mỗi cây.

Do đó, khi một rừng cây ngẫu nhiên tập hợp tạo ra độ dài đường đi ngắn hơn cho các mẫu cụ thể, chúng có khả năng cao là dị thường - Hướng dẫn sử dụng Sklearn.

Đọc thêm về thuật toán trong hướng dẫn sử dụng .

1️⃣2️⃣. tiền xử lý.PowerTransformer

Nhiều mô hình tuyến tính yêu cầu một số biến đổi trên các đối tượng số để làm cho chúng được phân phối bình thường. StandardScalerMinMaxScalerhoạt động khá tốt cho hầu hết các bản phân phối. Tuy nhiên, khi dữ liệu có độ lệch cao, các chỉ số cốt lõi của phân phối, chẳng hạn như giá trị trung bình, giá trị trung bình, giá trị tối thiểu và tối đa, sẽ bị ảnh hưởng. Vì vậy, chuẩn hóa và chuẩn hóa đơn giản không hoạt động trên các bản phân phối lệch.

Thay vào đó, Sklearn triển khai PowerTransformersử dụng phép biến đổi logarit để biến bất kỳ tính năng lệch nào thành phân phối chuẩn nhất có thể. Hãy xem xét hai tính năng này trong tập dữ liệu Diamonds:

Hình ảnh của tác giả

Cả hai đều bị lệch nhiều. Hãy khắc phục điều đó bằng cách sử dụng một phép biến đổi logarit:

Hình ảnh của tác giả

Sự xiên xẹo đã biến mất! Bạn có thể đọc thêm về các loại chuyển đổi tính năng khác nhau tại đây:

1️⃣3️⃣. tiền xử lý.RobustScaler

Một biến áp số khác trong Sklearn là RobustScaler. Bạn có thể đoán được nó làm gì từ cái tên của nó - nó có thể biến đổi các tính năng theo cách mạnh mẽ so với các tính năng khác. Nếu các giá trị ngoại lệ xuất hiện trong một đối tượng địa lý, thì khó có thể làm cho chúng được phân phối bình thường vì chúng có thể làm lệch giá trị trung bình và độ lệch chuẩn rất nhiều.

Thay vì sử dụng giá trị trung bình / std, hãy chia RobustScalertỷ lệ dữ liệu bằng cách sử dụng giá trị trung bình và IQR (phạm vi liên phần tư) vì cả hai chỉ số đều không bị sai lệch vì các giá trị ngoại lệ. Bạn cũng có thể đọc về nó trong hướng dẫn sử dụng .

1️⃣4️⃣. compile.make_column_transformer

Trong Sklearn, có một cách viết tắt để tạo các cá thể Pipeline với make_pipelinechức năng. Thay vì đặt tên cho từng bước và làm cho mã của bạn dài một cách không cần thiết, hàm chỉ chấp nhận các máy biến áp và ước tính và thực hiện công việc của nó:

Đối với các tình huống phức tạp hơn, ColumnTransformerđược sử dụng, có cùng một vấn đề - mỗi bước tiền xử lý phải được đặt tên, làm cho mã của bạn dài và khó đọc. Rất may, Sklearn cung cấp một chức năng tương tự như make_pipeline:

Như bạn có thể thấy, việc sử dụng make_column_transformerngắn hơn nhiều và nó phải tự đặt tên cho từng máy biến áp.

1️⃣5️⃣. compile.make_column_selector

Nếu bạn chú ý, chúng tôi đã sử dụng select_dtypeshàm cùng với columnsthuộc tính DataFrames của gấu trúc để tách các cột số và cột phân loại. Mặc dù điều này chắc chắn hiệu quả, nhưng có một giải pháp linh hoạt và thanh lịch hơn nhiều cho việc này bằng cách sử dụng Sklearn.

make_column_selectorhàm tạo một bộ chọn cột có thể được chuyển trực tiếp vào các phiên bản ColumnTransformer. Nó hoạt động giống như select_dtypesvà tốt hơn. Nó có dtype_includedtype_excludecác tham số để chọn cột dựa trên kiểu dữ liệu. Nếu bạn cần một bộ lọc cột tùy chỉnh, bạn có thể chuyển một biểu thức chính quy sang patterntrong khi đặt các thông số khác thành None. Đây là cách nó làm việc:

Thay vì chuyển một danh sách tên cột, chỉ cần chuyển một phiên bản của make_column_selectorvới các tham số có liên quan và bạn đã sẵn sàng!

1️⃣6️⃣. tiền xử lý.OrdinalEncoder

Một sai lầm phổ biến ở những người mới bắt đầu là sử dụng LabelEncoderđể mã hóa các tính năng phân loại theo thứ tự. Nếu bạn nhận thấy, hãy LabelEncoderchỉ cho phép chuyển đổi từng cột một thay vì đồng thời như thế OneHotEncoder. Bạn có thể nghĩ rằng Sklearn đã mắc sai lầm!

Trên thực tế, LabelEncoderchỉ nên được sử dụng để mã hóa biến phản hồi ( y) như được chỉ định trong tài liệu của nó . Để mã hóa mảng tính năng ( X), bạn nên sử dụng mảng OrdinalEncoderhoạt động như mong đợi. Nó chuyển đổi các cột phân loại theo thứ tự thành một đối tượng địa lý có (0, n_categories - 1) các lớp. Và nó thực hiện điều này trên tất cả các cột được chỉ định trong một dòng mã, giúp bạn có thể đưa nó vào các đường ống.

1️⃣7️⃣. metrics.get_scorer

Có hơn 50 chỉ số được tích hợp sẵn trong Sklearn và bạn có thể nhìn thấy tên văn bản của chúng sklearn.metrics.SCORERS.keys. Trong một dự án duy nhất, bạn có thể phải sử dụng nhiều số liệu và nhập chúng nếu bạn đang sử dụng chúng riêng lẻ.

Việc nhập nhiều chỉ số từ sklearn.metricstrực tiếp có thể gây ô nhiễm không gian tên của bạn và trở nên dài không cần thiết. Như một giải pháp, bạn có thể sử dụng metrics.get_scorerhàm để truy cập bất kỳ số liệu nào có tên văn bản của nó mà không cần nhập nó:

1️⃣8️⃣. model_selection.HalvingGrid và HalvingRandomSearchCV

Trong phiên bản 0.24 của Sklearn, chúng tôi đã được giới thiệu với hai trình tối ưu hóa siêu tham số thử nghiệm: HalvingGridSearchCVHalvingRandomSearchCVcác lớp.

Không giống như những người anh em họ hàng đầy đủ của chúng là GridSearch và RandomizedSearch, các lớp mới sử dụng một kỹ thuật được gọi là Phân chia thành công. Thay vì đào tạo tất cả các tập ứng cử viên trên tất cả dữ liệu, chỉ một tập dữ liệu con được cung cấp cho các tham số. Các ứng cử viên hoạt động kém nhất được lọc ra bằng cách đào tạo họ trên một tập hợp con dữ liệu nhỏ hơn. Sau mỗi lần lặp lại, các mẫu đào tạo tăng lên theo một số yếu tố và số lượng ứng viên có thể giảm nhiều dẫn đến thời gian đánh giá nhanh hơn nhiều.

Nhanh hơn bao nhiêu? Trong các thử nghiệm tôi đã tiến hành, HalvingGridSearch nhanh hơn 11 lần so với GridSearch thông thường và HalvingRandomSearch thậm chí còn nhanh hơn HalvingGridSearch 10 lần. Bạn có thể đọc tổng quan chi tiết của tôi về Giảm một nửa thành công và các thử nghiệm của tôi từ đây:

1️⃣9️⃣. sklearn.utils

Cuối cùng nhưng không kém phần quan trọng, Sklearn có một loạt các chức năng tiện ích và trợ giúp trong sklearn.utilsgói con. Bản thân Sklearn sử dụng các chức năng trong mô-đun này để xây dựng tất cả các máy biến áp và công cụ ước tính mà tất cả chúng ta sử dụng.

Có rất nhiều cái hữu ích như class_weight.compute_class_weight,,, v.v. Bạn estimator_html_reprcó thể sử dụng chúng trong quy trình làm việc của riêng mình để làm cho mã của bạn giống Sklearn hơn hoặc chúng có thể hữu ích khi tạo máy biến áp và công cụ ước tính tùy chỉnh phù hợp với Sklearn API.shufflecheck_X_y

Tóm lược

Mặc dù các thư viện như CatBoost, XGBoost, LightGBM đang dần chiếm lấy vị trí hàng đầu từ Sklearn với tư cách là thư viện ML hàng đầu, nhưng nó vẫn là một phần vô giá trong kho kỹ năng của kỹ sư ML hiện đại.

API nhất quán, thiết kế mã đặc biệt và khả năng tạo quy trình làm việc ML mạnh mẽ vẫn khiến Sklearn trở nên vô song về mặt chức năng và tính linh hoạt. Mặc dù chúng ta có thể đạt được rất nhiều điều với những điều cơ bản, nhưng bài viết này đã cho thấy rằng Sklearn còn nhiều điều để cung cấp hơn là nhìn thấy!

Cảm ơn vì đã đọc!

© Copyright 2021 - 2023 | vngogo.com | All Rights Reserved