Học máy gặp khó khăn với dữ liệu nhỏ.

Mar 22 2022
Được biết, với Machine Learning, người ta có thể học hầu như bất kỳ chức năng nào được cung cấp đủ dữ liệu. Nhưng liệu người ta vẫn có thể học được khi không có quá nhiều dữ liệu? Trong bài viết này, chúng tôi chỉ ra khả năng của một mô hình ML điển hình để học một hình sin đơn giản là tốt như thế nào khi không có các đặc điểm không liên quan nào xuất hiện, ngay cả khi có rất ít dữ liệu.

Được biết, với Machine Learning, người ta có thể học hầu như bất kỳ chức năng nào được cung cấp đủ dữ liệu. Nhưng liệu người ta vẫn có thể học được khi không có quá nhiều dữ liệu? Trong bài viết này, chúng tôi chỉ ra khả năng của một mô hình ML điển hình để học một hình sin đơn giản là tốt như thế nào khi không có các đặc điểm không liên quan nào xuất hiện, ngay cả khi có rất ít dữ liệu. Tuy nhiên, trong một kịch bản thực tế hơn, nhiều tính năng không liên quan xuất hiện, và sau đó, khả năng học hỏi suy giảm nhanh chóng, đến mức không thể học được.

Hãy bắt đầu với một số dữ liệu đơn giản sẽ không đáng kể để làm mô hình.

Ví dụ dữ liệu đào tạo đầu vào với 30 mẫu cho mỗi cấp độ yếu tố. Các đường đứt nét là chân lý cơ bản được sử dụng để tạo dữ liệu.

Dữ liệu có một yếu tố với hai cấp độ. Phản hồi là rỗng đối với cấp đầu tiên, trong khi nó có dạng hình sin đối với một số tính năng x ở cấp thứ hai.

Nếu tất cả những gì chúng tôi cung cấp là đặc điểm x và các mức yếu tố, tức là không có tính năng không liên quan, thì quá trình đào tạo sẽ diễn ra suôn sẻ. Một mô hình như Rừng Ngẫu nhiên có thể tái tạo hình dạng khá tốt.

Đã huấn luyện mô hình rừng ngẫu nhiên trên 30 mẫu không có đặc điểm nào không liên quan. Mô hình được đánh giá trên một mẫu gồm 100 giá trị ngẫu nhiên của đối tượng x cho mục đích trực quan hóa.

Tuy nhiên, khi chúng tôi thêm một số tính năng không liên quan gì đến phản hồi, vẫn giữ tính năng quan trọng duy nhất x, việc học sẽ khó hơn vì mô hình cần sàng lọc các tính năng vô dụng đó để đi đến tính năng quan trọng. Hình sin cho cấp độ thứ hai hầu như không nhìn thấy khi chỉ có 20 tính năng không liên quan được thêm vào dữ liệu đào tạo.

Đã đào tạo mô hình rừng ngẫu nhiên với 20 đặc điểm không liên quan.

Trong ví dụ, chúng tôi đã sử dụng một tập hợp đào tạo gồm 30 mẫu cho mỗi cấp độ yếu tố, khá nhỏ. Câu hỏi thực sự là tập dữ liệu phải lớn đến mức nào để việc học về hình dạng đơn giản này không bị cản trở quá nhiều bởi sự hiện diện của các tính năng không liên quan? Vì vậy, chúng tôi kiểm tra các tập dữ liệu với 10, 20, 30, 40, 50 mẫu cho mỗi cấp độ yếu tố và hóa ra rằng chỉ khoảng 50 hiệu ứng của việc thêm các tính năng không liên quan không phá hủy quá trình học của hình sin rất nhanh.

Chất lượng của mô hình (bộ xác thực R²) như một hàm của kích thước dữ liệu đầu vào với số lượng khác nhau của các tính năng không liên quan. Các điểm và thanh lỗi đại diện cho khoảng tin cậy trung bình và 80% trong 30 thử nghiệm ngẫu nhiên.

Cho đến nay, chúng tôi đã sử dụng Random Forest làm thuật toán mô hình hóa của mình. Đó thường là một điểm khởi đầu tốt khi xử lý dữ liệu nhỏ. Nhưng có lẽ chính mô hình Rừng Ngẫu nhiên là thủ phạm ở đây? Không phải vậy. Trên thực tế, Rừng ngẫu nhiên có khả năng chống lại các tính năng không liên quan nhất trong số một số thuật toán hồi quy phổ biến, kNN, SVR, Quy trình Gaussian, Mạng đàn hồi, v.v. Nếu bạn tìm thấy một thuật toán dễ dàng tồn tại trong thử nghiệm như vậy, hãy cho mọi người biết, chẳng hạn như có thể để lựa chọn hiệu quả các tính năng trên tập dữ liệu nhỏ sẽ có giá trị lớn.

Bài tập mô phỏng đơn giản này là một lời nhắc nhở tốt, ít nhất là đối với tôi, rằng việc học phi tuyến tính với ML là không nhất định. Có những trường hợp phổ biến, chẳng hạn như dữ liệu nhỏ với nhiều tính năng không liên quan, theo đó chúng ta có thể thấy kết quả mô hình hóa kém ngay cả khi nhiệm vụ mô hình hóa có vẻ nhỏ nhặt.

Các tính năng không liên quan có xu hướng không được quan tâm khi nhiều dữ liệu có sẵn và mô hình ML có thể vừa chọn các tính năng vừa tìm hiểu cùng một lúc. Tuy nhiên, với dữ liệu nhỏ, việc lựa chọn các tính năng và tìm hiểu đồng thời trở nên khó khăn hơn và có chỗ cho những sai lầm.

© Copyright 2021 - 2023 | vngogo.com | All Rights Reserved