Bình phương ít nhất so với Sai số tuyệt đối ít nhất —Một cuộc tranh luận 250 năm tuổi

May 08 2022
Từ Gauss và sự ra đời của thống kê đến khoa học dữ liệu hiện đại và học máy
Hồi quy bình phương nhỏ nhất thông thường (OLS) là một trong những mục đầu tiên trên menu trong khóa học Nhập môn Thống kê hoặc Khoa học Dữ liệu. Nhưng tại sao chúng ta cần phải sửa lỗi? Đó là một câu hỏi phổ biến ngay cả học sinh trung học cũng hỏi.
Biểu đồ của tác giả, ảnh nền từ Wikimedia commons

Hồi quy bình phương nhỏ nhất thông thường (OLS) là một trong những mục đầu tiên trên menu trong khóa học Nhập môn Thống kê hoặc Khoa học Dữ liệu.

Nhưng tại sao chúng ta cần phải sửa lỗi?

Đó là một câu hỏi phổ biến ngay cả học sinh trung học cũng hỏi. Rốt cuộc, việc so sánh kích thước của các sai số (giá trị tuyệt đối) có vẻ đơn giản và tự nhiên hơn.

Cho đến bây giờ, tôi đã trả lời câu hỏi này giống như cách tôi được dạy: “Tổng bình phương là một hàm có thể phân biệt (không giống như tổng của hiệu số tuyệt đối), giúp giảm thiểu việc sử dụng phép tính dễ dàng hơn”.

Nhưng lời giải thích này luôn có vẻ hơi lạ đối với tôi. Giống như người đàn ông đang tìm kiếm chiếc chìa khóa bị mất dưới ánh đèn đường của mình, chỉ vì ở đó dễ thấy hơn. Tổng các bình phương có thể thuận tiện hơn để làm việc, nhưng nó có chính xác hơn không?

Hình nền của Liviu Florescu trên Unsplash

Rất may, giống như hầu hết các câu hỏi thú vị trong toán học, câu hỏi này đã được nhiều người thông minh nghiên cứu và thảo luận trong nhiều năm. Bài báo này trình bày các lập luận cho cả hai bên, cũng như lịch sử của việc bình phương nhỏ nhất đã trở thành phương pháp tiếp cận "bình thường" đối với hồi quy như thế nào.

Để thúc đẩy cuộc thảo luận, hãy bắt đầu với một thử nghiệm suy nghĩ nhỏ…

Thử nghiệm tư tưởng - Dự đoán và Phần thưởng

Tôi sẽ chọn một số nguyên ngẫu nhiên từ 1 đến 10. Không phải ngẫu nhiên đồng nhất, mà là từ một phân phối xác suất nhất định. Giả sử tôi cung cấp cho bạn sự phân bổ bên dưới.

Tất cả đồ thị của tác giả

Nhiệm vụ của bạn là dự đoán số nguyên ngẫu nhiên.
Bạn sẽ đưa ra dự đoán của mình như thế nào, trong mỗi trường hợp này?

  • Trường hợp 1 : Tôi sẽ cho bạn $ 1000 nếu bạn dự đoán đúng số nguyên, nhưng không có gì khác.
  • Trường hợp 2 : Tôi sẽ đưa cho bạn $ 1000, trừ đi phần chênh lệch giữa dự đoán của bạn và giá trị thực tế.
  • Trường hợp 3 : Tôi sẽ đưa cho bạn $ 1000, trừ đi bình phương của chênh lệch giữa dự đoán của bạn và giá trị thực tế.
  • Trường hợp 1: Bạn nên dự đoán chế độ , là giá trị có xác suất cao nhất.
  • Trường hợp 2: Bạn nên dự đoán trung vị (8 trong trường hợp này).

Chúng ta có thể lấy phân phối xác suất rời rạc của mình và nhân xác suất với 100 để thu được tập dữ liệu chứa 100 giá trị. Biểu đồ bên dưới hiển thị sai số / khác biệt tuyệt đối so với trung vị cho mỗi giá trị (màu xanh lam cho những giá trị dưới trung vị và màu hồng cho những giá trị ở trên).

Để tối đa hóa phần thưởng, chúng tôi muốn giảm thiểu sai số tuyệt đối trung bình, tương đương với việc giảm thiểu tổng sai số tuyệt đối.

Bây giờ hãy tưởng tượng dự đoán của bạn lớn hơn mức trung bình. Sự khác biệt tuyệt đối cho 40 giá trị lớn hơn giá trị trung bình sẽ giảm đi 1, nhưng sự khác biệt cho 60 giá trị nhỏ hơn hoặc bằng giá trị trung vị sẽ tăng lên 1. Điều này sẽ làm cho tổng tổng thể tăng 20.

Sự gia tăng tương tự sẽ xảy ra nếu dự đoán của bạn nhỏ hơn mức trung bình.

Trung vị m là giá trị của X sao cho cả

Pr ( X < m ) <0,5 và Pr ( X > m ) <0,5

Vì vậy, lập luận này có thể được sử dụng để chứng minh rằng giá trị trung vị là ước lượng giảm thiểu sai số tuyệt đối. (Lý luận tương tự có thể được áp dụng cho một hàm mật độ xác suất liên tục.)

Mối liên hệ giữa giá trị trung bình và phương pháp có ít sai số tuyệt đối nhất có liên quan đến tính mạnh mẽ của phương pháp khi có các giá trị ngoại lệ, như sẽ được thảo luận thêm bên dưới.

Trường hợp 3 : Bạn nên dự đoán giá trị trung bình / trung bình / kỳ vọng.

Một lần nữa, không rõ ràng! Nhưng đây là nơi mà phép tính rất hữu ích:

Điều thú vị đối với tôi là phần thưởng cho Trường hợp 3 là ít trực quan nhất, nhưng nó dẫn đến giá trị mong đợi, được cho là “dự đoán tốt nhất” trực quan nhất.

Mối quan hệ giữa giá trị trung bình số học và phương pháp bình phương nhỏ nhất là trọng tâm trong sự phát triển của nó bởi Gauss và những người khác.

Gauss, Legendre và nguồn gốc của hình vuông nhỏ nhất

Các nhà sử học thường đồng ý rằng Gauss và Legendre đã suy ra phương pháp hồi quy bình phương nhỏ nhất một cách độc lập ( nguồn ). Cả hai đều đang nghiên cứu các vấn đề trong thiên văn học, ước tính vị trí thực của các thiên thể dựa trên một mẫu phép đo có sai số ngẫu nhiên.

Gauss đã trở thành một danh nhân khoa học vào năm 1801 khi ở tuổi 24, ông là nhà toán học duy nhất có thể dự đoán chính xác vị trí của hành tinh lùn Ceres bị mất tích. Sau đó, ông giải thích rằng hồi quy bình phương nhỏ nhất là một phần trong quy trình của ông để có được ước tính tốt nhất từ ​​dữ liệu có sẵn.

Legendre là người đầu tiên công bố phương pháp bình phương nhỏ nhất vào năm 1805. Ông hơi khó chịu khi Gauss trả lời vào năm 1809 với những câu đại loại như “Ồ… bạn nghĩ đó là một phương pháp mới à? Trên thực tế, tôi đã sử dụng nó được 14 năm ”.

Việc Gauss, “hoàng tử của các nhà toán học”, đã chọn hình vuông nhỏ nhất làm công cụ tốt nhất cho công việc ước lượng thiên văn, nói lên rất nhiều ý nghĩa cho phương pháp này. Một lý do chính khiến ông làm như vậy là mối liên hệ giữa ước lượng bình phương nhỏ nhất và giá trị trung bình cộng.

Hình nền: Wikimedia commons

Trong tác phẩm năm 1809 Lý thuyết về chuyển động của các thiên thể , Gauss đã sử dụng tiên đề này về giá trị trung bình cộng và phương pháp bình phương nhỏ nhất để tính ra phân phối chuẩn (Gaussian), mà hiện nay, không nghi ngờ gì, là mô hình phổ biến nhất cho các sai số ngẫu nhiên. . Kết quả của ông cũng ngụ ý rằng nếu sai số được phân phối bình thường, thì phương pháp bình phương nhỏ nhất là công cụ ước tính khả năng xảy ra tối đa.

Năm sau, Laplace đã mở rộng công trình của Gauss để chứng minh Định lý Giới hạn Trung tâm: mẫu đó có nghĩa là từ bất kỳ cách tiếp cận phân phối nào, một phân phối chuẩn khi kích thước mẫu tiến tới vô cùng. Điều này đã giúp giải thích tại sao các sai số ngẫu nhiên thường tuân theo phân phối Gaussian một cách tự nhiên, vì một sai số đo lường có thể được coi là tổng có trọng số hoặc "trung bình mẫu" của các sai số từ nhiều nguồn đóng góp.

Trong công trình năm 1823 của mình ( Lý thuyết về sự kết hợp của các quan sát ít bị sai số nhất ), Gauss đã đi xa hơn và đặt nền móng cho Định lý Gauss-Markov, trong đó phát biểu rằng

“Công cụ ước lượng bình phương nhỏ nhất thông thường (OLS) có phương sai lấy mẫu thấp nhất trong loại công cụ ước lượng không chệch tuyến tính, nếu các lỗi trong mô hình hồi quy tuyến tính không tương quan, có phương sai bằng nhau và giá trị kỳ vọng bằng không. Các lỗi không cần phải bình thường, cũng không cần phải độc lập và phân bổ giống nhau ”. ( nguồn )

Không rõ ràng 100% điều đó có nghĩa là gì? Đừng lo lắng, tôi cũng vậy!
Ý nghĩa của bài viết này là phiên bản bình phương nhỏ nhất của Gauss đã trở thành phương pháp thực tế để giải các bài toán hồi quy trong 100 năm tới.

Đối số khoảng cách Euclide

Một lập luận khác ủng hộ mô hình bình phương nhỏ nhất là nó đồng ý với mô hình hình học tiêu chuẩn của chúng tôi về khoảng cách. Về mặt hình học, tổng sai số tuyệt đối giống như khoảng cách Manhatten (Taxicab), điều này làm cho nó có vẻ kém trực quan hơn.

Đối với một mẫu gồm n điểm dữ liệu, chúng ta cần mở rộng mô hình này tới một khoảng cách Euclide theo n chiều. Độ vuông góc tương ứng với giả định rằng các sai số là độc lập với nhau.

Tôi chắc rằng Gauss đã biết về sự tương tự. Nhưng theo như tôi biết thì anh ấy đã không chọn sử dụng đối số khoảng cách Euclid này để biện minh cho mô hình bình phương nhỏ nhất. Điều này gợi ý cho tôi rằng, mặc dù đó là một phép loại suy dễ chịu, nhưng nó có thể không mang trọng lượng toán học thực sự nào.

Boscovich và Phương pháp Độ lệch Tuyệt đối Ít nhất

Điều thú vị là, phương pháp có độ lệch tuyệt đối nhỏ nhất đã được Charles Boscovich xuất bản gần 50 năm trước đó vào năm 1757. Ông đã sử dụng quy trình này trong khi nghiên cứu vấn đề ước tính hình dạng của trái đất.

Thay vì sử dụng phép tính, Boscovich đã sử dụng phương pháp thuật toán để giải bài toán tối thiểu hóa lặp đi lặp lại. Công việc của ông đã được mô tả là một phiên bản "tiền sử" của lập trình tuyến tính ( nguồn ), mà mãi đến thế kỷ 20 mới được phát minh ra!

Hồi quy sử dụng ít sai số tuyệt đối nhất là một phương pháp “mạnh mẽ”, có nghĩa là phương pháp này đáng tin cậy hơn khi có các giá trị ngoại lệ. Điều này được biết đến vào đầu những năm 1800, bằng chứng là tuyên bố này của Bowditch trong bản dịch của ông về Cơ học thiên thể của Laplace:

“Phương pháp bình phương nhỏ nhất, khi được áp dụng cho một hệ thống quan sát, trong đó một trong những sai số cực đại là rất lớn, thường không cho kết quả đúng như phương pháp do Boscovich đề xuất […]; lý do là, trong phương pháp cũ, lỗi cực trị này [giống như bất kỳ phương pháp nào khác] ảnh hưởng đến kết quả tương ứng với lũy thừa thứ hai của lỗi ; nhưng trong phương pháp khác, nó như là sức mạnh đầu tiên. ” - Bowditch (c.1830) ( nguồn )

Eddington vs Fisher

Khoảng 100 năm sau khi Gauss 'thiết lập hồi quy bình phương nhỏ nhất và lý thuyết về sai số phân phối chuẩn, nhà vật lý người Anh Arthur Eddington đã có đủ can đảm để thách thức hiện trạng.

Tương tự như Gauss và Legendre, Eddington cũng đang nghiên cứu các vấn đề ước lượng trong thiên văn học. Trong tác phẩm năm 1914 Chuyển động của các vì sao và Cấu trúc của Vũ trụ, ông nói rằng

“Trong việc tính toán sai số trung bình của một loạt các quan sát, nên sử dụng phần dư trung bình đơn giản không phân biệt dấu hiệu hơn là phần dư trung bình bình phương
…… điều này trái với lời khuyên của hầu hết các sách giáo khoa, nhưng nó có thể được chứng minh là đúng” ”- Eddington (1914) ( nguồn )

Ronald Fisher (lúc đó 24 tuổi) đã trả lời Eddington để ủng hộ mô hình bình phương nhỏ nhất, mô hình này “hiệu quả hơn” theo nghĩa các ước tính có phương sai nhỏ hơn.

Stigler (2006) tuyên bố rằng không chỉ Fisher đúng mà còn rằng “Eddington đã trả lời vào tháng 7 năm 1919, đồng ý rằng tuyên bố của ông đã sai”.

Nhưng Huber (1981) lập luận rằng trong khi Fisher đúng với các phân phối chuẩn, có nhiều trường hợp trong thế giới thực về các phân phối có đuôi nặng mà độ lệch tuyệt đối hiệu quả hơn. Đặc biệt là đối với các mẫu nhỏ.

“Do đó, nó trở nên rõ ràng một cách đau đớn rằng những sai lệch xảy ra tự nhiên từ mô hình lý tưởng hóa đủ lớn để làm cho lý thuyết tối ưu tiệm cận truyền thống trở nên vô nghĩa”. - Peter Huber (1981)

Huber và sự trỗi dậy của sự mạnh mẽ

Khái niệm "số liệu thống kê mạnh mẽ", ít nhạy cảm hơn với các sai sót, ngoại lệ hoặc giả định bị hỏng, đã xuất hiện vào nửa sau của thế kỷ 20.

Peter Huber đã từng là một nhà lãnh đạo trong lĩnh vực này. Hàm mất mát Huber của anh ấy là một hàm kết hợp kết hợp các hàm bình phương nhỏ nhất và hàm sai số tuyệt đối nhỏ nhất:

Hình ảnh của tác giả

Tham số δ có thể được thay đổi tùy thuộc vào số lượng và kích thước của các giá trị ngoại lai.

Hampel (1968) đã đưa ra khái niệm “điểm phân tích” cho công cụ ước tính thống kê, đo lường tỷ lệ dữ liệu sai sót mà công cụ ước tính có thể chịu đựng được. ( nguồn )

Ví dụ, điểm phân tích của giá trị trung bình mẫu bằng 0, bởi vì chỉ cần tăng kích thước của một điểm dữ liệu, giá trị trung bình mẫu có thể lớn tùy ý.

“Từ đặc điểm của điểm phân tích về độ mạnh, giá trị trung bình của mẫu là công cụ ước tính tồi tệ nhất từng được phát minh.” - Geyer (2006) ( nguồn )

Nhưng công bằng mà nói với Gauss, tuyên bố của ông ủng hộ ý nghĩa mẫu có chứa cụm từ “… một số quan sát, được thực hiện trong cùng hoàn cảnh và cẩn trọng như nhau ”, có vẻ như chứa đựng một giả định rằng mẫu không chứa các ngoại lệ sai lầm.

Khoa học dữ liệu hiện đại

Vì vậy, chúng ta đang ở đây trong thế kỷ 21. Thống kê đã phát triển thành khoa học dữ liệu và máy học cho phép GPT viết các bài báo có thể đánh lừa con người (bài báo này do con người viết - tôi hứa! )

Như tôi đã đề cập ở phần đầu, hồi quy bình phương nhỏ nhất vẫn là một phần cơ bản của giáo dục khoa học dữ liệu. Nhưng khi giới thiệu mạng nơ-ron và các hàm chi phí của chúng, cả lỗi bình phương trung bình (định mức MSE / L2) và sai số tuyệt đối trung bình (định mức MAE / L1) đều được giải thích chung, cùng với những ưu và nhược điểm của chúng đối với các ứng dụng khác nhau.

Nhưng đây là nơi tôi muốn kết thúc bài viết (tôi hy vọng bạn thích nó) và để cuộc thảo luận tiếp tục trong phần bình luận…

  • Bạn sử dụng hồi quy bình phương nhỏ nhất hay hồi quy mạnh mẽ?
  • Bạn đã chọn hàm chi phí nào cho mạng nơ-ron của mình?
  • Những tính năng nào của ứng dụng hoặc dữ liệu dẫn đến sự lựa chọn của bạn?
  • Tại sao "Bell Curve" lại rất bình thường

© Copyright 2021 - 2022 | vngogo.com | All Rights Reserved