Kiểm tra thống kê sẽ không giúp bạn so sánh các bản phân phối

Apr 09 2022
Hãy quên các giá trị p đi và biết “Khoảng cách Wasserstein được chuẩn hóa”: một thước đo thực tế hữu ích về sự khác biệt giữa các phân phối. Một trong những câu hỏi lặp đi lặp lại nhất trong thế giới dữ liệu, từ học máy đến phân tích kinh doanh, từ tài chính đến nghiên cứu y tế là: "Các biến này khác nhau như thế nào giữa các nhóm này?" Tôi cá là bạn đã đến đó trước đây.

Hãy quên các giá trị p đi và biết “Khoảng cách Wasserstein được chuẩn hóa”: một thước đo thực tế hữu ích về sự khác biệt giữa các phân phối.

[Hình ảnh của Tác giả]

Một trong những câu hỏi thường xuyên nhất trong thế giới dữ liệu, từ học máy đến phân tích kinh doanh , từ tài chính đến nghiên cứu y tế là:

“Các biến này khác nhau như thế nào giữa các nhóm này?”

Tôi cá là bạn đã đến đó trước đây. Bạn có một tập dữ liệu và hai (hoặc nhiều) nhóm khách hàng, chẳng hạn như khách hàng từ Hoa Kỳ và khách hàng từ Đức, và bạn đã ghi lại một số biến số, chẳng hạn như độ tuổi, tần suất mua hàng và số tiền mua hàng trung bình.

[Hình ảnh của Tác giả]

Bạn muốn biết biến nào có khả năng phân biệt khách hàng Mỹ với khách hàng Đức tốt hơn. Hoặc, tương đương, biến nào khác biệt hơn giữa khách hàng Mỹ và Đức .

Để làm được điều đó, bạn cần có một cách để đo lường sự khác biệt giữa các phân phối , ví dụ như độ tuổi của khách hàng Đức khác với độ tuổi của khách hàng Mỹ, v.v.

Biện pháp này sẽ hữu ích trong nhiều lĩnh vực:

 • Máy học . Trong phân tích dự đoán, sẽ hữu ích khi xác định các tính năng nào có thể mang tính dự đoán nhiều hơn. Ngoài ra, nó có thể giúp phát hiện sự thay đổi phân phối (còn gọi là lệch đào tạo / phục vụ).
 • Phân tích cụm . Nó cho phép nhận biết các tính năng nào được đặt riêng biệt một cụm nhất định với phần còn lại của quần thể.
 • Phân tích dữ liệu / kinh doanh . Nó cho phép làm nổi bật những biến nào có tính phân biệt cao hơn giữa các nhóm - hoặc phân khúc - khách hàng.

Các phương pháp mà tôi đã thấy được sử dụng thường xuyên hơn để đánh giá sự khác biệt giữa các phân phối đến từ số liệu thống kê:

 • Kiểm định F (giá trị p) , kiểm tra xem có sự khác biệt có ý nghĩa thống kê giữa các phương tiện của các nhóm hay không;
 • Kiểm định Kolmogorov-Smirnov (giá trị p) , kiểm tra xem có sự khác biệt có ý nghĩa thống kê giữa các phân bố của các nhóm hay không.

Lưu ý rằng, trong phần sau, thay vì giá trị p, tôi sẽ sử dụng 1 giá trị p trừ đi, có thể được hiểu một cách đại khái là xác suất mà sự khác biệt giữa các phân phối là đáng kể.

Tuy nhiên, sử dụng giá trị p từ một bài kiểm tra thống kê hiếm khi là lựa chọn tốt nhất . Hãy để tôi giải thích bằng một ví dụ.

Dưới đây, tôi đã vẽ biểu đồ 8 phân phối, mỗi phân phối được tạo thành từ 20 điểm dữ liệu cách đều nhau từ giá trị nhỏ nhất đến giá trị lớn nhất. Nhóm màu xanh lam chứa các điểm từ 0 đến 10, nhóm màu cam chứa các điểm từ 1 đến 9, v.v.

Bên cạnh mỗi nhóm, tôi đã báo cáo các số liệu sau về sự khác biệt giữa bản phân phối và bản phân phối màu xanh lam:

 • F: 1 trừ đi giá trị p của F-test;
 • KS: 1 trừ đi giá trị p của thử nghiệm Kolmogorov-Smirnov;
 • SWD: Khoảng cách Wasserstein được chuẩn hóa (nghĩa là không phải là một bài kiểm tra thống kê);
 • Các phân phối đồng đều khác nhau của 20 điểm dữ liệu. Cột đầu tiên là 1 trừ đi giá trị p của F test. Cột thứ hai là 1 trừ đi giá trị p của phép thử Kolmogorov-Smirnov. Cột thứ ba là khoảng cách Wasserstein được chuẩn hóa theo phạm vi. [Hình ảnh của Tác giả]

Nhưng điều gì sẽ xảy ra nếu chúng ta lặp lại quy trình tương tự với 1000 điểm dữ liệu thay vì 20 điểm dữ liệu?

Các phân phối đồng nhất khác nhau của 1.000 điểm dữ liệu. Cột đầu tiên là 1 trừ đi giá trị p của F test. Cột thứ hai là 1 trừ đi giá trị p của phép thử Kolmogorov-Smirnov. Cột thứ ba là khoảng cách Wasserstein được chuẩn hóa theo phạm vi. [Hình ảnh của Tác giả]

Như bạn có thể thấy, KS bây giờ là vô ích. Trên thực tế, không có ích gì khi phân biệt giữa các phân bố khác nhau: phân bố đồng đều giữa 1 và 9 (điểm cam) có cùng giá trị p với phân bố đồng đều giữa 10 và 13 (điểm xám) .

Ngược lại, Khoảng cách Wasserstein Chuẩn hóa (SWD) hoạt động khá tốt, vì nó cho chúng ta một ý tưởng khá chính xác về mức độ khác biệt của mỗi phân phối so với phân phối chuẩn.

Để hiểu Khoảng cách Wasserstein Chuẩn hóa là gì, trước tiên chúng ta hãy xem logic đằng sau việc tính toán khoảng cách Wasserstein.

Khoảng cách Wasserstein

Ý tưởng đằng sau khoảng cách Wasserstein đơn giản đến mức đáng xấu hổ.

Hãy tưởng tượng chúng ta có 2 nhóm, A và B, mỗi nhóm gồm 3 người, tuổi của họ đã được ghi lại. Câu hỏi đặt ra là: làm cách nào để đo lường sự khác biệt giữa tuổi ở nhóm A và tuổi ở nhóm B?

Hai nhóm điểm. [Hình ảnh của Tác giả]

Hãy tưởng tượng sắp xếp cả hai nhóm theo độ tuổi và tạo thành các cặp bằng cách lấy phần tử đầu tiên của A cùng với phần tử đầu tiên của B, phần tử thứ hai của A cùng với phần tử thứ hai của B, v.v. Khoảng cách Wasserstein là khoảng cách trung bình giữa mỗi điểm của B và điểm tương ứng của A.

Nói cách khác, khoảng cách Wasserstein trả lời câu hỏi:

Trung bình, bạn nên dịch chuyển từng điểm của nhóm này để lấy điểm của nhóm kia mà vẫn giữ nguyên vị trí tương đối của các điểm ?

Khoảng cách Wasserstein giữa hai nhóm có cùng số điểm. [Hình ảnh của Tác giả]

Theo định nghĩa này, khá đơn giản để tính khoảng cách Wasserstein và chúng ta cũng có thể kiểm tra xem nó có cho kết quả giống như cách triển khai của Scipy hay không:

Thật dễ dàng để tạo lại cùng một đầu ra của khoảng cách Wasserstein của Scipy khi mảng a và mảng b có cùng độ dài. [Hình ảnh của Tác giả]

Tuy nhiên, định nghĩa này chỉ hoạt động với các nhóm có cùng số lượng . Để làm cho khái niệm này tổng quát hơn, chúng ta phải mở rộng nó với khái niệm phân phối tích lũy.

Trên thực tế, trong một cài đặt tổng quát hơn, khoảng cách Wasserstein được tính là diện tích giữa các đường cong của phân phối tích lũy của hai nhóm . Nó chỉ bằng 0 khi hai phân phối tích lũy được chồng lên nhau một cách hoàn hảo và nó có thể lớn tùy ý khi các phân phối ở xa hơn.

Lưu ý rằng việc tính toán diện tích giữa hai phân phối tích lũy rất đơn giản, vì nó luôn là tổng của các hình chữ nhật.

Khoảng cách Wasserstein như diện tích giữa các phân phối tích lũy. [Hình ảnh của Tác giả]

Do đó, chúng ta có thể điều chỉnh định nghĩa trước đây của mình và nói rằng khoảng cách Wasserstein trả lời câu hỏi:

Trung bình, bạn nên di chuyển từng điểm của một nhóm này để lấy nhóm kia, trong khi vẫn duy trì lượng tử của các điểm là bao nhiêu?

Chúng tôi cũng có thể xác minh rằng định nghĩa này đúng với ví dụ đầu tiên của chúng tôi:

Khoảng cách Wasserstein như diện tích giữa các phân phối tích lũy. [Hình ảnh của Tác giả]

swd = (43.3-40.5) * .33 + (44.7-46.3) * .33 + (51.8-47.8) * .33
  = 2.8 * .33 + 1.6 * .33 + 4.0 * .33 
  = 2.8

Chuẩn hóa khoảng cách Wasserstein

Từ đoạn trước, cần phải nói rõ rằng khoảng cách Wasserstein - được tính là khoảng cách trung bình - phụ thuộc vào đơn vị đo của đối tượng địa lý. Đây là một vấn đề vì nó sẽ không cho phép so sánh các tính năng khác nhau.

Để có được một số liệu có thể so sánh được, chúng ta nên chuẩn hóa khoảng cách Wasserstein theo một số cách. Nhiều tùy chọn có sẵn, chẳng hạn như chia nó cho phạm vi của biến (nghĩa là giá trị lớn nhất trừ giá trị nhỏ nhất) hoặc cho phạm vi liên phần tư (tức là phân vị thứ 75 trừ đi phân vị thứ 25).

Tuy nhiên, cách mà tôi thích là chia khoảng cách Wasserstein cho độ lệch chuẩn của biến (tức là độ lệch chuẩn của nhóm A và nhóm B hoàn toàn). Cuối cùng chúng tôi đã có số liệu mà chúng tôi đang tìm kiếm:

import numpy as np
from scipy.stats import wasserstein_distance
def standardized_wasserstein_distance(a, b):
 """a and b are numpy arrays."""
 numerator = wasserstein_distance(a, b)
 denominator = np.std(np.concatenate([a, b]))
 return numerator / denominator if denominator != .0 else .0

 • nó lớn hơn hoặc bằng 0 (trong đó 0 chỉ ra rằng hai phân phối hoàn toàn giống nhau);
 • nó có thể lớn hơn 1 ;
 • nó có thể so sánh giữa các biến khác nhau vì nó là một số thuần túy ;
 • nó có thể được hiểu là “ trung bình có bao nhiêu độ lệch chuẩn, chúng ta nên di chuyển từng điểm của một nhóm này để đạt được nhóm kia ”.

Để đánh giá xem liệu Khoảng cách Wasserstein Chuẩn hóa có thực sự tốt hơn các số liệu khác hay không, tôi đã thử nghiệm nó trên 24 bộ dữ liệu (có sẵn trong Keras, theo giấy phép Apache và trong Pycaret , theo giấy phép của MIT ).

Mỗi tập dữ liệu có một biến mục tiêu rời rạc mà chúng tôi sẽ sử dụng như một “chân lý cơ bản” tự nhiên để phân nhóm. Dưới đây, tôi đã báo cáo thống kê chính cho từng tập dữ liệu: số lớp trong biến mục tiêu, số cột (hoặc tính năng) và số hàng.

Số liệu thống kê chính của 24 bộ dữ liệu đã được sử dụng để kiểm tra các chỉ số. [Hình ảnh của Tác giả]

Sử dụng biến mục tiêu làm biến nhóm, đối với mỗi cột của mỗi tập dữ liệu, tôi đã tính toán:

 • F-test (1 trừ giá trị p);
 • Kiểm định Kolmogorov-Smirnov (1 trừ giá trị p);
 • Khoảng cách Wasserstein chuẩn hóa (Khoảng cách Wasserstein chia cho độ lệch chuẩn của phân phối đầy đủ);
 • Mức độ quan trọng của tính năng (có được sau khi đào tạo bộ phân loại CatBoost, và sau đó trích xuất mức độ quan trọng của cột).
5 hàng ngẫu nhiên của bảng đầu ra. [Hình ảnh của Tác giả]

Hợp lý để mong đợi rằng một cột có mức độ quan trọng của đối tượng địa lý cao phải có sự khác biệt cao giữa sự phân bố của dương và phân phối của phủ định .

Do đó, đại diện cho mức độ tốt của một chỉ số là mối tương quan giữa chính chỉ số đó và tầm quan trọng của tính năng được CatBoost ước tính . Vì lý do này, tôi đã tính toán mối tương quan giữa F, KS, SWD và tầm quan trọng của tính năng CatBoost. Đây là kết quả trên 24 bộ dữ liệu:

Tương quan giữa F, KS, SWD và tầm quan trọng của tính năng đối với mỗi tập dữ liệu. [Hình ảnh của Tác giả]

Như có thể thấy, SWD hầu hết hoạt động tốt hơn các chỉ số khác . Ngoài ra, bằng cách lấy trung bình của các hệ số tương quan, đây là những gì chúng ta nhận được:

Mối tương quan trung bình giữa F, KS, SWD và tầm quan trọng của tính năng, trên tất cả các tập dữ liệu. [Hình ảnh của Tác giả]

Trung bình, SWD có tương quan là 62% với mức độ quan trọng của tính năng do CatBoost ước tính, trong khi giá trị p của KS chỉ 39% và giá trị p F chỉ 19%, do đó xác nhận dự đoán ban đầu của chúng tôi rằng SWD là số liệu tốt hơn để đánh giá sự khác biệt giữa các bản phân phối.

Bạn có thể tìm thấy toàn bộ mã mà tôi đã sử dụng cho bài viết này trong sổ tay sau:https://github.com/smazzanti/standardized_wasserstein_distance/blob/main/swd.ipynb

Cảm ơn bạn đã đọc! Tôi hy vọng bạn thích bài viết này. Nếu bạn muốn, hãy thêm tôi trên Linkedin !

© Copyright 2021 - 2023 | vngogo.com | All Rights Reserved