Khai thác dữ liệu: Phân tích rổ thị trường với thuật toán Apriori

Apr 09 2022
Khám phá bí mật đằng sau lý do tại sao bánh mì luôn được đặt thuận tiện bên cạnh bơ trong cửa hàng tạp hóa
Giới thiệu Một số người trong chúng ta đi đến cửa hàng tạp hóa với một danh sách tiêu chuẩn; trong khi một số người trong chúng ta gặp khó khăn trong việc bám sát danh sách mua sắm hàng tạp hóa của mình, cho dù chúng ta có quyết tâm đến đâu. Bất kể bạn là người như thế nào, các nhà bán lẻ sẽ luôn là những chuyên gia đưa ra nhiều lời dụ dỗ để làm tăng ngân sách của bạn.
Ảnh của Anne Preble trên Unsplash

Giới thiệu

Một số người trong chúng ta đi đến cửa hàng tạp hóa với một danh sách tiêu chuẩn; trong khi một số người trong chúng ta gặp khó khăn trong việc bám sát danh sách mua sắm hàng tạp hóa của mình, cho dù chúng ta có quyết tâm đến đâu. Bất kể bạn là người như thế nào, các nhà bán lẻ sẽ luôn là những chuyên gia đưa ra nhiều lời dụ dỗ để làm tăng ngân sách của bạn.

Hãy nhớ lại khoảng thời gian bạn có câu “ Ồ, tôi cũng có thể cần cái này. " khoảng khăc? Các nhà bán lẻ tăng doanh số bán hàng của họ bằng cách dựa vào một trực giác đơn giản này.

Những người mua cái này rất có thể cũng sẽ muốn mua cái kia.

Những người mua bánh mì sẽ có cơ hội mua bơ cùng nhau cao hơn, do đó, một người quản lý phân loại có kinh nghiệm chắc chắn sẽ biết rằng việc giảm giá bánh mì cũng thúc đẩy doanh số bán bơ.

Các chiến lược theo hướng dữ liệu

Các nhà bán lẻ lớn xoay quanh phân tích rổ thị trường chi tiết để phát hiện ra mối liên hệ giữa các mặt hàng. Bằng cách sử dụng thông tin có giá trị này, họ có thể thực hiện các chiến lược khác nhau để cải thiện doanh thu của mình:

 • Các sản phẩm liên kết được đặt gần nhau, để người mua một mặt hàng sẽ được nhắc mua mặt hàng kia.
 • Giảm giá chỉ có thể được áp dụng cho một trong các sản phẩm được liên kết.
 • Ảnh của Artem Beliaikin trên Unsplash

Nhưng chính xác thì Phân tích rổ thị trường được thực hiện như thế nào?

Các nhà khoa học dữ liệu có thể thực hiện Phân tích giỏ thị trường bằng cách triển khai Khai thác quy tắc liên kết. Khai phá quy tắc liên kết là một phương pháp học máy dựa trên quy tắc giúp khám phá các mối tương quan có ý nghĩa giữa các sản phẩm khác nhau theo mức độ đồng xuất hiện của chúng trong một tập dữ liệu.

Tuy nhiên, một trong những cạm bẫy lớn là nó bao gồm nhiều công thức và thông số khác nhau có thể gây khó khăn cho những người không có chuyên môn về khai thác dữ liệu. Do đó, trước khi chia sẻ kết quả của bạn với các bên liên quan, hãy đảm bảo rằng bạn đã hiểu rõ các định nghĩa cơ bản.

Ảnh của Priscilla Du Preez trên Unsplash

Minh họa khái niệm cốt lõi

Tôi sẽ minh họa ba trong số các khái niệm cốt lõi được sử dụng trong Khai thác theo quy tắc liên kết với một số ví dụ đơn giản bên dưới. Điều này sẽ hỗ trợ bạn trong việc nắm bắt quá trình khai thác dữ liệu.

Giả sử bây giờ bạn đã mở quán cà phê của riêng mình. Bạn sẽ sử dụng các kỹ năng khoa học dữ liệu của mình như thế nào để hiểu những món nào trong thực đơn của bạn được liên kết với nhau?

Ảnh của Aleksander Sadowski trên Unsplash

Tổng cộng có sáu giao dịch với nhiều giao dịch mua khác nhau đã xảy ra trong quán cà phê của bạn.

Hình ảnh của tác giả

Chúng tôi có thể sử dụng ba biện pháp cốt lõi được sử dụng trong Học quy tắc liên kết, đó là: Hỗ trợ , Sự tự tinNâng cao .

 1. Hỗ trợ .

Nếu chúng ta phân tích bảng giao dịch ở trên, hỗ trợ cho cookie là 3 trên 6. Tức là, trong tổng số 6 giao dịch, giao dịch mua có chứa cookie đã xảy ra 3 lần. hoặc 50%.

Hỗ trợ hình ảnh phương trình của tác giả

Hỗ trợ có thể được thực hiện cho nhiều mục cùng một lúc. Hỗ trợ cho cookie và bánh ngọt là 2 trên 6.

Hỗ trợ hình ảnh phương trình của tác giả

2. Sự tự tin .

Độ tin cậy của một sự kiện hậu quả cho một sự kiện tiền trước có thể được mô tả bằng cách sử dụng xác suất có điều kiện. Nói một cách đơn giản, nó là xác suất của sự kiện A xảy ra khi sự kiện B đã xảy ra.

Điều này có thể được sử dụng để mô tả xác suất một mặt hàng được mua khi một mặt hàng khác đã có trong giỏ. Nó được đo lường bằng cách chia tỷ lệ của các giao dịch với mặt hàng X và Y cho tỷ lệ của các giao dịch với Y.

Từ bảng giao dịch ở trên, độ tin cậy của {cookie -> cake} có thể được xây dựng dưới đây:

Hình ảnh phương trình độ tin cậy của tác giả

Xác suất có điều kiện cũng có thể được viết là:

Hình ảnh phương trình độ tin cậy của tác giả

Cuối cùng, chúng ta đi đến giải pháp là 2 trên 3. Chúng ta có thể hiểu trực giác của sự tự tin nếu chúng ta chỉ nhìn vào Giao dịch 1 đến Giao dịch 3. Trong số 3 lần mua với cookie, 2 trong số chúng thực sự được mua cùng với một chiếc bánh !

3. Thang máy .

Mức tăng là tỷ lệ quan sát được so với kỳ vọng (viết tắt o / e). Mức tăng đo lường khả năng một mặt hàng được mua khi một mặt hàng khác được mua, đồng thời kiểm soát mức độ phổ biến của cả hai mặt hàng . Nó có thể được tính bằng cách chia xác suất của cả hai mục xảy ra cùng nhau cho tích của xác suất của cả hai mục riêng lẻ xảy ra như thể không có mối liên hệ nào giữa chúng.

Hình ảnh phương trình nâng của tác giả

Khi đó, mức tăng 1 sẽ có nghĩa là cả hai mục thực sự độc lập và không có bất kỳ liên kết nào. Đối với bất kỳ giá trị nào cao hơn 1, mức tăng cho thấy rằng thực sự có một liên kết. Giá trị càng cao, liên kết càng cao.

Nhìn lại bảng, độ nâng của {cookies -> cake} là 2, điều này ngụ ý rằng thực sự có sự liên quan giữa cookie và bánh ngọt.

Bây giờ chúng ta đã nắm vững tất cả các khái niệm cốt lõi, chúng ta có thể xem xét một thuật toán có thể tạo các tập hợp mục từ dữ liệu giao dịch, được sử dụng để tính toán các quy tắc kết hợp này.

Thuật toán Apriori

Tổng quat

Thuật toán Apriori là một trong những thuật toán phổ biến nhất được sử dụng trong việc học quy tắc kết hợp trên cơ sở dữ liệu quan hệ. Nó xác định các mục trong một tập dữ liệu và tiếp tục mở rộng chúng cho các tập hợp mục lớn hơn và lớn hơn .

Tuy nhiên, Thuật toán Apriori chỉ mở rộng nếu tập hợp mục là thường xuyên, tức là xác suất tập hợp mục vượt quá một ngưỡng xác định trước nhất định.

Ảnh của Shane Aldendorff trên Unsplash

Chính thức hơn,

Thuật toán Apriori đề xuất rằng:

Xác suất của một tập phổ biến là không thường xuyên nếu:

 • P (I) <Ngưỡng hỗ trợ tối thiểu, trong đó tôi là bất kỳ tập hợp mục nào không trống
 • Bất kỳ tập hợp con nào trong tập hợp mục có giá trị nhỏ hơn mức hỗ trợ tối thiểu.

Các bước trong thuật toán Apriori

Sơ đồ dưới đây minh họa cách Thuật toán Apriori bắt đầu xây dựng từ tập mục nhỏ nhất và mở rộng thêm về phía trước.

 • Thuật toán bắt đầu bằng cách tạo một tập hợp vật phẩm thông qua Bước kết hợp, tức là tạo tập hợp vật phẩm (K + 1) từ tập hợp vật phẩm K. Ví dụ: thuật toán tạo Cookie, Chocolate và Cake trong lần lặp đầu tiên.
 • Ngay sau đó, thuật toán tiến hành Bước cắt tỉa, nghĩa là loại bỏ bất kỳ tập hợp mục ứng viên nào không đáp ứng yêu cầu hỗ trợ tối thiểu . Ví dụ: thuật toán sẽ loại bỏ Cake nếu Hỗ ​​trợ (Cake) nằm dưới mức Hỗ trợ tối thiểu được xác định trước.

Lưu ý rằng sơ đồ này không phải là phiên bản hoàn chỉnh của bảng giao dịch ở trên. Nó đóng vai trò như một hình ảnh minh họa để giúp vẽ nên bức tranh toàn cảnh hơn về dòng chảy.

Hình ảnh khái niệm về thuật toán Apriori của tác giả

Triển khai mã

Để thực hiện triển khai Phân tích rổ thị trường với Thuật toán Apriori, chúng tôi sẽ sử dụng tập dữ liệu Cửa hàng tạp hóa từ Kaggle. Bộ dữ liệu được Heeral Dedhia xuất bản vào năm 2020 với Giấy phép Công cộng, phiên bản 2.

Tập dữ liệu có 38765 hàng đơn đặt hàng từ các cửa hàng tạp hóa.

Ảnh của Cookie the Pom trên Unsplash

Nhập và đọc dữ liệu

 • Trước hết, hãy nhập một số mô-đun cần thiết và đọc bộ dữ liệu mà chúng tôi đã tải xuống từ Kaggle.

Đầu ra:

Đầu ra mã của tác giả

Nhóm thành các giao dịch

 • Tập dữ liệu ghi lại các lần mua hàng riêng lẻ trong một hàng. Chúng tôi sẽ phải nhóm các giao dịch mua này vào giỏ các mặt hàng.
 • Sau đó, chúng ta sẽ sử dụng TransactionEncoder để mã hóa các giao dịch thành một định dạng phù hợp với hàm Apriori.

Đầu ra:

Đầu ra mã của tác giả

Lưu ý: Khung dữ liệu ghi lại mỗi hàng là một giao dịch và các mặt hàng đã được mua trong giao dịch sẽ được ghi là Đúng.

Apriori và các quy tắc của hiệp hội

 • Thuật toán Apriori sẽ được sử dụng để tạo các tập hợp mục thường xuyên. Chúng tôi sẽ chỉ định mức hỗ trợ tối thiểu là 6 trên tổng số giao dịch. Các quy tắc kết hợp được tạo và chúng tôi lọc giá trị Tăng lên> 1,5.

Đầu ra:

Đầu ra mã của tác giả

Hình dung

 • Để hình dung các quy tắc kết hợp của chúng tôi, chúng tôi có thể vẽ chúng trong một biểu đồ phân tán 3D. Các quy tắc gần trên cùng bên phải là các quy tắc có thể có ý nghĩa nhất để được nghiên cứu sâu hơn.

Đầu ra:

3D Scatterplot của tác giả
 • Một loại hình ảnh trực quan khác để xem xét mối quan hệ giữa các sản phẩm là thông qua Đồ thị mạng. Hãy xác định một hàm để vẽ một biểu đồ mạng có thể chỉ định bao nhiêu quy tắc mà chúng ta muốn hiển thị.

Đầu ra:

Biểu đồ mạng của tác giả

Ứng dụng kinh doanh

Giả sử cửa hàng tạp hóa đã mua quá nhiều Sữa nguyên kem và hiện đang lo lắng rằng các kho dự trữ sẽ hết hạn nếu không thể bán hết kịp thời. Tệ hơn nữa, tỷ suất lợi nhuận của Sữa nguyên kem quá thấp nên họ không thể có chiết khấu khuyến mại mà không giết chết quá nhiều lợi nhuận của họ.

Ảnh của Daria Volkova trên Unsplash

Một cách tiếp cận có thể được đề xuất là tìm ra sản phẩm nào thúc đẩy doanh số bán Sữa nguyên kem và thay vào đó giảm giá cho những sản phẩm đó.

Mã số:

Đầu ra:

Đầu ra mã của tác giả

Ví dụ: chúng tôi có thể áp dụng giảm giá khuyến mại cho rượu Brandy, Nước làm mềm, Trái cây đóng hộp, Xi-rô và Chất tạo ngọt nhân tạo. Một số hiệp hội có vẻ phản trực giác, nhưng các quy tắc nêu rõ rằng những sản phẩm này thực sự thúc đẩy doanh số bán Sữa nguyên kem.

Lấy đi

Bằng cách triển khai Thuật toán Apriori và phân tích các biện pháp liên kết, các doanh nghiệp có thể đưa ra hàng chục chiến lược dựa trên dữ liệu để tăng doanh thu và lợi nhuận của họ. Các quy tắc kết hợp này rất quan trọng trong việc khai thác dữ liệu để phân tích hành vi mua hàng của người tiêu dùng. Một số chiến lược quan trọng nhất của nhà bán lẻ, chẳng hạn như phân tích khách hàng, phân tích rổ thị trường và phân nhóm sản phẩm có thể thu được thông tin chi tiết có giá trị thông qua khai thác quy tắc liên kết.

Cuối cùng, cảm ơn bạn rất nhiều vì đã đọc đến cuối. Tôi hy vọng bạn thích tác phẩm này!

Ảnh của Hanny Naibaho trên Unsplash

Người giới thiệu

[1] M.Mohammed và B. Arkok. Một thuật toán Apriori được cải tiến cho các quy tắc kết hợp . (2014). Tạp chí Quốc tế về Máy tính Ngôn ngữ Tự nhiên. 3. 10.5121 / ijnlc.2014.3103.

[2] DH Goh, RP Ang. Giới thiệu về khai thác quy tắc kết hợp: Một ứng dụng trong tư vấn và hành vi tìm kiếm sự giúp đỡ của thanh thiếu niên. (2007). Phương pháp nghiên cứu hành vi 39, 259–266

[3] S. Raschka. Tài liệu về Tiện ích mở rộng Máy học . (Năm 2021). Lấy từ: https://rasbt.github.io/mlxtend/

[4] A. Hagberg, D. Schult, P. Swart. Bản phát hành tham chiếu NetworkX 2.7.1 . (Năm 2022). Lấy từ: https://networkx.org/

[5] H. Dedhia. Bộ dữ liệu tạp hóa được cấp phép theo GPL 2 . (Năm 2020). Lấy từ: https://www.kaggle.com/datasets/heeraldedhia/groceries-dataset

© Copyright 2021 - 2023 | vngogo.com | All Rights Reserved