Cách cấu trúc một dự án khoa học dữ liệu để dễ đọc và minh bạch

Apr 09 2022
Và cách tạo một trong một dòng mã
Động lực Điều quan trọng là phải cấu trúc dự án khoa học dữ liệu của bạn dựa trên một tiêu chuẩn nhất định để đồng đội của bạn có thể dễ dàng duy trì và sửa đổi dự án của bạn. Nhưng bạn nên tuân theo loại tiêu chuẩn nào? Sẽ thật tuyệt nếu bạn có thể tạo một cấu trúc lý tưởng cho một dự án khoa học dữ liệu bằng cách sử dụng một mẫu phải không? Có một số mẫu tuyệt vời cho các dự án khoa học dữ liệu, nhưng chúng thiếu một số phương pháp hay như kiểm tra, định cấu hình hoặc định dạng mã của bạn.

Động lực

Điều quan trọng là phải cấu trúc dự án khoa học dữ liệu của bạn dựa trên một tiêu chuẩn nhất định để đồng đội của bạn có thể dễ dàng duy trì và sửa đổi dự án của bạn.

Hình ảnh của Tác giả

Nhưng bạn nên tuân theo loại tiêu chuẩn nào? Sẽ thật tuyệt nếu bạn có thể tạo một cấu trúc lý tưởng cho một dự án khoa học dữ liệu bằng cách sử dụng một mẫu phải không?

Có một số mẫu tuyệt vời cho các dự án khoa học dữ liệu, nhưng chúng thiếu một số phương pháp hay như kiểm tra, định cấu hình hoặc định dạng mã của bạn.

Đó là lý do tại sao tôi tạo một tên kho dữ liệu-khoa học-mẫu . Kho lưu trữ này là kết quả của nhiều năm tôi tinh chỉnh cách tốt nhất để cấu trúc một dự án khoa học dữ liệu sao cho nó có thể tái tạo và bảo trì được.

Trong bài viết này, bạn sẽ học cách sử dụng mẫu này để kết hợp các phương pháp hay nhất vào quy trình làm việc khoa học dữ liệu của mình.

Bắt đầu

Để tải xuống mẫu, hãy bắt đầu bằng việc cài đặt Cookiecutter :

pip install cookiecutter

cookiecutter https://github.com/khuyentran1401/data-science-template

GIF của Tác giả

Bây giờ một dự án với tên được chỉ định sẽ được tạo trong thư mục hiện tại của bạn! Cấu trúc của dự án như sau:

Hình ảnh của Tác giả

Các công cụ được sử dụng trong mẫu này là:

 • Thơ : Quản duyên
 • hydra : Quản lý các tệp cấu hình
 • bổ sung cam kết trước : Tự động hóa định dạng xem xét mã
 • DVC : Kiểm soát phiên bản dữ liệu
 • pdoc : Tự động tạo tài liệu API cho dự án của bạn

Cài đặt phụ thuộc

Dự án này sử dụng Thơ thay vì pip để quản lý các phần phụ thuộc vì Thơ cho phép bạn:

 • Tách các phần phụ thuộc chính và các phần phụ thuộc thành hai tệp riêng biệt (thay vì lưu trữ tất cả các phần phụ thuộc trong requirements.txt)
 • Tạo các tệp phụ thuộc có thể đọc được
 • Loại bỏ tất cả các phụ thuộc không sử dụng khi xóa thư viện
 • Tránh cài đặt các gói mới xung đột với các gói hiện có
 • Đóng gói dự án của bạn trong một số dòng mã

poetry install

poetry add <library-name>

poetry remove <library-name>

Makefile cho phép bạn tạo các lệnh ngắn và có thể đọc được cho một loạt các tác vụ. Bạn có thể sử dụng Makefile để tự động hóa các tác vụ như thiết lập môi trường:

Giờ đây, bất cứ khi nào người khác muốn thiết lập môi trường cho các dự án của bạn, họ chỉ cần chạy:

make activate
make setup

GIF của Tác giả

Quản lý mã và kiểm tra

Tất cả mã Python được lưu trữ trong thư mục src.

Hình ảnh của Tác giả - Các biểu tượng thu được từ flaticon

Tất cả các tệp thử nghiệm đều nằm trong thư mục tests. Mỗi tệp kiểm tra bắt đầu bằng từ testtheo sau là tên của tệp được kiểm tra.

Hình ảnh của Tác giả - Các biểu tượng thu được từ flaticon

Quản lý tệp cấu hình bằng Hydra

Tệp cấu hình lưu trữ tất cả các giá trị ở một nơi, giúp tách các giá trị khỏi mã và tránh mã hóa khó. Trong mẫu này, tất cả các tệp cấu hình được lưu trữ trong thư mục config.

Hình ảnh của Tác giả - Các biểu tượng thu được từ flaticon

Hydra là một thư viện Python cho phép bạn truy cập các tham số từ tệp cấu hình bên trong tập lệnh Python.

Ví dụ: nếu main.yamltệp của chúng tôi trông giống như dưới đây:

Hình ảnh của Tác giả - Các biểu tượng thu được từ flaticon

…, Sau đó chúng ta có thể truy cập giá trị bên trong tệp cấu hình bằng cách thêm trình trang trí @hydra.maintrên một chức năng cụ thể. Bên trong hàm này, chúng ta có thể truy cập giá trị dưới processedvà bằng cách sử dụng ký hiệu pathdấu chấm:.config.processed.path

Quản lý dữ liệu và mô hình với DVC

Tất cả dữ liệu được lưu trữ trong các thư mục con bên dưới data. Mỗi thư mục con lưu trữ dữ liệu từ các giai đoạn khác nhau.

Hình ảnh của Tác giả - Các biểu tượng thu được từ flaticon

Tất cả các mô hình được lưu trữ trong thư mục model.

Vì Git không lý tưởng cho các tệp nhị phân phiên bản, chúng tôi sử dụng DVC - Kiểm soát Phiên bản Dữ liệu để phiên bản dữ liệu và mô hình của chúng tôi.

Chúng tôi chỉ định các giai đoạn DVC trong dvc.yamltệp. Mỗi giai đoạn đại diện cho các quá trình dữ liệu riêng lẻ, bao gồm đầu vào của chúng ( deps) và kết quả đầu ra ( outs).

Tất cả các thư mục và tệp trong outsđó sẽ được DVC tự động theo dõi.

Nếu bạn muốn thực hiện các lệnh được xác định trong các giai đoạn của chúng, hãy chạy dvc repro. DVC sẽ bỏ qua các giai đoạn không thay đổi.

GIF của Tác giả

Lưu trữ dữ liệu của bạn từ xa

Lợi ích chính của việc sử dụng DVC là nó cho phép bạn tải dữ liệu được DVC theo dõi lên bộ nhớ từ xa. Bạn có thể lưu trữ dữ liệu của mình trên DagsHub , Google Drive, Amazon S3, Azure Blob Storage, Google Cloud Storage, Aliyun OSS, SSH, HDFS và HTTP.

dvc remote add -d remote <REMOTE-URL>

dvc push

git add .
git commit -m 'commit-message'
git push origin <branch>

Khi cam kết mã Python của bạn với Git, bạn cần đảm bảo mã của mình:

 • có vẻ tốt đẹp
 • được tổ chức
 • tuân theo hướng dẫn kiểu PEP 8
 • bao gồm docstrings

Bạn có thể thêm các plugin khác nhau vào đường dẫn cam kết trước của mình. Sau khi các tệp của bạn được cam kết, chúng sẽ được các plugin này kiểm tra. Trừ khi tất cả các kiểm tra được thông qua, không có mã nào được cam kết.

Hình ảnh của Tác giả - Các biểu tượng thu được từ flaticon

Trong mẫu này, chúng tôi sử dụng 5 plugin khác nhau được chỉ định trong .pre-commit-config.yaml. Họ đang:

 • blac k - định dạng mã Python
 • flake8 - kiểm tra kiểu dáng và chất lượng mã Python của bạn
 • isort - tự động sắp xếp các thư viện đã nhập theo thứ tự bảng chữ cái và tách chúng thành các phần và loại.
 • mypy - kiểm tra kiểu tĩnh
 • nbstripout - dải đầu ra từ máy tính xách tay Jupyter

pre-commit install

GIF của Tác giả

Thêm tài liệu API

Là một nhà khoa học dữ liệu, bạn sẽ có nhiều thời gian cộng tác với các thành viên khác trong nhóm. Vì vậy, điều quan trọng là phải tạo tài liệu tốt cho dự án của bạn.

Để tạo tài liệu API dựa trên chuỗi docstrings của các tệp và đối tượng Python của bạn, hãy chạy:

make docs_view

Save the output to docs...
pdoc src --http localhost:8080
Starting pdoc server on localhost:8080
pdoc server ready at http://localhost:8080

GIF của Tác giả

Để lưu tất cả tài liệu API dưới dạng đánh dấu, hãy chạy:

make docs_save

Chúc mừng! Bạn vừa học cách cấu trúc dự án khoa học dữ liệu của mình bằng cách sử dụng mẫu khoa học dữ liệu. Mẫu này có nghĩa là phải linh hoạt. Hãy thoải mái điều chỉnh dự án dựa trên các ứng dụng của bạn.

Hãy thoải mái chơi với data-Science-template tại đây:

Tôi thích viết về các khái niệm khoa học dữ liệu cơ bản và chơi với các công cụ khoa học dữ liệu khác nhau. Bạn có thể kết nối với tôi trên LinkedIn và Twitter .

Gắn dấu sao cho repo này nếu bạn muốn kiểm tra mã cho tất cả các bài báo tôi đã viết. Theo dõi tôi trên Phương tiện để được cập nhật thông tin về các bài báo khoa học dữ liệu mới nhất của tôi như sau:

© Copyright 2021 - 2023 | vngogo.com | All Rights Reserved