Tìm hiểu về Nhóm Khoa học Dữ liệu tạo sức mạnh cho Nền tảng Mirakl

Apr 09 2022
Các giá trị của nó, các dự án của nó và cách nó tác động đến doanh nghiệp
Khám phá cơ hội việc làm: https: //labs.mirakl.

Khám phá các cơ hội việc làm:https://labs.mirakl.jobs/

Mirakl cung cấp nền tảng SaaS thị trường doanh nghiệp tiên tiến và đầu tiên trong ngành. Với Mirakl, các tổ chức trong các ngành B2B và B2C có thể ra mắt thị trường nhanh hơn, phát triển lớn hơn và hoạt động với sự tự tin khi vượt quá kỳ vọng ngày càng tăng của khách hàng. Nền tảng là lợi thế cạnh tranh mới trong Thương mại điện tử và các thương hiệu đáng tin cậy nhất trên thế giới chọn Mirakl cho giải pháp toàn diện về công nghệ, chuyên môn và hệ sinh thái Mirakl Connect để mở khóa sức mạnh của mô hình kinh doanh nền tảng cho họ.

Kết quả là, các công ty như ABB, Astore by AccorHotels, Best Buy Canada, Carrefour, Catch, Changi Airport, Darty, The Kroger Co., Leroy Merlin, Maisons du Monde, Metro và Toyota Material Xử lý đạt được tốc độ, quy mô và nhanh nhẹn để giành chiến thắng trong bối cảnh Thương mại điện tử đang thay đổi.

Bài đăng trên blog này nhằm mục đích giới thiệu nhóm khoa học dữ liệu và công việc của họ tại Mirakl.

Chúng tôi sẽ cho bạn biết chúng tôi là ai, chúng tôi đánh giá cao điều gì với tư cách là một nhóm, những dự án chúng tôi thực hiện để cải thiện hoạt động kinh doanh, cách chúng tôi quản lý sự hợp tác với các thành viên kỹ thuật khác cũng như những công cụ và kỹ thuật nào chúng tôi sử dụng hàng ngày.

Nếu bạn là một nhà khoa học dữ liệu, một kỹ sư học máy giỏi, một chuyên gia MLOPs hoặc nếu bạn chỉ đơn giản muốn tìm hiểu thêm về nhóm khoa học dữ liệu hoạt động trong một công ty có thể mở rộng, bạn chắc chắn nên xem bài đăng này.

Không cần thêm gì nữa, chúng ta hãy đi sâu vào 🚀.

👉 Gặp gỡ Miradoge: nhóm khoa học dữ liệu

Nhóm khoa học dữ liệu, còn có tên gọi nội bộ là Miradoge, được thành lập cách đây khoảng 3 năm, tức là 7 năm sau khi Mirakl được đồng sáng lập vào năm 2012.

Logo của Miradoge

Tóm lại, mục tiêu của nhóm này là tận dụng lượng lớn dữ liệu được sản xuất liên tục trong nền tảng Mirakl và chuyển đổi nó để cải thiện sản phẩm và các hoạt động hiện có (nhưng nhiều hơn nữa về sau).

Để có được bức tranh toàn cảnh về nhóm Miradoge là gì, chúng ta hãy giới thiệu nó qua các kích thước sau.

👉 Chúng tôi là ai và chúng tôi coi trọng điều gì

Tại thời điểm viết bài này, nhóm bao gồm 12 người: sáu nhà khoa học dữ liệu, bốn kỹ sư dữ liệu, một nhà khoa học dữ liệu chính và một trưởng nhóm dữ liệu.

Tất cả chúng ta đều đến từ các thế giới khác nhau: tư vấn, học thuật, dịch vụ tài chính, thương mại điện tử và công nghiệp, và chúng ta có nền tảng về kỹ thuật phần mềm, toán học và khoa học tính toán.

Hơn nữa, nhóm làm việc khá quốc tế (🇫🇷 🇮🇹 🇯🇵 🇰🇷 🇹🇳) và thể hiện tinh thần làm việc chăm chỉ, hết mình, biến thành một bầu không khí làm việc sôi nổi.

👉 Những gì chúng tôi làm và những gì chúng tôi mang lại cho doanh nghiệp

Chúng tôi làm việc trên các trường hợp sử dụng khác nhau chủ yếu do doanh nghiệp thúc đẩy và nhằm giải quyết các vấn đề khó khăn trong hoạt động thực tế.

Trước khi đưa ra chi tiết về từng dự án, trước tiên chúng ta hãy làm rõ thị trường thực sự là gì và những gì Mirakl mang lại với tư cách là một công ty phần mềm.

Thị trường doanh nghiệp là thị trường trực tuyến do các tổ chức truyền thống điều hành, mời người bán bên thứ ba bán trực tiếp cho khách hàng cuối cùng. Điều này góp phần cải thiện sự tương tác giữa người mua và người bán, hiệu quả tốt hơn trong quá trình mua / bán và chuỗi cung ứng, đồng thời mang lại kết quả tài chính tốt hơn cho tổ chức, với các nguồn doanh thu mới và tăng lên.

Bên trong một hệ sinh thái phức tạp như vậy, nhóm khoa học dữ liệu tập trung vào ba mục tiêu sau:

  1. Cải thiện hiệu quả hoạt động của người bán và thị trường bằng cách tự động hóa nhiều nhiệm vụ tốn thời gian và tẻ nhạt (ví dụ về các dự án trong lĩnh vực này: sao chép sản phẩm, lập danh mục, phân loại sản phẩm)
  2. Cải thiện thị trường Tổng Giá trị Hàng hóa (GMV) (ví dụ: cung cấp các đề xuất sản phẩm và dự báo bán hàng)
  3. Cung cấp các công cụ phù hợp để giám sát chất lượng và tính bảo mật của thị trường (ví dụ: phát hiện người bán bất thường, phân tích tương tác giữa khách hàng và người bán)

Bây giờ hãy cho bạn biết thêm một chút về các dự án của chúng tôi:

Phân loại sản phẩm 🗃️

Mặc dù người bán có thể tạo ra hàng triệu sản phẩm mới trên thị trường của chúng tôi hàng tháng, nhưng việc lựa chọn danh mục sản phẩm phù hợp trong số hàng nghìn lựa chọn là một nhiệm vụ đầy thách thức đối với họ. Do đó, rất nhiều lỗi có thể xảy ra trong bước này, ảnh hưởng đến khả năng hiển thị sản phẩm và trải nghiệm của khách hàng.
Để giải quyết vấn đề này, chúng tôi đã đào tạo mô hình phân loại học sâu bằng cách sử dụng mô tả văn bản và hình ảnh để cho phép nhà điều hành phân tích và làm sạch các sản phẩm bị phân loại sai.
Mô hình này đã được triển khai vào sản xuất trên một số khách hàng và hoạt động theo thời gian thực trong quá trình tải lên danh mục người bán

Tự động ánh xạ danh mục 🎯

Mục tiêu của dự án này là đẩy nhanh quá trình thủ công mà mỗi người bán phải trải qua để tích hợp danh mục của họ và điều chỉnh nó với phân loại của nhà điều hành. Mỗi người bán có một cách riêng để mô tả sản phẩm của mình và điều này có thể khác rất nhiều so với nhà điều hành.
Bằng cách tận dụng các kỹ thuật Xử lý ngôn ngữ tự nhiên, thuật toán ánh xạ tự động được thiết kế để giải quyết vấn đề này bằng cách hài hòa dữ liệu. Một lợi ích khác mà thuật toán này cung cấp là làm cho sản phẩm của người bán có thể dễ dàng tìm kiếm và phát hiện trên nền tảng.

Phát hiện bất thường của người bán 🕵️‍♀️

Để đảm bảo chất lượng thị trường tốt, người điều hành thị trường cần giám sát hoạt động của nhà cung cấp để đảm bảo không có vấn đề gì với hành vi của họ (giao hàng muộn có hệ thống, gian lận, vấn đề hết hàng, v.v.). Chúng tôi đã phát triển một thuật toán phát hiện bất thường dựa trên máy học để cho phép chúng tôi tự động phát hiện các loại tình huống quan trọng ảnh hưởng đến chất lượng của thị trường. Thuật toán này giám sát các chỉ số của người bán như số lượng ưu đãi, số lượng đơn đặt hàng hoặc tỷ lệ giao hàng trễ và gửi cảnh báo đến các nhà điều hành thị trường khi chúng được coi là bất thường.

Sao chép sản phẩm 👕 👕

Trong môi trường thị trường, nhiều nhà cung cấp sẽ bán các sản phẩm giống nhau: mỗi nhà cung cấp sẽ tải Bảng dữ liệu sản phẩm của mình lên (hay còn gọi là PDS) vào danh mục chung. Để hợp nhất chúng thành một cái duy nhất, bước đầu tiên là xác định các bản sao đó. Để làm như vậy, chúng tôi đã xây dựng một đường dẫn bao gồm thuật toán học máy hạn chế phổ so sánh và mô hình học sâu đa phương thức tùy chỉnh tạo ra các so sánh chi tiết. Phương pháp của chúng tôi mở rộng tới các danh mục chứa hàng triệu tờ, đạt được độ chính xác 90% đối với các hợp nhất được đề xuất.

→ Để làm cho các dự án này đi vào hoạt động và mở rộng quy mô trong quá trình sản xuất, chúng tôi cũng đã thiết kế một API suy luận tùy chỉnh để tạo ra các điểm cuối mà nhóm sản phẩm tích hợp và sử dụng.

→ Trong khi một số dự án được triển khai đầy đủ trong quá trình sản xuất và được người bán và người vận hành sử dụng hàng ngày, một số dự án khác vẫn chưa đạt được bước đó (nhưng họ đang trên đường đến, sẽ sớm thôi) vì điều này đòi hỏi sự phát triển bổ sung để được tích hợp vào các nhóm (thiết kế phụ trợ, giao diện người dùng và UX) và phù hợp với lộ trình tương ứng của họ. Việc xây dựng phần mềm là một nỗ lực tập thể có thể mất một khoảng thời gian.

🗄️ Cách chúng tôi làm việc và tổ chức bản thân

Mọi người trong nhóm có toàn quyền sở hữu dự án của mình: anh ta phải phát triển nó, kiểm tra nó, căng thẳng-kiểm tra nó và chuẩn bị cho việc triển khai và công nghiệp hóa. Theo nghĩa đó, chúng tôi kết hợp nhiều vai trò cùng một lúc: nhà khoa học dữ liệu, kỹ sư dữ liệu, chủ sở hữu sản phẩm và nhà phân tích chất lượng.

Mỗi tuần một lần, nhóm tập hợp để họp hàng tuần, nơi mọi người đưa ra trạng thái cập nhật về dự án của mình và cứ hai tuần một lần, chúng tôi tổ chức các phiên động não để thảo luận về các chủ đề kỹ thuật

🧰 Những gì chúng tôi sử dụng trong hộp công cụ của mình

Chúng tôi kết hợp nhiều công cụ. Dưới đây là tóm tắt về những gì chúng tôi thường sử dụng.

Thư viện khoa học dữ liệu

Chúng tôi tận dụng mã nguồn mở. Chúng tôi sử dụng Python rộng rãi ở mọi giai đoạn của quy trình khoa học dữ liệu. Hãy phá vỡ điều đó:

  • Phân tích dữ liệu khám phá, chúng tôi sử dụng: pandas, pandas-profiling, Dask, Matplotlib, Plotly, Streamlit, Dash
  • lập mô hình : scikit learning, TensorFlow, PyTorch, Transformers, Câu-Transformers, CLIP, Facebook Prophet
  • theo dõi và đăng ký mô hình : MLflow
  • Đối với xử lý và suy luận dữ liệu : PySpark (vâng, bạn sẽ thực hiện một số công việc Spark)

✅ Điều phối và đường ống

Một điều là mã của bạn chạy chính xác trên máy tính xách tay của bạn. Đó là một câu chuyện hoàn toàn khác khi bạn triển khai nó. Trên thực tế, trong môi trường sản xuất, mã của bạn phải được tích hợp vào một đường dẫn được lên lịch chạy định kỳ, để phản ứng với khả năng chuyển đổi dự phòng, quay các máy ảo chạy mã của bạn và mở rộng quy mô cũng như hiển thị thông báo cho người dùng.
Để xử lý các đường ống, chúng tôi sử dụng Airflow làm bộ điều phối chính của mình để khởi chạy các công việc trên đám mây.

Công nghệ web để phục vụ mô hình

Để xây dựng các API suy luận, chúng tôi đã thử nhiều khung công tác web như Cortex và FastAPI . Một số thuật toán của chúng tôi hỗ trợ các cuộc gọi không đồng bộ, trong khi các thuật toán khác cần được chạy trong thời gian thực. Đó là lý do tại sao chúng tôi cần điều tra các khuôn khổ hiện đại hỗ trợ các tính năng này.

Đám mây

Chúng tôi sử dụng các nhà cung cấp đám mây khác nhau cho nhiều mục đích: lưu trữ, cung cấp cụm khi xây dựng đường ống, điện toán không máy chủ, đào tạo mô hình và điện toán mục đích chung.

DevOps

Chúng tôi sử dụng Docker để đóng gói các thuật toán của mình trong các hình ảnh có thể tái tạo và chạy lại. Sau đó, chúng tôi sử dụng Kubernetes để triển khai chúng.

✅ Phiên bản mã

Tất cả chúng ta đều đẩy mã trên Github và tận dụng CI-CD (Hành động Github) của nó để tự động hóa các tác vụ như kiểm tra đơn vị, phát hành và triển khai gói.

🏢 Đây là lý do tại sao bạn nên tham gia với chúng tôi

Các gạch đầu dòng nói trên tự nó nói lên điều đó và sẽ cung cấp cho bạn cái nhìn tổng quan toàn diện về cách hoạt động của nhóm khoa học dữ liệu.

Đặt điều đó sang một bên, chúng tôi cũng muốn nhấn mạnh những khía cạnh sau đây sẽ khiến bạn cân nhắc sự nghiệp tại Mirakl hơn nữa.

  • Chúng tôi tiến hành và thực hiện các dự án có tác động đến hàng trăm khách hàng, hàng nghìn cửa hàng và hàng triệu khách hàng: nếu bạn đang tìm kiếm tác động trên quy mô lớn, bạn sẽ được phục vụ.
  • Chúng tôi nghĩ về khả năng mở rộng ngay từ ngày đầu tiên và chúng tôi thiết kế các mô hình của mình cho phù hợp. Đây là nơi bạn học cách thực dụng: không trực tiếp nhảy vào mô hình SOTA mới nhất mà là suy nghĩ thông minh về những chiến thắng nhanh chóng giúp bạn nhanh chóng bắt tay vào sản xuất
  • Chúng tôi bao gồm rất nhiều chủ đề thách thức như xây dựng nhúng sản phẩm đa phương thức mạnh mẽ, đào tạo các mô hình đa ngôn ngữ để phân loại văn bản và phân loại sản phẩm, tạo một đường dẫn CI CD hoàn chỉnh cho vòng đời ML, v.v.
  • Chúng tôi được trang bị các công cụ hàng đầu để làm việc hiệu quả
  • Chúng tôi dựa trên nền tảng dữ liệu hiện đại hoạt động như một nguồn chân lý duy nhất và kết hợp các nguồn dữ liệu khác nhau được sử dụng trong các dự án. Điều này giúp mọi nhà khoa học dữ liệu dễ dàng truy cập dữ liệu hơn mà không cần phụ thuộc vào DevOps hoặc kỹ sư dữ liệu.
  • Chúng tôi dành thời gian để học các cách tiếp cận và kỹ thuật mới
  • Điều này không cần phải nói nhưng dù sao thì hãy nói: có một bầu không khí thân thiện và tuyệt vời để học hỏi và phát triển.
  • Từ bước xác định phạm vi cho đến giai đoạn triển khai, các dự án của chúng tôi được theo sát bởi các kỹ sư phần mềm, chủ sở hữu sản phẩm, nhà thiết kế, nhà phát triển front-end và thành công của khách hàng: bạn không bao giờ là của riêng bạn. Dự án của bạn quan trọng đối với tất cả.
  • Mỗi nhà khoa học dữ liệu không chỉ làm mô hình hóa. Đây là lúc nó trở nên thú vị: anh ấy (hoặc cô ấy) sẽ phải xử lý việc sản xuất mô hình của mình, tạo DAG, chạy thử nghiệm đơn vị, v.v. Nếu bạn thích phần mềm, bạn sẽ thấy thú vị khi làm việc tại Mirakl.

Sự kết luận

Đây là phần giới thiệu ngắn về nhóm khoa học dữ liệu và công việc của họ tại Mirakl.

Để tìm hiểu thêm về chúng tôi, chúng tôi khuyến khích bạn tiếp tục truy cập blog của chúng tôi và ghim blog đó trên thanh dấu trang của bạn.

Vui lòng chia sẻ bài đăng này với bạn bè, đồng nghiệp của bạn và bất kỳ ai yêu thích công nghệ máy học và khoa học dữ liệu.

Còn nhiều điều nữa sẽ xảy ra: trong các bài viết trong tương lai, chúng tôi sẽ đi sâu vào kỹ thuật hơn. Chúng tôi sẽ đi sâu vào các trường hợp sử dụng khác nhau mà chúng tôi giải quyết, chúng tôi sẽ nêu bật một số kiến ​​thức chính mà chúng tôi thu thập được trong quá trình thực hiện, chúng tôi sẽ cho bạn biết về cách chúng tôi tiếp cận một số vấn đề khoa học dữ liệu phức tạp; và chúng tôi sẽ chia sẻ với bạn một loạt mẹo và thủ thuật trong việc sản xuất học máy.

Giữ nguyên!

Nếu bạn thú vị khi tham gia nhóm, hãy đăng ký ngay bây giờ: https://labs.mirakl.jobs/

© Copyright 2021 - 2023 | vngogo.com | All Rights Reserved