Hệ thống nhân trong vòng - Tất cả những gì bạn cần biết

Apr 09 2022
Mọi thứ bạn cần biết về hệ thống HITL
Hệ thống Học máy đã phát triển trong mọi ngành ngày nay, có thể là y học, khảo cổ học, mua sắm, hậu cần, v.v. Với việc sử dụng ngày càng nhiều, các nhà phát triển cần đảm bảo rằng hệ thống của họ hoạt động tốt với dữ liệu đang phát triển, địa lý đa dạng và tất cả các loại khách hàng hoặc người dùng cuối.
Ảnh của Call me LAMB ~~~ trên Unsplash

Hệ thống Học máy đã phát triển trong mọi ngành ngày nay, có thể là y học, khảo cổ học, mua sắm, hậu cần, v.v. Với việc sử dụng ngày càng nhiều, các nhà phát triển cần đảm bảo rằng hệ thống của họ hoạt động tốt với dữ liệu đang phát triển, địa lý đa dạng và tất cả các loại khách hàng hoặc người dùng cuối. Cùng với hiệu suất tốt, khả năng diễn giải và bảo mật dữ liệu gần đây đã tạo được động lực trong nghiên cứu máy học.

Vì tất cả các tham số của mô hình được tối ưu hóa bằng cách sử dụng dữ liệu huấn luyện, nên mô hình có thể được coi như một bản tóm tắt dữ liệu cấp cao. Đảm bảo dữ liệu đào tạo tốt là một thách thức, đặc biệt là khi nhiệm vụ này tương đối mới trong ngành ML. Dữ liệu cũng thay đổi theo khu vực; ví dụ như giọng của một ngôn ngữ cụ thể (đối với các vấn đề phân loại âm thanh), các thông số vật lý như nhiệt độ và áp suất (để dự báo thời tiết), những thay đổi trong hành vi của người tiêu dùng, v.v.

Tính đến tất cả những vấn đề này, hệ thống Human In The Loop (HITL) đã được giới thiệu và áp dụng bởi các nhóm nhà phát triển. Nó giúp họ giới thiệu kiến ​​thức và sự giám sát của con người vào hệ thống ML của họ, do đó tăng hiệu suất tổng thể và độ tin cậy của hệ thống.

Hệ thống Human In The Loop (HITL)

Một hệ thống HITL điển hình. Nguồn: Hình ảnh của Tác giả

Hệ thống HITL liên quan đến con người trong quá trình làm cho hệ thống ML tốt hơn, do đó phá vỡ quyền tự chủ của máy tính trong quá trình đưa ra quyết định cuối cùng

Các hệ thống ML có hàng tấn xử lý và toán học nhằm phục vụ khách hàng là con người. Không có thuật toán nào là tốt, nếu khách hàng cuối cùng không hài lòng. HITL kết hợp trí thông minh của con người với trí thông minh của máy móc để giải quyết một nhiệm vụ học máy. Gắn nhãn các phiên bản dữ liệu theo cách thủ công là loại hoạt động HITL đơn giản nhất có thể thấy trong nhóm nhà phát triển ML.

Tổng hợp kiến ​​thức của con người và máy móc cũng có thể được sử dụng để cung cấp kết quả nâng cao, vì cả con người và máy móc đều có thể giải quyết các hạn chế của nhau, do đó tối đa hóa hiệu suất tổng thể của hệ thống. Trong một số trường hợp, mô hình có thể được đào tạo để thực hiện hành vi của con người, trong các vấn đề mà trước đó đã có sẵn bộ dữ liệu chất lượng cao. Chúng tôi sẽ đề cập đến từng khía cạnh của hệ thống HITL và khám phá tiềm năng trong thế giới thực của chúng trong việc giải quyết các vấn đề phức tạp.

Hệ thống HITL trợ giúp như thế nào?

Tính minh bạch trong hệ thống ML

Khi chúng tôi giới thiệu một con người trong hệ thống ML, hệ thống cần phải được chính con người giải thích. Việc giới thiệu các nhân viên vận hành có thể nâng cao khả năng diễn giải của hệ thống. Các bước quan trọng được thực hiện trong việc giám sát con người để làm cho hệ thống trở nên minh bạch. Những tiến bộ đã được thực hiện trong khả năng diễn giải của mạng nơ-ron sâu thường được gọi là 'hộp đen' , do khó hiểu cách thực hiện một dự đoán nhất định.

Xử lý các ca sử dụng cạnh

Các ngoại lệ được tìm thấy trong dữ liệu. Nguồn: Hình ảnh của Tác giả

Nói chung trong học máy, mục tiêu của chúng tôi là đào tạo một mô hình mạnh mẽ so với các mô hình ngoại lai. Các điểm ngoại lai là các điểm dữ liệu khác biệt đáng kể so với các điểm dữ liệu khác. Nhưng trong một số trường hợp, đặc biệt là với dữ liệu phát triển theo thời gian, các giá trị ngoại lai có thể hữu ích để hiểu các xu hướng nhất định có thể xảy ra trong hành vi của người dùng / người tiêu dùng.

Điều này làm cho các nhà phát triển không tự tin trong khi triển khai hệ thống ML mới của họ vào sản xuất. Là lần lặp lại đầu tiên, hệ thống ML có thể không đủ trưởng thành để xử lý các trường hợp cạnh. Những trường hợp như vậy có thể được xử lý bởi một giám định viên con người, để sửa chữa những sai lầm của mô hình. Những trường hợp cực đoan này có thể được phân tích thêm và có thể được kết hợp vào việc đào tạo mô hình ML. Điều này đảm bảo an toàn và hệ thống ML không ngừng cải tiến.

Đảm bảo hệ thống ML an toàn hơn

Hệ thống ML có thể được sử dụng trong các tình huống bắt buộc phải đảm bảo an toàn và độ tin cậy. Việc sử dụng hệ thống ML trong phòng thí nghiệm và phòng khám phải an toàn, vì kết quả được liên kết trực tiếp với sức khỏe của bệnh nhân. Có chuyên gia về con người tham gia vào hệ thống đảm bảo cả độ an toàn và độ chính xác. Các rô bốt giám sát chất lượng sản phẩm trên dây chuyền sản xuất cũng cần phải hiệu quả, vì bất kỳ trục trặc nào cũng có thể dẫn đến tổn thất công nghiệp.

Hệ thống ML được đào tạo trên một số lượng mẫu hạn chế có thể không hoạt động tốt trong một số tình huống thực tế. Trong trường hợp này, con người có thể sửa lại dự đoán của hệ thống, do đó tránh được bất kỳ sai sót nào. Suy nghĩ từ một góc độ khác, các chuyên gia về con người cũng có thể mắc sai lầm hoặc có nhiều ý kiến ​​khác nhau về cùng một vấn đề. Các biến chứng như vậy có thể được xử lý bằng các hệ thống ML, được đào tạo để hoạt động giống hệt nhau trong các tình huống tương tự. Vì vậy, các hệ thống ML sửa chữa con người và con người lần lượt sửa chữa các hệ thống ML, dẫn đến một hệ thống chính xác và an toàn hơn.

Dán nhãn dữ liệu cho các tác vụ không cần dùng đến

Ghi nhãn dữ liệu. Nguồn: Hình ảnh của Tác giả

Thật dễ dàng quản lý tập dữ liệu cho các tác vụ như nhận dạng chữ số, dịch từ tiếng Anh sang tiếng Pháp, ước tính tư thế con người vì chúng đã được sử dụng rộng rãi trong các trường hợp sử dụng học thuật và công nghiệp.

Xem xét dịch ngôn ngữ, dữ liệu có thể không có sẵn cho các ngôn ngữ được một phần nhỏ dân số sử dụng. Tương tự đối với ước tính tư thế con người, đặt ra các điểm dữ liệu chỉ ra vị trí của các khớp và bộ phận cơ thể, có thể không khả dụng cho một số tư thế không phổ biến nhưng rất cần thiết cho vấn đề cần giải quyết.

Trong những nhiệm vụ không có sẵn dữ liệu để huấn luyện (hoặc kiểm tra) hệ thống ML, các nhà phát triển cần thu thập dữ liệu và gắn nhãn cho nó. Có một con người để gắn nhãn dữ liệu sẽ cung cấp các mẫu đào tạo chất lượng cao, điều này sẽ dẫn đến một hệ thống ML hiệu quả.

Phương pháp tiếp cận hệ thống HITL

Amazon Mechanical Turk

Amazon Mechanical Turk (viết tắt. MTurk) là một dịch vụ cung cấp lực lượng lao động phân tán để ghi nhãn dữ liệu, kiểm duyệt nội dung, khảo sát, v.v. Lực lượng lao động của họ trải rộng ở một số quốc gia trên thế giới, giúp loại bỏ bất kỳ hình thức thiên vị nào trong các nhiệm vụ được giao cho họ.

Dịch vụ này có thể đóng một vai trò quan trọng trong hệ thống HITL để xây dựng bộ dữ liệu chất lượng cao với lực lượng lao động tạm thời theo yêu cầu. Họ cũng có thể phân tích các dự đoán của mô hình và hướng dẫn các nhà phát triển cách khắc phục một vấn đề cụ thể hoặc một sự cố ngoại lệ.

Phân loại văn bản

Phân loại văn bản là một trong những nhiệm vụ cơ bản nhất trong xử lý ngôn ngữ tự nhiên (NLP), trong đó một câu do người dùng cung cấp được phân loại thành hai hoặc nhiều lớp. Hệ thống HITL được giới thiệu bởi Karmakharm và cộng sự [1] trong nhiệm vụ phân loại tin đồn, đây là một trường hợp sử dụng của phân loại văn bản. Họ có được một tập dữ liệu về các bài báo hoặc bài đăng tin đồn và sau đó đào tạo một hệ thống phân loại tin đồn (một công cụ phân loại văn bản) trên đó. Tiếp theo, các nhà báo được yêu cầu xem xét các dự đoán của mô hình và chỉnh sửa chúng cho phù hợp. Sau đó, những chỉnh sửa / chú thích của con người được kết hợp trong tập dữ liệu và mô hình đã được đào tạo lại.

Vì các hệ thống phân loại văn bản chủ yếu là mạng nơ-ron sâu, chúng thiếu khả năng diễn giải và do đó được gọi là 'hộp đen'. Sử dụng phương pháp HITL, tính minh bạch được đảm bảo trong hệ thống ML.

Khôi phục hình ảnh

Khôi phục hình ảnh đề cập đến những kỹ thuật nâng cao chất lượng của hình ảnh bị nhiễu / hỏng. Phương pháp tiếp cận HITL có thể được sử dụng để cải thiện các dự đoán của mô hình, bằng cách giới thiệu một con người trong quá trình này. Weber và cộng sự. [2] trong nghiên cứu của họ “Draw with me: Human-in-the-loop để khôi phục hình ảnh” đã triển khai một phương pháp mà ở đó kiến ​​thức của con người có thể được nhúng với các dự đoán của mô hình để cải thiện việc khôi phục hình ảnh với mỗi lần lặp lại. Trong cách tiếp cận của họ, hình ảnh đầu tiên được chuyển qua một mô hình phục chế hình ảnh để phục hồi sơ bộ. Sau đó, những hình ảnh được khôi phục này sẽ được chuyển cho người điều khiển, những người có thể tinh chỉnh hình ảnh, thông qua một giao diện người dùng được thiết kế sẵn. Các hình ảnh đã được tinh chỉnh một lần nữa được chuyển đến mô hình phục hồi hình ảnh.

Do đó, vòng lặp tiếp tục cho đến khi tạo ra hình ảnh ưng ý. Bằng cách này, kiến ​​thức của con người có thể được sử dụng để cung cấp thông tin trước cho mô hình về cách khôi phục hình ảnh, xem xét nhu cầu của người dùng.

[1] T. Karmakharm, N. Aletras và K. Bontcheva, “Nhà báo-inthe-loop: Học liên tục như một dịch vụ để phân tích tin đồn,” trong Hội nghị về các phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên (EMNLP), 2019, pp . 115–120.

[2] T. Karmakharm, N. Aletras và K. Bontcheva, “Nhà báo-inthe-loop: Học liên tục như một dịch vụ để phân tích tin đồn,” trong Hội nghị về các phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên (EMNLP), 2019, pp . 115–120.

Kết thúc

Hy vọng bạn thích câu chuyện. Nếu bạn có bất kỳ thắc mắc / đề xuất nào, hãy cho tôi biết trong phần bình luận bên dưới. Cảm ơn đã đọc và có một ngày tốt đẹp phía trước!

© Copyright 2021 - 2023 | vngogo.com | All Rights Reserved