Concept Drift: thế giới đang thay đổi quá nhanh đối với AI

Giống như thế giới xung quanh chúng ta, ngôn ngữ luôn thay đổi. Trong khi ở các thời đại trước, sự thay đổi ngôn ngữ xảy ra trong nhiều năm hoặc thậm chí nhiều thập kỷ, thì giờ đây nó có thể xảy ra trong vài ngày hoặc thậm chí vài giờ. Tất cả là nhờ mạng xã hội.
Ngày nay, hầu hết các sự kiện thế giới và địa phương đều được đưa tin và thảo luận kỹ lưỡng trên mạng xã hội từ rất lâu trước khi các nhà báo có thể biến chúng thành các bài báo để độc giả tiêu thụ. Do đó, các thuật ngữ và khái niệm mới xuất hiện và lan truyền nhanh chóng ở cấp độ gốc.
Trường hợp tò mò về cuộc xâm lược của Nga vào Ukraine
Một trong những sự kiện như vậy là cuộc chiến tranh Nga-Ucraina, nơi thông tin và cảnh quay mới về tiền tuyến xuất hiện đầu tiên trên Twitter hoặc Telegram trước bất kỳ nơi nào khác. Vì những nguồn du kích này thường thiên vị theo cách này hay cách khác, chúng cũng mang một lập trường cảm xúc được mã hóa thành thuật ngữ của thông điệp sẽ được hàng triệu người tiêu thụ. Do đó, khi chiến tranh bắt đầu, các thuật ngữ và ý nghĩa mới bắt đầu xuất hiện hàng ngày trong ngôn ngữ của người dùng mạng xã hội.
Chẳng hạn, loài Orc vẫn tồn tại trong cõi tưởng tượng trước cuộc xâm lược của Nga vào Ukraine, nhưng kể từ khi bắt đầu cuộc xâm lược, nó đã trở thành một trong những từ đồng nghĩa phổ biến nhất trên mạng xã hội phương Tây để chế giễu các thành viên của Quân đội Nga. Và không chỉ bằng tiếng Anh…
Z-Orc — Một thuật ngữ mới khác từ năm 2022.
Trong những ngày đầu tiên của đợt động viên quân sự vào tháng 9 năm 2022 ở Nga, một thuật ngữ mới đã xuất hiện từ chính nước Nga — могилизация ( mogilisation theo tiếng Latinh hóa ) — là một cách chơi chữ trong tiếng Nga sử dụng các từ могила (mộ) và мобилизация (động viên quân sự) để gợi ý một cách giễu cợt về triển vọng của những người lính mới được huy động. Thuật ngữ mới nhanh chóng được chuyển sang tiếng Anh trong vòng vài giờ và thậm chí còn xuất hiện trên các phương tiện truyền thông của Estonia vài ngày sau đó khi một blogger chiến tranh coi quân đội được huy động là supermmobiliseeritud (nghĩa đen là huy động tử thần ).
Giống như các thành viên của đội quân chiếm đóng, đồng chí Putin cũng có một hoặc hai biệt danh kể từ sau cuộc xâm lược: Bunker Fürher, Putler, Little Stalin, Pootin, v.v.
Khái niệm Drift trong Phát hiện Lời nói Ghét
Trong phân tích văn bản và học máy, hiện tượng vừa được mô tả — được gọi là sự trôi dạt về khái niệm — đặt ra một vấn đề thực sự, bởi vì thứ mà chúng ta đang cố gắng dự đoán — ngôn ngữ — đang thay đổi quá nhanh và các mô hình của chúng ta không thể theo kịp những thay đổi đó.
Vì vậy, những gì chính xác thay đổi? Chỉ một số từ mới? Không hẳn…
Người ta có thể nhớ trường hợp một chỉ huy tàu chiến Nga nào đó được yêu cầu tự sát — Русский военный корабль, иди на хуй! Ngay sau đó, một sự thay đổi, trong đó "chấp nhận được" hay không, đã xuất hiện. Đó là một meme ngoài đời thực được cả người dùng mạng xã hội bình thường và các tập đoàn truyền thông lớn nhất săn đón.
cuộc đấu tranh hàng ngày của chúng tôi
Vì vậy, đột nhiên việc sử dụng cụm từ иди на хуй trên mạng xã hội trở nên ổn? Hay đã làm nó? Có thể trong một số bối cảnh nhất định? Đây là những câu hỏi khiến công việc hàng ngày của chúng ta vừa thách thức vừa thú vị.
Điều này có nghĩa là khi phát hiện nội dung thù địch hoặc độc hại, chúng tôi phải liên tục theo dõi những gì đang xảy ra trên thế giới và cố gắng phản ánh các xu hướng, khái niệm và thái độ mới trong các mô hình máy học của chúng tôi. Chúng tôi làm điều đó bằng cách phân tích định kỳ nguồn cấp dữ liệu nhận xét trên mạng xã hội và dự đoán mà các mô hình trực tiếp của chúng tôi đã tạo ra. Ở đó, chúng tôi tìm kiếm những dự đoán không chính xác để phát hiện sự trôi dạt khái niệm có thể xảy ra và cung cấp các ví dụ học tập mới cho các phiên bản tiếp theo của các mô hình dự đoán của chúng tôi để chúng có thể thích ứng với thế giới đang thay đổi.
Một mô hình học máy tốt phản ánh đầy đủ thế giới giống như một đứa trẻ đang lớn thường đòi hỏi những tấm gương tốt và những cú huých nhẹ nhàng để đi đúng hướng để xử lý những trải nghiệm mới hiệu quả hơn.