CNN: Chuyển kiểu thần kinh

Jul 25 2022
Sathya Krishnan Suresh, Shunmupapriya P Trong bài viết này, chúng ta sẽ thảo luận về một chủ đề thú vị được gọi là “Neural Style Transfer”, một phương pháp có thể được sử dụng để tạo hình ảnh mới có phong cách và nội dung đến từ hai hình ảnh riêng biệt. Bài viết này dựa trên Thuật toán thần kinh của phong cách nghệ thuật của Leon A Gatys và cộng sự, trong đó tác giả đưa ra lời giải thích chi tiết về việc tạo ra một hình ảnh mới bằng cách sử dụng các lớp của Mạng thần kinh kết hợp (CNN).

Sathya Krishnan Suresh , Shunmupapriya P

Trong bài viết này, chúng ta sẽ thảo luận về một chủ đề thú vị được gọi là “Neural Style Transfer”, một phương pháp có thể được sử dụng để tạo ra những hình ảnh mới có phong cách và nội dung đến từ hai hình ảnh riêng biệt. Bài viết này dựa trên Thuật toán thần kinh của phong cách nghệ thuật của Leon A Gatys và cộng sự, trong đó tác giả đưa ra lời giải thích chi tiết về việc tạo ra một hình ảnh mới bằng cách sử dụng các lớp của Mạng thần kinh kết hợp (CNN). Mã được trình bày trong bài viết này có thể được tìm thấy ở đây . Nó đã được điều chỉnh từ trang web tensorflow .

Kiến thức cơ bản về CNN:
Trước khi bắt đầu trộn hình ảnh và sáng tạo nghệ thuật, trước tiên chúng ta hãy hiểu những điều cơ bản về CNN, điều này hoàn toàn cần thiết để hiểu chủ đề. Lưu ý, đây sẽ chỉ là một tổng quan ngắn gọn về những điều cơ bản của CNN.

Mạng nơ-ron hợp hiến (CNN) là các mô hình học sâu được tạo thành từ nhiều lớp phức hợp. Các lớp này được sử dụng để trích xuất các thông tin khác nhau từ một hình ảnh được sử dụng để giải quyết vấn đề trước mắt, tức là phân loại hình ảnh, phát hiện đối tượng, v.v. Các lớp phức hợp trích xuất thông tin bằng cách sử dụng nhiều bộ lọc cho mỗi lớp phức hợp để xuất ra các bản đồ tính năng đại diện một số tính năng của hình ảnh.

Mỗi bộ lọc sử dụng một nhân là một cửa sổ trượt hai chiều, trượt qua hình ảnh hoặc bản đồ đối tượng tùy thuộc vào vị trí của nó trong kiến ​​trúc CNN. Khi hạt nhân trượt qua các bản đồ đặc trưng của lớp trước, nó tạo ra các bản đồ đặc trưng là kết quả của phép nhân vectơ của trọng số hạt nhân và các giá trị của vị trí của bản đồ đặc trưng mà nó trình chiếu. Các lớp dưới của CNN nắm bắt thông tin chung nhất được liên kết với hình ảnh như hình dạng của các cạnh, v.v. Khi bạn di chuyển qua mạng, bạn sẽ thấy rằng các lớp trên cùng kết hợp các tính năng cấp thấp được các lớp dưới ghi lại và các lớp trên cùng xác định các đặc điểm cụ thể của hình ảnh như sự hiện diện của mũi, vết lõm trên ô tô, v.v.

Các lớp phong cách và nội dung:
Mọi hình ảnh đều có nội dung và phong cách. Ví dụ, hãy xem xét hình ảnh sau đây của một con chó. Nội dung của hình ảnh là con chó và phong cách của hình ảnh là kết cấu của hình ảnh, màu sắc của hình ảnh, cách tổ chức hình ảnh và cách con chó được định vị trong hình ảnh.

CNN xác định phong cách, nội dung và nhiều đặc điểm khác của hình ảnh và thông tin đại diện cho các lớp này được lưu trữ trong các bản đồ đặc trưng của mô hình CNN. Trong bài viết này, chúng tôi tập trung vào các lớp thể hiện phong cách và nội dung trong hình ảnh này.

Thường là các lớp thấp hơn, nắm bắt tốt nội dung của hình ảnh, bởi vì có rất ít quá trình xử lý hình ảnh ở các lớp thấp hơn và hình ảnh ít nhiều sẽ hiện diện ở dạng ban đầu. Các lớp trên cùng của một kiến ​​trúc nắm bắt tốt phong cách của một hình ảnh, bởi vì chúng kết hợp thông tin thu được ở các cấp thấp hơn và thường có ý tưởng tốt về phong cách của một hình ảnh.

Trong bài viết này, kiến ​​trúc mà chúng ta sẽ sử dụng là mô hình VGG19, đây là mô hình chiến thắng ILSVRC. Các tác giả của bài báo đã xác định được 5 lớp của mô hình thể hiện tốt kiểu dáng của mô hình và 1 lớp thể hiện tốt nội dung của mô hình. Các lớp của mô hình được hiển thị trong hình sau và các lớp được chọn làm lớp phong cách và nội dung được đề cập ở dưới cùng.

Ma trận Gram:
Một điều cuối cùng cần hiểu trước khi chúng tôi bắt đầu trộn các hình ảnh là cách phong cách được chụp từ nhiều bản đồ đặc trưng của một lớp. Nó chỉ ra rằng phong cách của một hình ảnh có thể được biểu thị bằng các phương tiện và mối tương quan của nhiều bản đồ đặc trưng của một lớp. Đó là lý do tại sao ma trận gam được sử dụng. Ma trận Gram được tính theo công thức sau,

Ở đây F đại diện cho một bản đồ đối tượng, “jc” và “jd” đại diện cho các kích thước của bản đồ đối tượng, sẽ giống nhau đối với các bản đồ đối tượng của cùng một lớp và “i” đại diện cho bản đồ đối tượng của lớp “l” đang được nhân lên . Mọi khái niệm cần thiết để hiểu những gì chúng ta sẽ làm đã được thảo luận. Hãy bắt đầu trộn hình ảnh ngay bây giờ.

Chuyển kiểu:
Điều đầu tiên, chúng ta phải làm là lấy kết quả đầu ra được tạo ra bởi kiểu và lớp nội dung của mô hình VGG19 đã đề cập ở trên. Điều này có thể được thực hiện bằng cách xây dựng một mô hình tùy chỉnh sẽ cung cấp cho chúng ta kết quả đầu ra của các lớp này. Hình sau đây cho thấy làm thế nào để có được các kết quả đầu ra cần thiết.

Trong hình trên, chúng tôi tải mô hình VGG19 đầu tiên, không bao gồm các lớp trên cùng. Chúng tôi chuyển tên của các lớp có kết quả đầu ra mà chúng tôi yêu cầu làm đối số và sau đó chúng tôi xây dựng một mô hình tùy chỉnh chuyển đầu vào của nó đến mô hình VGG19 và trả lại cho chúng tôi kết quả đầu ra do chúng tạo ra. Hàm trả về mô hình.

Bức tranh của Kandinsky đã được chọn làm hình ảnh phong cách mà chúng tôi sẽ kết hợp với hình ảnh của labrador.

Các bước mà chúng tôi sẽ làm theo để chuyển đổi hình ảnh này rất đơn giản. Đầu tiên chúng ta sẽ trích xuất nội dung và phong cách của hình ảnh nội dung và sau đó chúng tôi sẽ trích xuất phong cách của hình ảnh phong cách (tranh của Kandinsky). Sau đó, chúng tôi sẽ cố gắng chuyển đổi phong cách của hình ảnh nội dung thành phong cách của hình ảnh phong cách. Quá trình chuyển đổi kiểu được thực hiện trước tiên bằng cách tính toán tổn thất bình phương trung bình giữa mục tiêu (đầu ra của lớp kiểu của hình ảnh Kandinsky) và đầu ra của lớp kiểu của hình ảnh nội dung. Sau đó, gradient của sự mất mát này được tính toán đối với hình ảnh nội dung, sau đó giá trị của các lớp kiểu của hình ảnh kiểu được thay đổi để gần với giá trị đích hơn là giá trị của các lớp kiểu của hình ảnh Kandinsky. Các bước nói trên được hiển thị bên dưới.

Mô hình tùy chỉnh được xây dựng để chú thích đầu ra của các lớp nội dung và kiểu bằng tên lớp và nó trả về một từ điển dưới dạng đầu ra chứa các chú thích kiểu và nội dung. Bạn có thể thấy rằng đầu ra của các lớp kiểu được chuyển đến ma trận gam trước khi chúng được trả về.

Việc tính toán tổn thất được thể hiện trong hình sau. Bạn có thể thấy rằng lỗi bình phương trung bình cho cả kiểu và nội dung đều được tính toán và trả về tổng trọng số của chúng. Trọng số nội dung thường cao hơn vì mục tiêu nội dung giống như đầu ra của các lớp nội dung. Trọng lượng phong cách luôn luôn nhỏ.

Cuối cùng, hai chức năng quan trọng sẽ trộn các hình ảnh được hiển thị bên dưới. Hàm run_gradient theo dõi các kết quả đầu ra và các biến mất mát và chạy gradient xuống trên các lớp nội dung và kiểu dáng. Hàm kết hợp được sử dụng để xác định phong cách của hình ảnh Kandinsky mà chúng tôi muốn trong hình ảnh labrador của chúng tôi.

Khi mô hình được chạy, kết quả sau sẽ thu được, là sự kết hợp đẹp mắt giữa hình ảnh nội dung và hình ảnh phong cách.

Kết luận:
Trong bài viết này, chúng ta đã thấy khái niệm hấp dẫn về chuyển kiểu. Các bài viết sắp tới sẽ tập trung vào việc thúc đẩy và kết hợp. Nếu bạn thích bài viết vỗ tay, đăng ký và bình luận.

Đề xuất gửi Mlearning.ai

© Copyright 2021 - 2022 | vngogo.com | All Rights Reserved