Giải thích sao chép ngược trong RNN

Apr 09 2022
Giải thích từng bước về đồ thị tính toán và sự nhân giống ngược trong mạng nơ-ron tuần hoàn
Giới thiệu Trong những ngày đầu của học máy khi chưa có khuôn khổ, phần lớn thời gian xây dựng mô hình được dành cho việc viết mã nguồn nhân giống ngược bằng tay. Ngày nay, với sự phát triển của các khung công tác và autograd, để nhân giống thông qua một mạng lưới thần kinh sâu với hàng chục lớp, chúng ta chỉ có thể gọi là mất mát.
Nhân giống ngược trong RNN

Giới thiệu

Trong những ngày đầu của học máy khi chưa có khuôn khổ, phần lớn thời gian xây dựng mô hình được dành cho việc viết mã nguồn nhân giống ngược bằng tay. Ngày nay, với sự phát triển của các khuôn khổ và autograd, để nhân giống thông qua một mạng nơ-ron sâu với hàng chục lớp, chúng ta chỉ cần gọi loss.backward- đó là nó. Tuy nhiên, để có được hiểu biết vững chắc về học sâu, điều quan trọng là chúng ta phải hiểu nền tảng của sự lan truyền ngược và đồ thị tính toán.

Trực giác đằng sau sự lan truyền ngược là chúng ta tính toán độ dốc của tổn thất cuối cùng theo trọng số của mạng để có được hướng giảm dần tổn thất và trong quá trình tối ưu hóa, chúng ta di chuyển theo hướng này và cập nhật trọng số do đó giảm thiểu tổn thất.

Trong bài viết này, chúng ta sẽ hiểu cách xảy ra sự lan truyền ngược trong một mạng nơ-ron tuần hoàn.

Đồ thị tính toán

Trung tâm của lan truyền ngược là các hoạt động và hàm có thể được biểu diễn trang nhã dưới dạng đồ thị tính toán. Hãy xem một ví dụ: xét hàm f = z (x + y) ; Biểu diễn đồ thị tính toán của nó được hiển thị bên dưới:

chuyển tiếp qua

Đồ thị tính toán về cơ bản là một đồ thị có hướng với các hàm và phép toán là các nút. Tính toán các kết quả đầu ra từ các đầu vào được gọi là chuyển tiếp và theo thói quen, hiển thị chuyển tiếp phía trên các cạnh của đồ thị.

Trong đường lùi, chúng tôi tính toán độ dốc của đầu ra với các đầu vào và hiển thị chúng bên dưới các cạnh. Ở đây, chúng ta bắt đầu từ phần cuối và đi đến phần gradient tính toán bắt đầu trên đường đi. Hãy làm ngược lại cho ví dụ này.

Kí hiệu: hãy biểu diễn đạo hàm của a wrt b dưới dạng ∂ a / ∂ b trong toàn bộ bài báo.

Các mũi tên màu xám nhạt biểu thị đường lùi

Đầu tiên, chúng tôi bắt đầu từ cuối và tính ∂ f / ∂ f là 1, sau đó lùi lại, chúng tôi tính ∂ f / ∂ qz, sau đó ∂ f / ∂ zq, và cuối cùng chúng tôi tính ∂ f / ∂ x vàf / ∂ y.

Học sinh thượng lưu, hạ lưu và địa phương

Nếu bạn quan sát, chúng ta không thể tính trực tiếp ∂ f / ∂ x vàf / ∂ y , vì vậy chúng ta sử dụng quy tắc chuỗi để tính ∂ q / ∂ x trước rồi nhân nó với f / ∂ q đã được tính trong bước trước để nhận f / ∂ x. Ở đây, ∂ f / ∂ q được gọi là gradient ngược dòng ,f / ∂ x được gọi là gradient xuôi dòng, và ∂ q / ∂ x được gọi là gradient cục bộ.

downstream gradient = local gradient × upstream gradient

  1. Cách tiếp cận dựa trên nút : Trong quá trình lan truyền ngược, chúng ta luôn quan tâm đến dòng gradient và khi làm việc với đồ thị tính toán, chúng ta có thể nghĩ đến dòng gradient theo các nút hơn là hàm hoặc hoạt động.
nhà phân phối gradient

Cho đầu vào xy , đầu ra z = x + y. Gradient ngược dòng là L / ∂ x trong đó L là tổn thất cuối cùng. Gradient cục bộ là z / ∂x, nhưng vì z = x + y , ∂ z / ∂ x = 1. Bây giờ, gradient xuôi dòng L / ∂ x là tích của gradient ngược dòng và gradient cục bộ, nhưng kể từ gradient cục bộ là thống nhất, gradient xuôi dòng bằng gradient ngược dòng. Nói cách khác, gradient chảy qua nút bổ sung như vậy, và do đó nút bổ sung được gọi là bộ phân phối gradient.

hệ số hoán đổi gradient

Tương tự, đối với nút nhân, nếu bạn thực hiện các phép tính, gradient xuôi dòng là tích của gradient ngược dòng và đầu vào khác như thể hiện trong hình trên. Vì vậy, nút nhân được gọi là nhân hoán đổi gradient.

Một lần nữa, phương pháp quan trọng ở đây là nghĩ về dòng chảy gradient trong một đồ thị tính toán về các nút.

2. Cách tiếp cận mô-đun: Gradient xuôi dòng tại một nút cụ thể chỉ phụ thuộc vào gradient cục bộ của nó và gradient ngược dòng. Vì vậy, nếu chúng ta muốn thay đổi kiến ​​trúc của mạng trong tương lai, chúng ta có thể chỉ cần cắm và kéo các nút thích hợp mà không ảnh hưởng đến các nút khác. Cách tiếp cận này là mô-đun, đặc biệt là khi làm việc với autograd.

3. Các nút tùy chỉnh: Chúng ta có thể kết hợp nhiều thao tác vào một nút duy nhất như nút sigmoid hoặc nút softmax như chúng ta sẽ thấy tiếp theo.

Trọng lượng của Vectơ và Ma trận

Khi làm việc với mạng nơ-ron, chúng ta thường xử lý các đầu vào và đầu ra có chiều cao được biểu diễn dưới dạng vectơ và ma trận. Đạo hàm của một vectơ wrt vô hướng là một vectơ biểu thị cách mà độ vô hướng bị ảnh hưởng bởi sự thay đổi trong mỗi phần tử của vectơ; đạo hàm của một vectơ wrt một vectơ khác là ma trận Jacobian biểu thị cách mỗi phần tử của vectơ bị ảnh hưởng bởi sự thay đổi trong mỗi phần tử của vectơ kia. Không có bằng chứng, các gradient được hiển thị bên dưới:

ma trận nhân gradient

Ở đây W là ma trận trọng số, x là vectơ đầu vào và y là vectơ sản phẩm đầu ra.

Gradient của mất Entropy chéo (Tùy chọn)

Hãy làm một ví dụ khác để củng cố sự hiểu biết của chúng ta. Hãy tính toán gradient của một nút mất entropy chéo là một nút softmax theo sau là một nút mất log. Đây là đầu phân loại tiêu chuẩn được sử dụng trên nhiều mạng nơ-ron.

softmax + -ve mất nhật ký

Chuyển tiếp qua

Trong chuyển tiếp, một vectơ 𝑦⃗ = [y1, y2, y3, ..., yn]đi qua nút softmax để lấy phân phối xác suất S = [S1, S2, S3, ..., Sn]làm đầu ra. Sau đó, giả sử chỉ số chân lý cơ bản là m , chúng tôi lấy logarit âm của để tính Smtoán tổn thất:.l = -log(Sm)

Hàm softmax được đưa ra bởi:

Chuyền ngược

The tricky part here is the dependence of loss on a single element of the vector S. So, l = -log(Sm) and ∂l/∂Sm = -1/Sm where Sm represents the mth element of S where m is the ground truth label. Next, moving back, we ought to compute the gradients of the softmax node. Here the downstream gradient is ∂l/∂y, the local gradient is S/∂y, and the upstream gradient is l/∂Sm.

backward pass

First, let’s compute the local gradient ∂S/∂y. Now, here S is a vector and y is also a vector so ∂S/∂y will be a matrix that represents how each element of S is affected by a change in each element of y; but you see, the loss depends on only a single element of S at the ground truth index, so we’re only interested to find how a single element of S is affected by a change in each element of y. Mathematically, we’re interested in finding Si/∂y where Si is the ith element of the vector S. Here’s another catch, Si is simply the softmax function applied over the ith element of 𝑦⃗, which means Si has more dependence on yi and less on the other elements of 𝑦⃗. So we cannot compute ∂Si/∂y directly. So, we’ll find Si/∂yj where yj is an arbitary element of 𝑦⃗ and consider two cases where j = i and j ≠ i as shown below:

case 1: j= i
case 2: j ≠ i

So finally we can write:

local gradient of the softmax node

Tiếp theo, hãy tính toán gradient xuôi dòng ∂ l / ∂ y. Bây giờ, vì gradient xuôi dòng là tích của gradient cục bộ và gradient ngược dòng, chúng ta hãy tìm lại l / ∂ yj và xem xét hai trường hợp j = ij ≠ i như hình dưới đây:

trường hợp 1: j = i
trường hợp 2: j ≠ i

Vì vậy, cuối cùng chúng ta có thể viết:

Vì vậy, nếu vectơ 𝑦⃗ = [y1, y2, y3, ..., ym, ..., yn]đi qua nút softmax để có được phân phối xác suất S = [S1, S2, S3, ..., Sm, ..., Sn], thì gradient hạ lưu ∂ l / ∂ y được cho bởi [S1, S2, S3, ..., Sm — 1, ..., Sn]tức là, chúng ta giữ nguyên tất cả các phần tử của vectơ softmax và trừ đi 1 cho phần tử ở giá trị cơ bản. mục lục. Điều này cũng có thể được biểu diễn dưới dạng S - 1 [tại chỉ số m]. Vì vậy, lần tới, chúng ta muốn sao chép ngược thông qua một nút mất entropy chéo, chúng ta có thể chỉ cần tính gradient xuôi dòng là S - 1 [tại chỉ số m].

Được rồi, bây giờ chúng ta đã có một nền tảng vững chắc về sự lan truyền ngược và đồ thị tính toán, hãy cùng xem xét sự lan truyền ngược trong RNN.

Nhân giống ngược trong RNN

Chuyển tiếp qua

Trong chuyển tiếp, tại một bước thời gian cụ thể, vectơ đầu vào và vectơ trạng thái ẩn từ bước thời gian trước đó được nhân với ma trận trọng số tương ứng của chúng và được tính tổng bằng nút cộng. Tiếp theo, chúng chuyển qua một hàm phi tuyến tính và sau đó chúng được sao chép: một trong số chúng được sử dụng làm đầu vào cho bước thời gian tiếp theo và cái còn lại đi vào phần đầu phân loại, nơi nó được nhân với ma trận trọng số để có được vectơ logits trước đó tính toán tổn thất entropy chéo. Đây là thiết lập RNN tổng hợp điển hình trong đó chúng tôi lập mô hình mạng sao cho một ký tự đầu vào được đưa ra, nó dự đoán phân phối xác suất của ký tự thích hợp tiếp theo. Nếu bạn quan tâm đến việc xây dựng một nhân vật RNN trong pytorch, vui lòng xem bài viết khác của tôi tại đây . Các phương trình chuyển tiếp được hiển thị bên dưới:

Chuyền ngược

Trong bước lùi, chúng tôi bắt đầu từ phần cuối và tính toán độ dốc của tổn thất phân loại với véc tơ logits - chi tiết về chúng đã được thảo luận trong phần trước. Gradient này chảy ngược trở lại nút nhân ma trận nơi chúng ta tính toán gradient wrt cả ma trận trọng số và trạng thái ẩn. Gradient wrt trạng thái ẩn chảy ngược trở lại nút sao chép nơi nó gặp gradient từ bước thời gian trước đó. Bạn thấy đấy, RNN về cơ bản xử lý trình tự từng bước một, vì vậy trong quá trình nhân giống ngược, các gradient chảy ngược qua các bước thời gian. Đây được gọi là sự lan truyền ngược qua thời gian . Vì vậy, gradient tạo ra trạng thái ẩn và gradient từ bước thời gian trước đó gặp nhau tại nút sao chép nơi chúng được tổng hợp lại.

Tiếp theo, chúng chảy ngược trở lại nút tanhkhông tuyến tính có gradient có thể được tính là :. Sau đó, gradient này đi qua nút cộng nơi nó được phân phối cho cả các nút nhân ma trận của vectơ đầu vào và vectơ trạng thái ẩn trước đó. Chúng tôi thường không tính toán gradient wrt vector đầu vào trừ khi có yêu cầu đặc biệt, nhưng chúng tôi tính toán gradient wrt vector trạng thái ẩn trước đó, sau đó sẽ quay trở lại bước thời gian trước đó. Vui lòng tham khảo sơ đồ để biết các bước toán học chi tiết.∂tanh(x)/∂x = 1−tanh²(x)

Hãy xem nó trông như thế nào trong mã.

Mã Python

Andrej Karpathy đã triển khai ký tự RNN từ đầu bằng Python / Numpy và mã của anh ấy nắm bắt một cách xuất sắc bước lai tạo mà chúng ta đã thảo luận như hình dưới đây:

Mã đầy đủ có thể được tìm thấy ở đây và người đọc rất được khuyến khích kiểm tra nó. Nếu bạn đang tìm kiếm một ví dụ về triển khai pytorch của RNN, vui lòng xem bài viết khác của tôi tại đây .

Tại sao nhân giống ngược trong RNN không hiệu quả

Nếu bạn quan sát, để tính toán gradient wrt trạng thái ẩn trước đó, là gradient xuôi dòng, gradient ngược dòng chảy qua tanh không tuyến tính và được nhân với ma trận trọng số. Bây giờ, vì gradient xuôi dòng này chảy ngược lại qua các bước thời gian, điều đó có nghĩa là việc tính toán diễn ra lặp đi lặp lại ở mỗi bước thời gian. Có một số vấn đề với điều này:

  1. Vì chúng ta đang nhân đi nhân lại ma trận trọng số, nên gradient sẽ được tăng hoặc giảm tùy thuộc vào giá trị kỳ dị lớn nhất của ma trận: nếu giá trị kỳ dị lớn hơn 1, chúng ta sẽ gặp phải vấn đề về gradient bùng nổ , và nếu nó nhỏ hơn 1, chúng ta sẽ gặp phải vấn đề về độ dốc biến mất .
  2. Bây giờ, gradient đi qua tính không tuyến tính có các vùng bão hòa ở các cực. Nó có nghĩa là về cơ bản gradient sẽ trở thành 0 nếu nó có giá trị cao hoặc thấp khi nó đi qua vùng không tuyến tính - do đó, gradient không thể truyền hiệu quả qua các chuỗi dài và nó dẫn đến việc tối ưu hóa không hiệu quả.

Tôi hy vọng bạn đã biết rõ về cách sự lan truyền ngược xảy ra trong RNN. Hãy cho tôi biết nếu bạn có bất kỳ nghi ngờ nào. Hãy kết nối trên Twitter và LinkedIn .

Tín dụng hình ảnh

Tất cả các hình ảnh được sử dụng trong bài viết này được thực hiện bởi tác giả.

© Copyright 2021 - 2023 | vngogo.com | All Rights Reserved