【なぜ】誤差逆伝播法が数値微分より高速な理由について「完全に理解した」のでまとめてみた

はじめに
本記事の対象者
※注意
まず数値微分について理解する
それに比べ誤差逆伝播法は
まとめ
最後に
参考にさせていただいたサイト

はじめに

今回は、「ゼロから作るDeep Learning」という本を読んで、なぜ数値微分で勾配を求めるより誤差逆伝播法の方が早いのかやっと理由がわかったのでまとめてみます。

なかなかなぜ早いのか、という記事がなかったのですが、皆さんすんなり理解されてるからですよね。自分は引っかかってしまったので、自分なりにまとめてみます。

※要は、数値微分の計算方法について理解できていなかった

本記事の対象者

数値微分について理解が曖昧な人
なぜ誤差逆伝播法が数値微分より早いのかわからない人
初学者
誤差逆伝播法について大体理解できている人
ゼロから作るDeep Learningを読んで大体わかった人

※注意

筆者はまだ初学者なので間違っている部分を含む可能性があります。その際はコメント欄で教えていただけると助かります。
「完全に理解した」とか言ってますが、説明は完璧ではありません。随時改良していきますのでコメント欄でアドバイスよろしくお願いします。

まず数値微分について理解する

数値微分の式(前方差分)

$$
\lim_{h \to0}
\frac{f(x+h)-f(x)}{h}
$$

数値微分の式(中心差分)←傾きの誤差が少ないので今回はこれを使用する

$$
\lim_{h \to0}
\frac{f(x+h)-f(x-h)}{2h}
$$

limitでhを0に極限まで近づけて計算すると微分が求まります。普通は極限まで近づけたhを0として計算しますが（これを解析的な微分と呼ぶ）、コンピューターに0を代入した計算式を入れるとエラーが起きるので、実際には「0に近い数字」を使います。

（分母に0が入ったら、エラーを起こしますよね。具体的には1/0をしてるようなものです）

なので、解析的な微分の値と誤差が出てしまいますが、それはしょうがないので無視していきましょう。

def numerical_diff(f, x):
    h = 1e-4 #0に近い値
    return (f(x+h) - f(x-h)) / (2*h)

Pythonで書くとこんな感じになります。引数のfが計算する関数、xが計算する関数の引数です。

二乗和の関数を偏微分する

$$
f(x)=x^2+y^2
$$

$ x_0 $はx、$ x_1 $はyと見てください

xについて偏微分

$$
\frac{\partial f}{\partial x} = 2x
$$

yについて偏微分

$$
\frac{\partial f}{\partial y} = 2y
$$

Pythonでxについて偏微分してみる

# xを固定した二乗和の関数
def f(x):
    #yの値を固定
    y=2.0

    # 二乗和を計算
    return x**2 + y**2

Pythonでyについて偏微分してみる

# xを固定した二乗和の関数
def f(y):
    #xの値を固定
    x=2.0

    # 二乗和を計算
    return x**2 + y**2

つまりは、xかyどちらかを固定して（具体的な数値を入れて）数値微分すれば偏微分ができる。

単純なニューラルネットワークの勾配を求めてみる

$$
W=\begin{pmatrix}
w_{1} & w_{3} & w_{5} \\
w_{2} & w_{4} & w_{6}
\end{pmatrix}
$$

$$ \frac{\partial E}{\partial W}
=\begin{pmatrix}
\frac{\partial E}{\partial w_{1}} & \frac{\partial E}{\partial w_{3}} & \frac{\partial E}{\partial w_{5}} \\
\frac{\partial E}{\partial w_{2}} & \frac{\partial E}{\partial w_{4}} & \frac{\partial E}{\partial w_{6}}
\end{pmatrix}
$$

この簡単な式に騙されてしまった。実際は関数の偏微分をした時と同様、E(Loss)を求めるために他のバイアスや重みを固定して計算する必要がある。

（赤の部分の勾配を求めるのに、赤＋青＋活性化関数などの部分も計算しなくてはならない）

なので、数値微分（中心差分の場合）だと、