【深層学習】LSTMとは？RNNとの違いは？

LSTMとは
1. RNNの問題点
2. LSTMの設計思想
LSTM内部構造
終わりに

LSTMとは

RNNの問題点

以前、当ブログでRNNについて解説しました。

【深層学習】RNNネットワークとは

深層学習とは深層学習とは様々な種類のニューラルネットワークを結合し構築されたネットワークです。ニューラルネットワークとは、人間の神経細胞の仕組みを再現した計算モデルで、入力データに対して重み付けや活性化関数などの処理を行...

しかし実は、RNNには下記のような問題点があることがわかっています。

学習の際、勾配が消失してしまう（勾配消失問題）
隠れ層の重みが一定であり、柔軟性がない（入力重み衝突）

勾配消失問題とはRNNのBPTT実行時、過去に遡るにつれて勾配が消失してしまう問題です。

入力重み衝突は時系列データを扱う上での固有の問題として発生します。

通常のニューラルネットワークを学習する場合、関係のある情報が入力された場合、それに応じて重みは大きくし、逆に関係のないデータが入力された場合、それに応じて重みは小さくあるべきです。

しかし、時系列データの場合は現時点の情報は関係ありませんが、将来時点では関係があるというデータが入力された場合、重みは大きくするべきであり、また同時に小さくするべきであるという矛盾を抱えることになってします。

この問題を入力重み衝突といい、RNNの学習がうまくいかない大きな要因となってしまいます。

また同様に出力に関しても出力重み衝突が発生し学習を妨げる原因となることが知られています。

LSTMの設計思想

このような幾つもの課題を解決するためにHochreiter and Schmidhuber(1997)で提案されたのがLSTM(Long Short-Term Memory)です。

LSTMではmemory cellと呼ばれる機構を導入しています。memory cellでは入力ゲート、出力ゲート、忘却ゲートという3つのゲートが作用しており時系列情報をうまくネットワーク内に保持することを可能としています。

LSTM内部構造

まずはmemory cellの構造を以下に示します。

ネットワークの全体像ではなく、あくまでタイムステップtにおけるmemory cellを示したものであることに注意してください。

図よりLSTMは各タイムステップtごとに入力ベクトルx_t、内部状態s_t-1をmemory cellに入力し内部状態であるs_tを再計算し、次のタイムステップに伝播させるという構造を持っていることがわかります。

また、h_tはタイムステップtの出力、f_t、i_t、o_tはそれぞれ忘却ゲート、入力ゲート、出力ゲートを示しています。それぞれのゲートは入力x_t、前タイムステップの出力h_t-1より計算され、0から1の値をとり、それぞれが以下の様にフィルタとして異なる役割を果たしています。