これを実際に作って理解する
作って理解する Transformer / Attention
試しにsphinxでドキュメント
写経してみたけど正直あまり理解度は深まらなかった。多分Qiitaの記事を見て理解してくれってことなんだろうけど、正直もっとコード中にコメントで解説を書いてほしかった。あんまりコードを写経する意味はなく、他の解説とかも含めて解説記事読んでる方が理解が深まり、断然マシだった。
ついでに自身のTensorFlowについての理解がかなり浅いことも分かった。とはいえなんとなくコードは読めるけど。Keras触ってるからもう少しすんなり読めると思ってた。
Sphinxもかなりわかりにくいところが多く、下記のサイトを見つけるまでなかなかドキュメント製作すらまともにできなかった。(ついでにGithub Pagesの更新が遅くてなかなか適応されず、自分がおかしいのかと何度かやり直した。) 忘れないように参考までにメモ https://qiita.com/futakuchi0117/items/4d3997c1ca1323259844
基本的なatttention機構とそれをパラレルに並べたものを実装
- Position-wise Feedforward Network
- ResidualNormalizationWrapper
- LayerNormalization
を実装
- TokenEmbedding
- AddPositionalEncoding
を実装
- Transformer model
- Encoder model
- Decoder model
を実装