読んだ論文のメモを残しています📝
🚀: 読み中/読む予定 👀: 概要だけ見たのであとでしっかり読む
Low-Resource Knowledge-Grounded Dialogue Generation
https://arxiv.org/abs/2002.10348
Xueliang Zhao, Wei Wu, Chongyang Tao, Can Xu, Dongyan Zhao, Rui Yan
ICLR 2020
知識を用いた対話システムを少ないデータリソースで効率よく学習するためのモデル・方法の提案。モデルのパラメータを通常の会話部分と知識による会話部分に分け、それぞれの部分で分けて事前学習を行い、disentangled された表現を decoder でうまく扱うことで効率化。
Wizard of Wikipedia, CMU Document Grounded Conversation の2つで実験し、既存モデルに対して 1/8 程度のデータ量で SoTA スコアを更新し、学習データとは異なるドメインに対しても少ないデータで適応できることを示した。
Wizard of Wikipedia, CMU_DoG データセットを、比較に Tranformer Memory Network (Wizard of Wikipedia のベースライン) と Incremental Transformer with Deliberation Decoder (ITDD) を使用して実験。提案手法については low-resource での効果を見るために、データセットを full, 1/2, 1/4, 1/8, 1/16 にして学習を行った。
結果はわかりやすい形になっており、Training と同じドメインのデータ (Test Seen) については ITDD が最も良いスコアだが、Test Unseen (Wizard of Wikipedia は test データが Test Seen と Test Unseen に分かれている) については ITDD の性能は大きく落ちているのに対して、提案手法はほとんど Test Seen と変わらない、かつそんなに悪くないスコアになっている。
次の疑問について論文内で提示・実験を行っている。
Effective Adversarial Regularization for Neural Machine Translation
https://www.aclweb.org/anthology/P19-1020
http://sato-motoki.com/pdf/acl2019.pdf
https://github.com/pfnet-research/vat_nmt
Motoki Sato, Jun Suzuki, Shun Kiyono
ACL 2019
Neural Machine Translation (NMT) において、各 token の embedding に対して loss が大きくなる方向に摂動を付加する Adversarial Regularization の効果をメジャーなモデルで実験し、性能が改善されることを示した。
LSTM と Transformer で実験を行い、通常の Adversarial Regularization だけでなく VAT を使ったものや、Back-Translation によるデータ拡張を組み合わせた手法でも実験し、全てで改善を確認している。
テキスト分類において Adversarial Regularization の効果を見る研究はあったが、NMT のような enc-dec モデルにおいて様々な比較を行ったのは初。
adversarial な perturbation を (1) encoder only, (2) decoder only, (3) both とした比較や、LSTM ベースと Transformer ベースのモデルの比較、VAT との比較、及び Back-Translationを含んだ比較など、多岐にわたって検証を行った。
同上。
特になし
IMO: NMT 以外の enc-dec にも効果があるかは気になるところ。
UniformFace: Learning Deep Equidistributed Representation for Face
Recognition
Yueqi Duana, Jiwen Lu, Jie Zhou
CVPR 2019
顔認識タスクにおいて、各クラスの代表ベクトルが多様体上に均一に広がるような制約を加える損失関数である Uniform Loss を提案。
既存手法ではクラス間距離を大きく、クラス内分散を小さくするようなロスが多く使われているが、これは特徴空間の全体を考慮しておらず、良くない局所性やアンバランスな分布が発生する。
図は Fig. 1 より。2D, 3D ともにSphereFace と比べて均一な分布となっている。
MegaFace Challenge や YTF, LFW といった様々なタスクで実験により効果を示した。
既存研究では着目されていなかった、多様体上でのクラス全体での分布に焦点を当てた。
各クラスの代表ベクトルを単位量の電荷として考えると、UniformLoss は全代表ベクトルの位置エネルギーと考えることができ、問題を各クラス分の電荷による位置エネルギーの最小化問題と変えた。
MegaFace Challenge1, IJB-A, YTF, LFW のデータセットで実験。実験数は多くはないが、CosFace, ArcFace などの既存手法と組合せて使用して、既存の性能を改善している。
表は Table 4 で MegaFace Challenge 1 での既存手法との組合せの例。
ただし、ArcFace の方が CosFace より悪かったり、CosFace のスコアが別の表と合わないなど少し変な点がある。
今回は等価な電荷を考えたが、data-dependent な電荷を与えた上でのより細かい表現の分布を考えるのは面白そう
他とかぶるので割愛
Ranking and Sampling in Open-Domain Question Answering
https://www.aclweb.org/anthology/D19-1245/
Yanfu Xu, Zheng Lin, Yuanxin Liu, Rui Liu, Weiping Wang, Dan Meng
EMNLP IJCNLP 2019
Open-domain Question Answering は質問にいくつかのパラグラフから答えを作成するが、既存手法の多くは質問とパラグラフの関係による教師あり学習を用いている。
本研究では、多くの候補となるパラグラフの中には noisy (回答の単語は含まれるが回答は導けない)や distracting (回答の単語が含まれない)が含まれるとし、 パラグラフとパラグラフの関係を活用して有用なパラグラフを見つけるためのランキングモデルや、それを用いた学習時の sampling strategy を提案した。
Quasar-T, SearchQA, TriviaQA のデータセットでSoTAを更に改善。
複数パラグラフの候補の中から回答を見つけるような QA タスクについて、質問-パラグラフの関係だけではなくパラグラフ間の関係に着目し、パラグラフのスコアを使った sampling strategy を提案した。
bidirectional LSTM と attention を用いて各パラグラフのスコアを計算する。
計算したスコアを用いて学習時の sampling strategy を改良する。具体的には、スコアの高い k 個のパラグラフのみ学習に使う RK (Ranking) や、スコアを用いて sanpling する WS (Weighted Sampling) などを組み合わせている。
Quasar-T, SearchQA, TriviaQA のデータセットを使って、多くのベースラインモデルと比較し、最も良い結果となった。
複数の実験と分析を行い、ranker, sampling strategy ともに性能に貢献していることを示した。
Max-margin Class Imbalanced Learning with Gaussian Affinity
https://arxiv.org/abs/1901.07711
Munawar Hayat, Salman Khan, Waqas Zamir, Jianbing Shen, Ling Shao
20190123
Class-Imbalanced なタスクに対する新しい損失関数 Affinity Loss を提案した。
近年注目されている max-margin loss 系の手法は、特徴空間を超球面上の多様体という仮定を置いて angular distance (cosine similarity) を使っており、顔認識タスク以外の汎化性能の低下につながるとしている。
提案手法では、類似度をガウスカーネルで定義しそれを基にロスを設計することで、マージンが明示的に入れることができ、かつ最適化の過程でクラスタリングも同時に行えるようになり、結果的にクラス内分散は小さく、クラス間距離が離れるように表現を学習できる。
図は MNIST において、0~4 を10%のサンプルで学習させたときの特徴の分布。
左の Softmax の場合は、クラス内分散はデータ数の多いクラスが大きくなっている。クラスタリングも同時に行ったのが**だが、一部のクラスが**下に固まってしまっている。右の提案手法ではクラス内分散は一定で、かつ同じくらいの距離でクラスごとに分布しているのが分かる。
多くの実験で既存手法に比べて性能を改善した。
近年行われている hypersphere の表面上に分布を制限したマージン系損失関数とは異なるアプローチによる提案。
分類とクラスタリングが同時にうまく行われる損失関数 Affinity Loss を定義した。
DIL による皮膚病検知タスク、顔認識の LFW, YTF, CFP, AgeDB などで SoTA を更新。
MNIST を人工的に Imbalance にしたデータセット (0-4 を減らす) で様々な実験を行い、提案手法の有効性を確認した。
具体的には Softmax loss と比較して Imbalance であるほど高い分類精度、ノイズを人工的に含めたデータで実験しロバスト性も改善など。
ablation study として multi centered モデルでの m や分布の広がりを表す σ を変動させた実験も行っている。
論文中では特にない。
メインの実験は MNIST で、他のデータでも確認したいところ。
皮膚と顔認識ではハイパーパラメータである m と σ が特に記載されておらず、再現性が怪しい。
Meta-Transfer Learning for Few-Shot Learning
http://openaccess.thecvf.com/content_CVPR_2019/papers/Sun_Meta-Transfer_Learning_for_Few-Shot_Learning_CVPR_2019_paper.pdf
https://arxiv.org/abs/1812.02391
Qianru Sun, Yaoyao Liu, Tat-Seng Chua, Bernt Schiele
CVPR 2019
Few-Shot Learning において、Meta Learning と Transfer Learning を組み合わせることでより深いモデルでも高速に Few-Shot なタスクに適用可能な Meta-Transfer Learning を提案。
Meta Learning の既存手法では、多くのタスクが必要で、かつ過学習を避けるため小さなネットワークを使う必要があったが、どちらの問題も軽減されている。
併せて学習効率化の hard task meta-batch も提案し、miniImageNet などのデータセットで SOTA を上回った。
Meta-Learning により Deep なモデルを使用し過学習を抑えて良い結果となったケースは初。
大きなタスクで学習し、そのパラメータを固定しつつ Scaling と Shift だけ学習可能なパラメータで変換して小さなタスクを解かせるアイディアは初。
miniImageNet, Fewshot-CIFAR100 で実験し、多くの Few-Shot Learning の手法 (data augmentation 系, metric learning 系, memory network 系, gradient descent 系) と比較してほとんどで SOTA な性能となった。
From Word Embeddings To Document Distances
http://mkusner.github.io/publications/WMD.pdf
Kusner, M. J. and Sun, Y. and Kolkin, N. I. and Weinberger, K. Q.
ICML 2015
Earth Mover's Distance をテキストに応用した Word Mover's Distance の提案。document の類似度を測る手法がまだ良いものがないとして、word2vec 空間での2つの文書間の距離を、それぞれを一致させるために必要な最小の移動量として定義(Earth Mover's Distance)し、Word Mover's Distance とした。
8つのタスクでで様々な他の指標と比較し、kNN による分類で最も低い誤差率となった。
2つの文書 d_0, d_1 の類似度を考えると、次のような文章は意味はほぼ同じだが同じ単語は含まれないため BOW 系の特徴量だと類似度はゼロになってしまう。
d_0: Obama speaks to the media in Illinois
d_1: The President greets the press in Chicago
WMD では、それぞれの単語同士の word2vec 空間での距離から考える。距離はユークリッド距離を使用し、単語 x_i と単語 x_j の距離は で計算できる。
最終的に知りたいのは文書間の距離(類似度)なので、この c_{i, j} を単語 x_i から単語 x_j への移送コストと呼ぶ。
文書間の最小移送距離は、移送コストと、どの単語をどの単語に移送させるかを定義する flow matrix T を使って、次のように定式化できる。
d_0 の各単語が、一番移動が少なくなるように d_1 に対応させるイメージ。Tについての制約付き最適化問題を解くことになる。
Dialogue Natural Language Inference
https://arxiv.org/abs/1811.00671
データセット: https://wellecks.github.io/dialogue_nli/
Sean Welleck, Jason Weston, Arthur Szlam, Kyunghyun Cho (FAIR)
ACL 2019
arxiv: 2018/11/01
対話モデルにおける一貫性 (consistency) の課題に Natural Language Inference の観点から取り組んだ研究。
NLI タスクとして一貫性の度合いを定義し、新たなデータセット Dialogue NLI を使用して NLI モデルを学習した。それを用いた対話の re-rank 手法を提案し、対話エージェントの持つペルソナと、その発話の間の一貫性を改善した。
※ Natural Language Inference: 2つのセンテンスの関係の分類問題。2つのセンテンスに対して、含意 (entailment)、中立 (neutral)、矛盾 (contradiction) から選択する。
対話の一貫性を NLI タスクとして再定義し、対話モデルの一貫性の改善に応用した。
Pretraining Methods for Dialog Context Representation Learning
https://arxiv.org/abs/1906.00414
Shikib Mehri, Evgeniia Razumovskaia, Tiancheng Zhao, Maxine Eskenazi
ACL 2019
対話文脈の表現学習ための事前学習(教師なし学習の目的関数)について調査した研究。
既存の事前学習モデルは言語モデルをベースにしており、token レベルでの表現を得られるが、対話では複数ターンの文脈が必要になる。token レベルではなく discourse レベルの表現が学習できる事前学習のプロトコル4つ(うち2つは新たに提案)の方法について実験、分析を行った。
文レベルの理解が必要になる対話ドメインをターゲットとして、discourse レベルを学習できるような既存の事前学習プロトコル2つと、新たに提案した2つの計4つについて調査・実験・分析を行っている。
word レベルの研究は多いが、対話に特化した事前学習手法についてその性能を調査した例は初。
事前学習の目的関数として、次の4つを試す。
また、次の下位タスクで性能を見る。
leaveAt
, destination
などの entity を持っている。(1) 事前学習 + finetuning による性能、(2) 収束性、 (3) finetuning 時のデータが少ない場合の性能、(4) ドメイン汎化性能、の4点で性能を検証。
Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study
https://arxiv.org/abs/1906.01603
コード: https://github.com/chinnadhurai/ParlAI/
Chinnadhurai Sankar, Sandeep Subramanian, Christopher Pal, Sarath Chandar, Yoshua Bengio
ACL 2019
対話モデルに対する指摘の1つとして、過去の対話履歴を有効活用できていないというものがある。本研究では、対話履歴の並び替えや削除などの操作を行い対話モデルの履歴に対する sensitivity を調査することで、どのように過去のコンテキストを理解・活用しているかを調べる実験を行った。
対話履歴をめちゃくちゃにしてもモデルの返答が同じになったら、それは対話履歴を有効活用できてなくね? という話。
結果、 LSTM や Transformer ベースの一般的なモデルは対話履歴の変化にあまり sensitive でない(対話履歴の情報をそこまで活用していない) ことが分かった。
画像は行った Word-Level の Perturbation の例。文章はめちゃくちゃだが、返答は同じとなっている。
4つの multi turn dialogue dataset で LSTMベース、 Transformer ベースのモデルをそれぞれ学習し、上記の perturbation を加えてテスト推論を行い、PPL の変化を見ることでコンテキストの活用度合いを計測した。
結果、LSTM ベースも Transformer ベースもほとんど対話履歴を活用できておらず、まだ LSTM の方が Transformer よりマシ、という結論になっている。
今回のコードは公開しているので、今後の会話モデルの理解が進むといいなー的なことが書かれている。
Related Work には同様に RNN や Transformer が具体的にどういった点を学習できた・できていないなどについてまとめた論文が紹介されていた。
Structured Binary Neural Networks for Accurate Image Classification and
Semantic Segmentation
https://arxiv.org/abs/1811.10413
Bohan Zhuang, Chunhua Shen, Mingkui Tan, Lingqiao Liu, Ian Reid
CVPR 2019
画像分類などの CNN のモデルにおける重みと activation の両方を binary で表現する Binary NNs において、既存手法である元の(フル精度の)モデルの重みや activation の値を近似する value approximation ではなく、元のモデルのキャパシティを再現するような binary のモデルを設計する structure approximation によるアプローチを提案した。
画像分類だけでなく、semantic segmentation などにも拡張できる。
既存手法と比べて、accuracy と計算量のトレードオフで SOTA.
今までの binary NNs の実現手法において、value approximation ではなく、元のモデルを再現できるように構造から変える structure approximation のアプローチは初。
また、semantic segmentation への応用として、分解したネットワークで異なる dilated rate を使う Binary Parallel Atrous Convolution を提案。
前 SOTA だった ABC-Net を含む既存手法と ImageNet で比較し、binary, fixed-point の両方で SOTA を更新。
また、 semantic segmentation タスクである PASCAL VOC でも既存手法と比較し良いスコアとなった。
Class-Balanced Loss Based on Effective Number of Samples
https://arxiv.org/abs/1901.05555
コード: https://github.com/richardaecn/class-balanced-loss
Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song, Serge Belongie
CVPR 2019
分類問題において、一部クラスがデータのほとんどを占め、多くのクラスのデータ数は少ないといったような、データの分布が long-tail になっている問題に対して、re-weight ベースの新しいアプローチ class-balanced loss を提案した。
クラスごとの観測データ数の逆数を重みとするなどして補正するのが一般的なアプローチだが、本研究では、データ数が増えると新しいデータの重要度は下がるとして、データ数ではなくデータの有効数 (effective number of samples) を定義し、それを用いて loss を調整している。
CIFAR の long-tail 版や、ImageNet, iNaturalist などで実験し、大きな改善が見られた。
図はイメージの説明。通常の学習だと決定境界はサンプル数の少ない方に寄って決定境界が黒い線になってしまう。単にクラス比の逆数で重み付けをすると強すぎて決定境界が赤い線になってしまう。有効データ数の逆数を使うことで青い線を目指そうという試み。
データの有効数という概念を提案し、学習時のクラスの重みに使った例は初。
既存の損失関数 (focal loss など) と組合せて使うことが出来る。
long-tailed CIFAR (10,100), iNaturalist (2017, 2018), ILSVRC 2012 で実験。
softmax loss, sigmoid loss, focal loss と組合せて実験し、すべてで class-balanced な loss を使ったときのほうが良い結果となっている。
最適な β についても議論しており、 CIFAR 10 の場合は β=0.9999, CIFAR 100 の場合は β=0.9 となっているが、これが特徴空間上のクラスの体積の理解とあっている。
CIFAR 10 の場合は1つのクラスがでかい(例: 鳥) なので有効データ数 N の値が大きく、CIFAR 100 の場合は1つのクラスがもっと細かい (例: スズメ) ので有効データ数 N が小さくなる。
データの分布に何も仮定を置いていないため、何にでも適用できる一方で、データの分布に仮定をおいた場合の拡張や、適応的に学習するような方法については future work としている。
タイトル | Synthesizer: Rethinking Self-Attention in Transformer Models |
---|---|
リンク | https://arxiv.org/abs/2005.00743 |
著者 | Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng |
投稿日付 | 2020/05/02 on arxiv |
Transformer の self-attention 機構の attention weight について調査・実験を行った研究。通常の self-attention では、dot-product により入力文の token ごとの相互作用で計算され、結果として入力サンプルごとに異なるものとなる。これが本当に意味があるのか検証を行うため、attention weight を別のもので置き換えたモデル SYNTHESIZER を定義し実験。
結果として、token 同士の作用とは無関係に attention weight を学習させたもの (Dense Synthesizer) でも Transformer と同等の性能となり、かつまたランダム行列を attention weight に用いたもの(Random Synthesizer)でも一部タスクでは十分良い性能となること確認した。
Transformer の self-attention の効果に関する内容は珍しく、かつその効果がほぼないという結果は目新しいもので驚きが大きい。
2つの Synthetic Attention を提案・実験。
Transformers を含めた違いの一覧は表1に載っている。
提案した複数のモデル(組み合わせ含む)を WMT (翻訳), LM1B (LM), CNN/Dailymail (要約), PersonaChat (対話) で実験を行い、Vanilla Transformer 比較した。
結果は下記表。全体として、vanilla transformer でなくても性能が大差なく、random matrix (fixed) でも多少劣るがそこそこの性能が出る。また、attention 部分を Vanilla + Dense など組み合わせることで Vanilla Transformer を超える性能になっている。
その他の実験はコメントで。
Large-Margin Softmax Loss for Convolutional Neural Networks
https://arxiv.org/abs/1612.02295
Weiyang Liu, Yandong Wen, Zhiding Yu, Meng Yang
ICML 2016
Softmax loss を改良した Large Marginx softmax (L-Softmax) Loss を提案。クラス内分散を小さく、かつクラス間で特徴表現がより分離されるように学習を行う。
よくある SGD で学習でき、過学習も回避することが出来る。
4つのベンチマークで実験を行い、よりよい性能であることを示した。
下記図は通常の softmax loss (左図) と提案手法 (右の3つの図) を、分類直前のレイヤの次元を2次元にして可視化したもの(上が training data, 下が test data)。
見て分かる通り、通常の softmax に比べて各クラス内で小さく収まっており、クラス間の分離も大きくなっている。
先行研究では contrastive loss や triplet loss など、複数のサンプルのペアを同時に入れて学習を行うことでサンプル間の距離を調整していたが、提案手法は通常の softmax loss にマージンを加えるだけで同様の学習ができる。
通常の softmax loss であるため、他の手法と組合せ可能。
visual classification と face verification のタスクで実験。visual classification は MNIST, CIFAR10, CIFAR100 で、 face verification はLFW dataset を使用。
visual classification ではどのタスクでも SoTA を記録、より深いモデルを使った CNN にも勝るとも劣らないスコアになっている。
下記の表の右下が face verification, 他が visual classification.
face verification でも同様に、公開データを使った中では SoTA を記録し、private dataset を使ったスコアにもかなり近づいている。
特になし
Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning
https://arxiv.org/abs/1506.02142
Yarin Gal, Zoubin Ghahramani (University of Cambridge)
2015/06/06 ICML 2016
Improving Multi-turn Dialogue Modelling with Utterance ReWriter
https://arxiv.org/abs/1906.07004
https://github.com/chin-gyou/dialogue-utterance-rewriter (2019/08/26 時点ではコード未公開)
Hui Su, Xiaoyu Shen, Rongzhi Zhang, Fei Sun, Pengwei Hu, Cheng Niu, Jie Zhou
ACL 2019
対話モデルの課題として、過去の複数ターンのやり取りのコンテキストを保ったまま対話を続けるのが難しいというものがある。本研究では、ユーザの発話を「過去の発話のコンテキストを含むようにりライト」することで、コンテキストを保持したまま複数ターンの対話を可能にするアプローチを提案した。
例えば、「どんな映画が好き?」「タイタニック。」「なぜ?」という会話があったときに、次の応答を予測したいとすると、「なぜ?」->「なぜタイタニックが好きなの?」とリライトしてやることで、過去の発話を参照しなくともコンテキストを保ったまま対話を続けることが出来る。
より具体的には、発話リライトモデルとして Transformer と Pointer Network ベースのモデルを提案し、学習後に既存の chatbots に組み込むことで元のシステムよりも改善が見られた。
下記のパターンで実験を行った。
Transformer で pointer (lambda) が最もよく、テストデータで exact match がリライトありデータで 55%, リライトなしデータで 98% のスコアに。ほかは表参照。
また、学習した rewriter モデルを対話システムに統合し、既に動いている Task-Oritend なモデルと雑談モデルで統合あるなしの比較を行ったところ、両方で改善が見られた。
Deep RNN Framework for Visual Sequential Applications
http://openaccess.thecvf.com/content_CVPR_2019/papers/Pang_Deep_RNN_Framework_for_Visual_Sequential_Applications_CVPR_2019_paper.pdf
https://github.com/BoPang1996/Deep-RNN-Framework
Bo Pang, Kaiwen Zha, Hanwen Cao, Chen Shi, Cewu Lu
CVPR 2019
Visual Sequential 系タスクのためのモデルに2つの新しい設計を取り入れることで、より Deep な構造のモデルでも簡単に最適化ができるようになることを実験的に示した。
実験では、既存の Shallow なモデルに対して15層のネットワークを提案手法で学習に成功し、性能を大きく改善した。
Visual Sequence のタスクにおいて Deep な RNN を用いることは学習の難しさや計算量の観点で現実的ではなかったが、提案手法でそれを改善し、Deep な RNN で学習ができるようになった。
2つの新しい設計: Context Bridge Module (CBM) と Overlap Coherence Training Scheme を提案。
15層の RNN (普通は2層とかなので、約7倍)でトレーニングに成功し、Kinetics などのタスクで Shallow なネットワークに比べて11%の改善に成功した。
また、既存モデル (Polygon-RNN) のネットワーク部分を15層の提案モデルに置き換えることで、スコアを 14.7% 改善できた。
video future prediction タスクでは、既存のSOTAモデルを 2.4%更新した。
A BERT Baseline for the Natural Questions
https://arxiv.org/abs/1901.08634
コード: https://github.com/google-research/language/tree/master/language/question_answering/bert_joint
Chris Alberti, Kenton Lee, Michael Collins (Google)
20190124
Natural Questions のタスクについて、BERT ベースの新しいベースラインを提案したテクニカルノート。
Natural Questions は long answer と short answer の2つを特定するタスクだが、2つを同時に解く BERT ベースのモデルで元論文のベースラインを大幅に上回る性能となっている。
Natural Questions のベースラインモデルと比較し、大きく精度向上した。
あくまでベースラインモデルなので、まだまだアイディアはあるっぽい。
Long-Term Feature Banks for Detailed Video Understanding
http://openaccess.thecvf.com/content_CVPR_2019/papers/Wu_Long-Term_Feature_Banks_for_Detailed_Video_Understanding_CVPR_2019_paper.pdf
https://github.com/facebookresearch/video-long-term-feature-banks
Chao-Yuan Wu, Christoph Feichtenhofer, Haoqi Fan, Kaiming He, Philipp Krähenbühl, Ross Girshick (FAIR)
CVPR 2019
Video Understanding において、多くの既存モデルでは2-5秒の短い時間しか見ていないのに対して、コンテキストを正しく理解するには映像全体から情報を抽出する必要があるとして、既存モデルを拡張するための long-term feature bank を提案。
3D CNN の既存モデルに提案手法を取り入れることで、AVA, EPIC-Kitchens, Charades などの Video Dataset で SoTA を更新した。
長いスパンの情報を取り入れる手法は存在するが、過去のデータを先に何らかのモデルで特徴量に変換しておき、モデルに入力として入れるという手法を取っており、end-to-end でない、先に計算している特徴量がタスクについて最適化されていない、などの課題がある。
提案手法では2つを分離し、 long-term feature bank はあくまで予備のコンポーネントとして存在し、既存モデルに拡張として追加できるようになっている。
End-to-end な学習で、短いスパンの特徴を強く考慮しつつ、long-term な情報も取り入れることが出来る研究は初。
Long-term Feature Bank を外部コンポーネントとしたことで、既存モデルを拡張して使うことが出来る。
AVA, EPIC-Kitchens, Charades のデータセットに対して既存モデルを拡張する形で実験し、SOTAを更新。
より長いコンテキストが必要なタスクでより効果が見られるので、そのようなデータセットが新たに出たら効果を発揮できそう。
Natural Questions: a Benchmark for Question Answering Research
https://ai.google/research/pubs/pub47761
Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Matthew Kelcey, Jacob Devlin, Kenton Lee, Kristina N. Toutanova, Llion Jones, Ming-Wei Chang, Andrew Dai, Jakob Uszkoreit, Quoc Le, Slav Petrov
(Google Research)
2019
QA のためのデータセット Natural Questions (NQ) を公開。Google の検索ログから得られた質問と、1つの wikipedia 記事で1データとなっており、記事内から Long Answer (パラグラフや表など)と Short Answer (数単語) を当てるタスクとなっている。
論文内では、実験によりデータの質を検証、25 way annotation で人間の annotation の変動を調査、QA のタスクに適切な robust な指標を導入、最新手法でのベースライン作成などを行っている。
BERTScore: Evaluating Text Generation with BERT
https://arxiv.org/abs/1904.09675
https://github.com/Tiiiger/bert_score
Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi
ICLR2020, arxiv on 21 Apr 2019
テキスト生成という評価の難しいドメインにおいて、自動評価指標である BERTScore を提案。reference 文と candidate (予測) 文の BERT の contextual embeddings を用いて類似度を計算する。
機械翻訳と image captioning のタスクで実験し、既存の自動評価指標や learnable な評価指標と比較、安定して良いスコアを獲得。ロバスト性検証のため PAWS でも実験を行い、既存手法と比べてかなり高いロバスト性を示した。
BERT の contextual embedding を用いることで、単純な単語のマッチングや単語の意味の類似度ではなく、文全体での意味的な類似度を提供できる。
一方で追加学習の必要がなく、BERT など pre-trained model が既に多数の言語で提供されているため多くの言語・ドメインで簡単に使うことができる。
BERTScore はシンプルに算出でき、次の図がわかりやすい。
これにより得られるスコアを計算の仕方で Precision, Recall, F1, 及び idf による重み付けの有無でそれぞれ実験し、タスク差はあるもののどれも同じくらいの結果を得ている。
機械翻訳、image captioning, ロバスト性の検証、の3つについて広範囲に実験。
Timeception for Complex Action Recognition
http://openaccess.thecvf.com/content_CVPR_2019/papers/Hussein_Timeception_for_Complex_Action_Recognition_CVPR_2019_paper.pdf
https://arxiv.org/abs/1812.01289
Noureldien Hussein, Efstratios Gavves, Arnold W.M. Smeulders
CVPR 2019
ビデオ内のいくつかの単純な one-action を複数含む complex-action を認識するために、時間方向の multi scale convolution である Timeception を提案した。
既存手法では 3D convolution を使用しており、長い時間方向のモデリングには計算コストが高くなってしまっていたが、Timeception は既存手法の8倍の長さ(2014 timesteps) のモデリングが可能。
1024 timestep もの長い系列を、Pooling などで起こる短いスパンの情報損失なしにモデリングを行う手法は初。
また、complex-action の時間的な特徴 (個々の action の長さや順番が変わりうる) を考慮したモデリングを行っている。
Charades, Breakfast Actions, MultiTHUMOS といった、複雑な action を含む長いレンジの認識タスクで SOTA を更新。
Learning Loss for Active Learning
https://arxiv.org/abs/1905.03677
http://openaccess.thecvf.com/content_CVPR_2019/papers/Yoo_Learning_Loss_for_Active_Learning_CVPR_2019_paper.pdf
Donggeun Yoo, In So Kweon
CVPR 2019
loss を推測するモデルを学習し、unlabeled なデータの中で、推定した loss の大きいデータに優先的にアノテーションを行うことで、active learning を効率的に行う手法の提案。
タスク依存性がなく、かつ計算量の必要になる Deep なネットワークについても対応できる汎用的な手法で、Image Classification, Human Pose Estimation, Object Detection の3つの異なるタスクについて最新モデルで実験し、既存手法を上回る性能となった。
タスク依存なしで、かつ計算量が大きい Deep ならモデルにも適用できる Active Learning 手法は初。
Loss の大小を Active Learning に応用する研究は初。
3つのタスクで最新のモデルを使って既存手法と比較実験。
3つのタスクは分類タスクに Image Classification, 回帰タスクに Human Pose Estimation, ハイブリッドタスクとして Object Detection を選択。
全てで既存手法を上回る性能となった。
まだ Loss を推定するモデルの accuracy に課題がある。複雑なモデルだとそもそもこれが難しいため、精度をあげる必要がある。
また、diversity など他の要素を組み合わせた Active Learning 手法についても今回は考慮していない。
データの分布を考慮することで loss accuracy を向上することが出来るかも。
XLNet: Generalized Autoregressive Pretraining for Language Understanding
https://arxiv.org/abs/1906.08237
Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le
2019/06/19
BERT を始めとする AutoEncoder (AE) 系 pre-train モデルと、BERT 以前の AutoRegressive (AR) 系の pre-train モデルについて分析し、それぞれの長所を取り入れつつ欠点を補うような AR 型の pre-train モデルである XLNet を提案。
BERT は [MASK]
トークンを使うことで bidirectional な情報を取り入れることが出来るが、同時に推論時には [MASK]
トークンは存在しないため、 GAP がある。
また、入力文がランダムにマスクされていることから、BERT は厳密に同時分布を計算できず、それぞれのマスクトークンは独立という仮定で推論されている。
一方で、AR 型の pre-train モデルでは、その定義上 bidirectional な情報を取ることが出来ないため、表現能力で劣る。
XLNet では、AR 型のモデルを使いつつ、トークンの順番をランダムにする Permutation Language Modeling を使って学習を行うことで、AR 型モデルのメリットを残したまま ( = [MASK]
を使わないまま) bidirectional な情報を用いることができる。
BERT などの AE 型 pre-train モデルと、言語モデルなどの AR 型 pre-train モデルのそれぞれの欠点を補う学習方法である Permutation Language Modeling を提案し、それで学習した XLNet で現在の SOTA である BERT を様々なタスクで上回った。
言語モデルの性質を残したまま bidirectional に情報を取り入れられる訓練方法は初。
AE 型と AR 型のそれぞれの欠点を補うための Permutation Language Modeling, 及びそれを実現するために Self-Attention を改良した Two-Stream Self-Attention がポイントとなる。
Permutation Language Modeling
Two-Stream Self-Attention
Dynamic Knowledge Routing Network For Target-Guided Open-Domain Conversation
https://arxiv.org/abs/2002.01196
Jinghui Qin, Zheng Ye, Jianheng Tang, Xiaodan Liang
AAAI2020 (Submitted on 4 Feb 2020 (v1), last revised 6 Mar 2020 (this version, v2))
Target-guided open-domain conversation という、あるターゲットとなるトピックやキーワードをゴールとして設定する雑談タスクについての新しいモデル dynamic knowledge routing network (DRKN) を提案した。
このタスクは Tang et al. (2019) によって最近提案されたもので、open-domain な雑談においても明確ではないが目的があるとし、有限ターンである人間と agent の雑談の中で、フリートピックから始まり、決められたキーワードに自然に到達させるようなもの。
発話内のキーワードを対話履歴からフィルタリングを行う DKRN、発話内のキーワードに関連するキーワードから抽出した返答候補から、target に近いものを選ぶ二段階の戦略などを取り入れたネットワークを提案し、 keyword prediction, response retrieval ともに既存手法を上回る精度となった。
既存モデル (Tang et al. 2019) では keyword を使用する際にその keyword の意味的な関係を使用していない点を、DKRN では活用することで精度を改善した。
モデルが若干複雑だが、キモとなるのは次の2点。
また、収集したデータセットである CWC (既存のものよりかなり大きい) を公開した。
Tang et al. (2019) で提案されているデータセット (Target-guided PersonaChat Dataset: TGPC, PersonaChat を target-guided に拡張したもの) と、新たに集めたデータセット(Chinese Weibo Conversation Dataset: CWC) を用いて、主に Tang et al. のモデルと比較実験。
全てにおいて最も良いスコアとなっている。
human evaluation
モデル単体ごとの評価 | モデル同士の比較 |
---|---|
![]() |
![]() |
Investigating Evaluation of Open-Domain Dialogue Systems With Human Generated Multiple References
https://arxiv.org/abs/1907.10568
Prakhar Gupta, Shikib Mehri, Tiancheng Zhao, Amy Pavel, Maxine Eskenazi, Jeffrey P. Bigham
ACL 2019
対話モデルの研究において、対話というドメインの性質上、自動評価指標 (BLEU など、自動計算できる指標)と人間による手動評価との相関が弱いことが知られている。
本研究では、1つのテストデータに対して複数の正解の返答を人間によって用意 (multiple reference) し、それを用いることでモデルの生成結果の質と多様性について評価のずれを緩和できることを実験にて示した。
また、DailyDialog のテストデータに multiple reference を追加したデータを公開している。
対話の質と多様性の評価について、評価時に人間の判断が必要だったり、multiple refrerence 向けテストデータが少量しかない、などの既存研究での問題を解決している。
対話の質と多様性について、multiple reference の場合での計算方法を提案している。
複数の評価指標、特に単語の重複ベースのものと embedding ベースのものをそれぞれを、4つのモデル+人間の発話を使って推論、計測した。
single-reference と multi-reference で計測し、人間評価による結果との相関を見る。
DyKgChat: Benchmarking Dialogue Generation Grounding on Dynamic Knowledge Graphs
https://arxiv.org/abs/1910.00610
Yi-Lin Tuan, Yun-Nung Chen, Hung-yi Lee
EMNLP 2019 (Submitted on 1 Oct 2019)
動的に変わるような Knowledge Graph を用いた対話システムの必要性から、新たなタスクとして dynamic knowledge-grounded conversation generation を提案, ベンチマークデータセットとして TV ドラマから作成した DyKgChat を公開した。
ベースラインモデルとして Qadpt という GRU とコピーメカニズムを組み込んだモデルを作成、既存モデルとの比較実験を行った。
Dynamic にかわりうる Knowledge Graph に zero-shot でモデルを適用させるようなタスク・ベンチマークデータセットを提案。
Dynamic な knowledge graph を用いた対話生成を新しいタスクとして提案している。
既存手法でも KG を用いた対話生成は存在するが、それらはグラフから得られた特徴などを元に推論をしており、KG 自体が更新されるなどで変化した場合にどのような動きをするか分からない課題のためのタスク。
Knowledge Entity をうまくモデリングできているか、 Knowledge Graph の変化に対応できているか、でそれぞれ評価指標を提案している。
ベースラインモデルと既存モデルで DyKgChat で比較実験。
Table 4 が adaptation の評価、table 3 が knowledge entity の評価。
All/Last1/Last2 は、それぞれ KG をどれだけランダムに入れ替えたか。All だと既存モデルでもそこそこだが、Last1/Last2 など少しだけ元の KG を更新したものに対して大きく性能差がある。
が、指標の意味が分かりづらく(accuracy changed rate は変化分なら変化しなくても良いのでは)、どのくらい良くなったのかわかりづらい。
人間による評価も行っており、Fluency と Information の観点で一部を除いて既存モデルを上回っている。
AdaptiveFace: Adaptive Margin and Sampling for Face Recognition
http://openaccess.thecvf.com/content_CVPR_2019/html/Liu_AdaptiveFace_Adaptive_Margin_and_Sampling_for_Face_Recognition_CVPR_2019_paper.html
https://github.com/haoliu1994/AdaptiveFace コード公開予定とのことだがまだない (2019/09/07)
Hao Liu, Xiangyu Zhu, Zhen Lei, Stan Z. Li
CVPR 2019
マージン付 Softmax Loss の提案により顔認識タスクの性能は大きく改善されたが、各クラスの分布を表現するサンプル数が十分にあるという前提があった。
マージンはクラスによって適応的に決められるべきという考え方で、Adaptive Margin Softmax という新しい損失関数を提案。
また学習時のサンプリングにも Hard Prototype Mining と Adaptive Data Sampling を導入し、これらをまとめて AdaptiveFace として提案した(詳細後述)。
LFW, LFWBLUFR, MegaFace で実験し、SOTA のスコアを更新した。
各クラスに入れるマージンを learnable parameters とした softmax loss を提案した。
損失関数だけでなく、適応的なサンプリングや hard prototype mining を組み合わせた手法を提案した。
MegaFace Challenge 1, LFW, LFW BLUFR で実験。ベースラインは SoftMax, SphereFace, CosFace, ArcFace。
すべてで AdaptiveFace が最も高いスコアを獲得。
表は MegaFace Challenge 1 のケース。
Ablation study も行い、 CosFace のベースラインに対してそれぞれの手法だけでも効果があることを示している。
Striking the Right Balance with Uncertainty
http://openaccess.thecvf.com/content_CVPR_2019/papers/Khan_Striking_the_Right_Balance_With_Uncertainty_CVPR_2019_paper.pdf
https://arxiv.org/abs/1901.07590
Salman Khan, Munawar Hayat, Waqas Zamir, Jianbing Shen, Ling Shao
by Inception Institute of AI
CVPR 2019
class imbalanced なタスクに対して、ベイズ推定の枠組みでクラスごと、及びサンプルごとの不確実性に着目し、unbiased なモデルを学習するための新たな loss を提案した。
Loss は各クラスごとの不確実性を考慮してクラス間のマージンを最大化するようになっているのに加えて、各サンプルを多変量ガウス分布を使用してモデリングし、その二次モーメントまで考慮してクラス境界を調整している。
ベイズによる不確実性の推定の枠組みを class imbalanced な問題に応用した。
クラス間だけでなくサンプルの不確実性も考慮した決定境界になっている。
顔検出をはじめとした6つのデータセットで実験を行った。データセットも異なる特徴のもののうえ、ベースラインモデルとしてもモデルが違うもの、Augmentation を使っているもの、他の class imbalanced なタスクのための loss を使っているものなど多くとそれぞれ目的を持って比較し、そのほとんどで最も良い性能となっている。
論文内で言及されている議論はない。
Affinity Loss の論文は現在の SOTA として引用しているが比較はしていない。
Related Works として挙げられている代表例
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
https://arxiv.org/abs/1801.07698
Jiankang Deng, Jia Guo, Niannan Xue, Stefanos Zafeiriou
CVPR 2019
arxiv: 20180123
表現学習(距離学習)の分野においてより識別性能を上げる損失関数として ArcFace を提案。
既存研究である SphereFace や CosFace と比べて、angular の空間でマージンを加えることで、より実装が簡単で学習しやすくなった(後述)。
既存研究に比べて実装が簡単で学習も行いやすく、更に効果の高い損失関数を提案した。
既存研究との差は、次の画像で決定境界の差として描かれている。
既存研究である SphereFace や CosFace でもそれぞれ softmax loss にマージンを入れるアプローチが提案されているが、ArcFace では cos の angular (角度) の空間でマージンを足すことでより計算/実装を簡単に、かつ効果的なマージンを取り入れている。
この3つの手法は一つの式でまとめて表すことができ、次のようになる。
コサイン部分に のような形でマージンを入れており、m_1, m_2, m_3 がそれぞれ SphereFace, ArcFace, CosFace での提案となっている。
既存の SphereFace, CosFace よりも有効である上に実装が簡単で学習もしやすいことがメインの貢献かと思われるが、なぜ既存手法より有効なのかはパットは分からないので時間を割きたい。。
かなり多くの顔認識データセットを用いて実験し、そのすべてで既存手法に比べて最も良い結果となった。
ArcFace + SphereFace + CosFace などの複合 loss でも、ArcFace 単体の方がよい結果に。
また、明示的に Intra Loss, Inter Loss を定義したもの、Triplet Loss によるものとも比較し、ArcFace が最もバランスの取れた結果になることを実験により示している。これらの loss と ArcFace を組合せても、性能は上がらず、ArcFace だけで Intra loss や Inter loss について最適化できていることが分かる。
BLEURT: Learning Robust Metrics for Text Generation
https://arxiv.org/abs/2004.04696
Thibault Sellam, Dipanjan Das, Ankur P. Parikh
ACL 2020
Neural Language Generation (NLG) のための、BERT を使った新たな評価指標である BLEURT を提案。評価が難しいと言われているテキスト生成について、「人間による評価」をモデル化するために大量のデータで BERT を2段階に pre-train したものを使用する。
backtranslation などによる大量の疑似データを使った9種類の pre-train 手法を組み合わせることでモデルを作成し、WMT Metrics Shared Task で SoTA スコアを獲得。
表は NLG metrics 向けの finetune に使用する signal (=target). これらを用いて BERT を更に pre-train し、最後に少量の人間評価のデータで finetune する。
2017, 2018, 2019 の WMT Metric Shared Task で、人間による rating と各提案指標の差を見る。多くの既存手法とともに実験。metric はその年の公式のものと、各年度で一貫性を見るため Kendall's Tau の2つの metric を使用。
提案手法は、BERT-base, BERT-large から作成したもの (BLUERT-base, BLUERT)と、それぞれから pre-traing を抜いたもの (-pre) の4つ。
2017, 2018 では提案手法が最も良いスコアを獲得。
2019 でもほとんどで TOP のスコアを獲得。年度が新しいほど学習データが多いので、古い年度のものは pre-training の効果がより効いていると見られる。
pre-training により robustness が改善しているかどうかを確認するため、train/valid は low-rating, test は high-rating なデータとなるように意図的に分布を分けてサンプリングし、学習・実験。pre-training により分布の偏り(外挿に近いシチュエーション)に対してロバストになっていることを確認した。
また、BERT, synthetic, WMT のデータで 3 step で学習をしたモデルでは、別のタスクである WebNLG において学習データなしでも既存手法を上回る高いスコアを出した。
Boosting Dialog Response Generation
https://www.aclweb.org/anthology/P19-1005/
Wenchao Du, Alan W Black
ACL 2019
対話モデルの多様性の低さを Boosting を用いることで改善するアプローチの提案。
いくつかのトレーニング方法や decoding 方法 (MMI: Maximum Mutual Information, RAML: Reward-augmented maximum likelihood learning) でベースモデルを作成し、Boosting に組み合わせて学習したモデルの比較・実験を行った。
結果、定量的・定性的に Boosting モデルにより精度を落とさずに多様性向上が見られた。
MMI や RAML といった対話モデルの多様性を上げるためのアプローチと、Boosting を組合せて学習を行った点。
いくつかの方法で学習したベースモデルと、その Boosting 版を比較実験し、対話の精度をあまり落とさないまま多様性が上がったことを auto metrics による評価と人手評価により示した。
特になし
Compressive Transformers for Long-Range Sequence Modelling
https://arxiv.org/abs/1911.05507
Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap
ICLR2020 (Submitted on 13 Nov 2019)
TransformerXL のアイディアを元にして、より長期間の系列をメモリに保存・活用できる Compressive Transformers を提案。
TransformerXL では過去の系列の activation をメモリとして保存しておくが、メモリサイズ n 以上の過去の系列は捨てることになる。Compressive Transformer では、Fig.1 のように捨てられるメモリを圧縮して Compressive Memory として保存しておくことで、より長期間の情報を活用できる。
WikiText-103 と Enwik8 で
長い系列の言語モデルのための PG-19 という book based なベンチマークも作成した。
先行研究では attention の範囲を広げる工夫や、attention の演算コストを下げる研究が多い。
本研究では古いメモリを圧縮して保存することで activation の量は少なくしつつ長期のメモリを保存することができる。
また、スピーチの認識や強化学習におけるメモリ構造にも適用し、効率よく長期のメモリを保持できていることを示した。
実験は提案したベンチマークである PG-19 に加えて、Enwik8, WikiText-103 で実験。それぞれでベースラインである TransformerXL のスコアを更に改善した。
Speech モデリング (vs. WaveNet), 強化学習 (vs. IMPALA の LSTM(?)) のタスクでもそれぞれ実験を行い、Compressed Memory による可能性を確認した。
下記は研究課題としてあるとのこと
Frustratingly Easy Natural Question Answering
https://arxiv.org/abs/1909.05286
Lin Pan, Rishav Chakravarti, Anthony Ferritto, Michael Glass, Alfio Gliozzo, Salim Roukos, Radu Florian, Avirup Sil
(IBM)
2019/09/11
Natural Questions といった難しい QA タスクにおいて、Leaderboard 上位にいるものの論文で説明されていないような手法が用いているテクニックなどを紹介した論文。
Attention-over-Attention, Data Augmentation, Ensemble strategy, pretrain 方法など、スコアを上げるための手法を説明する。
Natural Questions で SoTA を更新。
Attention-over-Attention を始めとした、論文なのでは触れられていない QA のスコアを改善するためのテクニックを紹介しつつ、実験で検証した。
Natural Questions で実験し、先行研究の SoTA を上回った
Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping
https://arxiv.org/abs/2002.06305
Jesse Dodge, Gabriel Ilharco, Roy Schwartz, Ali Farhadi, Hannaneh Hajishirzi, Noah Smith
(Submitted on 15 Feb 2020)
BERT などの pretrain モデルを finetune する際の学習のダイナミクスに関する研究。GLUE を構成するタスクの一部 (MRPC, RTE, CoLA, SST) について、モデルや pretrained weight, ハイパーパラメータ, 学習方法は同じまま seed だけを変えて 2,100 回の finetune を行い、その性質や同じ計算リソース内で精度を上げるための early stopping について議論している。
一部タスクでは seed だけで 7% もスコアを改善している。
次の2つの random 性のある部分を区別して seed を変えて実験している。
BERT について様々な seed で finetune の実験をしたところ、次のような発見が得られた。
他にも
Towards a Human-like Open-Domain Chatbot
https://arxiv.org/abs/2001.09977
Daniel Adiwardana, Minh-Thang Luong, David R. So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, Quoc V. Le
2020/01/27
人間による会話評価の分析を行い、人間評価用の指標である SSA (Sensibleness and Specificity Average) を提案し、これがモデルの perplexity と相関があることを実験により確認した。
perplexity について最適化を行ったモデルとして、マルチターンの雑談 chatbot である Meena を提案。提案指標である SSA で既存の雑談モデルを大きく上回るスコア(72%)となった。
大規模データ(約341GBのテキスト)・大規模モデル(2.6B のパラメータを持つ Evolved Transformer)で、人間による会話評価の分析に基づいて行った学習モデルで既存スコアを大きく更新した。
perplexity の低いモデルが良い人間評価に相関することを実験により示した。
MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance
https://arxiv.org/abs/1909.02622
https://github.com/AIPHES/emnlp19-moverscore
Wei Zhao, Maxime Peyrard, Fei Liu, Yang Gao, Christian M. Meyer, Steffen Eger
EMNLP 2019
テキスト生成のための新たな評価指標である MoverScore を提案。
現在ある自動評価指標である、単語が n-gram で一致するかどうかといった BLEU や ROUGE は表面的な類似度に基づいているが、実際は意味的な比較をするべきという考えで、同時期に出された BERTScore と同じく BERT などの contextualized embedding を用いる一方でその手法を一般化し、類似度計算に Earth Mover Distance を用いた。
4タスクでの実験で既存の自動評価指標と BERTScore との比較を行い、SoTA もしくはほぼトップと同じスコアを獲得している。
Earth Mover Distance をテキスト応用した WMD (Word Mover Distance) と、BERT を始めとする contextualized embedding を組み合わせてテキスト生成の評価指標とした。
どの粒度で類似度を取るかなど広範囲に実験。
問題を次のように定式化。
x^n, y^n をそれぞれの文章の n-gram, f_{x^n}, f_{y^n} をそれぞれの文の n-gram の重み (idx を使っている) として、
ここで C は d を適当な距離関数として で与えられる行列で、
〈C, F〉
は C と F の要素ごとの積の、すべての要素の和。
なので、すべての単語の n-gram の組み合わせで距離を計算し、重み付けしたものの合計が WMD 。
ここでは E(x)
を BERT などの embeddings として、次のようにユークリッド距離を使っている。
n-gram の場合は idf で重み付き平均を取っている。
n-gram の WMD の特殊例として、n = sentence length の場合の SMD (Sentence Mover Distance)も派生として定義して比較している。
Word Mover Distance の定義において、 C を BERT ベースの cos sim. に基づくものに、Fを最適化問題を解かずに一様分布にすると BERTScore になる。
著者らは BERTScore との違いとして、Hard / Soft Alignments を上げており、BERTScore は candidate 文の単語から reference 文で最も類似度の高い単語についてのスコアを使うのに対し、MoverScore は全ての組み合わせから距離を見ている。これにより意味的に近い単語をうまく紐付けられるとしている。
4つのタスク(machine translation, 要約, image captioning, data-to-text)で他のベースライン指標も含めて人間評価との相関を比較。
全てタスクで、MNLI で finetune した BERT を使ったものが SoTA もしくはそれに近い性能となった。
BERTScore との比較で、同じ条件で (power means などを使わずに) 比較も行っている(下記表)。
IMO: WMD-UNIGRAM が正当な比較だと考えるとほとんど変わらないように見える
soft-alignment (MoverScore) が hard-alignment (BERTScore) を上回っていると主張している。
IMO: bigram を用いた場合の話なので、一概に比較できない気もしている
future work として、人間評価のコストのかからない evaluation system を計画しているとのこと。
Self-Supervised Dialogue Learning
https://arxiv.org/abs/1907.00448
Jiawei Wu, Xin Wang, William Yang Wang
30 Jun 2019
ACL 2019
対話において発話の順序が重要という考察から inconsistent order detection というタスクを解く self-supervised な学習手法とそのためのモデルである Self-Supervised Network (SSN) を提案。
通常の対話モデル学習と SSN による学習を GAN の仕組みを用いて組み合わせることでより一貫した学習ができるようにし、Open-Subtitles と Movie-Ticket Booking のタスクで SOTA を更新した。
通常の対話モデルを Generator として、SSN を「ある生成文が良い返答なら順序タスクを解きやすい」という Discriminator として使うことで組み合わせている。
対話モデルの学習において、対話の順序に着目しそれをタスクとして取り入れた研究は初。
またその順序識別タスクを上手く Adversarial Learning に取り入れた。
P(T|T', T'') = S(T, T', T'')
OpenSubtitles と Movie-Ticket Booking のデータセットで実験。ベースラインモデルとして adversarial な学習を用いたモデルである REGS (Li et al., 2017) とAEL (Xu et al., 2017) と比較。
様々な実験を行い、どの指標でも提案手法が上回った。
特に人間評価では大きな差があった。
Large Scale Incremental Learning
http://openaccess.thecvf.com/content_CVPR_2019/papers/Wu_Large_Scale_Incremental_Learning_CVPR_2019_paper.pdf
https://arxiv.org/abs/1905.13260
Yue Wu, Yinpeng Chen, Lijuan Wang, Yuancheng Ye, Zicheng Liu, Yandong Guo, Yun Fu
CVPR 2019
徐々に新しいクラスのデータを増えるような分類問題において、古いクラスの識別ができなくなる破滅的忘却を防ぐような Incremental Learning の手法である BiC (bias correction) を提案。
破滅的忘却は、classifier layer (最後の dense layer) で、新しいクラスに対して強い bias があることが要因の1つであることを発見し、線形モデルで bias を補正するレイヤーを追加している。
Incremental Learning の既存手法である iCaRL や EEIL と比較し、ImageNet を10個の increment batch に分ける実験で�SOTA を更新した。
破滅的忘却についての分析で最終 dense レイヤでの bias に着目し、それを補正するレイヤを追加することで Incremental Learning の性能を上げる取り組み。
学習を stage1 と stage2 に分け、データも合わせて新しいクラス、古いクラスの一部をそれぞれ train と valid で分けて、stage 1 では通常通りモデルを学習し、stage 2 で stage 1 のモデルをパラメータ固定して使い、bias correction layer のパラメータを学習する。
Incremental Learning の既存手法である iCaRL や EEIL と比較し、ImageNet を10個の increment batch に分ける実験で�SOTA を更新した。特に新しいクラスが大量にあるときに大きな効果があった。
Learning from Dialogue after Deployment: Feed Yourself, Chatbot!
https://arxiv.org/abs/1901.05415
Braden Hancock, Antoine Bordes, Pierre-Emmanuel Mazaré, Jason Weston
Stanford & FAIR
ACL 2019
arxiv 2019/01/16
デプロイ後の対話モデルが自身の対話から学習(self-feeding)する方法を提案した研究。デプロイ後のユーザとの対話からユーザの満足度を予測することで、良いものについては学習データとし、悪い対話についてはユーザにフィードバックをもらうようにする。
PERSONACHAT の 131k のデータで学習した上で実験を行ったところ、self-feeding を行うことで大きく性能向上した。
SG-Net: Syntax-Guided Machine Reading Comprehension
https://arxiv.org/abs/1908.05147
Zhuosheng Zhang, Yuwei Wu, Junru Zhou, Sufeng Duan, Hai Zhao, Rui Wang
AAAI-2020
言語読解タスクにおける既存の attention ベースのモデルは、不要な単語についても attend してしまう。self attention network に syntax を使った制約を追加した SDOI-SAN (syntactic dependency of interest - self attention network) を提案し、BERT ベースのモデルに適用した。
SQuAD 2.0, RACE のタスクで性能を改善。
syntax 情報を self-attention ベースのモデルに組み込む方法を提案し、MRC タスクに応用した。
Self Attention Network (SAN) に対して syntactic dependency of interest (SDOI) の情報を付加した SAN-SDOI レイヤーを提案した。
BERT などの Transformer ベースの Encoder の出力に対して SAN-SDOI レイヤーを追加し、元々の Encoder の出力 H と、SAN-SDOI レイヤーの出力 H' の重み付き和を最終出力とする。
SAN-SDOI レイヤーでは、ネットワーク構造は通常の SAN と同様で self-attention + FFN の構成となっているが、self-attention 内のマスクが異なっており、別で用意した syntax parser から得られた木構造をもとにマスクを作成、適用している。
通常の self-attention と SDOI での attention の値は次の図のように大きく変わる。
BERT ベースのモデルで、span based なタスクとして SQuAD 2.0, multi choices なタスクとして RACE で実験。いずれもベースラインスコアを上回り SoTA もしくはそれに近いスコアを獲得。
分析により、ベースラインとなる BERT よりも長い Question に対する精度が上がっており、Syntax による情報が効いていることを確認した。
長い文章では、attention ベースのモデルでは不要な単語もよく見てしまうという仮説から提案した手法であったが、実験的に提案手法の方が長い Query に対しても精度が劣化しないことを示している。
syntax 情報を直接的に組み込むことで精度向上ができた例となった。
Lifelong and Interactive Learning of Factual Knowledge in Dialogues
https://arxiv.org/abs/1907.13295
Sahisnu Mazumder, Bing Liu, Shuai Wang, Nianzu Ma
SIGDIAL 2019
Generating Logical Forms from Graph Representations of Text and Entities
https://arxiv.org/abs/1905.08407
Peter Shaw, Philip Massey, Angelica Chen, Francesco Piccinno, Yasemin Altun
ACL 2019
構文解析のタスクにおいて、 Transformer の self-attention layer を Graph Neural Network を用いることで、与えられた自然言語内の entity やその関連情報の理解を改善する手法を提案した。
decode 時に copy mechanism を使用して entity を含んだ論理形式を生成するモデルを作成、3つの構文解析タスクで pre-training なしで SoTA に匹敵、更に BERT と組み合わせることで多くの既存手法を上回るスコアとなった。
Transformer の sub-layer である self-attention layer を、GNN を用いて改善している。
3つの構文解析タスク、GEO, ATIS, SPIDER で実験。
GNN を用いた提案手法が既存手法の SoTA とほぼ同等のスコアとなり、BERT による pre-train を組み合わせたモデルは更にそれを上回るスコアとなった。
2.5D Visual Sound
http://openaccess.thecvf.com/content_CVPR_2019/papers/Gao_2.5D_Visual_Sound_CVPR_2019_paper.pdf
https://arxiv.org/abs/1812.04204
Ruohan Gao, Kristen Grauman
CVPR 2019
モノラルな音声を、映像から空間的な情報を取り込んで、バイノーラルな音声に変換する 2.5D visual sound を提案した。また、提案手法によって得られたバイノーラルな音声が、自己教師あり学習により audio-visual source separation タスクに効果的な表現を得られていることを示した。学習に使用した 5.2時間分のバイノーラルな音声データも公開されている。
一般的な視界のビデオを用いて、モノラルな音声をバイノーラルな音声に変換する試みは初。
audio-visual source separation task に対してバイノーラルな音声特徴を用いるアプローチは初。
FAIR で収集した FAIR-Play を始めとした4つのデータセットで、ambisonics (360度映像と音声) のためのモデルと、提案手法から少し情報を削ったモデル (Audio-only, Flipped-Visual, Mono-Mono) で実験し、autometric による評価も human test による評価も最も良い結果となった。
また、 source separation タスクについてもバイノーラルな表現がモノラル音声より分離に効果的であることを示した。
Read + Verify: Machine Reading Comprehension with Unanswerable Questions
https://arxiv.org/abs/1808.05759
Minghao Hu, Furu Wei, Yuxing Peng, Zhen Huang, Nan Yang, Dongsheng Li
AAAI-19
MRC タスクにおいて、データ中に含まれる答えられない質問 (Unanswerable Questions) について、改善に取り組んだ研究。既存研究では足りていない回答の妥当性を考慮するために、 read-and-verify システムを提案。reader によって得られた回答が入力に対して妥当か調べる verifier と、2つの補助損失を加えた学習で2019/08時点の SQuAD 2.0 の SoTA を更新した。
明示的に回答の妥当性を検証する answer verifier をモデルに統合した。
回答の抽出と no-answer な質問の検出を分けてうまく扱うために2つの補助損失を提案した。
No-answer なデータが含まれる SQuAD 2.0 で 2018/08時点で SoTA を更新。
Ablation Study を始めとして様々な分析を行っている。
Unequal-training for Deep Face Recognition with Long-tailed Noisy Data
Yaoyao Zhong, Weihong Deng, Mei Wang, Jiani Hu, Jianteng Peng, Xunqiang Tao, Yaohai Huang
CVPR 2019
Multi-passage BERT: A Globally Normalized BERT Model for Open-domain Question Answering
https://arxiv.org/abs/1908.08167
Zhiguo Wang, Patrick Ng, Xiaofei Ma, Ramesh Nallapati, Bing Xiang
EMNLP 2019
OpenDomain な QA のタスクは BERT の登場で大きく改善されたが、既存手法は一つの質問に対して複数の候補文をそれぞれ独立に質問-候補文ペアとして学習し、それぞれでスコアの高い回答を選択している。
本研究では、既存手法では候補となる文章全体でのスコアが適切に計算できないなどの理由から、全てで Normalize しスコアを計算するなどの工夫を加えた Multi-passage BERT を提案。
OpenSQuAD, TriviaQA, Quasar-T, SearchQA で全ての SoTA を更新した。
全ての候補文章から回答を予測する global normalization がよりモデルを安定化させることや、その他 ranker の貢献や候補文の stride などの効果をいくつかの実験により確認した。
通常の BERT による QA タスクでは、質問 + 候補文ペアをモデルに入力し、回答の開始と終了位置を予測する。候補文ペアが複数ある場合、それぞれ独立にこの処理を行い、最もスコアの高いものを選ぶ。
Multi-passage BERT では、全ての候補文について logits を計算したあとに、全ての候補文で Softmax を取ることで、全体でのスコアを計算する。
他にも、各候補文の ranker も同様に全体でスコアを作成する、stride を導入するなどしてモデルを改善できた。
OpenSQuAD, TriviaQA, Quasar-T, SearchQA の4つのデータセットで検証。
全てのデータセットで SoTA を更新した。
今後 passage 間の相関を取り入れたいとのこと.
Towards Knowledge-Based Recommender Dialog System
https://arxiv.org/abs/1908.05391
Qibin Chen, Junyang Lin, Yichang Zhang, Ming Ding, Yukuo Cen, Hongxia Yang, Jie Tang
EMNLP 2019
対話ベースのレコメンドシステムについて、レコメンドシステムと対話システムを end-to-end に組み合わせることでそれぞれの性能を底上げする KBRD (Knowledge-Based Recommender Dialog) を提案した。
下記図のように、単純に対話システムとレコメンドシステムの出力を切り替えるだけではなく、お互いの情報をうまく活用することでそれぞれの精度を改善する。
end-to-end にレコメンドシステムと対話システムを互いの情報を活かしつつ組み合わせる手法を提案した。
次の手順でユーザの表現を得る。
次いで、レコメンドシステムで得られた情報を対話システムに組み込む。
DIALog (REDIAL) という対話によるレコメンデーションのデータセットを使って検証。
レコメンド精度、対話評価ともに提案手法がベースラインモデルを上回った。ablation study も行い、モデルの変化(HRED -> Transformer)、外部知識の導入、対話情報の組み合わせのどれも改善に貢献していることがわかった。
特に対話においては、Transformer が PPL に大きく貢献し、他の手法によりモデル出力の多様性に大きく改善が見られた。
分析により、対話内で言及される映画(item)の数が少ない場合は対話を取り入れた手法で大きく改善でき、対話内で言及される映画が多い場合は外部知識を取り入れた手法で大きく改善できることがわかった。
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.