Some question about the Adaptive-Attention (AA) module about rstnet HOT 3 CLOSED

Liqq1 commented on September 21, 2024

Some question about the Adaptive-Attention (AA) module

from rstnet.

Comments (3)

zhangxuying1004 commented on September 21, 2024

您好👋感谢你的代码分享，其中关于 Adaptive-Attention (AA) module，有几点想确认一下。

如果没有AA模块，是hidden state直接给出prediction结果吗？

2.将h_t, v_t, k_t三者进行attention的目的，是为了使得相关性大的视觉/语音信号对h_t的贡献更大吗？

3.不知是否理解正确：train的时候对于不同time step的输出要将其concat起来，因为是并行进行的；而test的时候word prediction只是当前time step的结果。

问题1: 是的；
问题2 ：是为了以h_t为查询，将视觉信息和语言信息对当前预测的贡献进行量化，并没有加大。
问题3:是的，基于序列模型的decoder（如RNN，transformer），训练和测试都是这种模式。

from rstnet.

Liqq1 commented on September 21, 2024

您好👋感谢你的代码分享，其中关于 Adaptive-Attention (AA) module，有几点想确认一下。

如果没有AA模块，是hidden state直接给出prediction结果吗？

2.将h_t, v_t, k_t三者进行attention的目的，是为了使得相关性大的视觉/语音信号对h_t的贡献更大吗？
3.不知是否理解正确：train的时候对于不同time step的输出要将其concat起来，因为是并行进行的；而test的时候word prediction只是当前time step的结果。

问题1: 是的；问题2 ：是为了以h_t为查询，将视觉信息和语言信息对当前预测的贡献进行量化，并没有加大。问题3:是的，基于序列模型的decoder（如RNN，transformer），训练和测试都是这种模式。

感谢回复。
另外对于第二点，在量化过程中是如何体现/约束visual words 和 non visual word的贡献度？还是说在训练过程中，随着loss的减小，就会逼近visual words 的贡献度增大& non visual word的贡献度减小？

from rstnet.

zhangxuying1004 commented on September 21, 2024

您好👋感谢你的代码分享，其中关于 Adaptive-Attention (AA) module，有几点想确认一下。

如果没有AA模块，是hidden state直接给出prediction结果吗？

2.将h_t, v_t, k_t三者进行attention的目的，是为了使得相关性大的视觉/语音信号对h_t的贡献更大吗？
3.不知是否理解正确：train的时候对于不同time step的输出要将其concat起来，因为是并行进行的；而test的时候word prediction只是当前time step的结果。

问题1: 是的；问题2 ：是为了以h_t为查询，将视觉信息和语言信息对当前预测的贡献进行量化，并没有加大。问题3:是的，基于序列模型的decoder（如RNN，transformer），训练和测试都是这种模式。

感谢回复。另外对于第二点，在量化过程中是如何体现/约束visual words 和 non visual word的贡献度？还是说在训练过程中，随着loss的减小，就会逼近visual words 的贡献度增大& non visual word的贡献度减小？

不是，通过视觉信息、非视觉信息与h_t的关联程度来反映的，并且后接softmax对两类信息的贡献进行归一化。随着训练过程中loss的减小，视觉信息对视觉词预测的贡献增加，非视觉信息对非视觉词预测的贡献增加。

from rstnet.

Some question about the Adaptive-Attention (AA) module about rstnet HOT 3 CLOSED

Comments (3)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent