关于可视化的一些问题 #17

fmm170 · 2024-01-15T07:55:33Z

您好～最近阅读了您的论文和代码，想问一下这个可视化是如何实现的呢？谢谢～

leanwang326 · 2024-01-16T13:59:53Z

这个是用bertviz包来画的，黄色的高亮是手动画的

fmm170 · 2024-01-19T06:22:12Z

您好～我用bertviz的head_view可视化了gpt2-xl的第44层，可视化结果显示第一个token的attention更大，我不太清楚是不是衡量指标不同还是其他原因？谢谢～

leanwang326 · 2024-01-21T16:09:55Z

哦是这个样子的，首先，我们这边可视化的saliency，而不是attention，因为attention的大小又可能和重要性还差一些（比如有文章就说应该再用value vector的norm修正）
其次，在attention的值方面，这个似乎是个非常典型的特征，大概和 Attention Is Off By One讲的有点关系（就是可能开头的bos token起了相当于Attention Is Off By One提到的softmax里+1的作用），所以这个其实应该也不意味着模型在关注这个token，可能就是为了修正attention的值

fmm170 · 2024-01-22T04:47:01Z

哦哦，确实在streaming LLM中也有相关描述，谢谢您的解答～

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于可视化的一些问题 #17

关于可视化的一些问题 #17

fmm170 commented Jan 15, 2024

leanwang326 commented Jan 16, 2024

fmm170 commented Jan 19, 2024

leanwang326 commented Jan 21, 2024

fmm170 commented Jan 22, 2024

关于可视化的一些问题 #17

关于可视化的一些问题 #17

Comments

fmm170 commented Jan 15, 2024

leanwang326 commented Jan 16, 2024

fmm170 commented Jan 19, 2024

leanwang326 commented Jan 21, 2024

fmm170 commented Jan 22, 2024