Attention机制 郝伟 2020/012/12 [TOC]
1. 简介
Attention 正在被越来越广泛的得到应用,其中比较著名的就是 BERT 的火爆。
2. Attention 的本质是什么
Attention(注意力)机制如果浅层的理解,跟他的名字非常匹配。他的核心逻辑就是「从关注全部到关注重点」,即将有限的注意力集中在重点信息上,从而节省资源,快速获得最有效的信息。
3. Attention 的三大优点
之所以要引入 Attention 机制,主要是3个原因:
- 参数少 模型比 CNN、RNN 简单,参数更少,计算力要求更低;
- 速度快 Attention 解决了 RNN 不能并行计算的问题,Attention机制每一步计算不依赖于上一步的计算结果,因此可以和CNN一样并行处理。
- 效果好 在 Attention 机制引入之前,有一个问题大家一直很苦恼:长距离的信息会被弱化,就好像记忆能力弱的人,记不住过去的事情是一样的。
具体示例:https://blog.csdn.net/weixin_43145361/article/details/106781801