Attention机制 郝伟 2020/012/12 [TOC]

1. 简介

Attention 正在被越来越广泛的得到应用,其中比较著名的就是 BERT 的火爆。

2. Attention 的本质是什么

Attention(注意力)机制如果浅层的理解,跟他的名字非常匹配。他的核心逻辑就是「从关注全部关注重点」,即将有限的注意力集中在重点信息上,从而节省资源,快速获得最有效的信息

3. Attention 的三大优点

之所以要引入 Attention 机制,主要是3个原因:

  • 参数少 模型比 CNN、RNN 简单,参数更少,计算力要求更低;
  • 速度快 Attention 解决了 RNN 不能并行计算的问题,Attention机制每一步计算不依赖于上一步的计算结果,因此可以和CNN一样并行处理。
  • 效果好 在 Attention 机制引入之前,有一个问题大家一直很苦恼:长距离的信息会被弱化,就好像记忆能力弱的人,记不住过去的事情是一样的。

具体示例:https://blog.csdn.net/weixin_43145361/article/details/106781801

4. 基本原理

  1. 基于Seq2Seq: https://easyai.tech/ai-definition/encoder-decoder-seq2seq/

results matching ""

    No results matching ""