一文详解Transformer注意力机制，华为盘古大模型Nature正刊方法

好奇心Log 发表于 2024-3-27 00:27:36

本帖最后由好奇心Log 于 2024-4-30 13:39 编辑

引言最近华为云的研究人员提出了一项重大创新，全球AI气象预报系统，被命名为"盘古气象大模型"。这个模型代表了一种突破性的方法，它在气象预测领域实现了精度的革命性提升。这种最新的基于Transformer的方法开始逐渐被引入地学和气象学研究中。

盘古气象大模型不仅在1小时到7天的预测中比传统数值预报方法（如欧洲气象中心的operational IFS）更准确，还在预测速度方面取得了惊人的提升，提高了预测速度高达10000倍，使其能够提供秒级的全球气象预测。

该模型的核心创新是引入了3D Earth-Specific Transformer的概念，这是一种特殊的视觉transformer的三维变种，旨在应对气象数据的复杂性和不均匀性。由于气象数据的分辨率通常非常高，研究人员采取了一系列优化措施。此外，他们还采用了Swin Transformer的滑窗注意力机制，有助于提高模型的效率。

当前，大多数学者对Transformer这一方法还不熟悉，本系列用于科普相关方法的原理和代码。

注意力

如果我们分析人类认知，我们会注意到所有人类认知能力都归结为一个关键特征，称为“注意力”'。

注意力是通过处理并将其保存在记忆中以供将来回忆来记录环境刺激的能力。由于人类的处理能力有限，因此，注意力就成为应该处理和保存在记忆中的内容的选择标准。

视觉注意力是识别场景中的显着对象/区域并将它们记录为有助于实现目标的潜在有意义刺激的过程。这里我们可以用“显著图”来表征这种注意力窗口：这也是Transformer的基础。

序列输入
Transformer一开始用来解决NLP问题，最成功的应用是ChatGPT。那么为什么这种结构很适合于序列问题呢？

序列建模是以连续表示形式表示输入序列（例如，单词），并恢复在语义上映射到输入序列的另一个序列的过程。这种建模的一个示例应用是语言建模和翻译任务。序列建模任务长期以来一直用递归神经网络 (RNN) 架构来处理的，因为它们能够捕获输入序列中各个元素之间的语义关系。此类模型通常使用基于

encoder-decoder （编码器-解码器）

RNN 方法使问题过于复杂，因此需要很长的训练时间，但性能却很一般。Transformer 是一种全新方法，由于其相对效率和准确性，已经成为构建语言模型的主流方法。在对文本序列进行建模时，表示序列中各个元素位置的内部关系也很重要。这种建模通常称为自注意力或内部注意力。Transformer 仅使用自注意力机制来表示和映射输入和输出序列，从而更好地模仿人类语言理解。

词嵌入和位置嵌入
一般称为Vector and Position Embedding

对于NLP来说，单词数据是无法作为计算机识别的方式输入，这一般需要编码，简单来说是通过某种模型（一般是预训练的大模型）将词语转化为向量，如示例图。

此外这也不是一般的转换，由于位置编码，超空间的词汇与其他单词的语义相似性形成簇。经过这种编码后，具有相似含义的单词会聚集在一起。

在类似的地学数据处理时，也有这样一步，将地理数据视为“词语”来进行相似的处理，从而使别地理数据的潜在关系。

Q，K，V矩阵

注意力在 Transformer 模型架构中起着关键作用。注意力可以确定序列中最显着的单词及其相互关系。这样就可以提取大文本的要点并从中提取有意义的抽象。注意力取决于三个术语：查询、键和值**。（一般也叫Q，K，V）顾名思义，查询是一个搜索词，旨在查找序列中的相关词。

例如，在前面使用的单词序列中，如果我们选择“作者””作为查询，那么我们本质上会寻找序列中与“作者”有很强关系的所有其他单词。

如果你在本科学过数据库这门课，那你可能听着很熟悉。就像对数据库的查询一样，对Transformer的查询需要某种字典/数据库（即键、值对）。您将查询作为键插入并获取所需的值。然而，由于我们仍在尝试学习关联，因此需要执行查询与键的相似性。

这样，键本质上是Transformer模型的输入向量，值是模型的输出。查询是给定时间这些键中的任何样本。然而，如果训练时尚不存在新单词，则查询也可能与键不同。

自注意力
自注意力是注意力的一种形式，其中查询、键和值是从输入到Transformer模型的相同原始单词序列中采样的。Transformer应该能够在输入序列仍处于训练阶段时学习输入序列中的关联。这使得Transformer能够构建语义单词关联，并能够在从序列中给出特定单词作为查询的同时推断其他单词。

如果我们从另一个角度来看，自注意力类似于协方差分析，其旨在通过构建基于协方差的权重/相似性矩阵来查找序列中各个单词的相似性。注意力函数只是一个协方差矩阵乘以词向量矩阵。

因此，在自注意力的情况下，QK^T是位置嵌入词向量之间的成对相似度。softmax根据相似度分数生成概率分布。当与嵌入的单词向量V相乘时，该相似性权重矩阵将充当掩模并仅突出显示与相应查询向量具有最高相似性的那些单词。
可学习的自注意力
注意在神经网络中，QKV是不断学习的，自注意力可以通过训练得到完善。

Reference
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, “Attention Is All You Need”, arXiv:1706.03762 , 2017

Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, and B. Guo,“Swin transformer: Hierarchical vision transformer using shifted windows,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 10 012–10 022.

文章来源于微信公众号：好奇心Log

中互智能 发表于 2024-4-27 03:48:31

我在重现你的结果时遇到了问题，能帮忙解答一下吗？

JosephMouts 发表于昨天 21:26

mueller

mueller
mueller
mueller
mueller
mueller
mueller
mueller
mueller
mueller
mueller
mueller
mueller
mueller
mueller
mueller

last news about muller

<a href=https://music.jocee.jp/jump/?url=https://thomas-mueller-br.biz/>mueller</a>
<a href=https://filiphendrych.blog.idnes.cz/redir.aspx?url=https://thomas-mueller-br.biz/>mueller</a>
<a href=http://www.goodsforhome.ru/bitrix/rk.php?goto=https://thomas-mueller-br.biz/>mueller</a>
<a href=http://strazak.com/idz.php?url=https://thomas-mueller-br.biz/>mueller</a>
<a href=http://gtss.ru/bitrix/rk.php?goto=https://thomas-mueller-br.biz/>mueller</a>
<a href=https://mnhelp.com/Providers/Fairview_Health_Services/Primary_Care_Clinic/53?returnUrl=https://thomas-mueller-br.biz/>mueller</a>
<a href=http://alavir.by/bitrix/redirect.php?event1=&event2=&event3=&goto=https://thomas-mueller-br.biz/>mueller</a>
<a href=https://store.musicredemptions.com/changecurrency/1?returnurl=https://thomas-mueller-br.biz/>mueller</a>
<a href=http://createdhouse.com.xx3.kz/go.php?url=https://thomas-mueller-br.biz/>mueller</a>
<a href=https://dksignmt.com/wp-content/plugins/AND-AntiBounce/redirector.php?url=https://thomas-mueller-br.biz/>mueller</a>
<a href=https://is.skaut.cz/Login/?appid=b2d1fd67-3525-4cc4-92b3-bc99486736bb%20&TryAutoLogin=1&ReturnUrl=https%3A%2F%2Fthomas-mueller-br.biz>mueller</a>
<a href=http://deai-ranking.org/search/rank.cgi?mode=link&id=28&url=https://thomas-mueller-br.biz/>mueller</a>
<a href=https://pmh-gebbies-pass-loop.maprogress.com/viewswitcher/switchview?mobile=false&returnurl=https://thomas-mueller-br.biz/>mueller</a>
<a href=http://kathrynmdrennan.org.xx3.kz/go.php?url=https://thomas-mueller-br.biz/>mueller</a>
<a href=https://70.vaterlines.com/index/download2?diff=0&darken=1&utm_clickid=qiocdmhuwf55wi7i&aurl=https%3A%2F%2Fthomas-mueller-br.biz&pushMode=popup>mueller</a>

页: [1]

气象互助社's Archiver

一文详解Transformer注意力机制，华为盘古大模型Nature正刊方法

mueller