victorylee
作者victorylee2022-03-31 22:12
软件开发工程师, 浪潮商用机器有限公司

浪潮源1.0所使用的超大规模语言模型Transformer介绍

字数 1571阅读 1729评论 0赞 0

注意力机制的重要性。人看一幅图像,读一篇文章时,不会注意图像的每个细节,关注每一个具体词,而是将注意力集中在图像中的人、车、交通灯等关键物体,或者句子中的一些关键词语中。和人类一样,神经网络模型也不需要将注意力集中在每个单词和每个图像的细节上,实现该功能的方法就是注意力机制。**

自然语言处理中的 Word2vec 和循环神经网络模型。在深度学习的蓬勃发展下,在各种类型的卷积神经网络的助推下,计算机视觉的各种任务如图像识别模型、物体检测、语义分割任务的性能在不断提升。同时期 NLP 领域举步维艰,除了传统的机器学习模型外, word2Vec 词向量模型和循环神经网络通常用在 NLP 领域。其中 Word2vec 是词袋模型 (word of bags) ,不考虑句子中词和词之间的前后关系,有着显著的缺点,例如“苹果砸了牛顿”和“牛顿砸了苹果”两者没有差别。循环神经网络每次输入一个词,依次将整个句子输入到网络中,考虑了词的先后次序和上下文,所以有更广泛的应用。但每次输入一个词,从而也降低了数据处理的并行度。

Transformer 的注意力计算高效、并行度高。 Transformer 对单词计算注意力可以关联到句子中每个单词,注意力计算更加高效。 Transformer 通过手工人工加入 ( 或训练的方式自动生成)位置编码 (positional Encoding) ,从而将句子中词的先后次序输入到模型中,以前每次输入一个词,输入多次才能将整个句子输入模型,现在可以一次将句子中的单词和位置编码一次输入到模型中,所以并行度远高于以前。

Transformer 开启了 NLP 的新时代。 Transformer 最初用来做机器翻译,该模型是一个 Encoder-Decoder 架构,以中英翻译为例, Encoder 接受一个中文的句子,“知识就是力量”,它对句子进行编码,将编码后的信息输入到 Decoder 中, Decoder 再将编码信息翻译为英文,“ knowledge is power ”。模型架构如下图所示:**

将 Transformer 的 Encoder 重复 12 层就形成了 BERT Base ,重复 24 层就是 BERT large 。训练时,通过将一些词 mask 住,给 mask 住的位置增加一个线性的分类层,让模型猜测 Mask 住的词,通过这样的自监督学习,可以在没有标签的数据上训练 BERT ,就得到了预训练的 BERT 模型。在业务相关的 NLP 任务上,使用业务相关的数据对 BERT 模型进行微调,就可以很好的完成这些任务。

下一篇,我们将介绍 Transformer 模型在源1.0中应用。

Reference

[1] S. Hochreiter and J. Schmidhuber, “ Long Short-Term Memory, ” Neural Comput , vol. 9, no. 8, pp. 1735 – 1780, Nov. 1997.

[2 ] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. arXiv preprint arXiv:1706.03762, Add to Citavi project by ArXiv ID 2017 .

[3 ] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广