NLP原理系列1-说清楚transformer原理

lexn / 2023-08-30 / 原文

NLP原理系列1-说清楚transformer原理

来用思维导图和截图描述。

　　思维导图的本质是变化(解决问题)-> 更好的，或者复杂问题拆分为小问题以及拆分的思路。

参考链接：李宏毅 transformer原理。

一 tansformer的推理及训练过程

1 tf 训练过程

红框部分是训练得grandtruth，正确答案。

decoder的上面输出部分是推理结果。采用了一些teach model

2 tf 推理过程

假如我们的场景是问答，问题是“中国的首都是哪里？”
推理阶段最开始，左侧Input就是这个问题，右下Outputs就是起始符，Inputs和Outputs共同进行前向传播，它们会在中间蓝笔红笔那部分完成汇合，然后到右上侧推理出“北”（如果模型效果尚可，确实能正确推理出“北京”的话），“北”作为本步推理结果，就会被送入Outputs拼在起始符后方，然后Inputs和带有“北”的Outputs又共同前向传播，又再汇合推理出“京”…大抵是这么一个往复的过程

推理优化过程

紫色部分只执行一次，如果计算出来的红圈部分保存的话。红圈部分是 key 和value，篮圈是query。

如描述的推理过程，推理到 “北”字后，只有那个"北"的 logist 回来到红框位置生成新的query，与原来的key和value汇合。

绿色部分是一个 decoder block块

我们构造一个较复杂多层模型

保存任何一组key和val即可。

二 GPT 仅用decoder

1 past-key_val=true 保存过程

截图为decoder的单层结构图，也是GPT的简化图。 12x即重复12层block。

GPT全部是decoder block 也是会计算key val所以也可以保存起来，那么每一层得 key-val都是新的，所以实际是保存了12组 key-val。 (从代码中读到，可以再次确认)

2 为什么 decoder可以自己计算key和val呢？

NLP原理系列1-说清楚transformer原理更多相关文章

Redis持久化机制（面试考点）与位图API

爬虫--识别验证码

TZYLT's 2024CSP-S游记

「CSP2024」游记

js模拟构造函数的实现过程

命令拼接技巧

SD NAND 与 SPI NAND

C语言中的编译过程详解

step7 V5.x上的SCL

yolo --- 核心思想

一些学科笑话

NOIP2024模拟赛20 & 11.1 小记

20241101 数据结构与算法期中机试收获

什么是IT技术

即将到来！

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

ubuntu 24.04 部署 mysql 8.4.3 LTS

随机推荐

yolo --- 核心思想

【游记】CCPC 济南 2024 游记

AJAX & AXIOS-2024/11/1

验证码处理在自动化测试中的应用

一些学科笑话

NOIP2024模拟赛20 & 11.1 小记

20241101 数据结构与算法期中机试收获

Java，启动！

什么是IT技术

即将到来！

2024/11/1日日志关于JavaScript简介&引入方式以及基础语法的学习

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

原型模式的C++实现

python bytecode解析

09-XSS键盘监听、cookie窃取&文件上传绕过

ubuntu 24.04 部署 mysql 8.4.3 LTS

国标GB28181公网平台LiteGBS国标GB28181视频平台建筑工地无线视频联网监控系统方案

imes完工下线

android 13 更改手机信号调整

热门话题

Ethernaut Level 11: Elevator Attack and Blockchain Interaction

快速部署开源spug运维平台的Docker安装指南

驱动调试之printk的原理与使用

计算机思维模型及其应用

华为云发布代码大模型PanGu-Coder2，实现高效代码生成

Linux多硬盘数据存储和分区操作

构建高可用架构: 分层冗余与自动故障转移

LoRA：高效调参的大语言模型适应方法

《分布式系统的基本原理及互联网分层架构的本质》

Hadoop写流程解析

Java架构师的系统架构设计方法论中的规范要点

使用observeDOM解决BetterScroll插件在移动端无法滑动的问题

互联网一致性架构设计实践

高并发系统架构与水平扩展

混合应用的崛起：跨平台开发取代原生应用

穗舟网（www.seizhou.com）

本站除标明"本站原创"外所有文章版权归创作人所有，本站不承担任何法律责任和连带责任，如有冒犯请直接联系，我们将立即予以纠正并致歉。

Powered by WordPress · v1.0.0-alpha