当前位置: 首页 >
为什么我还是无法理解transformer?
- 人气:
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
推荐资讯
- 2025-06-24你见过的好中医有多厉害?
- 2025-06-24每天重启路由器有好处还是有害?
- 2025-06-24为什么那么多人用GO?GO语言的优势在哪里?
- 2025-06-24字节跳动技术副总裁开源了自己与Trae合作的首个项目,如何评价目前AI开发的水平?
- 2025-06-24现在个人博客不能备案了吗?
- 2025-06-24为什么 CRT 画质这么好也被淘汰,液晶反而发展的很好?
- 2025-06-24什么是 5G 固定无线接入(FWA)?
- 2025-06-24如何评价DuckDB?
- 2025-06-24老板说我设计了一周的海报还是不行,我到底该怎么学啊?
- 2025-06-24大厂后端开发需要掌握docker和k8s吗?
- 2025-06-24Flutter 为什么没有一款好用的UI框架?
- 2025-06-24有没有一款音乐播放器,能连接nas音乐,创建音乐库,自动匹配歌词封面等等?类似infuse的概念呢?
- 2025-06-24现在个人博客不能备案了吗?
- 2025-06-24目前中国程序员和美国程序员的差距在哪里?
- 2025-06-24怎么学习前端开发?求推荐学习路线?
- 2025-06-24男朋友说我穿衣服太开放,难道好身材不应该显示出来吗?
推荐产品
-
胸大的女孩子有什么烦恼?
5.31: 最近突然多了很多关注,但我只是把这里当作树洞,偶 -
20届设计系,我的设计水平很差吗,找不到合适的工作?
看的你的作品第一眼,就知道你没系统的学过设计,或者设计基础很 -
国内大厂现在用rust的多吗?
RUST在linux内核中持续了好几年,不断有特性合入lin -
前端、后端、算法分别是什么?
个人浅见。 拿音乐软件来打个比方: 打开软件,点开后出现一
最新资讯