2025-03-15发表2025-03-15更新AI

8、神经网络与Transformer详解

神经网络与Transformer详解

1. 一个模型的典型场景

对用户咨询的法律问题做自动归类：

婚姻纠纷、劳动纠纷、合同纠纷、债权债务、房产纠纷、交通事故、医疗纠纷、版权纠纷

2. 模型就是一个数学公式

我们一般将这样的问题描述为：给定一组输入数据，经过一系列数学公式计算后，输出n个概率，分别代表该用户对话属于某分类的概率

举个非常简单的例子：

Image Description

3. 万金油公式 - 神经网络

确定数学公式的过程

1、公式：y = ax + b

2、参数：a = 50， b = -100

神经网络的公式结构

MNIST（Mixed National Institute of Standards and Technology database）

包含了70,000张手写数字的图像，其中60,000张用于训练，10,000张用于测试，每张图像的内容只包含一个手写数字，从0到9的其中一个数字。

任务：给定一张28x28像素的灰度图像，经过一系列数学公式计算后，输出10个概率，分别代表该图像中的内容是0-9某个数字的概率

划重点：

这种在输入向量x和输出向量y之间，增加了一层z向量，并且用上述格式的计算公式去计算z向量和y向量中的每一个数值的结构，就叫做神经网络。

神经网络的参数设计

1、我可能会这样设计：设定z向量的长度为784，则x向量与z向量等长

2、会这样简化公式：z[i] = x[i+1] - x[i]（下一个像素值-当前像素值）

相当于把公式 z0 = w0 * x0 + w1 * x1 + w2 * x2 + …… + w782 * x782 + w783 * x783 + w784

的系数 w0设置为-1，w1设置为1，w2及以后的系数全部都设置为0

公式自然变成了 z[0] = x[1] - x[0]

3、再加一层z向量

划重点：

在x层和y层之间，加入多层z向量，用以提取更深层特征，这种多层结构，叫做深度神经网络。
而通过计算机完成大规模数学计算以找到相对更优的w参数组合的过程，就叫做机器学习，也就是我们所说的模型训练。

4. Transformer的模型长什么样

回到课程最开始的场景

Tokenization - 文本变成Token

首先，我们要把这一段文字，变成一组Token，也就是词元化（Tokenization）。

⼦词(subword)词元化是词元化的⼀种，这种⽅案把会单词再切得更细⼀些，⽤更基础的单位来表达语⾔。⽐如：”subword”这个词，可以拆分成”sub”和”word”两个⼦词，”sub”是⼀个通⽤的前缀可以和其他组合词的”sub”前缀合并，这样⼤模型将会学会使⽤”sub”前缀。类似的，”encoded”可以拆解为”encod”+”ed”，“encoding”可以拆解为“encod”+”ing”，这样两个词的核⼼部分”encod”被提取出来了，⽽且还得到时态信息。所以这种子词的处理方式，会让一段内容的Token数量多于单词数量，例如OpenAI的官网上，1000 Tokens大概是750个英文单词上下（500个汉字上下）。

如果输入内容是：海南麒麟瓜

海, unicode:28023, utf8:b’\xe6\xb5\xb7’

南, unicode:21335, utf8:b’\xe5\x8d\x97’

麒, unicode:40594, utf8:b’\xe9\xba\x92’

麟, unicode:40607, utf8:b’\xe9\xba\x9f’

瓜, unicode:29916, utf8:b’\xe7\x93\x9c’

通过tiktoken处理之后得到的Token序列是：（共11个Token）

b’\xe6\xb5\xb7’

b’\xe5\x8d\x97’

b’\xe9’

b’\xba’

b’\x92’

b’\xe9’

b’\xba’

b’\x9f’

b’\xe7’

b’\x93’

b’\x9c’