输出长度 output length
- 指定输出文本中的 token 最大长度,一般达到最大 token 时会自动截断
- 输出长度的设置,并不会导致 LLMs 的输出简洁(可以通过提示工程来实现)
- 限制最大输出长度,有助于减少能耗,降低响应时间,规避 LLMs 的无效输出
温度 temperature
- 控制结果的随机性,较高的温度设定会导致输出结果的多样化和不确定性增加
- 温度较低可以增强 LLMs 对提示词的服从性,偏创意输出的试验可考虑高温度
注意:
- 当温度设
分类目录归档:DeepLearning
注意:
多 Agent 设计技巧:
前置知识:思维链提示 CoT 和自洽性 self-consistency
思维树 ToT (Tree of Thoughts,2023-05):
以“24 点数字”游戏为例来说明 ToT 的实现步骤:
MCP 协议基本架构(图源)
目前 MCP 协议已得到了广泛的生态支持,兼具通用性和灵活性
MCP 的两种模式:
前置知识: 10.《动手学深度学习》注意力机制
原始 Tansformer(左) VS 线性 Tansformer(右):
大语言模型(LLMs)的上下文学习:经过预训练的 LLMs 能根据文本提示或任务示例来直接对下游任务进行预测,而无需更新模型权重,这种能力也被称为上下文学习(in-context learning,ICL)或语境学习
简单来说,ICL 就是在不更新模型参数的前提下,通过输入经典示例作为提示来增强模型的能力
以情感分析为例,来说明 ICL 的一般流程(图源):
ICL 的分类:
TabPFN 的主要特点:
贝叶斯神经网络(Bayesian neural networks, BNNs):
方案:将 config.json 文件中 num_hidden_layers 的值修改为较小的值(比如 1)
原理:隐藏层中 block 的输入输出维度是一致的,因此去除重复的 block 并不会影响模型的处理逻辑;但需要注意该方法会影响模型的性能,因此只适合模型调试阶段使用。
分层推理法:将模型根据层来进行拆分存储,推理时分批次将要处理的层导入显存
代码示例:
from accelerate import init_empty_weights
from accele