大模型输出配置

输出长度 output length

  • 指定输出文本中的 token 最大长度,一般达到最大 token 时会自动截断
  • 输出长度的设置,并不会导致 LLMs 的输出简洁(可以通过提示工程来实现)
  • 限制最大输出长度,有助于减少能耗,降低响应时间,规避 LLMs 的无效输出

温度 temperature

  • 控制结果的随机性,较高的温度设定会导致输出结果的多样化和不确定性增加
  • 温度较低可以增强 LLMs 对提示词的服从性,偏创意输出的试验可考虑高温度

注意:

  • 当温度设置为 0,则 Top-K 和 Top-P 变得无关紧要
  • 当温度设置较大时(超过 1,比如 10),预测输出可能是任意的 token

Top-K 抽样

  • Tok-3 表示 LLMs 预测下一个 token 会从概率最高的三种 token 中进行采样
  • Top-K 的设置,可以控制文本生成的随机性和多样性;
  • Top-K 越高,模型输出就越有创造性和变化 性;Top-K 越低,模型输出就越浮躁和事实性

注意:当 Top-K 设置为 1,温度和 Top-P 就变得无关紧要(相当于贪婪解码)

Top-P 核采样

  • 针对采样概率设置最低阈值,限制概率过低或明显不合理的词
  • 作用类似于 Top-K ,可以控制文本生成的随机性和多样性

注意:将 Top-P 设置为 0,使温度和 Top-K 变得无关紧要

输出配置技巧

  • Temperature=0.2,Top-K=30,Top-P=0.95 ,输出结果相对一致,有创意但不会过度
  • Temperature=0.9,Top-K=40,Top-P=0.99 ,输出结果会更偏向于创意性和变化
  • Temperature=0.1,Top-K=20,Top-P=0.90 ,输出结果会更偏向于稳定性和事实

往年同期文章