分类目录归档:模型可解释性

Circuit Tracing:用归因图解释大模型的思维过程

中文标题:电路追踪:揭示语言模型中的计算图

英文标题:Circuit Tracing: Revealing Computational Gr

Read more

RepE:用于增强 AI 模型透明度的表征工程

中文标题:表征工程:一种自上而下

Read more

语言模型的物理学 3.2:知识操控

中文标题:语言模型的物理学 3.2:知识操控

英文标题:Physics of Language Models: Part 3.2, Knowledge Manipulation

发布平台:预印本

发布日期:2023-09-25

Read more

语言模型的物理学 1:含深层逻辑的语法树

中文标题:语言模型的物理学 1:含深层逻辑的语法树

英文标题:Physics of Language Models: Part 1, Context-Free Grammar

发布平台:无

预印本

发布日期:2023-01-01

Read more

语言模型的物理学 3.1:知识存储和提取

中文标题:语言模型的物理学 3.1:知识存储和提取

英文标题:Physics of Langua

Read more