分类目录归档:模型可解释性 | Digital Garden | 王半仙

分类目录归档：模型可解释性

Circuit Tracing：用归因图解释大模型的思维过程

1921 views

中文标题：电路追踪：揭示语言模型中的计算图
英文标题：Circuit Tracing: Revealing Computational Graphs in Language Models
发布平台：在线平台
发布日期：2025-03-27
引用量（非实时）：无
- 1 文章萃取
- 2 精读笔记
后记
相关资源

中文标题：电路追踪：揭示语言模型中的计算图

英文标题：Circuit Tracing: Revealing Computational Gr

RepE：用于增强 AI 模型透明度的表征工程

1736 views

中文标题：表征工程：一种自上而下的 AI 透明度方法
英文标题：Representation Engineering: A Top-Down Approach to AI Transparency
发布平台：预印本
发布日期：2023-01-01
引用量（非实时）：494
- 1 文章萃取
- 2 精读笔记
相关资源

中文标题：表征工程：一种自上而下

语言模型的物理学 3.2：知识操控

2263 views

中文标题：语言模型的物理学 3.2：知识操控
英文标题：Physics of Language Models: Part 3.2, Knowledge Manipulation
发布平台：预印本
发布日期：2023-09-25
引用量（非实时）：3
- 1 文章萃取
- 2 精读笔记
相关资源

中文标题：语言模型的物理学 3.2：知识操控

英文标题：Physics of Language Models: Part 3.2, Knowledge Manipulation

发布平台：预印本

发布日期：2023-09-25

语言模型的物理学 1：含深层逻辑的语法树

2381 views

中文标题：语言模型的物理学 1：含深层逻辑的语法树
英文标题：Physics of Language Models: Part 1, Context-Free Grammar
发布平台：无
发布日期：2023-01-01
引用量（非实时）：10
- 1 文章萃取
- 2 精读笔记
相关资源

中文标题：语言模型的物理学 1：含深层逻辑的语法树

英文标题：Physics of Language Models: Part 1, Context-Free Grammar

发布平台：无

预印本

发布日期：2023-01-01

引

语言模型的物理学 3.1：知识存储和提取

2987 views

中文标题：语言模型的物理学 3.1：知识存储和提取
英文标题：Physics of Language Models: Part 3.1, Knowledge Storage and Extraction
发布平台：无
发布日期：2023-01-01
引用量（非实时）：3
- 1 文章萃取
- 2 精读笔记
相关资源

中文标题：语言模型的物理学 3.1：知识存储和提取

英文标题：Physics of Langua