OpenAI 开源了 Transformer Debugger 工具,该工具是由其 Superalignment 团队开发,用于支持对小语言模型特定行为的调查,组合了自动可解释性技术和稀疏自编码器。它可以用于回答“为什么模型对于这一提示输出了令牌 A 而不是令牌 B”之类的问题。Transformer Debugger 采用 MIT 许可证托管在 GitHub 上。OpenAI 之前曾被马斯克抨击不再共享和开源技术。
https://github.com/openai/transformer-debugger