Anthropic发布可解释性研究新进展：利用下游连接区分因果效应相似的模型特征

OmniTools 6月2日消息，Anthropic可解释性团队近日发布Circuits研究最新进展，提出一种区分激活模式相似但因果效应不同的神经网络特征的新方法。该研究通过分析特征的下游连接来预测其实际影响，并引入基于共激活统计的TWERA（虚拟权重）对连接进行加权排序。实验表明，结合下游连接信息能更精准地识别引导特定输出的关键特征，为定位大模型内部真实因果组件提供了新路径。