长文本语言模型(LCLMs)虽能处理海量信息,却常在复杂的逻辑连接上表现不佳。来自韩国科学技术院(KAIST)、亚马逊(Amazon)和明尼苏达大学的 Soyeong Jeong、Taehee Jung、Sung Ju Hwang、Joo-Kyung Kim 和 Dongyeop Kang 合作开发了ToTAL框架,利用可迭代优化的“思维模板”来指导模型进行结构化推理,显著提升其表现。
当前长文本语言模型面临一个核心瓶颈:简单地向其输入更多文档,并不能保证模型能有效地将分散的证据串联起来完成多步推理。ToTAL框架的核心思想是,除了提供事实(文档),还为模型配备一套关于“如何思考”的蓝图,即思维模板(thought templates)。这些模板是从过往的解题经验中提炼出的可复用推理模式,如同结构化的思考脚手架。该框架包含两大创新。首先,研究团队利用语言模型从训练数据中自动构建初始的思维模板库。更关键的是,他们设计了一套无需微调模型的迭代优化策略。系统会首先评估每个模板在具体任务中的表现,找出性能不佳的模板。随后,另一个语言模型会分析失败案例,生成一段自然语言反馈,这段反馈被称为文本梯度(textual gradient),它指出了模板需要如何修正。根据这份“梯度”,系统会自动修复、增添或删除模板。在实际应用时,模型会接收到问题、海量文档以及整套优化后的模板,并根据需要灵活组合使用,从而结构化地完成推理。实验证明,ToTAL框架在多种知识密集型任务上表现优异,且优化后的模板甚至可以迁移给更小的模型使用,提升其推理能力。
2025/11/10·134 查看