科学家宣布,执行培训法规受模型功能的限制,
作者: bet356在线官方网站 点击次数: 发布时间: 2025-07-15 10:43

资料来源:最近,DeepTech,Chen Yongchao,中国科学技术大学的本科校友,美国哈佛大学的一名医生,他的团队使用QWEN-3B/7B/14B作为初始模型,使用多步骤的多步骤,并以tune和“ sft”的方式进行了多个模型,以实现高调和优化的型号,并具有优化的效果,并实现了良好的效果,并实现了效果,并实现了高调的效果。计划活动。在培训过程中,该模型可以自由使用代码主管来帮助多次了解。这些任务具有符号计算的组成部分,但更合适的是文本或符号计算的推理,以及如何彼此合作确实需要模型独立学习。研究小组发现,Termite的执行代码(代码翻译人员)受模型功能的限制。例如,经过过多的文本推理培训,许多模型将降低其一代技能。这种拒绝很难反思特定的代码基准,例如LeetCode,因为降低的能力是通过代码步骤或符号计算来解析特定的抽象问题。许多现实生活中的问题也是如此。尽管存在符号计算因素,但在符号计算中有很多想法要抽象。区别 - 任务是另一个挑战。训练单个任务代码实现系统很容易,但是研究团队发现,当任务有多种类型的任务时,模型很难学会根据不同的任务来确定技术,许多人甚至对技术的偏爱甚至相反。在这方面,研究小组发现,仅依靠强化研究来取得良好的结果,这与在数学活动或可以完成培训的获取活动中使用强化学习不同。 “所以,SFT阶段仍然非常上我Chen Yongchao说。陈东乔说,将来,基于大型模型的代理商或体现的智能系统需要与许多活动中的符号计算相结合,机器人领域的许多学者认为,“未来的模型并不是从视觉上进行动作,可以预测的是,这是一个范围的动作。尽管许多活动不需要象征性的计算,但仍需要在任务过程中描述图纸,但这些情况仍需要进行象征性的计算,但这些情况仍需要与较大的统计数据集成,但这些情况也是必要的。宁计划(推理和计划的神经符号基础模型)。当今的大型模型计划通常是根据纯神经网络和文本理解直接进行的。但是,有许多任务需要计算BATAY符号,例如要求大型型号帮助用户在决定旅行路线,整个机票,酒店,时间,位置和运输选项时都在优化和规划问题,例如预算,偏好,行程和价格。例如,机器人的常见活动和移动计划。几个小时前,“ 9.9和9.11尺寸比较”和“在草莓中的某些R”和其他问题,创建大型模型来生成代码以解决这些问题的模型比直接文本推理更容易。在这项工作之前,研究小组在ICRA 2024中出版了Autotamp [1],而TravelPlanner [2]发表在NAACL 2025中使用了预设计的框架和算法来结合L使用符号工具的ARGE模型在计算中可以解决机器人和旅行计划的问题。它可以带来良好的结果,但是概括将有局限性。例如,面对各种任务要求时,所需的算法和框架也有所不同。目前,如果您为每种情况设计一个图,这将受到限制。当今大型模型如此受欢迎的主要原因之一是因为他们的霸道手势。因此,研究团队正在考虑如何使大型模型计算符号,而不会失去大型模型的整体一般能力。 2024年,当Chen Yongchao在Microsoft Research进行实习时,他认为的第一件事是将代码用作载体,以包括各种算法,控制器和压缩机。一方面,符号计算以预设规则语言(例如编程语言,控制器和计划方法)调用不同的算法。另一方面,当前的大型型号自然是接受培训后能够编码编程。因此,研究小组认为,如果大型模型可以自然而有效地使用代码执行人,那么可以灵活地在文本推理和符号计算之间动员,那么在处理各种计划计划活动时,这将是很棒的。同时,由于调用代码以及选择哪种算法是独立于大型模型完成的,则不会损失一般一般。在澄清了这一方向之后,研究团队首先尝试了OpenAI的代码互换,发现GPT-4O+代码高管目前由OpenAI培训。例如,某些任务显然可以使用生成的代码更好地解决它们,但实际上,该模型仍将选择推理本身,这将导致错误。研究团队还发现,尽管通过组织快速单词指南模型来解决该任务以生成代码,但生成的代码通常包含无效的代码AND无法使用整个符号计算。还发现最新的O1,O3和Deptseek-R1猜测存在这些问题。后来,研究小组总结了论文中发现的现有代码发言人问题,并使用了“ C在C之间进行大型语言模型”的标题ODE执行和文本推理的标题,已在2025年的有关学习表征国际会议上发表[3]。为了解决这些缺点,研究团队试图培训模型,以提高Ziru使用代码主管的能力。涉及两个方向:一个是训练一个额外的辅助模型来指导主要模型的产生。优势在于,辅助模型中难度的大小和训练较小,并且可以使用最强的基本模型可以看到可以实现的最强功能。第二个是直接考虑纯文本推理和符号计算的能力,这需要基本模型的相对较高的能力。研究小组尝试了第一个程序。受过训练的CodeSter [4]可以允许GPT-4O使用符号计算来解决8B模型指南下的许多计划问题,甚至比O1和DeepSeek-R1更好。第二种方法是研究团队在这项R1代码互动工作中探索的方法。最后,相关论文发表在ARXIV预印本网站上,标题为“ R1代码互化:培训LLMS,通过管理和加强使用代码来推理” [5]。照片|相关论文(来源:Arxiv)相信Chen Yongchao认为,当大型未来模型引人入胜并计划任务时,它们必须直接自由地选择并将模式连接到三种方法:1)直接生成答案,大型推理或VLA与组成控制信号的机器人; 2)调用外部工具(工具使用); 3)开发代码以创建适当的工具。将来,他计划探索一些将这些方法结合起来的方法REE模型。同时,我们还打算在特定的实际应用任务中获得更好的结果,以验证该想法的可行性。参考材料:1.https://arxiv.org/abs/2306.06531 2.https://aclanthology.org/2025.naacl-long.176/ 3.https://popenreview.net/forum? id = 5x5z7ffrjb 4.https://arxiv.org/abs/250222 5.https://arxiv.org/abs/2505.21668类型:liu yakun