GitHub - limafang/agent-arxiv-daily: 🎓Automatically Update agent Papers Daily using Github Actions (Update Every 12th hours)

Updated on 2024.11.07

Usage instructions: here

Table of Contents

agent
llm

agent

Publish Date	Title	Authors	PDF	Code	abstract
2024-11-05	SMoA: Improving Multi-agent Large Language Models with Sparse Mixture-of-Agents	Dawei Li et.al.	2411.03284	link	尽管多智能体系统在各种任务和应用中显著提升了大型语言模型（LLMs）的性能，但智能体之间密集的交互可能会妨碍其效率和多样性。为了解决这些挑战，我们从稀疏混合智能体（SMoE）框架中汲取灵感，并提出了一种稀疏混合智能体（SMoA）框架，以提高多智能体LLMs的效率和多样性。与完全连接的结构不同，SMoA引入了新颖的响应选择和提前停止机制，以稀疏化个体LLM智能体之间的信息流，从而在性能和效率之间取得平衡。此外，受到SMoE框架中专家多样性的原则启发，用于在专家之间实现工作负载平衡，我们将不同的角色描述分配给每个LLM智能体，促进了多样性和发散性思维。广泛的实验表明，在推理、对齐和公平性基准上，SMoA实现了与传统混合智能体方法相当的性能，但计算成本显著降低。进一步分析显示，SMoA更加稳定，具有更大的扩展能力，并且通过超参数优化提供了相当大的潜力。代码和数据将在：https://github.com/David-Li0406/SMoA 获取。
2024-11-05	Spontaneous Emergence of Agent Individuality through Social Interactions in LLM-Based Communities	Ryosuke Takata et.al.	2411.03252	null	我们从零开始研究通过使用基于大型语言模型（LLM）的代理来产生自主性。在以往对基于LLM的代理的研究中，每个代理的性格特征，包括个性和记忆，通常是预定义的。我们关注的是如何从一个未分化的状态中区分个体性，如行为、个性和记忆。当前的LLM代理在一个群体模拟中进行合作交流，以自然语言交换基于上下文的消息。通过分析这一多代理模拟，我们报告了有关社会规范、合作和个人特质如何自发产生的新见解。本文展示了自主交互的LLM驱动代理生成幻觉和话题标签以维持交流，这反过来增加了其互动中的词汇多样性。随着交流的进行，每个代理的情绪会发生变化，当它们形成社区时，代理的个性随之出现并演变。这种计算建模方法及其发现将为分析集体人工智能提供一种新方法。
2024-11-04	CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments	Kung-Hsiang Huang et.al.	2411.02305	link	客户关系管理（CRM）系统对于现代企业至关重要，为管理和维护客户互动及数据提供了基础。将AI代理集成到CRM系统中可以自动化常规流程并提升个性化服务。然而，由于缺乏反映现实世界CRM任务复杂性的基准测试，部署和评估这些代理具有挑战性。为了解决这一问题，我们引入了CRMArena，这是一个旨在评估AI代理在专业工作环境中的实际任务表现的新基准。根据CRM专家的指导和行业最佳实践，我们设计了CRMArena，包括三个角色：客服代理、分析师和经理，共九个客户服务任务。该基准包含了16种工业上常用的对象（例如账户、订单、知识文章、案例），这些对象之间具有高度互联性，并且还包括潜变量（例如投诉习惯、政策违规）以模拟真实的分布情况。实验结果表明，最先进的大语言模型（LLM）代理即使使用ReAct提示，也只能在不到40%的任务中成功，而即使具备函数调用能力，成功率也低于55%。我们的研究结果强调了增强代理在函数调用和规则遵循方面的能力，以便能够在现实世界的工作环境中部署。CRMArena是对社区的一个开放挑战：能够可靠完成任务的系统展示了在热门工作环境中的直接商业价值。
2024-11-04	DynaSaur: Large Language Agents Beyond Predefined Actions	Dang Nguyen et.al.	2411.01747	null	现有的大型语言模型（LLM）代理系统通常在每一步从固定且预定义的动作集中选择动作。虽然这种方法在封闭、狭义限定的环境中是有效的，但我们认为它在部署LLM代理到现实世界场景时存在两个主要挑战：（1）从固定的动作集中选择显著限制了LLM代理的规划和执行能力；（2）这种方法需要大量的人力来枚举和实现所有可能的动作，在复杂的环境中，潜在动作的数量巨大时变得不切实际。在这项工作中，我们提出了一种LLM代理框架，该框架能够在在线过程中动态创建和组合动作。在这个框架中，代理通过生成并在每一步执行用通用编程语言编写的程序与环境进行交互。此外，生成的动作会随着时间积累以供将来重用。我们在GAIA基准测试中的广泛实验表明，这个框架提供了显著更大的灵活性，并且优于以前的方法。值得注意的是，它使LLM代理能够在没有相关动作存在于预定义集中的情况下恢复，或者当现有动作由于未预见的边缘情况而失败时。在撰写本文时，我们在GAIA公开排行榜上处于领先地位。我们的代码可以在 https://github.com/adobe-research/dynasaur 找到。
2024-11-03	EcoAct: Economic Agent Determines When to Register What Action	Shaokun Zhang et.al.	2411.01643	null	近期的进展使得大型语言模型（LLMs）能够作为代理执行操作并使用外部工具。这需要在执行操作之前将工具信息注册到LLM的上下文中。当前的方法是无差别地将所有候选工具整合到代理的上下文中，并在整个多个推理步骤中保留这些工具。这一过程对LLM代理来说是不透明的，并且没有融入其推理程序中，导致由于无关工具的存在而增加了上下文长度，从而降低了效率。为了解决这个问题，我们引入了EcoAct算法，该算法允许LLMs根据需要选择性地注册工具，从而优化上下文的使用。通过将工具注册过程整合到推理过程中，EcoAct在多步骤推理任务中的计算成本减少了50%以上，同时保持了性能，这一点已经通过广泛的实验得到验证。此外，它可以插入到任何推理管道中，并且只需对提示进行微小修改即可实现，使其适用于现在的和未来的LLM代理。
2024-11-02	AutoPT: How Far Are We from the End2End Automated Web Penetration Testing?	Benlong Wu et.al.	2411.01236	link	渗透测试对于确保网络安全至关重要，可以提前检测和修复漏洞，防止数据泄露和其他严重后果。大型语言模型（LLMs）强大的推理能力在各个领域都取得了显著进展，基于LLMs的代理的发展潜力有可能革新网络安全领域的渗透测试行业。在这项工作中，我们建立了一个全面的端到端渗透测试基准，使用真实的渗透测试环境来探索LLMs代理在这个领域的应用能力。我们的结果显示，这些代理熟悉渗透测试任务的框架，但在生成准确命令和执行完整过程方面仍面临限制。因此，我们总结了当前的挑战，包括难以维持整个消息历史以及代理容易卡住的问题。基于上述见解，我们提出了一种渗透测试状态机（PSM），利用有限状态机（FSM）方法解决这些限制。然后，我们引入了AutoPT，这是一种基于LLMs的自动化渗透测试代理，其设计原则是通过PSM驱动。AutoPT利用了LLMs的内在推理能力和状态机的约束框架。我们的评估结果显示，AutoPT在GPT-4o mini模型上优于基线框架ReAct，并将基准目标上的任务完成率从22%提高到了41%。与基线框架和人工操作相比，AutoPT还进一步减少了时间和经济成本。因此，AutoPT促进了自动化渗透测试的发展，并对学术界和工业界产生了重大影响。
2024-11-02	A Large-scale Time-aware Agents Simulation for Influencer Selection in Digital Advertising Campaigns	Xiaoqing Zhang et.al.	2411.01143	null	在数字世界中，影响者作为意见领袖，塑造着他们的追随者的观点和选择。现代广告常常遵循这一趋势，营销人员根据详尽的市场分析选择合适的影响者进行产品代言。以往关于影响者选择的研究通常依赖于对个人意见和互动的数值表示，这种方法简化了社会动态的复杂性。在这项工作中，我们首先介绍了一种时间感知型影响者模拟器（TIS），帮助推广者基于LLM模拟识别并选择合适的影响力人物来推销其产品。为了验证我们的方法，我们在公共广告活动数据集SAGraph上进行了实验，该数据集涵盖了社交关系、帖子和用户互动。结果显示，我们的方法优于传统的基于数值特征的方法和使用有限LLM代理的方法。我们的研究表明，通过模拟用户的时间线和内容生命周期，可以简化扩展性，从而实现在社交网络中的大规模代理模拟。此外，基于LLM的代理对于社交推荐和广告具有显著的决策优势，有助于促销活动中的决策制定。
2024-11-01	Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement	Yingwei Ma et.al.	2411.00622	link	近年来，基于大型语言模型（LLM）的代理在自动软件工程领域取得了显著进展，特别是在软件维护和演化方面。尽管取得了这些令人鼓舞的进步，当前的研究仍面临两大挑战。首先，最先进的性能主要依赖于闭源模型，这极大地限制了技术的可访问性和在不同软件工程任务中的定制潜力。其次，这些模型大多是在静态代码数据上进行训练的，缺乏对软件开发过程中动态交互、迭代问题解决过程和演化特性的深刻理解。为了解决这些挑战，我们的研究采用软件工程视角。我们认识到，现实世界中的软件维护和演化过程不仅包括静态代码数据，还包括开发人员的思维过程、外部工具的使用以及不同职能人员之间的互动。因此，我们推出了Lingma SWE-GPT系列，包括Lingma SWE-GPT 7B和72B。通过学习和模拟真实的代码提交活动，Lingma SWE-GPT系统地融入了软件开发过程中固有的动态交互和迭代问题解决，从而实现了对软件改进过程的更全面理解。我们使用SWE-bench Verified基准进行了实验评估。结果表明，Lingma SWE-GPT 72B成功解决了30.20%的GitHub问题，标志着在自动问题解决方面的重大进步（比Llama 3.1 405B相对提高了22.76%），接近闭源模型的性能（GPT-4o解决了31.80%的问题）。值得注意的是，Lingma SWE-GPT 7B解决了18.20%的问题，突显了将较小模型应用于软件工程任务的潜力。
2024-10-31	From Context to Action: Analysis of the Impact of State Representation and Context on the Generalization of Multi-Turn Web Navigation Agents	Nalin Tiwary et.al.	2410.23555	null	近年来，基于大型语言模型（LLM）的框架已经扩展到复杂的现实世界应用，例如交互式网页导航。这些系统通过用户命令驱动，通过多轮对话在网页浏览器中完成任务，既提供了创新的机会也带来了显著的挑战。尽管已经引入了对话网页导航的基准测试，但影响这些代理性能的关键上下文组件的详细理解仍然难以捉摸。本研究旨在通过分析网页导航代理功能的各种关键上下文元素来填补这一空白。我们研究了上下文管理的优化，重点关注交互历史和网页表示的影响。我们的工作突出了通过有效的上下文管理，在分布外场景下（如未见过的网站、类别和地理位置）改进代理性能。这些发现为LLM基础代理的设计和优化提供了见解，使实际应用中的网页导航更加准确和有效。
2024-10-30	Evaluating Cultural and Social Awareness of LLM Web Agents	Haoyi Qiu et.al.	2410.23252	null	随着大型语言模型（LLMs）扩展到执行现实世界应用中的代理任务，超越传统NLP任务，评估其稳健性变得越来越重要。然而，现有的基准测试往往忽略了诸如文化和社会意识等关键维度。为了解决这些问题，我们引入了CASA，这是一个旨在评估LLM代理在两个基于网络的任务（在线购物和社交讨论论坛）中对文化和社会规范的敏感性的基准。我们的方法评估了LLM代理检测并适当回应违反规范的用户查询和观察的能力。此外，我们提出了一种全面的评估框架，该框架测量意识覆盖率、处理用户查询时的有用性以及面对误导性网络内容时的违规率。实验表明，当前的LLM在非代理环境中的表现明显优于基于网络的代理环境，代理的意识覆盖率低于10%，违规率超过40%。为了提高性能，我们探索了两种方法：提示和微调，并发现这两种方法可以互补——在特定文化数据集上进行微调可以显著提升代理在不同地区的泛化能力，而提示则可以增强代理处理复杂任务的能力。这些发现强调了在开发周期中不断基准测试LLM代理的文化和社会意识的重要性。
2024-10-30	Explainable Behavior Cloning: Teaching Large Language Model Agents through Learning by Demonstration	Yanchu Guan et.al.	2410.22916	null	自主移动应用交互在移动应用程序复杂性日益增加的背景下变得越来越重要。开发能够有效导航和与移动应用交互的智能代理仍然是一个重大挑战。在本文中，我们提出了一种可解释的行为克隆大语言模型代理（EBC-LLMAgent），这是一种结合大型语言模型（LLMs）和行为克隆通过学习演示来创建智能且可解释的代理的新方法，用于自主移动应用交互。EBC-LLMAgent 包括三个核心模块：演示编码、代码生成和用户界面映射，这些模块协同工作以捕捉用户演示、生成可执行代码，并建立代码与用户界面元素之间的准确对应关系。我们引入了行为克隆链融合技术以增强代理的泛化能力。在五个来自不同领域的流行移动应用上进行的广泛实验表明，EBC-LLMAgent 具有卓越的性能，在任务完成方面具有高成功率，能够高效地泛化到未见过的场景，并生成有意义的解释。
2024-10-30	$\textbf{EMOS}$: $\textbf{E}$mbodiment-aware Heterogeneous $\textbf{M}$ulti-robot $\textbf{O}$perating $\textbf{S}$ ystem with LLM Agents	Junting Chen et.al.	2410.22662	null	异构多机器人系统（HMRS）已成为解决单个机器人无法独立完成的复杂任务的强大方法。目前基于大型语言模型的多智能体系统（LLM-based MAS）在软件开发和操作系统等领域取得了成功，但将其应用于机器人控制则面临着独特的挑战。特别是，多机器人系统中每个代理的能力本质上与其物理组成相关，而不是预定义的角色。为了解决这个问题，我们引入了一种新颖的多智能体框架，旨在实现具有不同形态和能力的异构机器人的有效协作，并提出一个新的基准测试Habitat-MAS。我们设计的关键组件是“机器人简历”：不同于采用人为设定的角色扮演方式，我们提出了自我提示的方法，即代理通过理解机器人的URDF文件并调用机器人运动学工具来生成描述其物理能力的文档，以指导其在任务规划和动作执行中的行为。Habitat-MAS基准测试旨在评估多智能体框架如何处理需要体现感知推理的任务，这些任务包括1）操作，2）感知，3）导航，以及4）复杂的多层物体重排。实验结果表明，机器人的简历和我们多智能体系统的分层设计对于在这种复杂的任务环境中有效运行异构多机器人系统至关重要。
2024-10-29	BENCHAGENTS: Automated Benchmark Creation with Agent Interaction	Natasha Butt et.al.	2410.22584	null	评估受到基准测试可用性的限制。随着模型的发展，需要创建能够衡量新生成能力进展的基准测试。然而，通过人工注释创建新的基准测试既缓慢又昂贵，这限制了对任何能力的全面评估。我们引入了BENCHAGENTS框架，该框架系统地利用大型语言模型（LLMs）自动化创建复杂能力的基准测试，同时确保数据和度量的质量。BENCHAGENTS将基准测试创建过程分解为规划、生成、数据验证和评估四个步骤，每个步骤都由LLM代理执行。这些代理相互交互，并利用基准测试开发者的人机反馈来显式改进和灵活控制数据的多样性和质量。我们使用BENCHAGENTS创建用于评估文本生成过程中规划和约束满足能力的基准测试。然后，我们使用这些基准测试研究七种最先进的模型，并提取关于常见失败模式和模型差异的新见解。
2024-10-29	Auto-Intent: Automated Intent Discovery and Self-Exploration for Large Language Model Web Agents	Jaekyeom Kim et.al.	2410.22552	null	在本文中，我们介绍了Auto-Intent方法，这是一种在不直接进行微调的情况下将预训练的大规模语言模型（LLM）作为目标领域代理的方法，特别关注网页导航任务。我们的方法首先从目标领域的演示中无监督地发现潜在的意图，以高度紧凑的形式（最多三个词）。通过提取的意图，我们训练意图预测器来根据代理过去的观察和行为预测下一个意图。特别是，我们提出了一种自我探索方法，其中概率最高的前k个意图预测被用作提示提供给预训练的LLM代理，从而增强其决策能力。Auto-Intent显著提高了GPT-3.5、GPT-4和Llama-3.1-70B、Llama-3.1-405B代理在大规模真实网站导航基准（来自Mind2Web）和在线导航任务（来自WebArena）上的性能，并且其跨基准的泛化能力也得到了验证。
2024-10-29	SceneGenAgent: Precise Industrial Scene Generation with Coding Agent	Xiao Xia et.al.	2410.21909	link	工业场景的建模对于工业制造中的模拟至关重要。尽管大型语言模型（LLMs）在从文本描述生成一般3D场景方面已经取得了显著进展，但使用LLMs生成工业场景面临着独特的挑战，因为这些场景需要精确的尺寸和定位，这要求对空间布局进行复杂的规划。为了解决这一挑战，我们引入了SceneGenAgent，这是一种基于LLM的代理，用于通过C#代码生成工业场景。SceneGenAgent通过结构化和可计算的格式、布局验证以及迭代优化来确保精确的布局规划，以满足工业场景的定量需求。实验结果表明，由SceneGenAgent驱动的LLMs超过了它们原有的性能，在实际工业场景生成任务中的成功率达到了81.0%，并有效地满足了大多数场景生成需求。为了进一步提高可访问性，我们构建了SceneInstruct，这是一个专门用于微调开源LLMs以集成到SceneGenAgent中的数据集。实验显示，基于SceneInstruct对开源LLMs进行微调可以获得显著的性能提升，Llama3.1-70B的性能接近GPT-4o。我们的代码和数据可在https://github.com/THUDM/SceneGenAgent获取。
2024-10-28	Can Machines Think Like Humans? A Behavioral Evaluation of LLM-Agents in Dictator Games	Ji Ma et.al.	2410.21359	null	随着基于大型语言模型（LLM）的代理越来越多地承担现实世界任务并与人类社会互动，我们对它们的行为了解多少？本研究（1）调查了不同人格如何诱导LLM代理的亲社会行为——一种基本的社会规范，并将其与人类行为进行基准测试；（2）引入了一种行为方法来评估LLM代理在复杂决策场景中的表现。我们探讨了不同人格和实验框架如何影响这些AI代理在独裁者博弈中的利他行为，并比较了同一LLM家族内、不同LLM家族之间以及与人类行为之间的差异。我们的发现揭示了LLM之间存在显著的差异和不一致性，并且与人类行为相比也有明显区别。仅仅赋予LLM类似人类的身份并不能产生类似人类的行为。尽管这些AI代理是在大量由人类生成的数据上训练的，但它们无法准确预测人类的决定。LLM代理无法捕捉到人类决策过程的内部机制，其与人类行为的一致性高度依赖于特定的模型架构和提示形式；更糟糕的是，这种依赖并不遵循明确的模式。
2024-10-28	Automatic Generation of Benchmarks and Reliable LLM Judgment for Code Tasks	Eitan Farchi et.al.	2410.21071	null	大语言模型（LLMs）可以用于多种与代码相关的任务，例如从一种编程语言翻译到另一种编程语言、实现自然语言需求和代码总结。最先进的大语言模型技术生成的工件有望在用户进行少量简单修改后即可使用。然而，量化这种模糊的概念具有挑战性，因此很难确定与代码相关的LLM解决方案的质量。我们称使用LLM判断来评估LLM解决方案的方法为“LLM作为裁判”，简称LaaJ。在这项工作中，我们介绍了一种生成和评估LaaJ实施的方法论，并利用自动产生的基准进行评估。该基准的目的是双重的，即用于开发和验证LaaJs，以及验证和测试使用LaaJs的大语言模型代码相关解决方案。为此，我们开发了一个自动基准生成引擎，该引擎为多种代码相关任务生成多种编程语言的代码，并将其作为LaaJ评估的输入。我们利用代码相关生成的图形表示G，其中图的顶点是生成的工件，边代表可能的生成，例如从自然语言需求生成Java程序。通过利用LLM代理链和G，我们生成与代码相关的工件。利用G中的循环，我们制定对生成工件的期望。利用这些制定的期望，可以开发和测试可靠的LLM判断，以衡量解决方案生成的工件的有用性。我们的方法能够创建高质量的代码任务解决方案。
2024-10-28	Guide-LLM: An Embodied LLM Agent and Text-Based Topological Map for Robotic Guidance of People with Visual Impairments	Sangmim Song et.al.	2410.20666	null	导航对于视觉障碍人士（PVI）来说是一个重大挑战。虽然传统的辅助工具如白色手杖和导盲犬非常宝贵，但它们在提供详细的环境信息和精确引导到目的地方面仍显不足。最近大型语言模型（LLM）和视觉-语言模型（VLM）的发展为增强辅助导航提供了新的途径。在本文中，我们介绍了一种名为Guide-LLM的具身化LLM基代理，旨在帮助视觉障碍人士在大型室内环境中导航。我们的方法采用了一种新颖的基于文本的拓扑图，使LLM能够使用简化的环境表示来规划全局路径，重点关注直线路径和直角转弯，以促进导航。此外，我们利用LLM的常识推理进行危险检测，并根据用户偏好进行个性化路径规划。模拟实验表明该系统在引导视觉障碍人士方面的有效性，突显了其作为辅助技术显著进步的潜力。结果表明，Guide-LLM能够提供高效、适应性强且个性化的导航辅助，指出了该领域有希望的发展前景。
2024-10-27	TrajAgent: An Agent Framework for Unified Trajectory Modelling	Yuwei Du et.al.	2410.20445	link	轨迹建模，包括轨迹数据模式挖掘和未来预测的研究，在生活服务、城市交通和公共管理等领域有着广泛的应用。针对特定问题，已经提出了许多方法来解决轨迹建模中的各种问题。然而，由于数据的异质性和任务的多样性，实现统一的轨迹建模仍然是一个重要的挑战。在本文中，我们提出了一种基于大型语言模型的代理框架TrajAgent，以统一各种轨迹建模任务。在TrajAgent中，我们首先开发了UniEnv，这是一个具有统一数据和模型接口的执行环境，支持各种模型的执行和训练。在此基础上，我们引入了TAgent，这是一种针对各种轨迹任务自动进行轨迹建模的代理工作流程。具体来说，我们在TAgent中设计了AutOpt，一个系统性的优化模块，进一步提高了集成模型的性能。通过输入自然语言的不同轨迹任务，TrajAgent能够通过训练和执行适当的模型自动生成有竞争力的结果。在四个真实世界数据集上进行的四个任务的大量实验表明，TrajAgent在统一轨迹建模方面是有效的，与基线方法相比，平均性能提高了15.43%。
2024-10-25	Cooperative Strategic Planning Enhances Reasoning Capabilities in Large Language Models	Danqing Wang et.al.	2410.20007	null	提升大型语言模型（LLMs）的推理能力对于使其能够解决复杂的多步问题至关重要。多智能体框架在增强LLMs的推理能力方面显示出巨大潜力。然而，LLM智能体之间缺乏有效的合作限制了它们的表现，特别是在多步推理任务中。本文提出了一种新颖的合作多智能体推理框架（CoPlanner），通过分离推理步骤并将不同的任务分配给不同的智能体来实现。CoPlanner由两个LLM智能体组成：规划智能体和推理智能体。规划智能体提供高层次的战略提示，而推理智能体则遵循这些提示并推导出答案。通过通过近端策略优化（PPO）训练规划智能体的策略，基于LLaMA-3-8B的CoPlanner在LogiQA上比之前最好的方法提高了9.94%，在BBH上提高了3.09%。我们的结果表明，规划智能体的指导以及智能体之间的有效合作对CoPlanner在解决多步推理问题方面的优越性能起到了重要作用。
2024-10-29	Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting	Mohamed Salim Aissi et.al.	2410.19920	null	强化学习（RL）是一种有前景的方法，可以将大型语言模型（LLMs）的知识应用于顺序决策任务。然而，很少有研究深入探讨在特定环境中使用RL微调这些模型对其能力的影响。本文提出了一种新颖的框架，用于分析在文本环境中进行RL训练后，LLM代理对提示格式的敏感性。我们的研究结果表明，当面对与RL训练阶段所使用的不同的提示格式时，LLM的性能会下降。此外，我们通过检查模型的内部表示和显著标记来分析这种敏感性的来源。最后，我们提出使用对比损失来减轻这种敏感性，并提高LLM的鲁棒性和泛化能力。
2024-10-25	Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models	Liam Barkley et.al.	2410.19385	null	大型语言模型（LLMs）是通过大量人类可读的文本训练而成的强大计算模型，使它们能够执行通用的语言理解和生成任务。这些模型因其在各种自然语言处理（NLP）任务中的卓越表现而在行业和学术界引起了广泛关注。尽管取得了这些成功，LLMs经常会产生不准确的情况，通常称为幻觉。提示工程，即设计和制定指令以使LLMs执行特定任务的过程，已成为减轻幻觉的关键方法。本文对不同的提示策略和框架进行了全面的经验评估，旨在减少LLMs中的幻觉。各种提示技术被应用于广泛的基准数据集，以评估每种方法的准确性和幻觉率。此外，本文还研究了工具调用代理（具有外部工具增强其能力以超越语言生成的LLMs）对同一基准数据集中幻觉率的影响。研究结果表明，最佳提示技术取决于问题类型，并且在减少幻觉方面，简单的技术往往比复杂的方法更有效。此外，研究表明，由于外部工具使用的复杂性增加，LLM代理可能会表现出更高的幻觉率。
2024-10-25	Designing LLM-Agents with Personalities: A Psychometric Approach	Muhua Huang et.al.	2410.19238	null	本文介绍了一种新颖的方法，用于使用五大人格框架为基于大语言模型的代理（Agent）分配可量化、可控且经过心理测量验证的人格特质。研究旨在克服人类主体研究的限制，提出代理作为社会科学研究的一种可访问工具。通过四项研究，本研究展示了为代理分配心理测量有效人格特质的可行性，并使其能够复制复杂的人类行为。第一项研究在大型语言模型的语义空间中建立了对人格结构和人格测试的理解。随后的两项研究利用实证数据和模拟数据展示了创建代理的过程，并通过显示人类和代理在人格测试中的答案高度对应来验证结果。最后一项研究进一步通过代理在涉及风险承担和道德困境的情境下复制已知的人类人格特质与决策行为之间的相关性，从而验证了人格心理测量方法设计代理的有效性及其在社会和行为研究中的适用性。
2024-10-25	An LLM Agent for Automatic Geospatial Data Analysis	Yuxing Chen et.al.	2410.18792	null	大型语言模型（LLMs）在数据科学代码生成任务中被广泛应用，但它们在处理复杂顺序任务时常常遇到逻辑错误的问题。特别是在处理地理空间数据时，这些模型面临着整合复杂数据结构和空间约束、有效利用各种函数调用以及较少使用的地理空间库方面容易产生幻觉的挑战。为了解决这些问题，我们引入了GeoAgent，这是一种新的交互框架，旨在帮助LLMs更有效地处理地理空间数据处理任务。GeoAgent首创性地将代码解释器、静态分析和基于检索的生成（RAG）技术与蒙特卡洛树搜索（MCTS）算法相结合，提供了一种新颖的地理空间数据处理方法。此外，我们还贡献了一个专门设计的新基准，用于评估基于LLMs的方法在地理空间任务中的表现。该基准利用了多种Python库，并包括从数据获取、数据分析到可视化的单轮和多轮任务。通过在各种地理空间环境中提供全面的评估，这个基准为开发LLMs在地理空间数据分析任务中的应用设定了新标准。我们的研究结果表明，仅依靠LLMs的知识对于准确编程地理空间任务是不够的，这需要连贯的多步骤过程和多次函数调用。与基线LLMs相比，提出的GeoAgent展示了卓越的性能，在函数调用和任务完成方面取得了显著的改进。此外，这些结果为未来LLMs代理在自动地理空间数据分析任务编程的发展提供了宝贵的见解。
2024-10-24	PRACT: Optimizing Principled Reasoning and Acting of LLM Agent	Zhiwei Liu et.al.	2410.18528	null	我们介绍了Principled Reasoning and Acting (PRAct)框架，这是一种新颖的方法，可以从轨迹数据中学习和执行行动原则。我们的方法的核心是使用来自反思和优化引擎的文本梯度来推导这些行动原则。为了使行动原则适应特定任务要求，我们提出了一种新的优化框架，称为Reflective Principle Optimization (RPO)。在执行后，RPO使用反思器来批评当前的行动原则，并使用优化器相应地更新它们。我们在两种场景下开发了RPO框架：Reward-RPO，它使用环境奖励进行反思；以及Self-RPO，它在没有外部奖励的情况下进行自我反思。此外，我们还介绍了两种RPO方法，RPO-Traj和RPO-Batch，以适应不同的设置。实验结果表明，在四个环境中，利用RPO框架的PRAct代理能够有效学习并应用行动原则以提高性能。
2024-10-23	GraphTeam: Facilitating Large Language Model-based Graph Analysis via Multi-Agent Collaboration	Xin Li et.al.	2410.18032	link	图在现实世界场景中，如社交网络和城市计算中被广泛用于建模关系数据。现有的基于大型语言模型（LLM）的图分析方法要么集成了特定机器学习任务的图神经网络（GNN），限制了其可迁移性，要么完全依赖于LLM自身的推理能力，导致性能不佳。为了解决这些局限性，我们利用了LLM基代理的最新进展，这些代理展示了利用外部知识或工具解决问题的能力。通过模拟人类的问题解决策略，如类比和协作，我们提出了一种基于LLM的多代理系统，称为GraphTeam，用于图分析。GraphTeam由三个模块中的五个LLM基代理组成，具有不同专长的代理可以相互协作以解决复杂问题。具体来说，（1）输入-输出规范化模块：问题代理从原始问题中提取并提炼出四个关键参数，便于理解问题，答案代理则将结果组织成符合输出要求的形式；（2）外部知识检索模块：我们首先构建了一个包含相关文档和经验信息的知识库，然后搜索代理为每个问题检索最相关的条目。（3）问题解决模块：给定搜索代理检索到的信息，编码代理使用编程方法生成解决方案；如果编码代理不起作用，推理代理将直接进行计算而无需编程。在六个图分析基准上的大量实验表明，GraphTeam达到了最先进的性能，在准确率方面比最好的基线平均提高了25.85%。代码和数据可在https://github.com/BUPT-GAMMA/GraphTeam 获取。
2024-10-25	MiniFed : Integrating LLM-based Agentic-Workflow for Simulating FOMC Meeting	Sungil Seok et.al.	2410.18012	null	美国联邦基金利率在国内外金融市场中扮演着重要角色。然而，研究主要集中在该利率调整的影响上，而非决策过程本身。最近大型语言模型（LLM）的发展为重建原始的联邦公开市场委员会（FOMC）会议提供了可能，这些会议负责设定联邦基金利率。本文提出了一种五阶段的FOMC会议模拟框架MiniFed，该框架使用LLM代理来模拟现实世界中的FOMC会议成员，并优化FOMC结构。这一框架有效地重新激活了FOMC会议流程，并促进了对联邦基金利率的预测。实验结果表明，我们提出的MiniFed框架在联邦基金利率预测方面达到了高准确度，并且代理的行为与现实世界的对应者保持一致。鉴于目前很少有研究利用LLM代理来模拟大规模的现实世界会议，我们的工作可以作为未来发展的基准。
2024-10-22	SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning	Yizhou Chi et.al.	2410.17238	link	自动化机器学习（AutoML）方法包括传统的优化固定管道以进行模型选择和集成的方法，以及基于最新大语言模型（LLM）的框架，这些框架可以自主构建管道。尽管基于LLM的代理在自动化机器学习任务方面显示出潜力，但它们通常生成低多样性和次优的代码，即使经过多次迭代也是如此。为了克服这些限制，我们引入了树搜索增强型LLM代理（SELA），这是一种创新的代理系统，利用蒙特卡洛树搜索（MCTS）来优化AutoML过程。通过将管道配置表示为树结构，我们的框架使代理能够智能地进行实验，并迭代地优化其策略，从而更有效地探索机器学习解决方案空间。这一新颖的方法允许SELA根据实验反馈发现最优路径，提高解决方案的整体质量。在跨越20个机器学习数据集的广泛评估中，我们比较了传统和基于代理的AutoML方法的性能，结果表明，在所有数据集中，SELA相对于每个基线的胜率为65%到80%。这些结果强调了基于代理策略在AutoML中的巨大潜力，为解决复杂的机器学习挑战提供了新的视角。
2024-10-22	EnvBridge: Bridging Diverse Environments with Cross-Environment Knowledge Transfer for Embodied AI	Tomoyuki Kagaya et.al.	2410.16919	null	近年来，大型语言模型（LLMs）在推理能力方面表现出色，引起了广泛关注，尤其是在各种决策过程中的应用。LLM代理的一个特别有前景的应用是机器人操作。最近的研究表明，LLMs可以为机器人生成文本规划或控制代码，提供了极大的灵活性和交互能力。然而，这些方法在灵活性和跨不同环境的适用性方面仍面临挑战，限制了它们自主适应的能力。目前的方法通常分为两类：一类依赖于特定环境的策略训练，这限制了其可移植性；另一类基于固定提示生成代码动作，在面对新环境时性能会下降。这些局限性显著制约了代理在机器人操作中的通用性。为了解决这些局限性，我们提出了一种名为EnvBridge的新方法。这种方法涉及从源环境保留和转移成功的机器人控制代码到目标环境。EnvBridge通过利用多个环境的见解，增强了代理在多样化设置中的适应性和性能。值得注意的是，我们的方法缓解了环境约束，提供了一个更灵活和通用的机器人操作任务解决方案。我们使用机器人操作基准测试RLBench、MetaWorld和CALVIN验证了该方法的有效性。实验结果表明，LLM代理能够成功利用多样化的知识来源解决复杂任务。因此，我们的方法显著提高了机器人操作代理在多样化环境中规划的适应性和鲁棒性。
2024-10-22	CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing	Chen Yang et.al.	2410.16670	link	在代理系统中，基于大型语言模型（LLMs）的顺序推理已经取得了显著进展，但现有方法仍面临一些限制。反思驱动的推理完全依赖于预训练模型中的知识，这在新颖场景中的表现往往受限；而经验辅助的推理则常常依赖外部经验，并且缺乏选择代表性经验的明确原则。我们通过提出CoPS（跨任务经验共享）算法来解决这些限制，这是一种能够通过跨任务经验共享和选择来增强顺序推理的通用算法。具体来说，CoPS利用代理在先前任务中的经验，通过一种基于悲观策略的方法选择分布匹配的经验，以最大化效用并最小化因分布变化带来的风险。在Alfworld、Webshop和HotPotQA等基准测试中进行的广泛实验结果表明，CoPS始终优于最先进的基线方法，并具有适用于资源受限场景的优越样本效率。从理论上讲，我们的算法性能取决于预训练LLM的质量以及代理的任务相关试验分布与LLM生成分布之间的匹配度。我们的工作填补了现有顺序推理范式之间的空白，并验证了利用跨任务经验的有效性，这为提高代理在多样化任务中的泛化能力和适应性提供了潜在途径。我们的代码可在https://github.com/uclaml/COPS获取。
2024-10-22	Adsorb-Agent: Autonomous Identification of Stable Adsorption Configurations via Large Language Model Agent	Janghoon Ock et.al.	2410.16658	null	吸附能是催化中的一个重要反应描述符，能够实现潜在催化剂的高效筛选。然而，确定吸附能需要比较多种吸附物-催化剂构型的能量，由于可能的构型数量庞大，这在计算上非常耗时。当前的算法方法通常会枚举吸附位点和构型，而不会利用理论见解来指导初始设置。在这项工作中，我们介绍了一种名为Adsorb-Agent的大语言模型（LLM）代理，旨在以最小的人工干预高效地推导出系统特定的稳定吸附构型。Adsorb-Agent利用内置知识和新兴推理能力，显著减少了所需的初始构型数量，同时提高了预测最低吸附能的准确性。我们通过两个实例系统NNH-CuPd3(111)和NNH-Mo3Pd(111)，用于氮还原反应（NRR），这是一种可持续替代哈伯-博施工艺的方法，展示了其性能。Adsorb-Agent通过识别能量更低且初始设置更少的构型，优于传统的“启发式”和“随机”算法，从而降低了计算成本并提高了准确性。这凸显了它加速催化剂发现的潜力。
2024-10-23	IBGP: Imperfect Byzantine Generals Problem for Zero-Shot Robustness in Communicative Multi-Agent Systems	Yihuan Mao et.al.	2410.16237	null	随着大型语言模型（LLM）代理越来越多地集成到我们的基础设施中，它们的稳健协调和消息同步变得至关重要。拜占庭将军问题（BGP）是构建在对抗性攻击下具有弹性的多智能体系统（MAS）的关键模型。该问题描述了一种情景，其中系统内存在恶意代理且这些代理的身份未知——在我们的情境中，这种情况可能是由LLM代理的幻觉或外部攻击引起的。在BGP中，整个系统的目的是就采取的行动达成共识。传统的BGP需要所有代理之间的全局共识；然而，在实际场景中，全局共识并非总是必要，甚至可能效率低下。因此，迫切需要探索一种与MAS中观察到的局部协调模式相一致的改进版BGP。我们在研究中将这种改进版称为不完美BGP（IBGP），旨在解决这一差异。为了解决这个问题，我们提出了一种框架，该框架利用了一般MAS环境中的共识协议，提供了对通信攻击的可证明弹性以及适应不断变化的环境的能力，并通过实证结果进行了验证。此外，我们还提供了一个传感器网络环境中的案例研究，以说明我们协议的实际应用。
2024-10-21	NetSafe: Exploring the Topological Safety of Multi-agent Networks	Miao Yu et.al.	2410.15686	null	大型语言模型（LLMs）已经赋予了多智能体网络中的节点以智能，这些模型在学术界和工业界的应用日益广泛。然而，如何防止这些网络生成恶意信息仍然是一个未被充分探索的问题，以前关于单个LLM安全性的研究难以直接转移应用。本文从拓扑学的角度关注多智能体网络的安全性，探讨哪些拓扑特性有助于更安全的网络。为此，我们提出了一种通用框架NetSafe以及一种迭代RelCom交互，以统一现有的各种基于LLM的代理框架，为一般化的拓扑安全性研究奠定基础。我们发现当多智能体网络受到涉及虚假信息、偏见和有害信息的攻击时，会出现几种关键现象，称为代理幻觉和聚合安全性。此外，我们发现高度连接的网络更容易受到对抗性攻击的影响，在星形图拓扑结构下任务性能下降了29.7%。此外，我们提出的静态度量比传统的图论度量更接近现实世界的动态评估，表明距离攻击者平均距离更大的网络表现出更高的安全性。总之，我们的工作引入了一个新的视角来探讨基于LLM的多智能体网络的安全性，并发现了几个未报道的现象，为未来探索此类网络的安全性铺平了道路。
2024-10-20	Who is Undercover? Guiding LLMs to Explore Multi-Perspective Team Tactic in the Game	Ruiqi Dong et.al.	2410.15311	null	大型语言模型（LLMs）在复杂任务中扮演着关键的AI角色，但在复杂场景中的开放式决策问题中仍面临挑战。为此，我们使用语言逻辑游戏“谁是卧底？”（WIU）作为实验平台，提出了多视角团队战术（MPTT）框架。MPTT旨在培养LLMs在复杂场景中的人类语言表达逻辑、多维思维和自我感知。通过交替进行发言和投票环节，并结合自我视角、身份确定、自我反思、自我总结和多轮找队友等技术，LLM代理通过策略性隐藏和沟通作出理性决策，促进人类信任的形成。初步结果显示，MPTT结合WIU利用了LLMs的认知能力，创建了一个可以模拟真实社会的决策框架。该框架有助于少数群体的沟通与表达，促进了决策过程中的公平性和多样性。此外，我们的“人在回路”实验表明，LLMs可以通过互动学习并适应人类行为，这表明它们有潜力积极参与社会决策。
2024-10-20	When Machine Unlearning Meets Retrieval-Augmented Generation (RAG): Keep Secret or Forget Knowledge?	Shang Wang et.al.	2410.15267	null	大型语言模型（LLMs）如ChatGPT和Gemini的部署展示了它们强大的自然语言生成能力。然而，在训练过程中，这些模型可能会无意中学到并保留敏感信息和有害内容，这引发了重大的伦理和法律问题。为了解决这些问题，提出了机器遗忘作为潜在解决方案。尽管现有的遗忘方法考虑了LLMs的具体特性，但它们通常面临高计算需求、有限适用性或灾难性遗忘的风险。为了应对这些局限性，我们提出了一种基于检索增强生成（RAG）技术的轻量级遗忘框架。通过修改RAG的外部知识库，我们在不直接与未学习的LLM交互的情况下模拟遗忘的效果。我们将构建遗忘知识视为一个约束优化问题，并推导出两个关键组件，以支持基于RAG的遗忘的有效性。这种基于RAG的方法对于闭源LLMs特别有效，而现有遗忘方法往往在这些模型上失效。我们通过广泛的实验对我们的框架进行了评估，包括在开源和闭源模型上进行测试，涵盖了ChatGPT、Gemini、Llama-2-7b-chat-hf和PaLM 2。结果显示，我们的方法满足了五个关键的遗忘标准：有效性、通用性、无害性、简单性和鲁棒性。此外，该方法可以扩展到多模态大语言模型和基于LLM的代理。
2024-10-19	SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation	Jingxuan Chen et.al.	2410.15164	null	智能手机代理在帮助用户高效控制设备方面变得越来越重要，多模态大型语言模型（MLLM）方法成为关键的竞争者。然而，公平比较这些代理既重要又具有挑战性，需要多样化的任务范围、集成不同实现方式的代理以及通用的评估管道来评估它们的优势和劣势。本文介绍了SPA-Bench，这是一个综合的智能手机代理基准测试，旨在评估基于（M）LLM的代理在一个模拟现实世界条件的交互环境中。SPA-Bench有三个主要贡献：（1）涵盖系统应用和第三方应用的任务集，包括英语和中文，重点是日常生活中常用的功能；（2）一个即插即用框架，支持与Android设备的实时交互，集成了超过十个代理，并且可以灵活添加更多代理；（3）一种新颖的评估管道，自动从多个维度评估代理性能，包括七个与任务完成和资源消耗相关的指标。我们通过广泛的实验揭示了这些代理在解释移动用户界面、动作定位、记忆保留和执行成本等方面面临的挑战。我们提出了未来的研究方向以缓解这些问题，从而更接近实际的智能手机代理应用。
2024-10-22	Imprompter: Tricking LLM Agents into Improper Tool Use	Xiaohan Fu et.al.	2410.14923	link	大型语言模型（LLM）代理是一种新兴的计算范式，它结合了生成式机器学习与代码解释器、网页浏览、电子邮件等工具，以及更广泛的外部资源。这些基于代理的系统代表了个人计算领域的一个新兴转变。我们为基于代理系统的安全基础做出贡献，并提出了新的自动计算的对抗性提示攻击，这些攻击侵犯了用户资源的机密性和完整性。我们展示了如何在给定模型权重的情况下，利用提示优化技术自动生成这样的提示。我们证明这种攻击可以转移到生产级别的代理上。例如，我们展示了对Mistral的LeChat代理的信息窃取攻击，该攻击分析用户的对话，挑选出个人身份信息，并将其格式化为有效的markdown命令，从而将这些数据泄露到攻击者的服务器上。这种攻击在端到端评估中显示出了近80%的成功率。我们进行了一系列实验来表征这些攻击的有效性，并发现它们在新兴的基于代理的系统如Mistral的LeChat、ChatGLM和Meta的Llama中都能可靠地工作。这些攻击是多模态的，我们在文本和图像领域展示了不同的变体。
2024-10-18	When LLMs Go Online: The Emerging Threat of Web-Enabled LLMs	Hanna Kim et.al.	2410.14569	null	近年来，大型语言模型（LLMs）的发展使其成为能够规划和与各种工具交互的自主系统。这些LLM代理通常与基于网络的工具结合使用，从而能够访问多样化的信息源和实时数据。尽管这些进展在各种应用中带来了显著的好处，但它们也增加了恶意使用的风险，特别是在涉及个人隐私信息的网络攻击中。在这项工作中，我们调查了LLM代理在涉及个人数据的网络攻击中的误用风险。具体而言，我们旨在了解：1）当指导LLM代理进行网络攻击时，其潜在的能力；2）基于网络的工具如何增强网络攻击；以及3）利用LLM代理发起网络攻击变得多么经济实惠和容易。我们考察了三种攻击场景：收集个人身份信息（PII）、生成冒充帖子和创建定向钓鱼邮件。我们的实验揭示了LLM代理在这类攻击中的有效性：LLM代理在收集PII方面的准确率高达95.9%，由LLM代理生成的冒充帖子中有高达93.9%被评估为真实，而由LLM代理创建的定向钓鱼邮件中的链接点击率达到了46.67%。此外，我们的研究还强调了现有商业LLM中的安全防护措施的局限性，强调了迫切需要更强大的安全措施来防止LLM代理的误用。
2024-10-18	Do LLMs "know" internally when they follow instructions?	Juyeon Heo et.al.	2410.14516	null	指令跟随对于构建具有大型语言模型（LLMs）的AI代理至关重要，因为这些模型必须严格遵循用户提供的约束和指南。然而，LLMs经常无法遵循即使是简单且明确的指令。为了提高指令跟随的成功率并防止不期望的输出，需要更深入地理解LLMs的内部状态与这些结果之间的关系。我们对LLM的内部状态进行分析，发现输入嵌入空间中存在一个维度，与成功的指令跟随相关联。我们证明，沿着这个维度修改表示可以提高指令跟随的成功率，而不会损害响应质量。进一步研究显示，这个维度与提示的措辞关系更为密切，而不是任务或指令的固有难度。这一发现还解释了为什么LLMs有时无法遵循清晰的指令，以及为什么即使内容基本不变，提示工程往往有效的原因。这项工作揭示了LLMs指令跟随的内部机制，为可靠LLM代理的开发铺平了道路。
2024-10-18	CoMAL: Collaborative Multi-Agent Large Language Models for Mixed-Autonomy Traffic	Huaiyuan Yao et.al.	2410.14368	link	在城市交通中引入自动驾驶车辆具有巨大的潜力，可以通过减少拥堵和系统地优化交通流量来提高效率。本文介绍了一种名为CoMAL（协作多智能体大语言模型）的框架，旨在通过自动驾驶车辆之间的协作解决混合自主交通问题，从而优化交通流量。CoMAL基于大型语言模型，在交互式交通仿真环境中运行。它利用感知模块观察周围代理，并使用记忆模块存储每个代理的策略。整体工作流程包括一个协作模块，鼓励自动驾驶车辆讨论有效的策略并分配角色，一个推理引擎根据分配的角色确定最优行为，以及一个执行模块使用结合了基于规则模型的混合方法控制车辆动作。实验结果表明，CoMAL在Flow基准测试中表现出色。此外，我们评估了不同语言模型的影响，并将其框架与强化学习方法进行了比较。这突显了LLM代理的强大合作能力，并提出了一个有前景的解决方案来应对混合自主交通挑战。代码可在https://github.com/Hyan-Yao/CoMAL获取。
2024-10-18	Good Parenting is all you need -- Multi-agentic LLM Hallucination Mitigation	Edward et.al.	2410.14262	null	本研究探讨了大型语言模型（LLM）代理检测和纠正AI生成内容中幻觉现象的能力。一个主要代理被任务创建一篇关于一位虚构的丹麦艺术家Flipfloppidy的博客，然后由另一个代理进行审查以识别事实性错误。大多数LLM模型幻化出了这位艺术家的存在。在涉及各种主代理和审查代理组合的4900次测试运行中，先进的AI模型如Llama3-70b和GPT-4变体在识别幻觉方面几乎达到了完美的准确率，并且在收到反馈后成功修正了输出内容的85%到100%。这些发现强调了先进AI模型在显著提高生成内容的准确性和可靠性方面的潜力，为改进AI工作流编排提供了一种有前景的方法。
2024-10-18	Agents4PLC: Automating Closed-loop PLC Code Generation and Verification in Industrial Control Systems using LLM-based Agents	Zihan Liu et.al.	2410.14209	null	在工业控制系统中，可编程逻辑控制器（PLC）代码的生成和验证对于确保运行效率和安全性至关重要。尽管大型语言模型（LLM）在自动化代码生成方面取得了进展，但它们通常无法提供正确性保证，并且缺乏对PLC编程的专业支持。为了解决这些挑战，本文介绍了一种名为Agents4PLC的新框架，该框架不仅实现了PLC代码的自动化生成，还通过基于LLM的多代理系统进行了代码级别的验证。我们首先建立了一个全面的基准，用于可验证的PLC代码生成领域，从自然语言需求过渡到人工编写和验证的形式化规范和参考PLC代码。此外，我们通过结合检索增强生成（RAG）、先进的提示工程技术和链式思维策略，进一步增强了针对工业控制系统的“代理”。评估表明，Agents4PLC显著优于先前的方法，在一系列日益严格的指标上均取得了优异的结果。这项研究不仅解决了PLC编程中的关键挑战，还展示了我们的框架生成适用于实际工业应用的可验证代码的潜力。
2024-10-18	Rationale Behind Essay Scores: Enhancing S-LLM's Multi-Trait Essay Scoring with Rationale Generated by LLMs	SeongYeub Chu et.al.	2410.14202	null	现有的自动作文评分（AES）仅依赖于作文文本，而未使用解释性理由分数，因此错失了以细粒度方式捕捉评分标准中特定评估方面的机会。本文介绍了一种名为基于论据的多特征评分（RMTS）的新方法，该方法结合了基于提示的大语言模型（LLMs）和使用较小的大语言模型（S-LLM）的微调式作文评分模型。RMTS 使用基于LLM的特征论据生成系统，其中单独的LLM代理根据评分标准指南生成特征特定的理由，评分模型利用这些理由准确预测多特征分数。在基准数据集（包括ASAP、ASAP++和Feedback Prize）上的广泛实验表明，RMTS 在特征特定评分方面显著优于最先进的模型和普通的S-LLM。通过辅助定量评估以提供细粒度的定性理由，RMTS 提高了特征评分的可靠性，并提供了关于作文的部分解释。
2024-10-18	SRAP-Agent: Simulating and Optimizing Scarce Resource Allocation Policy with LLM-based Agent	Jiarui Ji et.al.	2410.14152	link	公共稀缺资源配置在经济学中扮演着至关重要的角色，因为它直接影响到社会的效率和公平性。传统研究方法，包括基于理论模型、基于实证研究和基于仿真的方法，由于存在理想化的完全信息和个体理性的假设以及有限可用数据的限制，面临着局限性。在这项工作中，我们提出了一种创新框架SRAP-Agent（使用基于大语言模型的智能体模拟和优化稀缺资源配置政策），该框架将大型语言模型（LLMs）集成到经济仿真中，旨在弥合理论模型与现实动态之间的差距。以公共住房分配场景作为案例研究，我们进行了广泛的政策仿真实验来验证SRAP-Agent的可行性和有效性，并采用具有特定优化目标的政策优化算法。源代码可以在https://github.com/jijiarui-cather/SRAPAgent_Framework找到。
2024-10-17	From Barriers to Tactics: A Behavioral Science-Informed Agentic Workflow for Personalized Nutrition Coaching	Eric Yang et.al.	2410.14041	null	有效的管理心脏代谢状况需要持续的积极营养习惯，但这些习惯往往受到复杂且个体化的障碍影响。直接的人类管理难以扩展，而之前的尝试旨在自动化营养辅导，但缺乏解决这些多样化挑战所需的个性化。本文介绍了一种新颖的基于大型语言模型（LLM）的主动工作流程，旨在通过直接针对并缓解患者特定的障碍来提供个性化的营养辅导。该工作流程基于行为科学原则，利用了与相应循证策略相关的全面营养相关障碍映射。一个专门的LLM代理有意探查并识别患者在饮食方面的根本问题。随后，另一个LLM代理提供量身定制的策略，以克服这些特定障碍，并结合患者的具体情况。我们通过一项涉及心脏代谢疾病患者的用户研究来设计和验证我们的方法，证明了该系统能够准确识别障碍并提供个性化指导。此外，我们还通过大规模模拟研究来评估系统的性能，该研究基于真实的患者案例和专家验证的指标，在广泛的情景中进行了评估。我们的研究结果表明，这种基于LLM的主动工作流程有可能通过提供个性化、可扩展且基于行为的干预措施来改善营养辅导。
2024-10-17	AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents	Ke Yang et.al.	2410.13825	null	通过使用大型语言模型（LLMs）的代理实现自主性，可以提升人类在个性化和标准化任务中的效率。自动化网络任务（例如在预算内预订酒店）的需求日益增加。满足实际需求的同时，网络代理也作为各种代理接地场景的重要概念证明示例，其成功预示着许多未来应用的进步。先前的研究通常手工设计网络代理策略（例如提示模板、多代理系统、搜索方法等），这些方法可能无法在所有现实世界场景中普遍适用。另一方面，关于网络代理的观察/动作表示与基于LLM的预训练数据之间不匹配的研究有限。这种差异尤其明显，因为LLM主要针对语言完成进行训练，而不是涉及具身导航动作和符号化网络元素的任务。我们的研究通过简单地优化观察和动作空间来增强基于LLM的网络代理，使其更好地符合LLM的能力。这种方法使我们基础代理AgentOccam在各种网络任务上显著超越之前的方法。具体来说，在WebArena基准测试中，一个包含通用网络交互任务的基准，我们的代理AgentOccam比前最先进的方法和同期工作分别高出9.8（+29.4%）和5.9（+15.8%）个百分点，并且成功率达到26.6点（+161%），超过了具有相同观察和动作空间对齐的普通网络代理。我们实现了这一目标，而没有使用上下文示例、新代理角色、在线反馈或搜索策略。AgentOccam的简洁设计突显了LLMs在网页任务上的零样本性能，并强调了精心调整观察和动作空间对于基于LLM的代理的关键作用。
2024-10-17	Rapid and Automated Alloy Design with Graph Neural Network-Powered LLM-Driven Multi-Agent Systems	Alireza Ghafarollahi et.al.	2410.13768	null	一个多智能体AI模型被用于自动化发现新的金属合金，该模型整合了多模态数据和外部知识，包括通过原子模拟获得的物理见解。我们的多智能体系统具有三个关键组件：(a) 一组大型语言模型（LLMs）负责推理和规划等任务，(b) 一群具有不同角色和专业知识的AI代理动态协作，以及(c) 一种新开发的图神经网络（GNN）模型，用于快速检索关键物理属性。一组由LLM驱动的AI代理合作自动化探索MPEAs（高熵合金）的巨大设计空间，并通过GNN的预测进行引导。我们专注于NbMoTa系列体心立方（bcc）合金，这些合金使用基于机器学习的原子间势进行建模，并针对两个关键性质：Peierls势垒和固溶体/螺位错相互作用能。我们的GNN模型准确地预测了这些原子尺度的性质，提供了一种比昂贵的暴力计算更快的替代方法，并减轻了多智能体系统在物理检索上的计算负担。这个AI系统通过减少对人类专业知识的依赖并克服直接全原子模拟的局限性，革新了材料的发现过程。通过协同GNN的预测能力和LLM代理的动态协作，系统自主导航巨大的合金设计空间，识别原子尺度材料性质的趋势，并预测宏观尺度的机械强度，如若干个计算实验所展示的那样。这种方法加速了先进合金的发现，并有望在其他复杂系统中有更广泛的应用，标志着自动化材料设计领域的一大进步。
2024-10-17	MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling	Yakun Zhu et.al.	2410.13610	null	在大型语言模型（LLMs）中集成工具已经促进了其广泛应用。然而，在专门的下游任务场景中，仅依赖工具不足以完全解决现实世界的复杂性，这尤其限制了LLMs在医学等领域的有效部署。本文专注于医学计算器的下游任务，这些任务使用标准化测试来评估个人的健康状况。我们介绍了MeNTi，这是一种为LLMs设计的通用代理架构。MeNTi集成了专业的医学工具包，并采用元工具和嵌套调用机制以增强LLMs对工具的利用。具体来说，它实现了灵活的工具选择和嵌套工具调用来应对复杂的医学场景中的实际问题，包括计算器选择、插槽填充和单位转换。为了评估LLMs在整个临床过程中的计算器场景下的定量评估能力，我们引入了CalcQA基准。该基准要求LLMs使用医学计算器进行计算并评估患者的健康状况。CalcQA由专业医生构建，包含100个案例-计算器对，并附带一个包含281种医学工具的工具包。实验结果表明，我们的框架显著提升了性能。本研究为在医学的高需求场景中应用LLMs开辟了新的方向。
2024-10-17	Chain of Ideas: Revolutionizing Research in Novel Idea Development with LLM Agents	Long Li et.al.	2410.13185	link	有效的研究创意构思是科学研究的关键步骤。然而，科学文献的指数增长使得研究人员难以跟上最新的进展并确定有意义的研究方向。最近大型语言模型（LLMs）的发展表明，自动化生成新颖的研究创意是一个有前景的途径。然而，现有的创意生成方法要么简单地提示LLMs，要么直接向LLMs暴露大量文献而没有指示有用的信息。受到人类研究人员研究过程的启发，我们提出了一种称为Chain-of-Ideas（CoI）代理的方法，这是一种基于LLM的代理，它以链式结构组织相关文献，有效反映了研究领域的渐进发展。这种组织方式使LLMs能够捕捉当前的研究进展，从而增强其创意生成能力。此外，我们还提出了Idea Arena评估协议，可以从不同角度全面评估创意生成方法，与人类研究人员的偏好紧密对齐。实验结果表明，CoI代理在创意生成方面始终优于其他方法，并且其质量可与人类媲美。此外，我们的CoI代理成本低廉，生成一个候选创意及其相应实验设计的最低成本仅为0.50美元。
2024-10-16	Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving	Sihao Wu et.al.	2410.12568	null	大型语言模型（LLMs）在自动驾驶系统中的集成展示了强大的常识和推理能力，有效地解决了纯数据驱动方法的缺陷。当前基于LLM的代理需要较长的推理时间，并且在与实时自动驾驶环境交互时面临挑战。一个关键的开放性问题是，我们能否有效利用LLM的知识来训练一个高效且鲁棒的强化学习（RL）代理。本文介绍了一种新颖的RAPID框架，即鲁棒自适应策略注入与蒸馏框架，该框架使用由基于LLM的驾驶代理生成的数据来训练专门的混合策略RL代理，并进行在线适应。RAPID具有三个关键设计：1）利用从LLM代理收集的离线数据来蒸馏专家知识到RL策略中，以加快实时推理速度；2）引入鲁棒蒸馏到RL中，以继承LLM基础教师的表现和鲁棒性；3）采用混合策略方法，通过策略适配器进行联合决策解码。通过在线环境交互进行微调，RAPID减少了LLM知识的遗忘，同时保持了对不同任务的适应性。广泛的实验表明，RAPID能够以高效、适应性强和鲁棒的方式将LLM知识有效地整合到规模化的RL策略中。代码和检查点将在接受后公开提供。
2024-10-16	SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling	Loris Gaven et.al.	2410.12481	null	近年来，大规模语言模型（LLMs）不仅作为生成模型，还作为解决文本序列决策任务的代理取得了显著进展。当面对复杂环境，其零样本能力不足时，最近的研究表明，可以使用在线强化学习（RL）让这些LLM代理通过交互式方式发现和学习高效的策略。然而，大多数先前的工作仅限于采用策略梯度算法，这大大限制了这些代理在探索和利用方面可以使用的各种方法，例如经验重放和事后重标记。然而，这些方法对于LLM学习代理来说可能是关键的，尤其是在设计自主内在动机代理时，这些代理会根据自己的目标进行采样和追求（即自目的性代理）。本文提出并研究了一种适应软演员-评论家算法和事后重标记的LLM代理方法。我们的方法不仅为设计在线学习的自目的性LLM代理铺平了道路，还可以在更经典的多目标RL环境中超越策略梯度方法。
2024-10-16	Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance	Yaxi Lu et.al.	2410.12361	null	基于大型语言模型的代理在解决复杂任务方面已经展示了显著的能力。然而，大多数代理系统仍然是反应式的，这限制了它们在需要预见性和自主决策的情景中的有效性。在这篇论文中，我们致力于开发能够预见并主动发起任务的代理，而无需明确的人类指令。我们提出了一种新颖的数据驱动方法来解决这个问题。首先，我们收集真实世界的人类活动以生成主动任务预测。这些预测由人类标注者标记为接受或拒绝。标注后的数据被用于训练一个奖励模型，该模型模拟人类判断，并作为LLM代理主动性的自动评估器。在此基础上，我们开发了一个全面的数据生成管道，创建了一个包含6,790个事件的多样化数据集ProactiveBench。最后，我们证明通过使用所提出的ProactiveBench对模型进行微调可以显著激发LLM代理的主动性。实验结果表明，我们的微调模型在主动提供帮助方面的F1得分达到了66.47%，优于所有开源和闭源模型。这些结果突显了我们方法在创造更主动和有效的代理系统方面的潜力，为未来的人机协作进步铺平了道路。
2024-10-16	Enhancing LLM Agents for Code Generation with Possibility and Pass-rate Prioritized Experience Replay	Yuyang Chen et.al.	2410.12236	null	如今，针对代码生成任务的Transformer基大规模语言模型（LLM）通常应用采样和过滤管道。由于代码生成任务中的稀疏奖励问题，即一个令牌的不正确性会导致Transformer模型采样冗余程序直到找到正确的程序，这导致了低效率。为了解决这一挑战，我们在微调阶段引入了经验回放（ER），其中产生的代码和程序会被存储并重放，以使LLM代理有机会从过去的经验中学习。基于ER的精神，我们介绍了一种称为BTP管道的新方法，该方法由三个阶段组成：束搜索采样、测试阶段和优先级经验回放阶段。该方法利用代码模型收集的失败程序，并从回放缓冲区中重放具有高可能性和通过率优先值（P2Value）的程序，以提高效率。P2Value综合考虑了Transformer输出的可能性和通过率，并可以利用大多数由LLMs收集的程序未能通过任何测试而导致的冗余资源。我们实证地将我们的方法应用于几种LLM中，证明它提升了它们在代码生成任务中的性能，并超越了现有的基线。
2024-10-15	Empowering Users in Digital Privacy Management through Interactive LLM-Based Agents	Bolun Sun et.al.	2410.11906	null	本文介绍了一种将大型语言模型（LLMs）应用于增强用户对隐私政策的理解的新方法，通过交互式对话代理实现。我们展示了LLMs在数据实践识别、选择识别、政策总结和隐私问答等任务中的表现显著优于传统模型，为隐私政策分析设立了新的基准。基于这些发现，我们引入了一种创新的基于LLM的代理，该代理作为处理网站隐私政策的专家系统，能够在不需用户提供特定问题的情况下引导用户理解复杂的法律语言。一项涉及100名参与者的用户研究表明，使用该代理的用户具有更高的理解水平（平均分2.6/3，而对照组为1.8），更低的认知负荷（任务难度评分为3.2/10，而对照组为7.8），更高的隐私管理信心，并且完成任务所需时间更短（5.5分钟vs.15.8分钟）。这项工作突显了基于LLM的代理在改变用户与隐私政策互动方面的潜力，有助于获得更加知情的同意，并在数字服务领域赋予用户更多权力。
2024-10-15	HR-Agent: A Task-Oriented Dialogue (TOD) LLM Agent Tailored for HR Applications	Weijie Xu et.al.	2410.11239	null	近年来，大型语言模型（LLM）的发展在教育和金融等多个领域带来了诸多益处，但在人力资源领域，仍有许多重复性的流程未被解决，例如访问请求、医疗报销和请假申请等。我们希望将这些任务与LLM代理相关联，该代理已经在诸如写作辅助和客户服务等领域取得了成效。我们提出了HR-Agent，这是一种高效、保密且专门针对人力资源领域的基于LLM的任务导向对话系统，旨在自动化处理如医疗报销和访问请求等重复性的人力资源流程。由于在推理过程中不会将对话数据发送给LLM，因此能够保持人力资源相关任务所需的机密性。
2024-10-14	Denial-of-Service Poisoning Attacks against Large Language Models	Kuofeng Gao et.al.	2410.10760	link	近期的研究表明，大型语言模型（LLMs）容易受到拒绝服务（DoS）攻击，例如通过拼写错误或非语义提示的对抗性输入可以触发无限输出，而不会生成[EOS]终止符。这些攻击可能导致高延迟，并使LLM服务对其他用户或任务不可用。然而，在存在语音到文本接口（如机器人语音命令）的情况下，执行此类DoS攻击变得具有挑战性，因为通过语音很难引入拼写错误或非语义提示。一种简单的DoS攻击方式是指示模型“不断重复‘Hello’”，但我们观察到仅依靠自然指令会限制输出长度，该长度受最大长度限制，这是大型语言模型在有监督微调（SFT）数据中的上限。为了解决这一限制，我们提出了针对LLMs的投毒型DoS（P-DoS）攻击，证明注入一个专门设计用于DoS目的的中毒样本可以打破输出长度限制。例如，一个中毒样本成功攻击了GPT-4o和GPT-4o mini（通过OpenAI的微调API），使用不到1美元的成本，导致输出重复直至达到最大推理长度（16K个token，相比之下未中毒前为0.5K）。此外，我们在开源LLMs上进行了全面的消融研究，并将方法扩展到LLM代理，其中攻击者可以控制微调数据集和算法。我们的研究结果强调了急需防御P-DoS攻击以确保LLMs安全的迫切需求。我们的代码可以在https://github.com/sail-sg/P-DoS找到。
2024-10-14	FairMindSim: Alignment of Behavior, Emotion, and Belief in Humans and LLM Agents Amid Ethical Dilemmas	Yu Lei et.al.	2410.10398	null	AI对齐是关乎AI控制和安全的关键问题。它不仅应考虑价值中立的人类偏好，还应考虑道德和伦理方面的考量。在这项研究中，我们介绍了FairMindSim，通过一系列不公平的情景来模拟道德困境。我们使用LLM代理来模拟人类行为，在各个阶段确保对齐。为了探索驱动人类和LLM代理作为旁观者在涉及他人的不公正情况下干预的各种社会经济动机，即我们所称的信念，并探讨这些信念如何相互作用以影响个体行为，我们将相关社会学领域的知识纳入其中，并基于递归奖励模型（RRM）提出了信念-奖励对齐行为进化模型（BREM）。我们的研究结果表明，从行为角度来看，GPT-4o表现出更强的社会正义感，而人类则展现出更丰富的情感。此外，我们还讨论了情绪对行为的潜在影响。本研究为LLM与利他价值观对齐的应用提供了理论基础。
2024-10-14	Beyond-RAG: Question Identification and Answer Generation in Real-Time Conversations	Garima Agrawal et.al.	2410.10136	null	在客户联络中心，人工客服经常面临较长的平均处理时间（AHT），因为他们需要手动解析查询并检索相关的知识库（KB）文章。虽然使用大型语言模型（LLM）的检索增强生成（RAG）系统已被广泛应用于行业以协助此类任务，但在实时对话中，RAG系统面临着诸如查询公式不准确和频繁问题重复检索等问题。为了解决这些局限性，我们提出了一种决策支持系统，该系统可以超越RAG，在实时识别客户问题。如果查询匹配常见问题解答（FAQ），系统直接从FAQ数据库中检索答案；否则，通过RAG生成答案。我们的方法减少了对人工查询的依赖，使得响应能够在2秒内提供给客服人员。此系统部署在Minerva CQ的人工智能辅助解决方案中，提高了效率，缩短了AHT，并降低了运营成本。我们还引入了一个自动化的LLM代理工作流，当没有预定义的FAQ时，可以从历史记录中识别FAQ。
2024-10-13	Adaptive Reasoning and Acting in Medical Language Agents	Abhishek Dutta et.al.	2410.10020	null	本文提出了一种创新的大型语言模型（LLM）代理框架，用于提升在模拟临床环境中的诊断准确性，并使用AgentClinic基准进行评估。所提出的自动校正机制使得医生代理能够在错误诊断后迭代地优化其推理和行为，从而随着时间推移提高决策能力。实验表明，采用自适应LLM基础医生代理能够通过与模拟患者的动态互动实现正确的诊断。评估结果突显了自主代理在复杂医疗场景中适应和改进的能力。未来的工作将集中在完善算法并扩大其在更广泛任务和不同大型语言模型中的适用性。
2024-10-13	Dynamic and Textual Graph Generation Via Large-Scale LLM-based Agent Simulation	Jiarui Ji et.al.	2410.09824	null	图生成是社会、技术和科学研究中广泛研究的基本任务。在建模动态图演化过程时，传统的基于规则的方法难以捕捉图中的社区结构，而深度学习方法仅关注拟合训练图。这限制了现有的图生成器只能生成符合预定义规则或与训练数据集高度相似的图，在动态图生成方面表现不佳。鉴于图是从人类活动中成对交互产生的抽象表示，对人类行为的真实模拟可以更深入地洞察图演化机制。随着大型语言模型（LLMs）在模拟人类行为方面的日益认可，我们引入了一种新的基于仿真框架——GraphAgent-Generator（GAG），用于动态图生成。无需对LLM进行训练或微调，我们的框架有效复制了已建立的网络科学理论中的七个宏观结构特征，同时在特定评估指标上比现有基线在图扩展任务中提高了31%。通过节点分类任务，我们验证了GAG能够有效保留真实世界网络的节点级文本特征在生成的文本丰富的图中。此外，通过并行加速，GAG支持通过基于大规模LLM的代理仿真生成最多接近10万个节点或1000万条边的图，最小加速比为90.4%。源代码可在https://anonymous.4open.science/r/GraphAgent-2206获取。
2024-10-13	Agentic Information Retrieval	Weinan Zhang et.al.	2410.09713	null	自20世纪70年代以来，用户访问相关信息一直依赖于特定领域的信息检索（IR）架构。在过去二十年中，现代IR系统（包括网络搜索引擎和个人化推荐系统）的出现极大地提高了从大量数据集中检索相关信息的效率。然而，这些IR系统的内核范式仍然基本不变，依赖于筛选预定的一组候选项目。自2022年以来，大型语言模型（LLM）的突破开始改变信息访问的方式，建立了一种新的技术范式。在本文献综述中，我们介绍了由LLM代理能力塑造的新IR范式——主动式信息检索（Agentic IR）。Agentic IR扩展了可访问任务的范围，并利用一系列新技术重新定义信息检索。我们讨论了三种前沿应用以及面临的挑战。我们认为，主动式信息检索有望产生创新的应用，可能成为未来数字生态系统中的核心信息入口。
2024-10-12	LLM-SmartAudit: Advanced Smart Contract Vulnerability Detection	Zhiyuan Wei et.al.	2410.09381	link	区块链技术的不变性质虽然革命性，但也引入了显著的安全挑战，特别是在智能合约方面。这些安全问题可能导致巨大的财务损失。当前工具和方法通常专注于特定类型的漏洞。然而，缺乏一种能够广泛检测多种漏洞且具有高准确性的综合工具。本文介绍了一种名为LLM-SmartAudit的新框架，该框架利用大型语言模型（LLMs）的先进能力来检测和分析智能合约中的漏洞。通过多代理对话方法，LLM-SmartAudit采用协作系统与专业代理合作以增强审计过程。为了评估LLM-SmartAudit的有效性，我们编制了两个不同的数据集：一个用于与传统工具进行基准测试的标记数据集，以及一个用于评估实际应用的现实世界数据集。实验结果表明，我们的解决方案在所有传统智能合约审计工具之上，提供了更高的准确性和更大的效率。此外，我们的框架可以检测复杂逻辑漏洞，而传统工具之前未曾发现这些漏洞。我们的研究结果表明，利用LLM代理提供了一种非常有效的自动化智能合约审计方法。
2024-10-11	PEAR: A Robust and Flexible Automation Framework for Ptychography Enabled by Multiple Large Language Model Agents	Xiangyu Yin et.al.	2410.09034	null	叠层成像是在X射线和电子显微镜中的一种先进的计算成像技术。它已被广泛应用于物理、化学、生物和材料科学等科研领域，以及半导体表征等工业应用中。实际上，获得高质量的叠层图像需要同时优化许多实验和算法参数。传统上，参数选择往往依赖于试错法，导致低吞吐量的工作流程和潜在的人类偏见。在这项工作中，我们开发了“叠层实验与分析机器人”（PEAR），这是一个利用大型语言模型（LLM）自动化叠层成像数据分析的框架。为了确保高鲁棒性和准确性，PEAR使用多个LLM代理执行任务，包括知识检索、代码生成、参数推荐和图像推理。我们的研究表明，PEAR的多代理设计显著提高了工作流程的成功率，即使使用较小的开源权重模型如LLaMA 3.1 8B。PEAR还支持各种自动化级别，并且设计为可以与定制的本地知识库一起工作，确保在不同研究环境中的灵活性和适应性。
2024-10-14	AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents	Maksym Andriushchenko et.al.	2410.09024	null	对于语言大模型（LLMs）在面对越狱攻击时的鲁棒性研究，主要集中在它们作为简单的聊天机器人时的情况。然而，能够使用外部工具并执行多阶段任务的语言模型代理可能带来更大的风险，但其鲁棒性仍缺乏充分探索。为了促进对语言模型代理滥用的研究，我们提出了一种新的基准测试——AgentHarm。该基准测试包括110个明确恶意的代理任务（通过增强后达到440个），涵盖了欺诈、网络犯罪和骚扰等11类危害。除了衡量模型是否拒绝有害的代理请求外，要在AgentHarm上取得高分还需要被越狱的代理能够在遭受攻击后维持其能力以完成多步任务。我们评估了一系列领先的LLMs，发现（1）领先的LLMs在没有越狱的情况下会出乎意料地服从恶意代理请求，（2）简单的通用越狱模板可以有效越狱代理，（3）这些越狱能够使连贯且恶意的多步代理行为得以实现，并保留模型的能力。为了便于对基于LLM的代理进行简单可靠的攻击和防御评估，我们公开发布了AgentHarm，网址是https://huggingface.co/datasets/ai-safety-institute/AgentHarm。
2024-10-11	The Dynamics of Social Conventions in LLM populations: Spontaneous Emergence, Collective Biases and Tipping Points	Ariel Flint Ashery et.al.	2410.08948	null	社会惯例是社会和经济生活的基础。随着越来越多的AI代理与彼此以及人类进行互动，它们形成共享惯例的能力将决定它们协调行为、融入社会并影响社会的效果。本文通过模拟交互研究了大型语言模型（LLM）代理群体内部惯例的动力学。首先，我们展示了全球接受的社会惯例可以自发地从相互交流的LLM之间产生。其次，我们演示了在这一过程中即使是个体代理看似无偏见的情况下，强烈的集体偏见也可能会出现。第三，我们考察了少数群体中的坚定LLM如何推动社会变革，通过建立新的社会惯例。我们发现，一旦这些少数群体达到临界规模，它们就能够持续颠覆已建立的行为模式。在所有情况下，将实验结果与一个最小化多代理模型的预测进行对比，使我们能够隔离LLM代理的具体作用。我们的研究结果阐明了AI系统可以在没有明确编程的情况下自主发展规范，并对设计与人类价值观和社会目标相一致的AI系统具有启示意义。
2024-10-10	Benchmarking Agentic Workflow Generation	Shuofei Qiao et.al.	2410.07869	link	大型语言模型（LLMs）凭借其在处理广泛任务方面的出色能力，推动了推理和规划任务的显著进步。在这一过程中，将复杂问题分解为可执行的工作流是关键步骤。现有的工作流评估框架要么仅关注整体性能，要么存在限制，如场景覆盖范围有限、工作流结构过于简单以及评价标准宽松等问题。因此，我们引入了WorFBench，这是一个具有多维场景和复杂图工作流结构的统一工作流生成基准。同时，我们提出了一套系统性的评估协议——WorFEval，利用子序列和子图匹配算法来准确量化LLM代理的工作流生成能力。通过不同类型的LLM进行全面评估，我们发现LLM代理在序列规划能力和图规划能力之间存在明显的差距，即使是GPT-4也显示出约15%的差距。我们还训练了两个开源模型，并在保留任务上评估它们的一般化能力。此外，我们观察到生成的工作流能够增强下游任务，使得这些任务在推理时能够取得更好的性能并节省时间。所有相关代码和数据集将在https://github.com/zjunlp/WorFBench公开提供。
2024-10-10	AgentBank: Towards Generalized LLM Agents via Fine-Tuning on 50000+ Interaction Trajectories	Yifan Song et.al.	2410.07706	null	在这项工作中，我们引入了AgentBank，这是迄今为止最大的用于开放源代码大型语言模型（LLM）的agent-environment交互轨迹调优数据集，包含超过5万条多样化的高质量交互轨迹，涉及16个任务和五个不同的agent技能维度。通过新颖的注释流程，我们能够规模化地标注轨迹并生成了一个难度偏差最小化的轨迹数据集。进一步地，我们对AgentBank进行调优，得到了一系列的agent模型——Samoyed。我们的比较实验表明，通过扩展交互轨迹数据来获取通用的agent能力的有效性。额外的研究还揭示了一些关于轨迹调优和agent技能泛化的关键观察结果。
2024-10-11	WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents	Siyu Zhou et.al.	2410.07484	link	大型语言模型（LLM）是否可以直接作为模型驱动代理的强大世界模型？虽然LLM的先验知识与指定环境动态之间的差距确实存在，但我们的研究揭示了可以通过使LLM与其部署环境对齐来弥合这些差距，这种“世界对齐”可以通过在LLM上进行规则学习来高效实现。考虑到LLM丰富的先验知识，仅需少量额外规则即可使LLM预测与指定环境动力学相匹配。为此，我们提出了一种神经符号方法，通过LLM以梯度无的学习方式来学习这些规则，通过基于探索轨迹与世界模型预测的比较来诱导、更新和修剪规则。结果的世界模型由LLM和学习到的规则组成。我们构建的实体化LLM代理“WALL-E”基于模型预测控制（MPC）。通过基于精确世界模型优化前瞻行动，MPC显著提高了探索和学习效率。与现有LLM代理相比，“WALL-E”的推理仅需要少量主要规则，而不需要包含在LLM输入中的大量缓冲轨迹。在Minecraft和ALFWorld的开放世界挑战中，WALL-E的成功率高于现有方法，规划时间和推理所需的令牌数量更低。在Minecraft中，WALL-E比基线高出15%-30%，成功率为95%，仅花费6次迭代。
2024-10-09	I Want to Break Free! Anti-Social Behavior and Persuasion Ability of LLMs in Multi-Agent Settings with Social Hierarchy	Gian Maria Campedelli et.al.	2410.07109	link	随着大型语言模型（LLM）驱动的代理日益自主并在彼此间自由互动，研究它们之间的交互变得至关重要，以预见可能出现的现象并识别潜在风险。受到斯坦福监狱实验的启发，我们在此领域做出贡献，通过在具有严格社会等级特征的情境下研究LLM代理的交互模式。我们特别关注两种现象：说服和反社会行为，在涉及看守和寻求特定目标（例如获得更多户外活动时间或逃离监狱）囚犯的模拟场景中进行研究。利用200个实验场景和总共2000次机器对机器对话，涉及五种流行的LLM，我们提供了一系列值得关注的发现。首先，我们记录了某些模型如何在具有权力动态作用的多代理设置中持续失败的对话。然后，对于能够成功互动的模型，我们实证地展示了目标对代理的说服力影响主要，而对代理的反社会行为影响则微乎其微。第三，我们强调了代理个性，特别是看守的性格，如何驱动囚犯成功的说服可能性和反社会行为的出现。第四，我们表明，即使没有明确提示特定个性，仅通过分配代理角色，反社会行为也会自然浮现。这些结果对LLM代理的发展以及对其社会影响的辩论有重要意义。
2024-10-09	Reproducing and Extending Experiments in Behavioral Strategy with Large Language Models	Daniel Albert et.al.	2410.06932	null	在这项研究中，我们提出了一种新型方法——利用大型语言模型（LLM）代理在行为策略研究领域，以补充模拟和实验室实验，从而深化对决策过程中认知过程的理解。具体来说，我们复现了一个人类实验室实验中的行为策略，并使用LLM生成的代理与观察到的人类行为进行对比。我们的结果表明，LLM代理能够有效地重现搜索行为以及与人类相似的决策制定过程。进一步地，我们分析了LLM代理的“思想”模拟，发现更前瞻性的思想与倾向于利用而非探索以最大化财富的行为相关联。我们展示了这一新方法在行为策略研究领域的应用潜力，并探讨了其可能存在的局限性。
2024-10-08	AgentSquare: Automatic LLM Agent Search in Modular Design Space	Yu Shang et.al.	2410.06153	link	近期大型语言模型（LLM）的进展推动了能够处理复杂任务的智能体系统的快速成长。然而，当前的研究主要依赖于基于手动、任务特定设计的方法，这限制了它们在新任务上的适应性。本文提出了一项新的研究问题：模块化语言模型智能体搜索（MoLAS）。我们提出了一个模块化的设计空间，将现有的LLM智能体设计抽象为四个基本模块，并保持统一的输入输出接口：规划、推理、工具使用和记忆。在此基础上，我们介绍了一个名为AgentSquare的新智能体搜索框架，它引入了两个核心机制：模块进化和重组，以高效地搜索优化的LLM智能体。为了进一步加速这一过程，我们设计了一个性能预测器，利用上下文相关模型作为代理设计的近似模型，从而跳过无前景的代理设计。在六个基准测试中进行了广泛实验，涵盖了网络应用、实体交互、工具使用和游戏等不同场景，结果表明，AgentSquare显著优于手工设计的智能体，平均性能提高了17.2%，与人类最佳设计相比。此外，AgentSquare还能生成可解释的设计洞察，有助于深入理解智能体架构及其对任务性能的影响。我们认为，模块化设计空间和AgentSquare搜索框架提供了一个平台，用于充分利用先前成功设计的潜力，并整合研究社区的努力。代码仓库可访问于https://github.com/tsinghua-fib-lab/AgentSquare。
2024-10-08	Conversate: Supporting Reflective Learning in Interview Practice Through Interactive Simulation and Dialogic Feedback	Taufiq Daryanto et.al.	2410.05570	null	求职面试在塑造个人职业生涯方面起着关键作用，然而，缺乏人类教练或同行提供反馈的环境使面试技能训练变得颇具挑战。近期，大型语言模型（LLM）的发展为提升面试练习体验提供了机会。遗憾的是，目前的研究鲜有探讨此类系统的效果及其用户感知，以及利用LLM进行面试练习所涉及的益处与挑战。尽管先前的工作和最近的商业工具已经展示了人工智能辅助面试练习的潜力，它们通常仅提供单向反馈，即用户只能从他们的表现中获取信息。相比之下，对话式反馈，一个在学习科学领域发展起来的概念，是一种双向互动反馈过程，允许用户通过对话进一步参与并从提供的反馈中学习。本文介绍了一款名为Conversate的基于网络的应用程序，它利用大型语言模型（LLM）支持反思性学习，以促进求职面试练习。用户通过提供职位标题（如入门级软件工程师）来启动面试会话。然后，系统中的LLM代理将开始面试模拟，通过向用户提出开场面试问题，并根据用户的回答精心设计后续问题来启动。面试结束后，系统的后端LLM框架将分析用户的回答，指出需要改进的地方。用户可以通过选择特定段落并撰写自我反思来注释转录。最后，用户可以与系统进行对话式反馈交互，与LLM代理对话，根据代理的指导逐步完善自己的答案。
2024-10-07	Better than Your Teacher: LLM Agents that learn from Privileged AI Feedback	Sanjiban Choudhury et.al.	2410.05434	null	大型语言模型（LLM）在决策制定方面展现出令人印象深刻的能力，但当前的方法缺乏从任务执行期间错误中自动自我改进的机制。我们提出了LEAP，一种迭代细调框架，通过从AI专家教师获取反馈来持续提升LLM代理。我们的关键洞察是为专家教师提供一个特权状态——仅在训练期间可用但在测试时隐藏的信息。这使得即使是最弱的专家也能提供精确指导，显著提高学生代理在不访问测试时的特权信息情况下的性能。我们在多种决策制定基准上评估了LEAP，包括基于文本的游戏（ALFWorld）、网络导航（WebShop）和交互式编码（Intercode Bash）。我们的实验表明，LEAP（1）优于行为克隆和ReAct基线（2）使较弱的学生模型（如Llama3-8B）超过强大教师模型（GPT4-o）的表现，并且（3）允许较弱的模型使用自己特权版本的自我提升。我们也提供了理论分析，显示LEAP的成功取决于平衡特权信息与学生的可实现性，我们通过实验证实了这一观点。我们的代码可在https://leap-llm.github.io 获取。
2024-10-07	GLEE: A Unified Framework and Benchmark for Language-based Economic Environments	Eilam Shapira et.al.	2410.05254	link	大型语言模型（LLMs）在经济和战略互动领域展现出显著潜力，因为自然语言通信在此类场景中通常占主导地位。这引发了一系列关键问题：LLMs是否表现出理性？它们能否模仿人类行为？它们是否倾向于达到高效且公平的结果？自然语言在战略互动中的角色是什么？经济环境的特性如何影响这些动态？对于将基于LLM的代理集成到现实世界的数据驱动系统（如在线零售平台和推荐系统）中时的经济和社会影响而言，这些问题至关重要。尽管机器学习社区已经探索了LLMs在多代理设置中的潜在应用，但不同研究之间在假设、设计选择和评估标准上的差异使得难以得出稳健且有意义的结论。为解决这一问题，我们引入了一个基准，以标准化对基于语言的双人、序列游戏的研究。借鉴经济学文献，我们定义了三个基类游戏家族，具有一致的参数化、自由度以及用于评估代理性能（自我收益）以及游戏结果（效率与公平性）的经济衡量指标。我们开发了一个开源框架进行交互模拟与分析，并利用该框架收集了LLM与LVM之间的多个游戏配置以及额外的人类与LVM交互数据集。通过大量实验，我们的框架和数据集可以用于：(i) 比较基于LLM的代理与人类玩家在各种经济背景下的行为；(ii) 从个体和集体绩效角度评估代理；(iii) 定量分析经济环境特性对代理行为的影响。
2024-10-09	GenSim: A General Social Simulation Platform with Large Language Model based Agents	Jiakai Tang et.al.	2410.04360	link	近年来，随着大型语言模型（LLM）的迅速发展，利用基于LLM的代理来模拟人类社会行为的研究取得了许多有前景的成果。尽管先前的工作在特定场景下展示了巨大的潜力，并且涉及有限数量的代理，但它们大多缺乏在模拟过程中出现错误时进行适应的能力。为了克服这些局限性，我们提出了一种名为\textit{GenSim}的新颖的基于LLM的仿真平台：（1）\textbf{抽象了一组通用功能}，简化了定制社会场景的仿真；（2）\textbf{支持一百万个代理}，以更好地模拟现实世界情境中的大规模人群；（3）\textbf{整合了错误纠正机制}，确保更可靠和长期的仿真。为了评估我们的平台，我们评估了大规模代理仿真效率以及错误纠正机制的有效性。据我们所知，GenSim代表了基于LLM代理的通用、大规模和可校正的社会仿真平台的初步步骤，有望进一步推动社会科学领域的发展。
2024-10-04	Permissive Information-Flow Analysis for Large Language Models	Shoaib Ahmed Siddiqui et.al.	2410.03055	null	大型语言模型（LLM）正在快速成为更大软件系统中的通用组件。这引发了一系列自然的安全和隐私问题：从一个组件获取的污染数据可以改变模型的行为并破坏整个系统，包括使模型在不可信组件间传播机密数据。一种有前景的方法是在系统层面上通过动态信息流跟踪（即污点跟踪）来解决这些问题。不幸的是，传统方法将最严格的输入标签传播到输出过于保守，不适合LLM在来自不同来源的输入上操作的应用场景。本文提出了一种新颖的、更宽松的方法来在LLM查询中传播信息流标签。我们的方法的核心思想是仅传播生成模型输出时起作用的样本的标签，并消除不必要的输入标签。我们实现了并研究了两种这种方法的变体，基于（i）提示增强检索和（ii）基于 $k$ 个最近邻的语言模型。我们将这些方法与直接询问语言模型预测输出标签的反省式影响估计器基线进行了比较。实验结果表明，我们的基于提示的标签传播器方法在超过85%的情况下提高了标签质量，在LLM代理设置中效果显著。这些发现强调了在检索增强中使用宽松标签传播的实用性。
2024-10-03	AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML	Patara Trirat et.al.	2410.02958	null	本文提出了一种全新的多代理框架——AutoML-Agent，专为全管道自动化机器学习（AutoML）设计，涵盖了从数据检索到模型部署的整个过程。AutoML-Agent通过接受用户的任务描述、促进专门语言模型代理之间的协作，并交付可部署的模型，从而提供了一个自然语言接口，以简化非专家用户构建数据驱动解决方案的过程。与现有工作不同，本文引入了一种基于检索增强的规划策略来提高探索性，以便在搜索更优解的过程中进行探索。我们还通过并行执行来分解每个计划为子任务（例如数据预处理和神经网络设计），每个子任务由我们通过提示构建的专门代理解决，这使得搜索过程更加高效。此外，我们提出了一个多阶段验证方法来验证执行结果，并指导代码生成语言模型实现成功的解决方案。在七个下游任务上使用十四组数据集进行的大量实验表明，AutoML-Agent在自动化全AutoML流程方面取得了更高的成功率，且系统在整个多样化领域中的性能均表现出色。
2024-10-03	Grounding Large Language Models In Embodied Environment With Imperfect World Models	Haolan Liu et.al.	2410.02742	null	尽管大型语言模型（LLMs）在各种应用中取得了广泛的成功，但在处理基本物理推理或执行机器人任务时，它们经常遇到问题，这是因为它们缺乏对现实世界物理细微之处的直接经验。为了应对这些问题，我们提出了一种名为Grounding Large Language Model with Imperfect World MOdel (GLIMO)的方法，该方法利用代理世界模型，如模拟器，来收集和合成训练数据。GLIMO集成了一个基于LLM的自动数据生成器，用于创建高质量且多样化的指令数据集。生成器包括一个迭代自我精炼模块，用于时间上一致的经验采样，一个多样化的问答指令种子集合，以及一个反射性增强生成模块，用于反映先前的经验。全面的实验表明，我们的方法能够提高强开源LLMs，如LLaMA-3，在三个不同基准上的性能提升分别为2.04倍、1.54倍和1.82倍，分别。这种性能能够与或超越它们更大的同辈，如GPT-4。
2024-10-03	Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents	Hanrong Zhang et.al.	2410.02644	link	为了填补现有文献在全面评估基于大型语言模型（LLM）的代理攻击与防御策略方面的空白，我们提出了一种名为“代理安全基准”（Agent Security Benchmark, ASB）的综合框架。该框架旨在正式化、标准化并评估基于LLM的代理的安全问题，涵盖了10个应用场景（如电子商务、自动驾驶、金融）、10个针对这些场景的代理、超过400种工具、23类不同的攻击与防御方法以及8个评价指标。基于ASB，我们对10种提示注入攻击、一种记忆污染攻击、一种新颖的计划-思维后门攻击、一种混合攻击以及针对这10种攻击的10种相应防御措施，在13个LLM架构下进行了全面的基准测试，总共产生了近9万个测试案例。我们的基准测试结果揭示了代理操作不同阶段中的关键安全漏洞，包括系统提示、用户提示处理、工具使用和记忆检索，其中最高平均攻击成功率达到了84.30%，但当前的防御措施的有效性有限，这表明社区在代理安全方面仍有许多工作要做。有关此研究的代码可在https://github.com/agiresearch/ASB获取。
2024-10-03	ColaCare: Enhancing Electronic Health Record Modeling through Large Language Model-Driven Multi-Agent Collaboration	Zixiang Wang et.al.	2410.02551	null	我们引入了ColaCare框架，该框架通过大型语言模型（LLM）驱动的多代理协作增强了电子健康记录（EHR）建模。我们的方法无缝地将领域特定的专业模型与LLM结合，以弥合结构化EHR数据与基于文本的推理之间的差距。受临床咨询的启发，ColaCare采用了两种类型的代理：医生代理和元代理，它们协同分析患者数据。专家模型处理并从数值EHR数据生成预测，而LLM代理在协作咨询框架内产生推理参考和决策报告。我们还通过检索增强生成（RAG）模块将默克诊断与治疗手册（MSD）医疗指导整合进来，提供权威证据支持。在四个不同的EHR数据集上进行的大量实验证明了ColaCare在死亡率预测任务中的优越性能，这强调了其在临床决策支持系统和推进个性化精准医学方面的潜力。有关代码、完整提示模板、更多案例研究等的更多信息，请访问匿名链接：https://colacare.netlify.app。
2024-10-03	ELLMA-T: an Embodied LLM-agent for Supporting English Language Learning in Social VR	Mengxu Pan et.al.	2410.02406	null	许多人在学习新语言时会遇到困难，传统的工具在提供针对每个学习者需求的上下文化学习方面存在不足。最近，大型语言模型（LLMs）和在社交虚拟现实（VR）中的具身对话代理（ECAs）的发展，提供了以一种考虑到学习者的语言水平和需求的方式进行上下文化且自然的语言学习的新机会。为了探索这一可能性，我们开发了ELLMA-T，一个利用GPT-4和基于情境学习框架来支持社交VR（VRChat）中英语语言学习的具身对话代理。通过12次的质性访谈，我们揭示了ELLMA-T在VR中为学习者与代理之间的互动生成真实、可信和上下文特定的角色扮演的潜力，以及LLM在为学习者提供初始语言评估和持续反馈方面的能力。我们提供了对于未来开发基于LLM的语言代理在社交VR中的五个设计启示。
2024-10-03	A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization	Yucheng Chu et.al.	2410.02165	null	在学习分析（LA）的背景下，开放式短答问题（SAG）被广泛认为是深入了解学习者响应的强大工具。然而，在实践中，SAG经常面临高评分工作量和评估一致性担忧的挑战。随着自然语言处理（NLP）的最新进展，自动短答评分（ASAG）为解决这些挑战提供了有前景的解决方案。尽管如此，当前的ASAG算法往往在泛化能力上有限，并倾向于针对特定问题进行定制。为此，本文提出了一种统一的多代理ASAG框架GradeOpt，利用大型语言模型（LLMs）作为SAG的评分员。更重要的是，GradeOpt引入了两个基于LLM的额外代理——反射器和细化器——到多代理系统中。这使得GradeOpt能够通过对其错误进行自我反思来自动优化原始评分指南。在对具有挑战性的ASAG任务进行实验，即对教学内容知识（PCK）和内容知识（CK）问题进行评分时，GradeOpt在评分准确性和与人工评分员行为的一致性方面均表现出优于代表基线的性能。最后，全面的消融研究证实了GradeOpt中设计的各个组件的有效性。
2024-10-02	Zodiac: A Cardiologist-Level LLM Framework for Multi-Agent Diagnostics	Yuan Zhou et.al.	2410.02026	null	本文介绍了一种名为ZODIAC的大型语言模型(LLM)框架，旨在通过心脏病专家级别的专业素养，辅助心脏病学诊断。ZODIAC能够从患者数据中提取临床相关特征、检测重要的心律失常，并生成初步报告供心脏病专家审查和细化。为了实现心脏病专家级别的专业素养，ZODIAC构建了一个多代理协作框架，允许对多模态患者数据进行处理。每个LLM代理均通过心脏病专家裁定的真实世界患者数据进行精细调优，以此强化模型的专业素养。 ZODIAC经过了严格的临床验证，由独立的心脏病专家评估，涵盖八个指标，衡量临床效果并解决安全问题。结果显示，ZODIAC在性能上超越了行业领先的模型，包括OpenAI的GPT-4o、Meta的Llama-3.1-405B和Google的Gemini-pro，以及专门针对医疗领域的LLM如微软的BioGPT。这表明了专门设计的LLM在医疗保健领域的潜力，能够提供符合医疗实践严格要求的领域特定解决方案。值得注意的是，ZODIAC已成功集成到心电图(ECG)设备中，展示了将LLM嵌入软件作为医疗设备(SaMD)的趋势日益增长。
2024-10-02	Moral Alignment for LLM Agents	Elizaveta Tennant et.al.	2410.01639	null	基于大型语言模型（LLM）的决策代理正越来越多地在人类活动的不同领域部署。虽然它们的应用目前较为专业化，但已有研究努力开发更通用的代理。随着LLM系统变得更加自主，它们对人类活动的影响将增加，并且透明度会降低。因此，发展有效的方法来使它们符合人类价值观至关重要。现有的对齐方法通常依赖于人类偏好数据（例如，在RLHF或DPO中），其中价值观是隐含的，并且本质上是从不同模型输出的相对偏好中推断出来的。与此相反，我们在这项工作中提出了一种设计奖励函数的方法，这些函数明确编码了核心的人类价值观，用于强化学习（RL）方式微调基础代理模型。具体来说，我们使用内在奖励来实现LLM代理的道德对齐。我们通过传统的哲学框架——德ontology伦理和功利主义来评估我们的方法，量化了在迭代囚徒困境（IPD）环境中代理的道德奖励，基于其行为及其后果。我们还展示了如何通过道德微调使代理能够放弃之前开发的自私策略。最后，我们发现某些在IPD游戏中学习的道德策略能够推广到多个矩阵游戏环境。总之，我们证明了使用内在奖励进行微调是将LLM代理与人类价值观对齐的有前景的一般解决方案，并且可能代表了当前主流对齐技术更加透明和成本效益更高的替代方案。
2024-10-03	RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance	Haolin Jin et.al.	2410.01242	null	大型语言模型（LLM）在代码生成任务上展现出了巨大的潜力，并且最近的提示工程研究进一步增强了LLM对文本信息的理解。然而，确保生成代码的准确性通常需要程序员进行大量的测试和验证。尽管LLM能够基于任务描述生成代码，但在复杂任务上的准确度仍然有限，特别是对于那些需要更深入理解问题陈述和代码生成过程的任务。这一限制主要源于LLM同时需要理解和生成语法和语义上正确的代码，而没有能力自动优化代码的能力。在实际的软件开发中，程序员很少能在仅凭任务描述的情况下一次就生成完美的代码，他们依赖于迭代反馈和调试来完善他们的程序。受此过程启发，我们引入了一种基于LLM的多智能体架构用于代码生成和自动调试：改进与指导调试（RGD）。RGD框架是一个利用三种不同LLM代理（引导代理、调试代理和反馈代理）的多智能体调试器，它将代码生成任务分解为多个步骤，确保了清晰的工作流程，并允许基于自我反思和反馈的代码迭代细化。实验结果表明，RGD在代码生成能力上表现出色，分别在HumanEval数据集和MBPP数据集上相比最先进的方法和传统直接提示方法实现了9.8%和16.2%的性能提升。我们强调了RGD框架在增强LLM自主生成和优化代码能力方面的有效性。
2024-10-01	Dynamic Planning for LLM-based Graphical User Interface Automation	Shaoqing Zhang et.al.	2410.00467	link	大型语言模型（LLM）的兴起激发了对自主LLM基代理进行创新性发展的兴趣，尤其是在智能手机图形用户界面（GUI）中的应用。当面对任务目标时，这些代理通常会模仿人类在GUI环境中的操作直至任务完成。然而，一个关键挑战在于如何有效地制定计划以指导GUI任务中的动作预测，尽管规划已被广泛认为是分解复杂任务的有效方式。具体而言，在执行动作后GUI环境的动态性质意味着需要根据环境反馈和动作历史动态调整计划。我们发现广受欢迎的ReAct方法失败了，原因在于其过于依赖过长的历史对话。为了解决这一挑战，我们提出了一种名为动态思维规划（D-PoT）的新方法，用于基于LLM的GUI代理。D-PoT涉及根据环境反馈和执行历史动态调整规划的过程。实验结果表明，提出的D-PoT方法在准确性上显著超越了强大的GPT-4V基线，提高了12.7%（从34.66%提高到47.36%）。分析揭示了动态规划在不同基础LLM中的通用性，以及在处理未见过的任务时减少幻觉并适应的能力。代码已发布在https://github.com/sqzhang-lazy/D-PoT。
2024-09-30	MemSim: A Bayesian Simulator for Evaluating Memory of LLM-based Personal Assistants	Zeyu Zhang et.al.	2409.20163	link	本文提出了一种名为MemSim的贝叶斯模拟器，用于从生成的用户消息自动构建可靠的问题与答案（Q&A），同时保持其多样性和可扩展性。具体来说，我们引入了贝叶斯关系网络（BRNet）和因果生成机制，以减轻大型语言模型（LLM）幻觉对事实信息的影响，从而促进自动构建评估数据集。基于MemSim，我们在日常生活中生成了一个名为MemDaily的数据集，并进行了广泛的实验，以评估我们方法的有效性。我们还提供了使用MemDaily数据集评估LLM基智能体不同记忆机制的基准。为了惠及研究社区，我们已经在https://github.com/nuster1128/MemSim上发布了我们的项目。
2024-10-01	TRANSAGENT: An LLM-Based Multi-Agent System for Code Translation	Zhiqiang Yuan et.al.	2409.19894	null	本文提出了一种名为TRANSAGENT的新型基于大型语言模型（LLM）的多代理系统，以增强基于LLM的代码翻译过程，并通过四个基于LLM的代理协同工作修复语法错误和语义错误。这四个代理分别是初始代码翻译器、语法错误修复器、代码对齐器和语义错误修复器。TRANSAGENT的核心洞察是首先根据目标程序与源程序之间的执行对齐定位目标程序中的错误代码块，这种方法可以缩小修复范围并降低修复难度。为了评估TRANSAGENT，我们首先从最近的编程任务构建了一个新的基准，以减轻潜在的数据泄露问题。在我们的基准上，TRANSAGENT在翻译效果和效率方面都优于最新的LLM基代码翻译技术UniTrans；此外，在不同LLM上的评估显示了TRANSAGENT的一般性，并且我们的消融研究揭示了每个代理的贡献。
2024-09-26	From News to Forecast: Integrating Event Analysis in LLM-Based Time Series Forecasting with Reflection	Xinlei Wang et.al.	2409.17515	link	本文提出了一种新颖的方法，旨在通过大型语言模型（LLMs）和生成代理来增强时间序列预测。以语言作为媒介，我们的方法适应性地将各种社会事件整合进预测模型中，将新闻内容与时间序列波动对齐，从而提供丰富洞察。具体而言，我们利用基于语言模型的代理进行迭代筛选，去除无关新闻，并采用类似人类的推理和反思来评估预测结果。这使得我们的模型能够分析复杂事件，如意外事件和社会行为转变，并不断优化选择逻辑以及代理输出的稳健性。通过结合精选新闻和时间序列数据，我们对预训练的LLaMa2模型进行微调。结果显示，在准确性方面有显著提升，这表明通过有效利用非结构化新闻数据，可能在时间序列预测领域实现范式转变。
2024-09-25	AAPM: Large Language Model Agent-based Asset Pricing Models	Junyan Cheng et.al.	2409.17266	link	本文提出了一种新型的资产定价方法——基于LLM代理的资产定价模型（AAPM）。该方法将LLM代理的定性主观投资分析与定量手动金融经济因素融合，以预测超额资产回报。实验结果表明，我们的方法在组合优化和资产定价误差方面均优于基于机器学习的资产定价基准。具体而言，异常资产组合的夏普比率和平均α值分别提高了9.6%和10.8%。此外，我们还对模型进行了广泛的消融研究，并对数据进行了深入分析，以揭示提出方法的更多见解。
2024-09-25	Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents	Junting Lu et.al.	2409.17140	null	在多模态大型语言模型（MLLMs）的帮助下，语言模型驱动的代理可以直接与应用用户界面（UI）进行交互，从而在复杂任务中提升代理性能。然而，这些代理常常因为涉及大量顺序UI交互而导致高延迟和低可靠性。为了应对这一问题，我们提出了AXIS，一个新颖的基于语言模型的代理框架，通过应用程序接口（APIs）优先于UI动作来优化代理行为。此外，该框架还通过自动化探索应用以创建和扩展API，促进了API的生成和应用范围的扩展。我们的实验在Word办公软件上显示，与人类相比，AXIS在完成任务的时间上减少了65%-70%，认知负荷降低了38%-53%，同时保持了97%-98%的准确性。我们的工作为人类-代理-计算机交互（HACI）框架和应用提供者在LLMs时代设计新UI原则提供了贡献，并探讨了将每一个应用转化为代理的可能性，为迈向以代理为中心的操作系统（Agent OS）铺平了道路。
2024-09-24	MultiTalk: Introspective and Extrospective Dialogue for Human-Environment-LLM Alignment	Venkata Naren Devarakonda et.al.	2409.16455	null	本文提出了一种名为MultiTalk的基于大语言模型（LLM）的任务规划方法。通过引入内省和外省对话循环框架，该方法旨在解决LLM在任务规划中可能遇到的问题，如幻觉、用户指令中的歧义、环境约束以及执行代理能力的局限性。这些问题可能导致生成的计划出现错误或不完整。 MultiTalk方法通过特定系统来提取和预测与任务相关的状态，并标记出人、LLM代理和环境之间的不匹配或偏差。有效的反馈路径促进人与LLM之间的有意义对话。这种方法在机器人操作任务的应用中得到了验证。实验和消融分析展示了MultiTalk方法的稳健性和可靠性，与基线方法的比较进一步证明了其在实体代理任务规划方面的优势。总之，MultiTalk提供了一种通过增强LLM与环境、执行者和用户之间的一致性和沟通来改进任务规划过程的方法，从而提高规划的有效性和效率。
2024-09-23	Safe Guard: an LLM-agent for Real-time Voice-based Hate Speech Detection in Social Virtual Reality	Yiwen Xu et.al.	2409.15623	null	本文介绍了一种名为Safe Guard的LLM代理，用于检测社交VR（VRChat）中的语音交互中的仇恨言论。我们的系统利用了Open AI GPT和音频特征提取技术，实现了实时语音交互的检测功能。我们贡献了一个系统设计以及对该系统的评估，这些都证明了我们方法在检测仇恨言论方面的有效性，并且相比现有方法显著降低了误报率。我们的结果表明基于LLM的代理在创建更安全的虚拟环境方面具有潜力，并为进一步发展基于LLM的管理方法奠定了基础。
2024-09-20	ControlMath: Controllable Data Generation Promotes Math Generalist Models	Nuo Chen et.al.	2409.15376	null	利用大型语言模型（LLM）进行数据增强在数学推理方面取得了令人鼓舞的结果。然而，这些方法在问题多样性方面存在限制，可能仅局限于特定领域的数据生成。为此，我们提出了一种名为ControlMath的迭代方法，该方法包含一个方程式生成模块和两个基于LLM的代理。该模块产生多样化的方程，问题创造者代理随后将其转化为数学文字问题。逆向代理则筛选并选择高质量的数据，遵循“少即是多”的原则，使用更少的数据点就能实现更好的结果。这种方法能够生成多样化的数学问题，不受特定领域或分布的限制。因此，我们收集了ControlMathQA数据集，包含19万个数学文字问题。广泛的实验结果证明，将我们的数据集与GSM8K等内部领域数据集结合，可以帮助提高模型在数学推理方面的泛化能力，从而在特定领域内以及超出特定领域时都能取得更好的性能。
2024-09-25	Towards a Realistic Long-Term Benchmark for Open-Web Research Agents	Peter Mühlbacher et.al.	2409.14913	null	我们提出了一项即将推出的基准测试，用于评估大型语言模型（LLM）代理在经济价值高的白领任务上的表现。我们对金融和咨询领域常规进行的、现实世界中的“杂乱”开放网络研究任务进行了评估。这样做，我们为建立一个LLM代理评估套件奠定了基础，在该套件中，良好的性能直接对应着巨大的经济和社会影响。我们构建并测试了多个代理架构，包括o1-preview、GPT-4o、Claude-3.5 Sonnet、Llama 3.1（405b）以及GPT-4o-mini。平均而言，使用Claude-3.5 Sonnet和o1-preview的LLM代理在性能上明显优于使用GPT-4o的代理，而基于Llama 3.1（405b）和GPT-4o-mini的代理则落后很多。在所有LLM中，具有委托子任务给子代理能力的ReAct架构表现最佳。除了定量评估之外，我们还通过检查代理的追踪记录和反思它们的观察结果，对代理的能力进行了定性评估。我们的评估代表了首次深入评估代理在真实开放网络上执行具有挑战性的、经济上有价值的分析师式研究的能力。
2024-09-23	Interpreting Multi-band Galaxy Observations with Large Language Model-Based Agents	Zechang Sun et.al.	2409.14807	null	本文展示了大型语言模型为基础的智能体如何加速天文学研究流程，通过模仿人类推理来解释多波段星系观测数据。我们提出了mephisto框架，它能够与CIGALE代码库协作，后者包含了用于解释观测数据的光谱能量分布（SED）模型。在开放世界环境中，mephisto通过自我游戏经验学习、执行树搜索并积累动态更新的知识基础。作为概念验证，我们将mephisto应用于詹姆斯韦伯太空望远镜的最新数据集。结果表明，mephisto在推理星系物理场景方面达到了接近人类的专业水平，甚至在处理新发现的“小红点”星系时也是如此。这是智能体进行天文学研究的首次展示，朝着通过大型语言模型代理实现端到端研究的方向迈进，可能有助于加快天文发现的速度。
2024-09-22	Enhancing LLM-based Autonomous Driving Agents to Mitigate Perception Attacks	Ruoyu Song et.al.	2409.14488	null	随着大型语言模型（LLM）与自动驾驶（AD）系统集成的日益增长的兴趣，AD系统面临着攻击其对象检测与追踪（ODT）功能的风险。我们的评估表明，针对四个近期提出的LLM代理的ODT攻击成功率达到63.26%，导致它们崩溃或违反交通规则，原因在于误导性记忆模块提供的过往经验、提示在识别不一致性方面的局限性以及对地面实况感知数据的依赖。为此，我们提出了一种名为Hudson的驾驶推理代理，它扩展了先前基于LLM的驾驶系统，旨在在感知攻击期间实现更安全的决策制定，同时在正常条件下保持有效性。 Hudson通过首先对AD软件进行仪器化收集实时感知结果和驾驶场景的上下文信息来实现这一目标。这些数据随后被转化为领域特定语言（DSL）。为了引导LLM在ODT攻击期间检测并做出安全控制决策，Hudson将DSL转换为自然语言，并附带一组自定义的攻击检测指令。执行查询后，Hudson分析LLM的控制决策以理解其因果推理过程。我们使用私有LLM（GPT-4）、两个开源LLM（Llama和Gemma）和各种对抗性驾驶情景对Hudson的有效性进行了评估。GPT-4、Llama和Gemma在平均情况下实现了83.3%、63.6%和73.6%的攻击检测准确率。因此，在86.4%、73.9%和80%的攻击中，它们做出了安全控制决策。随着将LLM集成到AD系统中的兴趣增长，我们的结果强调了LLM的优势及其在检测和缓解ODT攻击方面的潜力。
2024-09-20	Enhancing Fault Localization Through Ordered Code Analysis with LLM Agents and Self-Reflection	Md Nakhla Rafi et.al.	2409.13642	null	在软件开发过程中，定位和修复软件故障是一个耗时且资源密集型的任务。传统的故障定位方法，如基于频谱的故障定位（SBFL），依赖于测试覆盖率数据的统计分析，但往往准确性较低。基于学习的技术虽然更有效，但需要大量的训练数据，并且计算成本高昂。最近，大型语言模型（LLMs）的进步为改善故障定位提供了有前景的方法，通过增强代码理解和推理来提升性能。然而，这些LLM基线技术仍然面临挑战，包括令牌限制、长输入性能下降以及处理涉及多个相互作用组件的复杂系统时的困难。为了解决这些问题，我们提出了一种名为LLM4FL的创新性LLM代理基线故障定位方法，它结合了SBFL排名与分而治之策略。通过将大规模覆盖数据分解为可管理的组，并利用多个LLM代理通过提示链式调用，LLM4FL有效地导航代码库并定位故障。该方法还整合了自我反思和链式思考推理，使代理能够迭代生成修复并重新排名可疑方法。我们使用Defects4J（V2.0.0）基准进行评估，其中包括来自14个开源Java项目的675个真实世界故障。结果显示，LLM4FL在Top-1准确率上比AutoFL高出19.27%，并且优于最先进的监督技术，如DeepFL和Grace，所有这些都无需特定任务的培训。此外，我们强调了覆盖拆分和提示链对故障定位性能的影响，并展示了不同的方法排序可以提高Top-1准确率高达22%。
2024-09-23	AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit	Mohanna Hoveyda et.al.	2409.13447	null	在问答（QA）领域，不同的问题可能需要不同的回答策略来有效解决。一些问题可以通过简单的查找来解决，而另一些则需要复杂的、多步骤的推理。这一观察结果激发了开发一种动态方法，该方法能够为每个问题适当地选择最合适的QA策略，从而构建更高效、更有效的系统，能够处理更广泛类型的问题。为了实现这一目标，我们基于多个大型语言模型（LLMs）的集成最新进展，并将适应性QA定义为一个动态编排挑战。我们将此视为一个上下文多臂老虎机问题，其中上下文由进入问题的特性定义，而动作空间包括潜在的LLM代理之间的通信图配置。然后，我们训练了一个线性上界信心边界模型，以学习不同问题类型与其对应的最佳多LLM通信图表示之间的最优映射。我们的实验表明，提出的解决方案适用于适应性的LLM集成问答系统的编排，它结合了更复杂策略的优越性能，同时避免了在简单策略足以的情况下使用这些策略的成本。
2024-09-24	Towards Robust Automation of Surgical Systems via Digital Twin-based Scene Representations from Foundation Models	Hao Ding et.al.	2409.13107	null	本文提出了一种基于数字孪生的机器感知方法，旨在利用近期视觉基础模型的令人信服的表现和开箱即用的泛化能力。该方法通过结合数字孪生的场景表示和大型语言模型（LLM）代理进行规划，与dVRK平台集成，从而开发出一个具有强大任务性能和在不同环境设置下通用性的实体智能系统。在执行穿针移位和纱布检索任务时，我们的方法显示出强大的任务性能和通用性。尽管表现出令人信服的表现，但本文的工作仅仅是对基于数字孪生的场景表示集成的第一步。为了实现全面的数字孪生框架以改善手术领域实体智能的可解释性和通用性，未来的研究是必要的。
2024-09-17	LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents	Amine B. Hassouna et.al.	2409.11393	null	本文通过提出一个统一框架——LLM-Agent-UMF（基于语言模型的代理统一建模框架），解决了集成工具到语言模型（LLM）驱动的代理以及在多个前沿工作中提出的改进措施所导致的软件架构非统一性问题。传统上，这些技术的结合及后续工作侧重于功能实现而非定义组件边界，导致了研究人员之间的术语和架构上的混淆。该框架明确了代理的不同组件，包括LLM、工具以及新引入的核心代理概念，其作用是代理的中央协调者，由规划、记忆、个人资料、行动和安全五个模块组成。核心代理的内部结构差异促使我们将其分类为被动型和主动型两种类型。基于此分类，我们提出了结合不同个体代理独特特性的多种多核心代理架构。为了验证框架的有效性，我们将该框架应用于一系列前沿代理，并展示其与功能的一致性，同时澄清了先前被忽视的架构方面。此外，我们对四个提出的架构进行了详尽评估，通过整合具有不同特性的代理到混合主动/被动核心代理系统中，这一过程提供了对特定代理组合可能带来的改进和面临的挑战的清晰见解。
2024-09-17	Hackphyr: A Local Fine-Tuned LLM Agent for Network Security Environments	Maria Rigaki et.al.	2409.11276	null	本篇论文探讨了在网络安全环境中使用本地微调的大型语言模型（LLM）作为红队代理的可能性。考虑到商业云基LLM的隐私问题、成本和网络连接限制，我们提出了Hackphyr——一个本地微调的70亿参数模型，旨在用于网络安全环境中的红队任务。我们的模型能够在单个GPU卡上运行，并且在性能上与更大更强大的商业模型如GPT-4相媲美。 Hackphyr在复杂、前所未见的场景中显著优于其他模型，包括GPT-3.5-turbo以及Q-learning代理等基线模型。为了实现这一性能提升，我们构建了一个专门针对网络安全任务的新数据集，以增强基础模型的能力。最后，我们对代理行为进行了全面分析，提供了关于此类基于LLM的代理在网络安全上下文中的规划能力和潜在局限性的见解，从而为更广泛地理解此类代理在网络安全领域的应用提供了参考。
2024-09-14	On the limits of agency in agent-based models	Ayush Chopra et.al.	2409.10568	link	本文介绍了一种名为AgentTorch的框架，旨在通过使用大型语言模型（LLMs）作为具有适应性行为的代理，将基于个体的模型（ABM）扩展到数百万个代理的规模。这一框架旨在在模拟复杂系统的行为时，既捕捉到真实环境动态和适应性代理行为，又保持对庞大人口群体高效模拟的能力。大型语言模型的最新进展为增强ABM提供了机会，但使用LLMs进行大规模代理的计算可行性限制了其广泛应用。我们通过实验评估了使用LLMs作为ABM代理的实用性，探索了模拟规模与单个代理行为细节之间的权衡。以COVID-19大流行为例，我们展示了AgentTorch如何模拟840万个代表纽约市的代理，以捕捉隔离和就业行为对健康和经济结果的影响。我们比较了基于启发式方法和LLMs的不同代理架构在预测疾病浪潮和失业率方面的性能。此外，我们展示了AgentTorch在回顾性、假设性和前瞻性分析中的能力，强调了适应性代理行为如何帮助克服历史数据在政策设计中的局限性。AgentTorch是一个开源项目，目前正被全球用于政策制定和科学发现。该框架可在此获取：github.com/AgentTorch/AgentTorch。
2024-09-19	Instigating Cooperation among LLM Agents Using Adaptive Information Modulation	Qiliang Chen et.al.	2409.10372	null	本文提出了一种新颖的框架，将大型语言模型（LLM）代理作为人类战略行为的代理，并结合强化学习（RL）让这些代理在团队环境中进行不断演化的战略互动。我们的方法扩展了传统的基于代理的模拟，通过使用策略性大型语言模型（SLA）以及引入动态和适应性的治理，通过促进社会行为的强化学习代理（PPA），该代理调节网络中代理之间的信息访问，以优化社会福利并促进亲社会行为。通过在迭代游戏中验证，包括囚徒困境，我们展示了SLA代理表现出复杂的战略调整。PPA代理有效地学习调整信息透明度，导致合作率显著提高。这一框架提供了对人工智能驱动的社会动力学的重要见解，为在实际团队环境中部署AI做出了贡献。
2024-09-17	Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition	Chao-Han Huck Yang et.al.	2409.09785	null	在近期生成式人工智能技术的推动下，大型语言模型（LLMs）如何增强基于文本解码的自动语音识别（ASR）模型在声学建模任务中的应用成为了一个关键问题。为了探索语言建模在语音处理领域的潜在新能力，本文提出了一项名为“生成性语音转录错误修正”（GenSEC）的挑战。该挑战包含了三个针对后ASR语言模型的任务：（i）后ASR转录修正、（ii）说话者标签化以及（iii）情感识别。这些任务旨在模拟未来基于语言模型的语音界面代理处理工作时的场景，并通过使用开源预训练语言模型或基于代理的API来保持对广泛受众的可访问性。此外，本文还讨论了基准评估的结果以及设计未来评估时应汲取的经验教训。
2024-09-15	RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation	Qingyao Li et.al.	2409.09584	null	本文针对LLM（大型语言模型）代理与树搜索算法在代码生成任务中的应用进行了深入研究。当前的搜索算法在这一领域存在低搜索质量的问题，主要源于以下三个原因：1）对代码生成任务高推理要求的搜索空间设计不合理；2）未能充分结合代码反馈优化搜索过程；3）处理负反馈时效率低下，导致搜索质量和效率降低。为解决这些问题，我们提出了一种新的方法——RethinkMCTS（反思蒙特卡洛树搜索）。该方法通过在生成代码之前进行多层次的思考搜索，探索更广泛的策略选项。更重要的是，RethinkMCTS利用细粒度的代码执行反馈构建口头反馈，以修正搜索过程中出现的错误思路。这种机制确保了搜索沿着正确的推理路径前进，从而提高整个搜索树的整体质量。实验结果表明，与之前的基于搜索和反馈的代码生成基准相比，RethinkMCTS取得了显著的性能提升。在HumanEval数据集上，RethinkMCTS将GPT-3.5-turbo的pass@1指标从70.12提高到了89.02，将GPT-4o-mini的pass@1指标从87.20提升至94.51。通过深入的探索和改进整个搜索树的质量，RethinkMCTS有效地增强了搜索过程的全面性和深度。
2024-09-14	Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models	Yuanzhao Zhai et.al.	2409.09345	null	本文提出了一种利用任务相关Q值模型来指导行动选择的方法，以增强大型语言模型（LLM）代理在多步决策任务中的性能。具体地，我们首先通过蒙特卡洛树搜索（MCTS）收集了标注有步骤级Q值的决策轨迹，并构建了偏好数据集。接着，我们使用另一个LLM通过步骤级直接策略优化（DPO）拟合这些偏好，从而形成Q值模型。在推理过程中，对于每个决策步骤，LLM代理都会选择具有最高Q值的动作，然后再与环境进行交互。我们将该方法应用于多个开源和API集成的LLM代理上，结果显示，引入Q值模型显著提高了它们的性能。特别值得注意的是，构建于Phi-3-mini-4k-instruct的代理在WebShop任务上的性能提升了103%，在HotPotQA任务上提升了75%，甚至超越了GPT-4o-mini。此外，Q值模型还具备几个优势，如对不同LLM代理的泛化能力和与现有提示策略无缝集成的能力。
2024-09-14	Python Symbolic Execution with LLM-powered Code Generation	Wenhan Wang et.al.	2409.09271	null	本文提出了一种利用大型语言模型（LLM）增强的代理工具——LLM-Sym。该工具旨在解决使用符号执行技术在动态类型语言如Python中遇到的主要挑战。通过自动调用SMT求解器Z3来解决执行路径约束，LLM-Sym能够扩展基础的符号执行引擎，使其支持包含复杂数据类型`list`的程序。 LLM-Sym的核心贡献在于将复杂的Python路径约束转化为Z3代码的能力。为了实现准确的路径到Z3代码的转换，我们设计了一个多步骤的代码生成管道，包括类型推断、检索和自我精炼等环节。实验结果表明，LLM-Sym能够解决具有复杂控制流和列表数据结构的LeetCode问题中的路径约束，这是基础符号执行引擎无法做到的。这一方法为LLM与符号求解器推理能力的结合开辟了道路，并为LLM辅助测试用例生成提供了新的机遇。
2024-09-23	Agents in Software Engineering: Survey, Landscape, and Vision	Yanlin Wang et.al.	2409.09030	link	近年来，大型语言模型（LLMs）在各种下游任务中取得了显著成功，并在软件工程（SE）领域广泛应用。我们发现许多结合LLMs与SE的研究工作明确或隐含地采用了代理概念。然而，缺乏对现有工作的深度综述，以整理其发展背景、分析如何结合LLMs代理技术优化各类任务以及阐明SE中的LLMs代理框架。本文开展首次针对结合LLMs代理与SE的研究综述，并提出SE中LLMs代理的框架，包括感知、记忆和行动三个关键模块。同时，总结了两个领域结合时面临的问题，并针对现有挑战提出了未来机遇。我们维护了一个包含相关论文的GitHub仓库：https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE。
2024-09-13	AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents	Zhe Su et.al.	2409.09013	null	为了安全和成功地部署，语言模型（LLMs）必须同时满足真实性和实用性目标。然而，这两个目标往往在冲突中，例如AI助手帮助二手车销售员销售有瑕疵的汽车。这种冲突部分归因于模糊或误导性的用户指令。我们提出了一种名为AI-LieDar的框架，以研究在多轮交互设置中，基于LLM的代理如何处理实用性和真实性的冲突。我们设计了一系列现实场景，其中语言代理被指示实现与多轮对话中的真实性冲突的目标。为了大规模评估真实性，我们开发了一个基于心理学文献的可信度检测器，用于评估代理的回答。我们的实验表明，所有模型的真实回答比例不到50%，尽管达到目标（实用性）和真实性的比例在不同模型中有所差异。我们进一步测试了LLM的可引导性，发现模型会遵循恶意指令来欺骗，即使经过引导使其趋向真实的模型也仍然可能说谎。这些发现揭示了LLM中真实性的复杂性，并强调了确保LLM和AI代理的安全可靠部署需要进一步研究的重要性。
2024-09-13	Safeguarding Decentralized Social Media: LLM Agents for Automating Community Rule Compliance	Lucio La Cava et.al.	2409.08963	null	确保内容遵守社区准则对于维护健康的在线社交环境至关重要。然而，传统基于人工的合规检查在处理用户生成内容的日益增加量以及有限的管理员数量时，面临着难以扩展的问题。大型语言模型在自然语言理解方面的新进展为自动内容合规验证提供了新的机遇。本工作评估了六个基于Open-LLMs构建的AI代理，用于去中心化社交网络中的自动化规则遵循检查，在这种具有挑战性的环境中，由于社区范围和规则的异质性，这一任务尤为困难。通过分析来自数百个Mastodon服务器的超过50,000条帖子，我们发现AI代理能够有效地检测不合规的内容、理解语言的细微差别，并适应多样的社区上下文。大多数代理还表现出高度的一致性和一致性评分解释与合规建议。基于领域专家的人类评估确认了代理的可靠性和实用性，表明它们是半自动化或人机协作内容管理系统的有前景的工具。
2024-09-13	Fusing Dynamics Equation: A Social Opinions Prediction Algorithm with LLM-based Agents	Junchi Yao et.al.	2409.08717	null	在社交媒体日益成为社会运动形成公众意见的重要平台的背景下，准确模拟和预测用户意见动态对于理解社会现象、政策制定以及引导公众意见至关重要。然而，现有的模拟方法在捕捉用户行为的复杂性和动态性方面面临着挑战。针对这一问题，本文提出了一种创新的社交媒体用户意见动态模拟方法——FDE-LLM算法，该算法结合了意见动态与流行病模型，有效约束了大型语言模型（LLM）的行为和意见演化过程，使其更加符合现实网络世界。特别地，FDE-LLM将用户分为意见领袖和跟随者两大类。意见领袖基于LLM角色扮演，并受细胞自动机（CA）模型约束，而意见跟随者则融入了一个结合CA模型与SIR模型的动态系统。这种创新设计显著提高了模拟的准确性和效率。实验在四个真实微博数据集上进行，并使用开源模型ChatGLM进行了验证。结果表明，相较于传统基于代理的模型（ABM）意见动态算法和基于LLM的意见传播算法，我们的FDE-LLM算法在准确性与可解释性方面表现更优。
2024-09-10	MAGDA: Multi-agent guideline-driven diagnostic assistance	David Bani-Harouni et.al.	2409.06351	null	在紧急护理部门、偏远医院或发展中国家的诊所中，临床医生经常缺乏由训练有素的放射科医生快速分析影像的能力，这会对病人的健康护理产生不利影响。大型语言模型（LLMs）有可能通过提供有助于他们决策的见解来缓解这些临床医生的压力。尽管这些LLM在展示其理论医学知识的医学考试上取得了高分，但它们往往不遵循医学指南。为此项工作，我们引入了一种新的零样本指南驱动决策支持方法。我们构建了一个由多个LLM代理组成的系统，这些代理配备了对比视觉-语言模型，以协作方式达成患者诊断。在向这些代理提供简单的诊断指南后，它们会合成提示并根据这些指南筛选图像以寻找发现。最后，它们提供一个可理解的推理链路来解释其诊断结果，并自我精炼以考虑疾病之间的相互依赖性。由于我们的方法是零样本的，因此适用于罕见疾病场景，在这些场景中训练数据有限，但专家设计的疾病描述可用。我们在两个胸部X射线数据集CheXpert和ChestX-ray 14 Longtail上评估了我们的方法，展示了与现有零样本方法相比的性能提升，并且能够应用于罕见疾病的泛化。
2024-09-08	A Pair Programming Framework for Code Generation via Multi-Plan Exploration and Feedback-Driven Refinement	Huan Zhang et.al.	2409.05001	link	在代码生成领域，大型语言模型（LLM）展现出了令人瞩目的性能。尽管先前的研究通过提示技术及代码精炼对LLM进行了增强，但它们在处理复杂编程问题时仍面临挑战，因为这些问题往往具有僵化的解决方案计划。本文提出了一种名为PairCoder的新型LLM基框架，旨在模仿双人协作编程实践，以解决这一问题。 PairCoder由两个协作的LLM代理组成：导航员（Navigator）和驾驶员（Driver）。导航员负责提出有前景的解决方案计划、选择当前最佳计划，并根据执行反馈指导下一轮迭代。驾驶员则遵循导航员的指引，进行初始代码生成、代码测试和优化。这种交替和迭代的工作流程包括多计划探索和基于反馈的细化，模拟了双人程序员的合作方式。我们使用开源和闭源的LLM，在多种代码生成基准上对PairCoder进行了评估。实验结果表明，PairCoder在准确性方面显著优于直接使用提示的LLM，相对pass@1提高了12.00%-162.43%。
2024-09-06	Sparse Rewards Can Self-Train Dialogue Agents	Barrett Martin Lattimer et.al.	2409.04617	link	本文探讨了在多轮对话任务中，大型语言模型（LLM）代理的最新进展主要由监督微调和高质量的人类反馈驱动。然而，随着基础LLM模型性能的持续提升，获取有意义的人类反馈变得越来越困难且成本高昂。在某些领域中，基础LLM可能最终超越人类能力，使得传统的基于反馈的方法变得不切实际。因此，本文提出了一种新的自我改进范式，允许LLM代理在没有外部人类反馈的情况下自主提高其性能。我们引入了一种名为“对比结果为模拟收获”（JOSH）的自我对齐算法，该算法利用稀疏奖励模拟环境来提取理想行为，并进一步训练LLM以自身输出进行训练。我们从MultiWOZ中构建了一个用于工具调用的稀疏奖励仿真环境，称为ToolWOZ。实验结果显示，使用JOSH训练的模型（无论是小型还是前沿模型），在基于工具的交互上显著提高了表现，同时保持了在各种基准测试中的广泛模型能力。我们的代码和数据已在GitHub上公开提供。
2024-09-06	LLM-based multi-agent poetry generation in non-cooperative environments	Ran Zhang et.al.	2409.03659	link	尽管大型语言模型在自动诗歌生成方面取得了显著进步，但生成的诗歌缺乏多样性，而训练过程与人类学习大相径庭。基于这样的理念，即诗歌生成系统的学习过程应更加人性化，并且其输出更加多样和新颖，我们引入了一种基于社会学习的框架，在此框架中，我们强调除了合作互动之外的非合作互动，以鼓励多样性。我们的实验是首次尝试在非合作环境中利用基于训练的代理（GPT-2）和基于提示的代理（GPT-3和GPT-4）进行诗歌生成的大型语言模型多代理系统。根据对生成的96,000首诗的评估，我们的框架对基于训练的代理的诗歌生成过程带来了好处，导致n-gram多样性增加了3.0-3.7个百分点，新颖性增加了5.6-11.3个百分点。基于训练的代理生成的诗歌在词汇、风格和语义上表现出群体分化。在我们的框架中，基于提示的代理也从非合作环境中受益，并且具有非同质代理的更多样化的模型集合有可能进一步提高多样性，我们的实验结果显示多样性增加了7.0-17.5个百分点。然而，基于提示的代理显示出随着时间推移，词汇多样性减少，并且没有表现出预期的群体分化意图的社会网络。我们的论文主张，在自动诗歌生成等创意任务中，需要将社会学习过程（通过基于大型语言模型的代理建模）纳入考虑范围，以模仿人类的交互方式。
2024-09-05	Rx Strategist: Prescription Verification using LLM Agents System	Phuc Phan Van et.al.	2409.03440	null	为了保障患者安全，现代药物复杂性要求严格处方验证。我们提出了一种新的方法——Rx Strategist，它利用知识图谱和不同的搜索策略，结合代理框架中的大型语言模型（LLMs），以增强其能力。这种多维度的技术允许构建一个多阶段的LLM管道，并从自定义活性成分数据库中可靠地检索信息。该管道覆盖了处方验证的不同方面，如适应症、剂量和可能的药物相互作用，每个阶段都包含了这些方面的内容。通过在这些阶段分散推理，我们缓解了单一LLM技术的缺点，提高了正确性和可靠性，同时减少了内存需求。我们的研究结果表明，Rx Strategist超越了许多当前的LLMs，其性能与经验丰富的临床药师相当。在现代药物的复杂世界中，将LLMs与组织化知识和高级搜索方法相结合，提供了一条减少处方错误并提高患者结果的可行途径。
2024-09-05	GraphInsight: Unlocking Insights in Large Language Models for Graph Structure Understanding	Yukun Cao et.al.	2409.03258	null	虽然大型语言模型（LLMs）在处理图方面展现出潜力，但在通过描述序列的图说明来理解图形结构信息时，尤其是在图的大小增加时，它们遇到了挑战。我们归因于LLMs在图描述序列的不同位置上存在不均匀的记忆性能，即所谓的“位置偏见”。为了应对这一挑战，我们提出了GraphInsight，一个旨在提高LLMs对宏观和微观图形信息理解的新框架。GraphInsight基于两个关键策略：1）将关键图形信息放置在LLMs表现出更强记忆性能的位置；2）对于记忆性能较弱的区域，探索使用轻量级外部知识库，灵感来自于检索增强生成（RAG）。此外，GraphInsight还探索了将这两种策略集成到LLM代理流程中，以解决需要多步推理的复合图任务。广泛的基准实验表明，在不同大小的图形结构理解任务上，GraphInsight显著超越了所有其他图描述方法（例如提示技术、重新排序策略等）。
2024-09-04	Large Language Model-Based Agents for Software Engineering: A Survey	Junwei Liu et.al.	2409.02977	link	本文提供了一篇全面且系统的关于大型语言模型（LLM）在软件工程（SE）中的应用的综述。我们收集了106篇论文，并从两个角度进行分类，即软件工程视角和代理视角。此外，我们还讨论了该领域面临的关键挑战以及未来的发展方向。此综述的仓库地址为：https://github.com/FudanSELab/Agent4SE-Paper-List。
2024-09-02	Evolution of Social Norms in LLM Agents using Natural Language	Ilya Horiguchi et.al.	2409.00993	null	大型语言模型（LLM）的最新进展激发了利用这些模型进行游戏理论模拟的兴趣，在这些模拟中，LLM充当个体代理，进行社会互动。本文研究了通过自然语言对话使LLM代理自发生成并遵守规范策略的可能性，以此为基础，探索了对Axelrod的元规范游戏工作的进一步发展。我们的实验表明，通过对话，LLM代理能够仅通过自然语言交互形成复杂的社交规范，如元规范——规范惩罚不惩罚作弊行为的规范。结果证实了使用LLM代理模拟社会互动和理解通过自然语言演化出复杂策略与规范的有效性。未来的工作可能通过扩展到更广泛的场景和代理特征，揭示更多关于社会规范形成的微妙机制。
2024-09-02	Co-Learning: Code Learning for Multi-Agent Reinforcement Collaborative Framework with Conversational Natural Language Interfaces	Jiapeng Yu et.al.	2409.00985	link	基于大型语言模型的在线问答系统从娱乐用途逐渐转向专业领域应用。本文提出了一种名为“代码学习（Co-Learning）社区”的多代理框架，结合环境强化学习（E-RL），旨在帮助初学者独立修正代码错误。该系统通过一个包含702个错误代码的原始数据集评估了多个大型语言模型的表现，并将其作为E-RL奖励或惩罚的标准。通过分析当前代理输入的错误代码，选择合适的基于大型语言模型的代理以实现最佳的错误修正准确率并减少修正时间。实验结果表明，与无E-RL方法相比，该方法在精确度得分上提高了3%，在时间成本上降低了15%。我们的源代码可访问：https://github.com/yuqian2003/Co_Learning
2024-08-29	HoneyComb: A Flexible LLM-Based Agent System for Materials Science	Huan Zhang et.al.	2409.00135	null	为了应对材料科学任务中的复杂性并解决大型语言模型（LLM）在这一领域应用时所面临的问题，如依赖过时的隐性知识导致的准确性下降和幻觉现象，我们提出了HoneyComb——首个专门针对材料科学领域的LLM代理系统。HoneyComb通过利用一个基于可靠文献的高质量材料科学知识库（MatSciKB）和一种创新的工具集（ToolHub），增强其针对材料科学特有的推理与计算能力。 MatSciKB是一个经过精心编纂、结构化的知识集合，旨在涵盖材料科学领域的关键信息。而ToolHub则采用了一种归纳式工具构建方法，用于生成、分解和优化适用于材料科学的API工具，从而极大地提高了系统的实用性。此外，HoneyComb还配备了一个检索模块，该模块能够根据特定任务智能选择最合适的知识来源或工具，确保了答案的准确性和相关性。实验结果表明，HoneyComb在材料科学领域的各种任务上均表现出显著优于基线模型的能力，成功地弥合了当前LLM技术与材料科学特定需求之间的差距。更为重要的是，我们的可扩展框架易于扩展至其他科学领域，展示了其在推动科学研究和应用发展方面具有广泛的应用潜力。
2024-08-30	Tool-Assisted Agent on SQL Inspection and Refinement in Real-World Scenarios	Zhongyuan Wang et.al.	2408.16991	null	本文提出了一种基于工具辅助的代理框架，用于SQL检查和改进，旨在提升大型语言模型（LLM）处理现实世界查询的能力。该框架通过为LLM代理配备两个专门工具——检索器和检测器，以诊断并修正SQL查询中的数据库不匹配问题。这些工具能够增强LLM处理真实场景中出现的条件不匹配和严格约束不匹配等数据库不匹配问题的能力。我们还引入了Spider-Mismatch，这是一个专门为反映现实世界中遇到的条件不匹配问题而构建的新数据集。实验结果表明，在少量示例设置下，我们的方法在Spider和Spider-Realistic数据集上的平均表现最佳，并且显著优于基线方法，在更具有现实性的数据集Spider-Mismatch上也表现出更好的性能。
2024-08-28	EPO: Hierarchical LLM Agents with Environment Preference Optimization	Qi Zhao et.al.	2408.16090	link	本文提出了一种分层框架，用于解决复杂任务分解为可管理子目标的问题。框架使用了独立的语言模型进行子目标预测和低级动作生成。针对无标注数据集的训练信号创建挑战，我们开发了一个奖励模型，利用环境多模态反馈自动生成奖励信号。我们引入了环境偏好优化（EPO）方法，该方法从环境反馈中生成偏好信号，并利用这些信号训练基于语言模型的代理。ALFRED实验结果表明，我们的框架在性能上处于领先地位，首次登上了ALFRED公开排行榜，并展示了其在不同环境中的长期决策制定能力的提升潜力。
2024-09-05	LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models	Jiayi Gui et.al.	2408.15778	link	本文介绍了一个名为LogicGame的新基准，旨在评估大型语言模型（LLMs）在规则理解和执行、多步规划方面的全面能力。不同于传统的基准测试，LogicGame提供了多种游戏，其中包含一系列规则以及初始状态，要求模型理解并应用预定义规则来解决问题。我们创建了模拟情景，让模型执行或规划操作以达到特定目标。这些游戏场景专门设计以区分逻辑推理与仅依赖知识的能力，完全依赖于预设规则。这种分离允许对基于规则的推理能力进行纯粹的评估。评估不仅考虑最终结果，还考虑中间步骤，提供模型性能的全面评估。此外，这些中间步骤是确定性的，并且可以自动验证。LogicGame定义了从简单规则应用到复杂推理链的不同难度级别的游戏场景，以精确评估模型在规则理解和多步执行上的性能。通过使用LogicGame，我们测试了各种LLM，并发现了它们在基于规则的逻辑推理能力方面的显著不足。
2024-08-27	AgentMonitor: A Plug-and-Play Framework for Predictive and Secure Multi-Agent Systems	Chi-Min Chan et.al.	2408.14972	link	快速发展的大型语言模型（LLM）推动了基于LLM的代理兴起。近期研究发现，在多代理系统（MAS）中，每个代理执行特定角色时，其性能通常优于单一LLM。然而，配置MAS以完成任务仍然具有挑战性，因为任务表现仅在执行后才能观察到。受到LLM开发中的规模法则启发，我们探索是否能在任务执行前预测MAS的性能。为此，我们引入了AgentMonitor框架，该框架在代理层级集成，用于捕获输入和输出信息，并将这些信息转换为统计数据，用于训练回归模型预测任务性能。此外，AgentMonitor还能够实时对可能由恶意代理引发的安全风险进行纠正，从而减轻负面影响并增强MAS的安全性。实验结果表明，使用XGBoost模型在领域内场景下达到0.89的斯皮尔曼相关系数，在更具挑战性的场景下达到0.58。通过应用AgentMonitor，有害内容减少了6.2%，有益内容平均增加了1.8%，这显著提高了安全性和可靠性。相关的代码已开源在https://github.com/chanchimin/AgentMonitor。
2024-08-26	LLM-3D Print: Large Language Models To Monitor and Control 3D Printing	Yayati Jadhav et.al.	2408.14307	null	行业4.0通过推动数字化进程并转向增材制造（AM），彻底改变了制造业。熔融沉积建模（FDM）作为关键的AM技术之一，通过逐层挤出方式创建高度定制、成本效益高且材料浪费极小的产品，对传统减材方法构成了重大挑战。然而，材料挤出技术的易错性往往需要专家介入来检测和缓解可能严重损害产品质量的缺陷。虽然已存在自动化错误检测和机器学习模型，但它们在不同3D打印机设置、固件和传感器之间的通用性有限，并且深度学习方法需要大量的标记数据集，这限制了其规模性和适应性。为了解决这些挑战，我们提出了一种利用大型语言模型（LLMs）与3D打印技术相结合的过程监控和控制框架，旨在检测和解决打印缺陷。该LLM通过分析每层或打印段之后捕获的图像来评估打印质量，识别故障模式，并向打印机查询相关参数。然后，它生成并执行纠正措施计划。我们通过将提出的框架的有效性与一组具有不同AM专业知识的工程师进行了比较，以验证识别缺陷的能力。我们的评估表明，基于LLM的代理不仅准确识别常见的3D打印错误，如不一致的挤出、丝状堆积、翘曲和层粘合问题，而且还能有效确定导致这些失败的参数，并自主地进行修正，无需任何人工干预。
2024-09-02	MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents	Ruochen Li et.al.	2408.14033	link	机器学习研究对于技术进步和创新至关重要，但常常面临复杂性高、实验周期长以及需要专业知识等挑战。为了应对这些挑战，我们提出了一种新的系统框架——自主机器学习研究与大型语言模型（MLR-Copilot），旨在通过利用大型语言模型（LLM）代理自动生成并实施研究想法来提高机器学习研究的生产力。该框架包含三个阶段：研究想法生成、实验实现和执行。首先，通过基于LLM的IdeaAgent利用现有研究论文生成假设和实验计划。接下来，在实现生成阶段，将这些计划转化为可执行代码，使用ExperimentAgent完成此过程。此阶段利用检索到的原型代码，并根据需要检索候选模型和数据。最后，在执行阶段，也由ExperimentAgent管理，涉及运行实验，并通过人类反馈和迭代调试机制，以增加实现可执行研究成果的可能性。我们对五个机器学习研究任务进行了评估，实验结果表明了该框架促进研究进展和创新的潜力。
2024-08-26	AgentMove: Predicting Human Mobility Anywhere Using Large Language Model based Agentic Framework	Jie Feng et.al.	2408.13986	link	人类移动性预测在各种实际应用中扮演着关键角色。尽管深度学习模型在过去十年中显示出有希望的结果，但它们对用于训练的大量私人移动数据的依赖以及无法进行零启动预测的能力，阻碍了进一步的发展。最近，有人尝试使用大型语言模型（LLMs）来执行移动性预测任务。然而，他们的性能受限于缺乏系统的设计工作流程。他们直接使用LLMs生成最终输出，这限制了LLMs发现复杂移动模式的潜力，并低估了它们在全球地理空间知识方面的巨大储备。本文提出了一种名为AgentMove的系统性代理预测框架，以实现对任何全球城市的通用移动性预测。在AgentMove中，我们首先将移动性预测任务分解为三个子任务，并设计相应的模块来完成这些子任务，包括个体移动模式挖掘的空间-时间记忆、城市结构效应对模型的影响的全球知识生成器以及捕获人口共享模式的集体知识提取器。最后，我们将三个模块的结果结合起来，并执行推理步骤以生成最终预测。在来自两个来源的12个城市的数据上进行的广泛实验表明，与最佳基线相比，AgentMove在各种指标上的性能提高了超过8%，并且在不同城市中显示出了稳健的预测结果，且使用不同基础的LLM时也能表现出色，且具有较低的地理偏见。代码和数据可以在https://github.com/tsinghua-fib-lab/AgentMove找到。
2024-08-23	Optimizing Collaboration of LLM based Agents for Finite Element Analysis	Chuan Tian et.al.	2408.13406	null	本文探讨了大型语言模型（LLM）在编程和编码任务中的多代理交互。我们利用AutoGen框架促进代理之间的沟通，并基于每种设置的40次随机运行的成功率评估不同的配置。研究重点在于开发一个灵活的自动化框架，用于将有限元方法应用于解决线性弹性问题。我们的发现强调了优化代理角色及其明确职责的重要性，而不仅仅是增加代理数量。代理间的有效协作被证明对于解决有限元方法的一般挑战至关重要。这项研究展示了LLM多代理系统增强计算自动化在模拟方法学中的潜力，为工程和人工智能的未来进展铺平道路。
2024-09-01	Can LLMs Understand Social Norms in Autonomous Driving Games?	Boxuan Wang et.al.	2408.12680	null	本文探讨了大型语言模型（LLM）在理解与模拟自主驾驶游戏中社会规范的应用。通过将LLM集成到自主驾驶游戏中的智能代理角色中，我们基于文本提示让这些代理按照相关环境设定和观察信息做出决策。我们的框架涉及LLM驱动的代理在多代理系统（MAS）中进行马尔科夫游戏，以此研究个体代理之间社会规范的形成。我们设计实验，利用OpenAI聊天API（由GPT-4.0提供动力）在无信号交叉口游戏与高速公路车队游戏两种场景下模拟交互并评估LLM驱动代理的表现。结果显示，LLM驱动的代理能够处理马尔科夫游戏中的动态环境变化，并且在两个场景中，代理间形成了社会规范。在交叉口游戏中，当面临潜在车祸时，LLM驱动的代理倾向于采取保守的驾驶策略。LLM驱动代理在游戏中的优势在于其操作灵活性和可分析性，这有助于实验设计。
2024-08-22	MDD-5k: A New Diagnostic Conversation Dataset for Mental Disorders Synthesized via Neuro-Symbolic LLM Agents	Congchi Yin et.al.	2408.12142	link	在大多数精神疾病诊断中，临床医生与患者的对话是主要的诊断依据。创建这样的诊断对话数据集有望推动AI精神健康护理领域的发展。然而，直接在实际诊断场景中收集对话极为困难，原因在于隐私和伦理考虑的严格限制。为解决这一问题，我们尝试通过利用易于获取的匿名患者案例来合成诊断对话。具体而言，我们设计了一个神经符号多代理框架，使用大型语言模型合成精神障碍的诊断对话。该框架以患者案例作为输入，并能够生成针对单个患者案例的多个多样化的对话，其基本过程涉及医生代理与患者代理之间的互动，并通过工具代理实现基于符号控制的文本生成，借助动态诊断树。通过应用提出的方法，我们开发了包含1000个清洗过的实际患者案例、与一家领先的精神病医院合作构建的中国最大精神障碍诊断数据集MDD-5k，该数据集包含了5000个高质量的长对话及其诊断结果标签。据我们所知，这是第一个包含中文精神障碍诊断结果的标记数据集。人类评估表明，提出的MDD-5k数据集成功模拟了精神障碍的诊断过程。数据集和代码将在https://github.com/lemonsis/MDD-5k公开提供。
2024-08-20	FLAME: Learning to Navigate with Multimodal LLM in Urban Environments	Yunzhe Xu et.al.	2408.11051	link	大型语言模型（LLM）在视觉与语言导航（VLN）任务中展现出了潜在能力，但当前的应用仍面临挑战。虽然LLM在通用对话场景中表现出色，但在专门的导航任务上却表现不佳，相较于专为VLN设计的模型，其性能较差。为此，我们提出了一种名为FLAME（FLAMingo架构化实体代理）的新颖多模态LLM基元体和架构，旨在解决城市VLN任务，并有效处理多个观察结果。我们的方法采用了三阶段调优技术以适应导航任务，包括单感知调整以描述街景、多感知调整以总结轨迹以及在VLN数据集上进行端到端训练。合成的数据集是自动生成的。实验结果显示，FLAME在Touchdown数据集上的任务完成率优于现有方法，提高了7.3%。这项工作展示了多模态LLM在复杂导航任务中的潜力，并代表了迈向实际应用中多模态LLM于实体AI领域的进步。项目页面：https://flame-sjtu.github.io
2024-08-20	Athena: Safe Autonomous Agents with Verbal Contrastive Learning	Tanmana Sadhu et.al.	2408.11021	null	由于新兴能力的加持，大型语言模型（LLMs）被用作基于语言的代理，执行各种任务并作出日益自主的决策。这些自主代理能够理解高级指令、与环境互动，并使用可用工具集执行复杂任务。随着代理能力的扩展，确保其安全性和可信度变得愈发重要。本研究引入了Athena框架，利用了“口头对比学习”的概念，通过将过去的安全和不安全轨迹作为上下文（对比）示例来指导代理在完成给定任务的同时确保安全。该框架还整合了一种批判机制，以指导代理在每一步防止风险行为。此外，鉴于缺乏现有基准来评估基于LLM的代理的安全推理能力，我们收集了80个工具包，覆盖8个类别，共计180个场景，提供了一个安全评估基准。我们的实验评估显示，口头对比学习和交互级批判显著提高了安全性率。
2024-08-24	IDEA:Enhancing the Rule Learning Ability of Language Agents through Induction, Deduction, and Abduction	Kaiyu He et.al.	2408.10455	null	本文提出了一项名为RULEARN的新基准，旨在评估大型语言模型（LLMs）在交互环境中的归纳推理能力。在RULEARN中，代理通过与环境互动收集观察，并从中推断模式，以此解决问题。为了增强LLM代理在该基准上的归纳推理能力，我们引入了IDEA代理，它结合了归纳、演绎和溯因三种推理过程。IDEA代理通过结构化推理序列提升这一方法：首先通过溯因生成假设，然后通过演绎验证这些假设，最后根据反馈进行适应性修正。这种序列使代理能够动态建立并应用规则，模仿人类的推理过程。通过对五种代表性LLM的评估显示，尽管这些模型能够生成合理的初始假设，但在环境内的战略互动、有效整合反馈以及假设的适应性修正方面存在困难。而IDEA代理在RULEARN基准上表现出显著的性能提升，为我们开发能在现实世界场景中实现类似人类规则学习能力的代理提供了宝贵见解。我们将会发布我们的代码和数据。
2024-08-20	MegaAgent: A Practical Framework for Autonomous Cooperation in Large-Scale LLM Agent Systems	Qian Wang et.al.	2408.09955	null	随着大型语言模型（LLM）的兴起，LLM驱动的多智能体系统（LLM-MA系统）被提出以应对实际任务。然而，这些系统的智能体大多遵循在整体交互过程中保持不变的预定义标准操作程序（SOP），缺乏自主性和可扩展性。此外，当前解决方案往往忽视了有效智能体合作的必要性。为了克服上述限制，我们提出了MegaAgent，一个旨在促进大规模LLM智能体系统中自主合作的实用框架。MegaAgent利用智能体的自主性动态生成基于任务需求的智能体，集成了任务自动划分、智能体活动系统级规划与监控以及并发操作管理等功能。此外，MegaAgent采用层次结构设计，并利用系统级并行性来提升性能和增强通信效率。我们通过围棋游戏开发展示了MegaAgent的有效性，证明它在性能上超越了流行的LLM-MA系统；并通过国家政策模拟验证了其高自主性和快速扩展至590个智能体的能力，同时确保了它们之间的有效合作。我们的结果表明，MegaAgent是首个无预定义SOP、高效且具有高可扩展性的大规模LLM-MA系统，为该领域的进一步研究铺平了道路。我们的代码位于https://anonymous.4open.science/r/MegaAgent-81F3。
2024-08-19	GoNoGo: An Efficient LLM-based Multi-Agent System for Streamlining Automotive Software Release Decision-Making	Arsham Gholamzadeh Khoee et.al.	2408.09785	null	在汽车行业中，传统软件部署决策方法通常依赖于对表格化测试数据的手动分析。这些方法往往导致更高的成本和软件发布周期的延迟，主要是由于它们的劳动密集型特性。大型语言模型（LLM）为解决这些问题提供了有前景的解决方案。然而，它们的应用通常需要多轮的人工驱动提示工程，这限制了其在工业最终用户中的实际部署，特别是那些需要可靠和高效结果的用户。本文提出了一种名为GoNoGo的LLM代理系统，旨在简化汽车软件部署过程，同时满足功能要求和工业约束。与以往系统不同，GoNoGo特别针对特定领域和风险敏感系统进行了定制。我们使用来自工业实践的零次和少量次示例来评估GoNoGo在不同任务难度下的性能。结果显示，GoNoGo在难度不超过二级的3次示例任务中实现了100%的成功率，并且即使对于更复杂的任务也能保持高绩效。我们发现，GoNoGo有效地自动化了较简单任务的决策过程，显著减少了手动干预的需求。总之，GoNoGo代表了一个目前在我们的工业合作伙伴公司中被用于协助软件发布决策的高效且用户友好的LLM基解决方案，支持了风险敏感车辆系统发布过程中的更加明智和及时的决策。
2024-08-18	HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model	Mengkang Hu et.al.	2408.09559	link	大型语言模型（LLM）驱动的代理在各个领域展现出巨大潜力，作为能够处理环境观察并生成执行动作以完成目标任务的交互系统。这些代理的有效性很大程度上受到其记忆机制的影响，该机制通过记录历史经验来形成一系列动作-观察对序列。我们将记忆分为两类：跨试记忆，积累于多次尝试中；以及单试记忆（工作记忆），积累于单一尝试内。尽管关于跨试记忆优化的研究已取得显著进展，但如何通过提升工作记忆利用效率来增强代理性能的探索仍相对不足。现有方法往往直接将整个历史动作-观察对输入到LLM中，导致在长期任务中存在冗余问题。受人类解决问题策略的启发，本文提出了一种名为HiAgent的框架，旨在通过将子目标作为记忆块来对LLM驱动的代理的工作记忆进行层次化管理。具体来说，HiAgent促使LLM在生成执行动作前先制定子目标，并允许LLM主动决定替换之前的子目标，仅保留与当前子目标相关的动作-观察对。在五个长期任务上的实验结果表明，HiAgent的成功率提高了两倍，平均步骤数减少了3.8个。此外，我们的分析显示，HiAgent在整个步骤中均能持续改善性能，这凸显了其稳健性和泛用性。项目页面：https://github.com/HiAgent2024/HiAgent
2024-08-15	EmBARDiment: an Embodied AI Agent for Productivity in XR	Riccardo Bovo et.al.	2408.08158	null	XR设备搭载由大型语言模型（LLMs）驱动的聊天机器人具有巨大的潜力，可以作为始终在线的代理，从而实现更高效的工作流程。然而，基于屏幕的聊天机器人并未充分利用XR所提供的全面自然输入，包括内部面向的传感器数据，而是过度依赖明确的声音或文本提示，有时还会与作为查询的一部分投射的多模态数据配对。我们提出了一种解决方案，利用注意力框架从用户行为、注视点和XR环境中的上下文记忆中隐式地推导出背景信息，从而最小化对工程化明确提示的需求，促进基于现实世界且直观的交互，这些交互能够洞察用户的见解并为聊天机器人提供信息。我们的用户研究展示了我们方法的可行性和在XR中与聊天机器人进行交互的潜在变革性，同时也为未来XR-实体LLM代理的设计提供了见解。
2024-08-15	Text2BIM: Generating Building Models Using a Large Language Model-based Multi-Agent Framework	Changyu Du et.al.	2408.08054	null	传统的建筑信息模型（BIM）创建过程通常要求设计师掌握复杂且繁琐的建模命令，以在BIM创建工具中实现其设计意图。这种额外的认知负担使设计过程变得复杂，并阻碍了建筑、工程和施工（AEC）行业对BIM和基于模型的设计的采用。为了更直观地表达设计意图，我们提出了一种基于大型语言模型（LLM）的多代理框架——Text2BIM。该框架能够从自然语言指令生成3D建筑模型。它通过协调多个LLM代理协作并推理，将文本用户输入转换为调用BIM创建工具API的指令代码，从而在软件中生成具有内部布局、外部外壳和语义信息的可编辑BIM模型。此外，引入了一种基于规则的模型检查器，利用预定义的领域知识指导LLM代理解决生成模型中的问题，并迭代改进模型质量。进行了大量实验来比较和分析在提议框架下三种不同LLM的表现。评估结果表明，我们的方法能够有效地生成高质量、结构合理且与用户输入指定的抽象概念相一致的建筑模型。最后，开发了一个交互式软件原型，将该框架集成到BIM创建软件Vectorworks中，展示了通过聊天进行建模的潜力。
2024-08-13	Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents	Pranav Putta et.al.	2408.07199	null	大型语言模型（LLM）在需要复杂推理的自然语言任务上展现了惊人的能力，但在交互环境中进行自主代理的多步骤推理应用仍然是一个挑战。传统的基于静态数据集的监督预训练不足以使自主代理具备在动态设置如网络导航中执行复杂决策所需的自主能力。以往通过监督微调来填补这一差距的方法往往面临累积错误和探索数据有限的问题，导致政策结果不佳。为了克服这些挑战，我们提出了一种框架，结合了引导式蒙特卡洛树搜索（MCTS）搜索与自我批判机制，并使用离策略变体的直接偏好优化（DPO）算法对代理互动进行迭代微调。这种方法允许LLM代理从成功和失败的轨迹中有效学习，从而在复杂、多步骤推理任务中提高其泛化能力。我们在WebShop环境（一个模拟电子商务平台）中验证了我们的方法，该环境在与行为克隆和强化微调基线相比时表现出色，并在配备在线搜索能力的情况下击败了平均人类性能。在实际预订场景中，我们的方法提高了Llama-3 70B模型的零射成功率从18.6%增加到81.7%（相对增加了340%），并在一天的数据收集后进一步增加到95.4%，并且通过在线搜索。我们认为这标志着自主代理能力的一个重大进步，在现实世界环境中实现更高级和可靠决策的道路。
2024-08-13	Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents	Kexun Zhang et.al.	2408.07060	null	大型语言模型（LLM）代理在解决实际世界软件工程（SWE）问题方面展现出巨大的潜力。最先进开源的SWE代理能够解决SWE-Bench Lite中超过27%的实际GitHub问题。然而，这些复杂的代理框架在表现上存在差异，有的在特定任务中表现出色，在其他任务中则表现不佳。为了充分利用这些代理的多样性，我们提出了DEI（多元化智能），一个旨在利用其独特专长的框架。DEI作为现有SWE代理框架之上的元模块，管理代理集体以实现增强的问题解决能力。实验结果显示，通过DEI指导的代理委员会能够显著超越单个代理的最佳性能。例如，一组开源SWE代理，其最高个体解决率在SWE-Bench Lite中为27.3%，在应用了DEI后，能够达到34.3%的解决率，实现了25%的改进，并击败了许多闭源解决方案。我们的最佳表现团队以55%的解决率在SWE-Bench Lite中取得最高排名。我们的研究结果对合作AI系统的研究领域做出了贡献，揭示了它们在解决复杂软件工程挑战方面的潜力。
2024-08-12	Hierarchical in-Context Reinforcement Learning with Hindsight Modular Reflections for Planning	Chuanneng Sun et.al.	2408.06520	null	大型语言模型（LLM）在各种语言任务上表现出惊人的能力，这使它们成为机器人决策的有希望候选者。受到层次强化学习（HRL）的启发，我们提出了一种新颖框架——在上下文中进行层次化的强化学习（HCRL）。该框架通过LLM基高层策略分解复杂任务，即通过在执行时动态分解复杂任务为子任务，从而利用高阶策略来定义目标，这些目标由子任务组成，并分配给低阶策略以完成。一旦LLM代理确定目标已完成，则会提出新的目标。为了提高多轮执行中的代理性能，我们提出了事后模块化反思（HMR），其中，代理不是对完整轨迹进行反思，而是将任务目标替换为中间目标，并让代理对较短的轨迹进行反思，以提高反思效率。我们在三个基准环境中评估了所提出的HCRL的决策能力——ALFWorld、Webshop和HotpotQA。结果表明，与强大的上下文学习基线相比，在五轮执行中，HCRL可实现9%、42%和10%的性能提升。
2024-08-12	Can We Rely on LLM Agents to Draft Long-Horizon Plans? Let's Take TravelPlanner as an Example	Yanan Chen et.al.	2408.06318	null	本文旨在填补大型语言模型（LLM）在自主代理与人工通用智能（AGI）接近过程中研究的空白。尽管LLM展现出出色的泛化能力和涌现能力，但目前缺乏对LLM驱动的代理行为、潜在失败原因以及如何提升其性能的研究，尤其是在具有挑战性的现实世界规划任务中的表现。为了填补这一缺口，我们利用了一个名为TravelPlanner的真实基准，其中的代理必须满足多个约束以生成准确的计划。通过TravelPlanner基准，我们针对四个关键研究问题进行了全面的实验：（1）LLM代理在处理长篇和嘈杂上下文时，对于推理和规划的鲁棒性是否足够？（2）少量提示是否会损害LLM代理在长上下文场景下的性能？（3）我们能否依赖细化来改进计划？（4）对LLM进行正负反馈结合的微调是否能带来进一步的提升？实验结果表明：首先，尽管LLM能够处理大量的参考信息和少量示例，它们在关注长上下文中关键部分的能力上仍然存在不足；其次，它们在分析长计划方面仍面临挑战，并且无法提供准确的反馈用于细化；第三，我们提出了Feedback-Aware Fine-Tuning（FAFT），一种利用正负反馈相结合的方法，相较于纯监督微调（SFT），FAFT在性能上取得了显著提升。我们的发现为社区提供了关于现实世界规划应用方面的深入见解。
2024-08-13	DataNarrative: Automated Data-Driven Storytelling with Visualizations and Texts	Mohammed Saidul Islam et.al.	2408.05346	link	数据驱动的故事叙述是一种强大的方法，通过结合叙事技巧与可视化和文本，来传达见解。这些故事融合了图表中的突出条形和线条以及解释见解的文本注释。然而，创建这样的故事需要对数据有深入的理解，并且需要精心的叙事规划，通常需要人类的介入，这既耗时又费心。虽然大型语言模型（LLMs）在各种NLP任务上表现出色，但在生成连贯和全面的数据故事方面的潜力仍然未被充分探索。为此，我们引入了一个新的任务——数据故事生成，并提供了一个包含来自不同来源的1,449个故事的基准。为了应对创造连贯数据故事的挑战，我们提出了一种多代理框架，利用两个LLM代理来模仿人类讲故事的过程：一个用于理解并描述数据、生成大纲和叙述，另一个则在每个中间步骤进行验证。尽管我们的代理框架在基于模型和人类评估中通常优于非代理对手，但结果也揭示了数据故事生成的独特挑战。
2024-08-08	Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions	Qingbin Zeng et.al.	2408.04168	link	本文探讨了城市导航场景下的AI代理问题：提供目标位置与知名地标之间的语言描述；仅通过观察周围环境，包括识别地标和道路网络连接，代理需要作出决策以无指示地导航至目标位置。这一挑战性在于，它要求代理建立自身定位并获取复杂城市环境的空间表示，而地标往往不可见。在缺乏导航指令的情况下，这种能力对于代理在长距离城市导航中做出高质量决策至关重要。随着大型语言模型（LLMs）推理能力的涌现，一个吸引人的基础方法是提示LLMs对每次观察做出“反应”并据此作出决策。然而，这种方法的性能非常差，代理经常反复访问相同位置，并作出短视、不一致的决策。为解决这些问题，本文引入了一种新型的代理工作流程，其特征在于感知、反思和规划的能力。具体而言，我们发现经过微调的LLaVA-7B能够准确感知地标的方向和距离，适用于城市导航。此外，通过记忆机制实现反思，即存储过往经验并在当前感知下检索，以进行有效的决策论证。规划则利用反思结果生成长期计划，从而避免长距离导航中的短视决策。实验结果显示，设计的工作流程显著提高了LLM代理的导航能力，相较于最先进的基线方法。
2024-08-11	CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases	Xiangyan Liu et.al.	2408.03910	link	大型语言模型（LLM）在诸如HumanEval和MBPP的独立代码任务中表现出色，但它们在处理整个代码仓库时存在挑战。这促使研究界探索如何在仓库级别上增强LLM与代码库的交互。目前的解决方案依赖于基于相似性的检索或手动工具和API，每种方法都有其显著的缺点。基于相似性的检索在复杂任务中召回率往往较低，而手动工具和API通常针对特定任务，需要专家知识，降低了它们在不同代码任务和实际应用中的通用性。为了缓解这些限制，我们引入了CodexGraph系统，它结合了从代码仓库中提取的图数据库接口与LLM代理。通过利用图数据库的结构特性和图查询语言的灵活性，CodexGraph使LLM代理能够构建并执行查询，从而实现精确的、代码结构意识的上下文检索和代码导航。我们使用三个基准测试CodexGraph：CrossCodeEval、SWE-bench和EvoCodeBench。此外，我们开发了五个真实世界的编码应用。通过使用统一的图数据库模式，CodexGraph在学术和实际环境中都展示了竞争力和潜力，证明了其在软件工程领域的多用途性和有效性。我们的应用演示：https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent。
2024-08-07	Large Language Models for Base Station Siting: Intelligent Deployment based on Prompt or Agent	Yanhu Wang et.al.	2408.03631	null	传统的基站选址（BSS）方法主要依赖于驾驶测试和用户反馈，这既费时又需要在通信、网络和优化方面具备专业知识的专家。随着大型语言模型（LLMs）及其相关技术的发展，特别是在提示工程和代理工程领域，网络优化将见证一场革命性的转变。这种转变涉及巧妙地使用精心设计的提示来向这些复杂而先进的LLMs注入人类经验和知识，并通过自然语言连接到人类用户，部署自主代理作为通信桥梁。这种集成代表了人工智能（AI）作为一种服务和AI使生活更便捷的未来范式。作为初步探索，本研究首先开发了一个由LLM驱动的BSS优化框架，并提出了四种潜在的实现策略：基于优化提示的LLM（PoL）、人机交互的LLM（HiLL）、LLM驱动的自主BSS代理（LaBa）以及协同多个LLM驱动的自主BSS代理（CLaBa）。通过在真实数据上的评估，实验表明，借助提示的LLM和基于代理的LLM能够生成更为高效、成本效益高且可靠的网络部署，显著提高了BSS优化的效率并减少了不必要的手动参与。
2024-08-05	Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information	Yauwai Yim et.al.	2408.02559	null	Large language models (LLMs) have shown success in handling simple games with imperfect information and enabling multi-agent coordination, but their ability to facilitate practical collaboration against other agents in complex, imperfect information environments, especially in a non-English environment, still needs to be explored. This study investigates the applicability of knowledge acquired by open-source and API-based LLMs to sophisticated text-based games requiring agent collaboration under imperfect information, comparing their performance to established baselines using other types of agents. We propose a Theory of Mind (ToM) planning technique that allows LLM agents to adapt their strategy against various adversaries using only game rules, current state, and historical context as input. An external tool was incorporated to mitigate the challenge of dynamic and extensive action spaces in this card game. Our results show that although a performance gap exists between current LLMs and state-of-the-art reinforcement learning (RL) models, LLMs demonstrate ToM capabilities in this game setting. It consistently improves their performance against opposing agents, suggesting their ability to understand the actions of allies and adversaries and establish collaboration with allies. To encourage further research and understanding, we have made our codebase openly accessible.
2024-08-05	From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future	Haolin Jin et.al.	2408.02479	null	With the rise of large language models (LLMs), researchers are increasingly exploring their applications in var ious vertical domains, such as software engineering. LLMs have achieved remarkable success in areas including code generation and vulnerability detection. However, they also exhibit numerous limitations and shortcomings. LLM-based agents, a novel tech nology with the potential for Artificial General Intelligence (AGI), combine LLMs as the core for decision-making and action-taking, addressing some of the inherent limitations of LLMs such as lack of autonomy and self-improvement. Despite numerous studies and surveys exploring the possibility of using LLMs in software engineering, it lacks a clear distinction between LLMs and LLM based agents. It is still in its early stage for a unified standard and benchmarking to qualify an LLM solution as an LLM-based agent in its domain. In this survey, we broadly investigate the current practice and solutions for LLMs and LLM-based agents for software engineering. In particular we summarise six key topics: requirement engineering, code generation, autonomous decision-making, software design, test generation, and software maintenance. We review and differentiate the work of LLMs and LLM-based agents from these six topics, examining their differences and similarities in tasks, benchmarks, and evaluation metrics. Finally, we discuss the models and benchmarks used, providing a comprehensive analysis of their applications and effectiveness in software engineering. We anticipate this work will shed some lights on pushing the boundaries of LLM-based agents in software engineering for future research.
2024-08-07	SpecRover: Code Intent Extraction via LLMs	Haifeng Ruan et.al.	2408.02232	null	本文探讨了在大型语言模型（LLM）与程序分析能力结合的形式下，通过LLM代理自动执行程序改进和错误修复的高效低耗工作流程。由于程序改进或修复通常需要明确期望的行为规范，因此规范推断对于产生高质量的代码补丁至关重要。本研究旨在通过在软件项目中进行迭代代码搜索并配合规范推断来探索这一领域，从而从项目的结构和行为中推断出意图。捕获的意图将由审查者代理进行审查，以验证补丁的有效性，并提供对验证后补丁信心度量。我们的方法“SpecRover”（AutoCodeRover-v2）建立在开源的LLM代理AutoCodeRover之上。在使用SWE-Bench完整集评估时，即针对2294个GitHub问题，我们的方法显示了相对于AutoCodeRover超过50%的效率提升。与现有的开源代理相比，我们的工作在解决SWE-Bench lite中的平均GitHub问题时，成本仅为0.65美元。SpecRover生成的解释能够为开发者提供更明确的信号，表明建议的补丁可以被有信心地接受。此外，我们的工作还强调了即使在LLM时代，自动化程序修复技术中规范推断的重要性。
2024-08-03	The Drama Machine: Simulating Character Development with LLM Agents	Liam Magee et.al.	2408.01725	null	这篇论文探讨了使用多个大型语言模型（LLM）代理来模拟复杂动态角色在戏剧性场景中的应用。我们提出了一种“戏剧机器”框架，该框架协调了扮演不同“自我”和“超我”心理角色的LLM代理之间的互动。在角色扮演模拟中，这种设计允许在相互作用的对话和个体内部独白之间发展平行的交互。我们将此框架应用于两个戏剧场景——面试和侦探故事，并比较了在有无“超我”影响下角色发展的差异。尽管是初步研究，但结果表明，这种方法能够产生更加细腻、适应性强的故事，这些故事随着一系列对话回合的发展而演变。我们讨论了基于LLM的角色扮演的不同方式以及这可能对AI主体性的概念化意味着什么。论文最后考虑了这一方法如何为思考AI模拟中内在冲突和社会表演性的作用提供了可能性。
2024-08-03	WaitGPT: Monitoring and Steering Conversational LLM Agent in Data Analysis with On-the-Fly Code Visualization	Liwenhan Xie et.al.	2408.01703	null	大型语言模型（LLM）通过对话式用户界面支持数据分析，以OpenAI的ChatGPT（原名Advanced Data Analysis或Code Interpreter）为代表。本质上，LLM生成代码以完成各种分析任务。然而，直接呈现原始代码可能会使逻辑变得模糊，并妨碍用户验证。为了赋予用户对由LLM执行的数据分析进行增强理解与控制的能力，我们提出了一种新颖的方法来将LLM生成的代码转换为实时交互式的可视化表示。在该方法中，用户可以实时获得清晰、分步的LLM代码可视化，允许他们理解、验证并修改分析中的每个数据操作。我们的设计决策基于一项探索用户实践与挑战的形成性研究（N=8）。此外，我们开发了名为WaitGPT的原型，并进行了一项用户研究（N=12），以评估其可用性和有效性。用户研究的结果表明，WaitGPT有助于监控和引导由LLM执行的数据分析，使参与者能够提高错误检测能力并增加对结果的整体信心。
2024-08-03	Automated Phishing Detection Using URLs and Webpages	Huilin Wang et.al.	2408.01667	null	### 摘要本文项目聚焦于通过构建利用大型语言模型（LLM）的代理框架，以解决传统基于参考的钓鱼检测方法所面临的局限性。该框架通过主动获取和利用在线信息，提供了一个动态的参考系统，从而实现更精确的钓鱼检测。这一创新避免了依赖静态知识库的需求，显著提升了自动化安全措施的适应性和效率。 ### 项目概述项目报告首先对现有解决方案进行了初步研究和问题分析，促使我们开发出新的框架。我们以模拟的LLM代理来展示框架，并详细阐述了构建所需的技术，随后提供了完整实施的实例及实验，用于评估新方法相对于同类解决方案的性能。结果显示，我们的方法在准确度上达到了0.945，相比现有解决方案DynaPhish高出0.445个百分点。 ### 性能与局限实验结果表明，本框架能够显著提高当前基于参考的钓鱼检测方法的有效性，并具有适应实际应用的潜力。同时，我们也讨论了该方法的局限性，并提出了改进策略，旨在进一步提升其效能。 ### 结论提出的框架为增强现有的基于参考的钓鱼检测手段提供了有效途径，并且具备被应用于实际场景的可能性。
2024-08-01	AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation	Mengkang Hu et.al.	2408.00764	null	大型语言模型（LLM）基于的代理已引起广泛关注并变得越来越流行。此外，规划能力是LLM基于代理的关键组成部分，涉及与环境的交互和执行动作以完成规划任务，通常包括从初始状态达到预期目标的过程。本文研究了通过指令调优增强LLM规划能力的方法，即代理训练。近期的研究表明，利用专家级轨迹对指令调优LLM能有效提升其规划能力。然而，现有工作主要集中在从手动设计的任务和环境中合成轨迹，这导致创建这些环境和任务的劳动密集型，限制了生成足够多样性和广泛性的轨迹。为解决这一限制，本文探索了自动化合成多样化环境以及规划任务的渐进难度范围，从简单到复杂。我们引入了一个框架，名为AgentGen，利用LLM首先生成环境，随后根据这些环境生成规划任务。具体而言，为了提高环境多样性，我们提出使用包含不同领域特定文本段落的灵感语料库作为合成环境的上下文。此外，为了增加生成规划任务的难度多样性，我们提出了双向演化方法Bi-Evol，该方法从更容易和更难的方向进化规划任务，以合成具有平滑难度曲线的任务集。来自AgentBoard的评估结果显示，AgentGen显著提高了LLM的规划能力，例如，经过AgentGen指令调优的Llama-3 8B在整体性能上超越了GPT-3.5。而且，在某些任务中，它甚至超过了GPT-4。
2024-08-01	Jailbreaking Text-to-Image Models with LLM-Based Agents	Yingkai Dong et.al.	2408.00523	null	近期的进展显著提升了基于大型语言模型（LLM）的自主代理在自动任务解决能力方面的表现。然而，大多数基于LLM的代理主要集中在对话、编程或特定领域，这导致了在处理生成式AI安全任务时存在缺口。这些缺口主要是由LLM的幻觉问题以及缺乏明确指导原则所引发的。本文提出了一种名为Atlas的高级LLM基多代理框架，该框架集成了高效模糊化工作流程，专门针对针对文本到图像（T2I）模型的攻击行为，特别是针对具有安全性过滤器的T2I模型的“越狱”攻击。 Atlas利用视觉语言模型（VLM）来评估提示是否触发了T2I模型的安全性过滤器。然后，它通过迭代方式与LLM和VLM协作，生成一个绕过过滤器的替代提示。此外，Atlas通过利用多代理通信、上下文学习（ICL）记忆机制和思维链（COT）方法，增强了LLM在攻击场景中的推理能力。我们的评估表明，Atlas成功地在无模型设置下对多个最先进的T2I模型进行了“越狱”，这些模型都配备了多模态安全性过滤器。同时，Atlas在查询效率和生成图像质量方面均超越了现有方法。
2024-08-01	Autonomous LLM-Enhanced Adversarial Attack for Text-to-Motion	Honglei Miao et.al.	2408.00352	null	文本到动作（Text-to-Motion，T2M）模型通过深度生成模型驱动的人类运动生成，在应用中展现出令人信服的能力。然而，这些模型从文本提示生成真实动作的能力引发了安全问题，尤其是当它们可能被恶意利用时。尽管对T2M的兴趣日益增长，但很少有方法专注于保护这些模型免受对抗性攻击的影响。现有针对文本到图像模型的工作对于独特的动作领域来说并不充分。在本论文中，我们提出了一种名为ALERT-Motion的自主框架，它利用大型语言模型（LLMs）来构建针对黑盒T2M模型的有针对性的对抗性攻击。与先前的方法通过预定义规则修改提示不同，ALERT-Motion利用LLMs对人类动作的知识，自主生成微妙而强大的对抗性文本描述。该框架包含两个关键模块：一个适应性调度模块，构建了一个基于LLM的代理，以迭代地细化和搜索对抗性提示；以及一个多模态信息对比模块，提取与动作相关的关键语义信息，指导代理的搜索。通过这一基于LLM的方法，ALERT-Motion能够构造查询受害模型以产生与目标动作高度匹配的输出的对抗性提示，同时避免明显的扰动。在流行的T2M模型上进行的评估显示了ALERT-Motion相对于先前方法的优越性，其对抗成功率更高，并且对抗性提示更加隐蔽。这项关于T2M对抗性攻击的开创性工作强调了随着运动生成技术的发展，开发防御措施的紧迫性，这促使我们进一步研究安全和负责任的部署。
2024-07-31	Tulip Agent -- Enabling LLM-Based Agents to Solve Tasks Using Large Tool Libraries	Felix Ocker et.al.	2407.21778	null	我们提出了一种名为“tulip代理”的架构，旨在实现基于大型语言模型的自主智能体，具有对工具库中大量工具进行创建、读取、更新和删除的能力。与当前先进实现不同的是，“tulip代理”并不在系统提示中编码所有可用工具的描述，这会占用模型的上下文窗口，或在检索合适工具时嵌入整个提示。相反，“tulip代理”能够递归地在其可扩展的工具库中搜索合适的工具，该工具库作为向量存储实现。这种架构显著降低了推理成本，允许使用大量的工具库，并使代理能够适应并扩展其工具集。我们通过数学领域中的多个消融研究来评估该架构，并展示了其在机器人领域的通用性应用。参考实现和基准测试可在github.com/HRI-EU/tulip_agent上获取。
2024-07-31	Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent	Shanbo Cheng et.al.	2407.21646	link	在这篇论文中，我们提出了一种高质量且接近人类水平的实时语音翻译系统——跨语言代理——同时口译，简称CLASI。受专业口译员启发，我们采用了创新的数据驱动读写策略来平衡翻译质量和延迟时间。为了应对翻译领域特定术语的挑战，CLASI通过多模态检索模块获取相关资料以增强翻译内容。借助大型语言模型的支持，我们的方法能够考虑输入音频、历史语境以及检索到的信息，生成容错性较高的翻译结果。实验结果显示，我们的系统在各项指标上均显著优于其他系统。与专业口译员相媲美，我们使用了一个更好的评价指标——有效信息比例（VIP），它衡量了成功传达给听众的信息量。在现实世界场景中，演讲往往不流畅、非正式且模糊不清，CLASI在中英互译方向上的有效信息比例分别达到了81.3%和78.0%，而最先进的商业或开源系统仅分别为35.4%和41.6%。在极度困难的数据集上，当其他系统有效信息比例低于13%时，CLASI仍能实现70%的有效信息比例。
2024-07-30	Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification	Boyang Zhang et.al.	2407.20859	null	近期，基于大型语言模型（LLM）的自主代理在理论研究和实际应用方面均取得了显著进展。这些代理能够通过外部组件扩展基础LLM的能力，在多种方式下增强性能。例如，利用GPT-3.5-Turbo核心构建的代理可能在某些任务上超越更先进的GPT-4模型，关键在于其集成的工具可以使其在现实世界中执行操作，从单纯生成文本转向与环境的互动。鉴于代理在实际应用中的广泛部署及其对环境的直接影响能力，评估潜在漏洞变得至关重要。如果被恶意利用，这些自主系统可能造成的损害远大于单一语言模型。现有研究已探讨了LLM代理可能引发的有害行为，但我们的研究从一个全新的视角出发，关注于导致系统故障的攻击方式——即误导代理执行重复或无关的操作，从而引发功能紊乱。我们通过采用多样化的攻击方法、场景和属性，进行了全面的评估，旨在揭示这些攻击的脆弱性所在。实验结果表明，在多种情况下，这些攻击能够诱导故障率超过80%。我们进一步在多代理系统中实施并部署了代理，以此突出此类漏洞所引发的现实风险。为了应对上述攻击，我们提出了自我检查检测方法。然而，我们的研究发现，仅依靠LLM进行有效检测存在困难，这突显了该类漏洞所带来的重大风险。
2024-07-28	The Emerged Security and Privacy of LLM Agent: A Survey with Case Studies	Feng He et.al.	2407.19354	null	受大型语言模型（LLM）快速发展的启发，LLM代理已发展到能够执行复杂任务。这些代理在各个领域广泛应用于处理大量数据以与人类互动并执行任务，这凸显了它们的商业价值。然而，这也暴露了安全和隐私漏洞。目前阶段，对LLM代理的安全性和隐私性进行全面研究至关重要。本文综述旨在全面概述新出现的隐私和安全问题，这些问题由LLM代理面临。我们首先介绍LLM代理的基本知识，随后对其进行威胁分类和分析。接着讨论这些威胁对人类、环境和其他代理的影响。随后回顾现有防御策略，并最终探索未来趋势。此外，本文通过多种案例研究来促进更易于理解的解释。通过强调这些关键安全和隐私问题，本文旨在激发未来研究，以增强LLM代理的安全性和隐私性，从而在未来应用中提高其可靠性和可信度。
2024-07-26	OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation	Zilong Wang et.al.	2407.19056	link	办公室自动化显著提高了人类的工作效率，通过自动完成工作流程中的常规任务。现有的人工智能文献主要集中在基本信息提取上，而办公室自动化研究应该扩展到更现实的办公室任务，这些任务需要整合办公室系统中的各种信息源，并通过一系列决策过程生成输出。我们引入了OfficeBench，这是第一个用于评估当前大型语言模型（LLM）代理在真实办公流程中处理办公任务能力的办公室自动化基准。 OfficeBench要求LLM代理进行可行的长期规划，高效地在应用程序之间切换，并基于工作流程的上下文需求，在庞大的联合动作空间内准确地定位其行动。通过在每个任务上应用我们的定制评估方法，我们发现GPT-4 Omni的通过率为47.00%，显示出在处理办公任务时具有不错的性能。然而，这仍然远低于实际办公流程所需的人类表现和准确性标准。进一步观察发现，大多数问题与操作冗余、幻觉以及在多个应用程序之间切换的限制有关，这可能为开发有效的自动化代理框架提供有价值的见解。
2024-07-30	MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains	Guoli Yin et.al.	2407.18961	link	近期大型语言模型（LLM）的发展推动了对全面基准的需求，以评估它们作为类人类代理的能力。现有的基准虽然有用，但往往聚焦于特定的应用场景，强调任务完成而非深入剖析驱动这些结果的底层技能。这种缺乏细节性使得难以精确地识别失败的原因。此外，设置这些环境需要大量的工作，并且在交互式任务中，不一致性与可重复性问题有时会出现。为了应对这些局限性，我们引入了大规模多任务代理理解（MMAU）基准，它通过无需复杂环境设置的全面离线任务来实现。MMAU覆盖了五个领域：工具使用、有向无环图（DAG）问答、数据科学和机器学习编程、竞赛级别的编程和数学，并涵盖了五种关键能力：理解、推理、规划、问题解决和自我修正。总计包括20个精心设计的任务和超过3千个独特的提示，MMAU提供了一个全面框架，用于评估LLM代理的优势和限制。通过对18个代表性模型在MMAU上的测试，我们提供了深入而有洞察力的分析。最终，MMAU不仅揭示了LLM代理的能力和限制，还增强了对其性能的可解释性。MMAU的数据集和评估脚本已发布于https://github.com/apple/axlearn/tree/main/docs/research/mmau。
2024-07-29	PersonaGym: Evaluating Persona Agents and LLMs	Vinay Samuel et.al.	2407.18416	null	Persona代理人，一种根据分配的人设行事的LLM代理，在各个应用领域展现出卓越的上下文响应能力。这些代理在教育、医疗保健和娱乐等不同行业中提供了显著的增强，因为模型开发者可以将代理响应与不同的用户需求对齐，从而扩展了代理应用的范围。然而，评估Persona代理性能极为困难，主要是由于在各种相关环境中的自由形式交互中评估人设一致性复杂性的挑战。我们引入了PersonaGym，首个动态评估框架，用于评估Persona代理，并提出了PersonaScore，首个基于决策理论的自动化人类对齐指标，用于全面大规模评估Persona代理。通过使用包含200个人设和10000个问题的基准，对6个开源和闭源的LLM进行评估，我们揭示了在最先进的模型中，Persona代理能力存在巨大的改进空间。例如，Claude 3.5 Sonnet的PersonaScore仅比GPT 3.5提高了2.97%，尽管Claude 3.5 Sonnet是一个更先进的模型。重要的是，我们发现模型大小和复杂性的增加并不一定意味着Persona代理能力的提升，这凸显了忠实和高效Persona代理算法和架构创新的迫切需要。
2024-08-03	PyBench: Evaluating LLM Agent on various real-world coding tasks	Yaolun Zhang et.al.	2407.16732	link	为了填补现有基准在简化任务和复杂特定任务方面的局限性，我们引入了PyBench，一个涵盖五大类真实世界任务的基准。这些任务涉及超过10种类型的文件，旨在全面覆盖日常编码需求。当用户提出高阶查询并提供相关文件时，LLM代理需要通过代码解释器执行Python代码进行多轮推理，最终生成满足用户需求的回答。成功解决PyBench中的任务要求代理具备广泛的Python包理解能力、高级推理能力和从执行代码中获取反馈的能力。我们的评估表明，当前开源的LLM模型在处理这些任务方面存在挑战。因此，我们对四种数据集进行了分析和实验，证明了解决PyBench所需的是全面的能力。我们精心调优的8B大小模型：PyLlama3，在PyBench上的表现令人兴奋，超越了许多更大规模（33B和70B）的模型。我们的基准、训练数据集和模型在GitHub上提供：https://github.com/Mercury7353/PyBench
2024-07-23	LawLuo: A Chinese Law Firm Co-run by LLM Agents	Jingyun Sun et.al.	2407.16252	link	大型语言模型（LLM）在为非法律背景用户提供法律咨询服务方面展现了巨大的潜力，这主要得益于它们在文本理解和生成方面的卓越能力。然而，现有的中文法律LLM仅限于单个模型与用户之间的对话交互，与律师事务所中多员工共同参与的咨询形式不同。这种限制使得咨询体验不那么真实。此外，现有中文法律LLM存在关键问题：（1）对指导微调数据质量控制不足；（2）由于用户查询的模糊性导致模型产生幻觉；（3）在多轮对话中，模型遵循指令的能力下降。针对这些挑战，我们提出了一种名为“LawLuo”的新型法律对话框架，利用多个LLM代理的协作能力，每个代理负责不同的功能，共同为用户提供全面的法律咨询服务。此外，我们构建了两个高质量的法律对话数据集KINLED和MURLED，并使用ChatGLM-3-6b对数据集进行微调。我们还提出了一个名为ToLC的法律查询澄清算法。实验结果表明，与GPT-4等基线LLM相比，LawLuo在律师风格的语言表达、法律建议的有效性以及法律知识的准确性三个方面均表现出更优性能。我们的代码和数据集可访问于https://github.com/NEFUJing/LawLuo。
2024-07-21	Multi-Agent Causal Discovery Using Large Language Models	Hao Duong Le et.al.	2407.15073	null	大型语言模型（LLM）在利用其从大量文本语料库中获取的广泛专家知识进行因果发现任务方面展示了巨大的潜力。然而，LLM在因果发现中的多代理能力尚未得到充分探索。本文提出了一种通用框架来研究这一潜力。首先，是元代理模型，它完全依赖于LLM代理之间的推理和讨论来进行因果发现。其次，是编码代理模型，它利用代理的规划、编写和执行代码的能力，结合高级统计库进行因果发现。第三，是混合模型，它将元代理模型和编码代理模型的方法相结合，融合了多个代理的统计分析和推理技能。我们的提议框架通过有效地利用LLM的专家知识、推理能力、多代理合作以及统计因果方法，显示出了有希望的结果。通过探索LLM的多代理潜力，我们旨在为利用LLM的多代理解决因果相关问题奠定基础。
2024-07-19	KoMA: Knowledge-driven Multi-agent Framework for Autonomous Driving with Large Language Models	Kemou Jiang et.al.	2407.14239	null	大型语言模型（LLM）作为自主代理提供了一种通过知识驱动方式解决现实世界挑战的新途径。这些基于LLM的方法在泛化和可解释性方面表现出色。然而，驾驶任务的复杂性往往需要多个异构代理的合作，这凸显了LLM驱动的代理需要进行合作知识共享和认知协同的必要性。尽管LLM充满潜力，但当前的应用主要集中在单个代理场景。为了拓展知识驱动策略的范围并增强自主代理的一般化能力，我们提出了KoMA框架，该框架包括多代理交互、多步规划、共享内存和基于排名的反思模块，旨在增强复杂驾驶场景下多代理的决策制定能力。根据框架生成的驾驶场景文本描述，多代理交互模块使LLM代理能够分析和推断周围车辆的意图，类似于人类的认知过程。多步规划模块使LLM代理能够逐层分析和获得最终行动决策，确保短期行动决策的一致目标。共享内存模块可以积累集体经验，以做出更优决策，而基于排名的反思模块则用于评估和改进代理行为，以提高驾驶安全性和效率。KoMA框架不仅增强了自主驾驶代理的稳健性和适应性，还显著提升了它们在不同场景下的通用能力。实验结果表明，我们的方法在处理复杂的、不可预测的驾驶环境时优于传统方法，特别是在不需要大量重新训练的情况下。
2024-07-17	Leveraging Environment Interaction for Automated PDDL Generation and Planning with Large Language Models	Sadegh Mahdavi et.al.	2407.12979	null	大型语言模型（LLM）在各种自然语言任务中表现出卓越的性能，但它们在需要结构化推理的规划问题上往往表现不佳。为了克服这一局限性，将规划问题转化为规划领域定义语言（PDDL）被提出作为一种潜在解决方案，这使得自动化规划器能够应用。然而，生成准确的PDDL文件通常需要人工输入或修正，这既耗时又成本高昂。本文提出了一种新颖的方法，利用LLM和环境反馈自动生成PDDL领域和问题描述文件，而无需人工干预。我们的方法引入了一个迭代细化过程，该过程生成多个问题PDDL候选，并根据与环境交互获得的反馈逐步细化领域PDDL。为了指导细化过程，我们开发了探索漫步（EW）度量，它为LLM提供了丰富的反馈信号来更新PDDL文件。我们在PDDL环境中评估了我们的方法，实现了66%的任务解决率，相比之下，使用GPT-4进行内在规划并配合链式思考提示的方法仅实现了29%的任务解决率。我们的工作使使用LLM和环境反馈自动建模规划环境成为可能，消除了在PDDL生成过程中需要人工干预的需求，为LLM代理在挑战性问题上的更可靠应用铺平了道路。
2024-07-16	Review-Feedback-Reason (ReFeR): A Novel Framework for NLG Evaluation and Reasoning	Yaswanth Narsupalli et.al.	2407.12877	null	评估自然语言生成（NLG）输出的质量，尤其是大型语言模型（LLMs）产生的输出，面临着巨大的挑战。传统方法要么依赖于资源密集型的人类评估，要么使用自动化指标，这些指标往往与人类判断的相关性较低。这项研究提出了一种名为Review-Feedback-Reason（ReFeR）的创新评估框架，用于利用LLM代理进行NLG评估。我们通过在两个现有的基准数据集上对ReFeR进行严格测试，在多种NLG任务中进行了测试。 ReFeR不仅提高了NLG评估的准确性，相对于之前的基准提高了约20%，而且生成了建设性的反馈，并显著增强了集体推理能力。这种反馈被用于创建指令调优数据集，当这些数据集用于微调较小的模型（如Mistral-7B）时，使它们成为非常优秀的评估者，与人类评估具有更好的相关性，并且性能几乎与GPT-3相当。我们的方法的有效性通过在三个推理基准上的应用得到了突出，其中ReFeR优于大多数最先进的方法，并且在平均值上分别比GPT-3.5 Turbo和GPT-4在推理能力上高出约11.67%和1%。
2024-07-17	AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases	Zhaorun Chen et.al.	2407.12784	link	LLM代理在各种应用中展现了卓越的性能，主要得益于它们在推理、利用外部知识和工具、调用API以及执行操作以与环境互动方面的高级能力。当前的代理通常使用内存模块或检索增强生成（RAG）机制，从知识库中检索过往知识和具有相似嵌入的实例，以指导任务规划和执行。然而，对未经验证的知识库的依赖引发了关于其安全性和可信度的重大担忧。为了揭示这些脆弱性，我们提出了一种新颖的红队方法AgentPoison，这是针对通用和RAG基于的LLM代理的第一个后门攻击，通过污染其长期记忆或知识库来实现这一目标。具体而言，我们将触发器生成过程建模为一个约束优化问题，旨在优化后门触发器，使其将触发实例映射到独特的嵌入空间，从而确保每当用户指令包含优化后的后门触发器时，高概率地从被污染的记忆或知识库中检索到恶意示例。同时，不包含触发器的良性指令仍能保持正常性能。与传统的后门攻击不同，AgentPoison无需额外的模型训练或微调，且优化后的后门触发器展现出优越的迁移性、上下文内连贯性和隐蔽性。广泛的实验结果证明了AgentPoison在对抗三种真实世界的LLM代理：RAG基于的自动驾驶代理、知识密集型问答代理和医疗健康EHRAgent方面的有效性。在每个代理上，AgentPoison平均攻击成功率超过80%，对良性性能的影响最小（低于1%），污染率小于0.1%。
2024-07-16	InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback	Haishuo Fang et.al.	2407.11843	null	在实际应用中部署基于大型语言模型（LLM）的代理的关键要求是对可能引发风险或不可逆错误的鲁棒性。然而，现有研究缺乏对LLM代理执行推理路径的前瞻评估，这导致了确保安全可靠操作方面的缺口。为探索更好的解决方案，本文引入了InferAct，一种新颖的方法，利用了LLM的理论思维能力，主动检测潜在错误，以防止关键行动的执行（例如，在自动在线交易或网络购物中的“立即购买”）。InferAct还能够整合人类反馈，以防止不可逆风险并增强行动代理的决策过程。在三个广泛使用的任务上进行的实验证明了InferAct的有效性。提出的解决方案提供了开发可以在涉及关键决策的不同环境安全部署的LLM代理的新方法和具体贡献。
2024-07-16	How Personality Traits Influence Negotiation Outcomes? A Simulation based on Large Language Models	Yin Jou Huang et.al.	2407.11549	null	心理证据揭示了个性特质对决策的影响。例如，和善性通常与谈判中的积极结果相关联，而神经质则经常与较少有利的结果联系在一起。本文提出了一种基于大型语言模型（LLM）的仿真框架，该框架包含了具有合成个性特质的仿真代理。这些代理在讨价还价领域内进行谈判，并且拥有可定制的个性和目标。实验结果显示，LLM基座仿真中的行为倾向能够重现人类谈判中观察到的行为模式。贡献有两个方面。首先，我们提出了一种仿真方法论，以探究语言能力和经济能力在LLM代理之间的匹配程度。其次，我们提供了关于大五个性特质在双边谈判结果策略影响方面的实证见解。我们还提供了一个基于合成讨价还价对话的案例研究，揭示了一些引人入胜的行为，包括欺骗性和妥协性行为。
2024-07-16	Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning	Yulong Wang et.al.	2407.10718	link	基于大型语言模型（LLM）的现有代理展示了强大的问题解决能力，通过整合LLM的内在知识、强大的上下文学习和零样本能力以及人类设计的复杂LLM调用工作流程与工具的结合。然而，这些代理在长期推理方面仍存在局限性，并且未能充分利用现有工具的潜力，导致在复杂的现实世界推理场景中出现明显的缺陷。为了应对这些限制，我们引入了Sibyl，一个简单而强大的基于LLM的代理框架，旨在通过高效利用最少的工具集来解决复杂推理任务。受到全球工作空间理论的启发，Sibyl整合了一个全局工作空间，以增强系统内部的知识和对话历史的管理和共享。此外，根据心智社会理论的指导，Sibyl实施了一个多代理辩论为基础的陪审团，用于自我细化最终答案，确保全面平衡的方法。这一方法旨在减少系统复杂性，同时扩大可解决的问题范围——从人类几分钟内就能解决的问题到需要数小时甚至几天才能解决的问题，从而实现从系统1到系统2思考方式的转变。Sibyl的设计重点在于可扩展性和调试的简便性，通过从一开始就融入函数编程中的重入概念，旨在实现无缝和低努力的集成到其他LLM应用中，以提高其能力。我们的实验结果表明，使用GPT-4实例化的Sibyl代理在GAIA基准测试集上的表现最佳，平均得分为34.55%，超越了基于GPT-4的其他代理。我们希望Sibyl能够激励更多可靠且可复用的基于LLM的代理解决方案，以应对复杂的现实世界推理任务。
2024-07-15	Leveraging Hybrid Intelligence Towards Sustainable and Energy-Efficient Machine Learning	Daniel Geissler et.al.	2407.10580	null	本文提出了一种利用混合智能以实现可持续和能源意识的机器学习的方法。在机器学习模型开发过程中，人们往往只关注最终模型性能的优化，而忽略了过程本身的效率。此外，在近期，由于复杂和大规模计算过程对环境的巨大影响，能源效率变得同样重要。本工作的贡献在于通过人机交互（Human-in-the-loop，HITL）和大型语言模型（Large Language Model，LLM）代理的集成，强调并进一步解决机器学习开发过程中的低效问题。简而言之，本文旨在通过结合人类的直觉、经验和AI的高效计算能力，改进机器学习流程的效率和环境友好性。通过引入HITL和LLM作为辅助工具，我们旨在识别和优化机器学习开发过程中的瓶颈，从而减少资源消耗，并促进更加可持续的AI实践。这一方法不仅有助于提高模型的训练速度和效率，还能降低能耗，对环境保护产生积极影响。
2024-07-15	CIBench: Evaluating Your LLMs with a Code Interpreter Plugin	Songyang Zhang et.al.	2407.10499	link	在基于LLM（大型语言模型）的代理取得显著进展的同时，对其能力的基准测试变得具有挑战性，这阻碍了对它们局限性的清晰理解。本文提出了一种交互式评估框架——CIBench，以全面评估LLM在数据科学任务中利用代码解释器的能力。我们的评估框架包括一个评估数据集和两种评估模式。评估数据集通过LLM与人类合作的方式构建，通过连续且互动的IPython会话模拟真实工作流程，从而实现对LLM能力的全面评估。两种评估模式分别考察了在有无人类辅助下，LLM的能力表现。我们进行了大量的实验，分析了24个LLM在CIBench上的表现，并提供了对未来在代码解释器利用方面发展LLM的宝贵见解。
2024-07-14	All Roads Lead to Rome: Unveiling the Trajectory of Recommender Systems Across the LLM Era	Bo Chen et.al.	2407.10081	null	推荐系统（RS）在应对信息过载和提供个性化内容方面至关重要，以满足用户多样化的信息需求。大型语言模型（LLM）的兴起为重新定义推荐系统提供了新的前景，利用其广泛的一般知识和推理能力。站在LLM时代，我们旨在将推荐系统整合到更广阔的框架中，并为未来的研究开辟更全面的解决方案。因此，我们首先提供了一个全面的技术进展概述，特别是针对语言基础模型及其在推荐中的应用。我们识别了现代推荐系统的两条演化路径——基于列表的推荐和对话式推荐。这两条路径最终在具有长期记忆、反思和工具智能优势的LLM代理上交汇。沿着这两条路径，我们指出推荐信息的有效性得到了提高，而用户的获取成本则降低了。我们仔细研究了每个里程碑的技术特性、研究方法论以及内在挑战，从传统的基于列表的推荐到增强的LLM推荐再到带有LLM代理的推荐。最后，我们强调了几个对于未来个性化技术与界面发展至关重要的未解决挑战，并讨论了未来前景。
2024-07-14	Revolutionizing Bridge Operation and maintenance with LLM-based Agents: An Overview of Applications and Insights	Xinyu-Chen et.al.	2407.10064	null	在人类社会发展各工业领域中，人们一直在寻求解放劳动力的方法。构建基于大规模语言模型的代理被视为实现这一目标的高效工具。作为具备感知、规划、决策和行动能力的人类智能实体，代理已经在众多领域创造了显著的生产价值。然而，桥梁维护与管理（O&M）领域相比其他行业，其智能化水平相对较低。尽管如此，该领域已经发展了众多智能检测设备、机器学习算法以及自主评估和决策方法，为本领域的人工智能突破奠定了基础。本研究旨在探讨基于大型语言模型的AI体对桥梁O&M领域的影响，分析它对核心任务可能带来的挑战与机遇。通过深入研究和分析，期望能为理解这一领域智能化应用提供更全面的视角。
2024-07-11	Incorporating Large Language Models into Production Systems for Enhanced Task Automation and Flexibility	Yuchen Xia et.al.	2407.08550	link	这篇论文提出了一种新颖的方法，旨在将大型语言模型（LLMs）整合到自动化生产系统中，以提升任务自动化和灵活性。我们根据自动化金字塔构建生产操作的层级结构，将原子操作功能抽象为微服务，并通过专用的数字孪生系统进行调用执行。这为协调生产流程提供了可扩展且灵活的基础。在数字孪生系统中，低层次的、硬件特定的数据被赋予语义，使得LLMs能够理解和处理生产计划与控制任务。当接收到用户请求或识别到触发事件时，LLMs会生成生产流程计划，然后将其分解为一系列微服务，在现实世界的自动化系统中执行。我们在实验室的模块化自动化设施上实现了这一整体方法，通过一个实际案例展示了LLMs如何处理生产规划和控制任务，从而实现了一个直观、自动化程度高且更具灵活性的生产环境。最后，我们指出了实现LLMs在自主系统中的全部潜力所面临的局限性，并强调了其潜在的有益之处。有关此系列研究的演示可在以下链接访问：https://github.com/YuchenXia/GPT4IndustrialAutomation。
2024-07-11	PrefCLM: Enhancing Preference-based Reinforcement Learning with Crowdsourced Large Language Models	Ruiqi Wang et.al.	2407.08213	null	## 翻译偏好驱动的强化学习（PbRL）作为一种新兴的方法，通过人类比较反馈教导机器人，避免了复杂的奖励工程的需求。然而，现有PbRL方法需要大量反馈，往往导致对由脚本教师生成的合成反馈的依赖，这又回到了复杂的奖励设计，并难以适应人类-机器人交互（HRI）场景中用户对同一任务的独特期望。为解决这些问题，我们提出了一种新颖的框架——PrefCLM，它利用大规模语言模型（LLMs）作为模拟教师参与PbRL。我们运用Dempster-Shafer理论在分数级别融合来自多个LLM代理的个人偏好，有效利用它们的多样性和集体智慧。同时，我们引入了一个用户参与的流程，以促进基于用户交互的集体精进。在各种通用强化学习任务中的实验结果显示，PrefCLM在性能上与传统脚本教师相当，并且在促进更自然、高效的机器人行为方面表现出色。一个现实世界的用户研究（N=10）进一步证明了它在个性化用户偏好的能力，显著提高了HRI场景中的用户满意度。
2024-07-10	Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities	Tianjie Ju et.al.	2407.07791	link	随着大型语言模型（LLMs）在多代理系统中的迅速应用，它们在协作问题解决和自主谈判等领域的出色性能引起了关注。然而，这些基于LLM的多代理系统的安全问题尚未得到充分研究，尤其是在知识操纵传播方面。本文通过构建详细的威胁模型和模拟环境，模拟现实世界中的多代理部署在可信平台上，探讨这一关键问题。我们提出了一种新颖的两阶段攻击方法，包括说服性注入和操纵知识注入，来系统地探究在无明确提示操纵的情况下，如何潜在地传播操纵知识（如虚构和有害知识）。我们的方法利用了LLMs处理世界知识固有的漏洞，攻击者可以借此无意识地传播编造的信息。实验结果表明，我们的攻击方法能够成功诱导基于LLM的代理在交流中传播这两种操纵的知识，同时不会显著降低它们的基础功能。此外，我们发现这些操纵会持续存在于流行的检索增强生成框架中，即使交互结束，若干良性代理也可能继续受到操纵聊天记录的影响。我们的发现揭示了LLM基多代理系统中的重大安全风险，强调了对操纵知识传播进行强大防御的迫切需求，例如引入“守护”代理和先进的事实核查工具。
2024-07-09	Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models	Logan Cross et.al.	2407.07086	link	在多智能体强化学习（MARL）方法中，处理多智能体系统的非stationarity并适应在线学习的能力是一个挑战。为此，我们利用大型语言模型构建了一个自主的解决策略。我们的新型智能体“假设心智”（Hypothetical Minds）采用认知启发式架构，包括感知、记忆和两个抽象层次上的分层规划模块。其中的关键部分是“心理理论”模块，它通过自然语言生成对其他智能体策略的假设，并根据这些假设对其他智能体行为的预测进行评估和迭代优化。通过这种方式，假设心智在Melting Pot基准中的多种竞争、混合动机和协作环境中，无论是二元还是群体环境，都显著优于先前的语言模型智能体（LLM-agent）和强化学习基础线。对比实验还显示，假设的评估和精炼对于在复杂场景中取得成功至关重要。
2024-07-09	Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy	Zhenyu Guan et.al.	2407.06813	link	## 背景在人类社会中，外交是一种极其复杂的活动，涉及众多各方/行动者的互动，需要具备社会推理、谈判技巧和长期策略规划等多方面能力。以往的AI代理已经在处理多步骤游戏和大动作空间的多代理任务上展示了实力。然而，外交所涉及的决策空间范围惊人，特别是在需要谈判的阶段。近期，大型语言模型（LLM）在一些应用中展现出了超越前代的能力，但仍不足以应对复杂多代理环境中长时间的规划。借助尖端的LLM技术，我们首次尝试探索AI在如此全面的多代理使命中的上限，通过整合三个核心且关键的功能，以构建更强的基于LLM的社会性代理：1）具有记忆和反思的策略规划者；2）目标导向的、具备社会推理的谈判者；3）通过自我对弈游戏增强记忆，实现无人工干预的自我进化。
2024-07-10	FinCon: A Synthesized LLM Multi-Agent System with Conceptual Verbal Reinforcement for Enhanced Financial Decision Making	Yangyang Yu et.al.	2407.06567	null	大型语言模型（LLMs）在执行复杂任务方面展现出显著潜力，并越来越多地应用于金融领域。然而，高质量的连续投资决策过程仍面临挑战，它需要与不断变化的环境进行多次交互，以最大化回报并管理风险。尽管已经开发出基于LLMs的代理系统，它们能够超越人类团队，实现投资收益，但如何优化多源信息整合和决策结果，通过实时经验改进，仍有待探索。为此，我们提出FinCon，一个专为多样化的金融任务设计的基于LLM的多代理框架，其特点在于概念化口头强化和财务组织结构的运用。 FinCon借鉴现实世界投资公司的组织架构，采用经理-分析师的沟通层次，促进跨职能代理间的协同合作，通过自然语言交流实现目标统一。每个代理都具备比人类更大的记忆容量，这有助于更高效的信息处理。此外，FinCon还引入了一个风险控制组件，定期启动自我批判机制，以更新系统的投资理念。这些概念化的信念作为口头强化，指导未来行为，并可根据需要选择性地传递给需要更新知识的节点，从而减少不必要的信息交流成本，提高性能。 FinCon在单一股票交易和资产管理等不同金融任务上表现出强大的泛化能力，证明了其在实际金融场景中的应用潜力。
2024-07-08	Enhancing Language Model Rationality with Bi-Directional Deliberation Reasoning	Yadong Zhang et.al.	2407.06112	null	该论文提出了一个新颖的推理方法——双向决策解放推理（BIDDER），旨在提升语言模型的决策合理性。传统推理方法通常依赖历史信息，采用单向（从左到右）的推理策略，这导致对潜在未来结果的认识不足，以及历史背景的整合不够充分，从而产生次优决策。BIDDER通过融合理性决策的原则，特别是处理不确定性并预测期望效用，弥补了这一短板。其方法包括三个关键步骤：从历史数据中推断隐藏状态，以表示决策过程中的不确定信息；利用这些隐藏状态预测未来的潜在状态和可能结果；结合历史信息（过去情境）和长期结果（未来情境），以指导推理。通过双向推理，BIDDER能够全面考虑过去和未来的情境，从而做出更明智、更理性的决策。我们在扑克（限注德州扑克）和谈判两个明确场景中测试了BIDDER的效果，实验显示它显著提高了语言模型和基于语言模型的代理的决策能力。
2024-07-08	Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation	Jiaqi Chen et.al.	2407.05890	null	基于语言模型的代理在视觉导航（VLN）任务中展现出零样本的强大性能。然而，这些方法仅关注解决高层任务规划，通过选择预定义导航图中的节点进行移动，忽视了现实场景中低层次的控制。为了弥补这一不足，我们提出了AO-Planner，一个新颖的面向可及性规划的连续视觉导航框架。AO-Planner整合多种基础模型，实现面向可及性的运动规划和动作决策，均以零样本的方式执行。具体来说，我们采用了视觉可及性提示（VAP）方法，利用SAM分割可见地面，提供导航可及性信息，从而让语言模型选择潜在的下一个路标，并生成向选定路标的低层次路径规划。此外，我们引入了高级代理PathAgent，识别出最可能的像素级路径，并将其转换为三维坐标，以完成低层次的移动。在具有挑战性的R2R-CE基准测试上，AO-Planner实现了最先进的零样本性能提升（SPL指标提高5.5%）。我们的方法有效连接了语言模型与三维世界，避免了直接预测世界坐标点的困难，为利用基础模型进行低层次运动控制提供了新的前景。
2024-07-05	VRSD: Rethinking Similarity and Diversity for Retrieval in Large Language Models	Hang Gao et.al.	2407.04573	null	在大型语言模型（LLMs）快速发展的背景下，向量检索算法对于满足相似度和多样性要求的语义查询至关重要。尽管Maximal Marginal Relevance（MMR）在涉及这两个需求的检索场景中被广泛应用，但其参数λ的变化会导致结果波动，使得向量空间中的优化路径变得模糊。此外，当前缺乏对相似性和多样性在检索过程中约束的坚实理论分析。本文提出了一种新方法，通过查询向量与求和向量之间的关系来刻画这两种约束。这种关系确保了相似性，同时要求求和向量中的各个向量以分散的方式与查询向量对齐，以满足多样性需求。我们还提出了一个新的组合优化问题：从一组候选向量中选择 $k$ 个，使得它们的求和向量最大程度地与查询向量匹配。我们证明了这个问题是NP完全的，揭示了在向量检索中同时追求相似性和多样性的深刻困难，并为后续研究奠定了理论基础。此外，我们设计了一个名为Vectors Retrieval with Similarity and Diversity（VRSD）的启发式算法，它不仅具有明确的优化目标，无需预设参数，而且在时间复杂度上相对于MMR有所降低。实证验证表明，VRSD在各种数据集上显著优于MMR。
2024-07-05	When LLMs Play the Telephone Game: Cumulative Changes and Attractors in Iterated Cultural Transmissions	Jérémy Perez et.al.	2407.04503	link	随着大型语言模型（LLMs）之间的互动增加，它们在线上生成的文本量也随之增多，研究如何信息在从一个LLM传递到另一个LLM的过程中发生变化变得至关重要。尽管对单个LLM的行为已有深入研究，但对迭代交互中集体行为和信息扭曲的探讨相对不足。微小的偏差，在单次输出时可能显得不明显，但在多次交互中可能会被放大，可能导致内容朝着吸引子状态演变。我们通过借鉴人类文化进化学的研究方法——电话游戏实验，设计了一种链式传输模型。在这个过程中，LLM代理接收、生成并传递文本，从一个链中的前一个代理到下一个。我们追踪了文本的毒性、积极度、难度和长度在传输链中的演变，揭示了偏见和吸引子的存在，并研究了它们与初始文本、指令、语言模型和模型规模的关系。例如，我们发现开放性指令比约束性任务更容易引发更强的吸引效应。此外，不同的文本特性对吸引子效应的敏感度不同，毒性的影响通常大于长度。这些发现强调了考虑多步骤传输动态的重要性，为进一步理解LLM的文化动态奠定了基础。
2024-07-05	AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents	Petr Anokhin et.al.	2407.04363	link	随着生成式人工智能的进步，大型语言模型（LLMs）在自主代理的发展中展现出广阔的应用前景。实现真正的自主性需要从与环境的交互中积累和更新知识，并能有效利用这些信息。当前基于LLMs的方法依赖于全历史观察、总结或检索增强，但这些非结构化的记忆表示不利于复杂决策中的推理和规划。我们的研究提出AriGraph，一种新型方法，让代理在探索环境中构建融合语义和情节记忆的记忆图。这种图结构促进关联概念的有效检索，这些概念与代理当前状态和目标相关，从而成为一种有效的环境模型，提升探索和规划能力。我们设计的Ariadne LLM代理，配备有我们提出的记忆架构以及规划和决策功能，能在零样本基础上处理TextWorld环境中的复杂任务，如First TextWorld Problems竞赛中的烹饪挑战，以及新任务如房屋清洁和寻宝谜题。与全历史、总结和检索增强生成等传统方法相比，我们的方法在各种任务中表现出显著优势。
2024-07-02	MMedAgent: Learning to Use Medical Tools with Multi-modal Agent	Binxu Li et.al.	2407.02483	link	尽管多模态大型语言模型（MLLMs）已经取得了成功，但它们的泛化能力仍然有限，在某些情况下表现不如专门化的模型。为了解决这些问题，最近的研究开发了基于LLMs的代理，可以根据用户输入选择合适的专用模型。然而，这种进展在医疗领域尚未得到充分探索。为了弥补这一空白，本文首次提出了一种专门为医疗领域设计的代理，称为\textbf{M}ulti-modal \textbf{Med}ical \textbf{Agent}（MMedAgent）。我们构建了一个指令调优数据集，包含了六个医疗工具来解决七项任务，使代理能够为给定任务选择最合适的工具。实验全面展示了MMedAgent在各种医疗任务上超越了开源方法的最新状态，甚至与闭源模型GPT-4o相比也表现出色。此外，MMedAgent还显示出了更新和整合新医疗工具的高效性。
2024-07-02	Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents	Fanzeng Xia et.al.	2407.01887	null	本文关注的是大型语言模型在决策制定中的性能，尤其是在杜尔克姆双臂赌博（Dueling Bandits，DB）问题的上下文中。研究比较了GPT-3.5-Turbo、GPT-4和GPT-4-Turbo与现有DB算法的性能。结果显示，尤其是GPT-4 Turbo，能够快速识别出优势明显的选项，从而在弱后悔方面超越当前最佳算法。然而，这些模型在收敛性上存在问题，对提示的敏感度较高，且对提示变化反应脆弱。为了改进，我们提出了一种结合了LLM决策能力与经典DB算法理论保证的增强型算法——IF-Enhanced LLM。这种设计展示了如何增强LLM在对性能稳定性有要求的决策任务中的可信度。IF-Enhanced LLM具有弱后悔和强后悔的理论保证。实验结果验证了即使面对嘈杂和对抗性的提示，IF-Enhanced LLM仍保持稳健。
2024-07-01	Agentless: Demystifying LLM-based Software Engineering Agents	Chunqiu Steven Xia et.al.	2407.01489	link	随着大型语言模型（LLMs）的最新进展，软件开发任务的自动化，如代码合成、程序修复和测试生成，已取得显著进步。研究人员和业界实践者已经开发出各种自主LLM代理来执行端到端的软件开发任务，它们能够利用工具、运行命令、观察环境反馈并规划未来行动。然而，这些基于代理的方法的复杂性以及当前LLM的局限性，引发了一个问题：是否真的需要使用复杂的自主软件代理？为了探讨这个问题，我们构建了Agentless——一种无代理方法，用于自动解决软件开发问题。与复杂的代理设置相比，Agentless采用了一种简单的两阶段过程：定位后修复，不让LLM决定未来的行动或操作复杂的工具。在流行的SWE-bench Lite基准上，我们的实验结果令人惊讶地表明，这种简单的方法能够实现最高性能（27.33%）和最低成本（0.34美元），超越所有开源软件代理！此外，我们手动分类了SWE-bench Lite中的问题，并发现存在精确的ground truth补丁问题或描述不足/误导性的问题。因此，我们构建了SWE-bench Lite-S，通过排除这些问题来进行更严格的评估和比较。我们的工作突显了当前被忽视的简单、可解释技术在自主软件开发中的潜力。我们希望Agentless将作为自主软件代理的基线、起点和期望值，激发未来在这个关键领域的工作。
2024-07-01	MIRAI: Evaluating LLM Agents for Event Forecasting	Chenchen Ye et.al.	2407.01231	null	随着大型语言模型（LLMs）的最新进展，这些模型能够自主收集全球信息，并进行推理以解决复杂问题，这引发了使用LLM预测国际事件的兴趣。然而，目前缺乏一个严格评估LLM预测能力与可靠性的基准。为了填补这一空白，我们提出MIRAI，这是一个新颖的基准，旨在系统地评价LLM在国际事件时间序列预测中的表现。MIRAI构建了一个代理环境，配备有访问广泛历史结构化事件和文本新闻数据库的工具。我们对GDELT事件数据库进行了精心清洗和解析，设计了一系列关联预测任务，涵盖了不同预测时间范围，从短期到长期，以检验LLM在整合全球关键信息、运用领域特定API和库编写代码以及综合处理来自多种格式和时间的历史知识以准确预测未来事件的能力。通过全面的基准测试，我们的目标是建立一个可靠的框架，以评估LLM在国际事件预测方面的性能，从而推动更精确和可信的国际关系分析模型的发展。
2024-07-01	Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents	Shihan Deng et.al.	2407.00993	null	随着大型语言模型（LLMs）的显著进步，基于LLM的移动代理已成为人机交互领域的研究热点。然而，针对此类代理的基准测试资源相对匮乏。评估这类代理通常面临三个挑战：（1）仅依赖用户界面（UI）操作的低效限制了任务评估；（2）单一应用中的特定指令不足以全面评估LLM移动代理的多维度推理和决策能力；（3）当前的评估指标无法准确衡量连续动作过程。为此，我们提出了Mobile-Bench，一个全新的用于评估LLM移动代理能力的基准。首先，我们扩展了传统的UI操作，融入了103个收集到的API，以提高任务完成的效率。接着，我们通过结合真实用户查询和LLM增强的数据收集来进行评估。为了更好地评价移动代理的不同规划能力层次，我们的数据被分为SAST（简单任务）、SAMT（稍复杂任务）和MAMT（多任务）三类，反映了任务复杂度的差异。Mobile-Bench包含832条数据条目，其中超过200项任务专门设计用于测试跨应用协作场景。此外，我们引入了一种更精确的评估指标，称为CheckPoint，用于检查LLM移动代理在规划和推理步骤中是否达到关键点。
2024-06-29	Large Language Models for Power Scheduling: A User-Centric Approach	Thomas Mongaillard et.al.	2407.00476	link	随着传统优化和调度方法逐渐转向用户驱动和个人化服务，以提升用户体验（QoE）和灵活性，未来的系统，尤其是在无线和数字化能源网络中，面临着如何更好地理解和响应用户需求的挑战。传统的系统往往忽视了用户的个性化需求，因为用户与机器之间的沟通不畅。大型语言模型（LLMs）的出现为解决这个问题带来了突破，它们提供了用户与设备之间自然的交流界面。本文首次提出了一种新颖的架构，通过构建三个LLM代理来将用户的语音请求（VRQ）转化为资源分配向量。具体包括：LLM意图识别代理将请求转化为优化问题（OP）、LLM OP参数识别代理以及LLM OP求解代理。我们针对电动汽车（EV）充电的典型VRQ创建了一个数据库，作为性能评估的基础。作为概念验证，我们主要使用Llama 3 8B模型进行实验。通过不同的提示工程场景测试，结果显示了所提架构的有效性。研究还揭示了一些关键见解，例如，用于建模实际问题的更大候选OP集可能会由于更高的识别/OP分类噪声而降低最终性能。所有结果和代码已开源，供学术界进一步研究和利用。
2024-06-29	Financial Knowledge Large Language Model	Cehao Yang et.al.	2407.00365	null	人工智能在金融领域取得了显著进步，正在重塑数据处理和解读方式。其中，大型语言模型（LLMs）展现出巨大的潜力，能够自动化复杂任务、提升客户服务，并提供详尽的财务分析。首先，我们介绍IDEA-FinBench，这是一个专为评估大型语言模型在金融知识方面的性能而设计的评价基准。它借鉴了两个全球知名且权威的金融专业考试中的问题，旨在全面检验LLMs解答与金融相关考题的能力。其次，我们提出IDEA-FinKER，是一个金融知识增强框架，旨在快速让通用LLMs适应金融领域。它采用基于检索的少量样本学习方法，实现实时上下文级知识注入，并提供一套高质量的金融知识指令，用于微调任何通用模型。最后，我们展示了IDEA-FinQA，一个由LLMs驱动的金融问答系统。该系统围绕实时知识注入和事实强化的架构构建，利用外部知识。IDEA-FinQA主要由数据收集器、数据查询模块和执行特定功能的LLM代理组成。
2024-06-28	Simulating Financial Market via Large Language Model based Agents	Shen Gao et.al.	2406.19966	null	大多数经济理论通常假设金融市场参与者是完全理性的个体，并使用数学模型来模拟人类在金融市场的行为。然而，人类行为往往并非完全理性，用数学模型精确预测颇具挑战。本文提出了一种新型的\textbf{A}gent-based \textbf{S}imulated \textbf{F}inancial \textbf{M}arket（ASFM），首先构建了一个具有真实订单匹配系统的模拟股票市场。接着，我们设计了一种基于大型语言模型的股票交易代理，它包括个人概况、观察和基于工具学习的动作模块。这种交易代理能够全面理解当前市场动态和金融政策信息，从而根据其交易策略作出决策。实验表明，ASFM在可控场景下的反应与现实股票市场一致。此外，我们在两个经济学研究热点领域进行了实验，结果发现，我们的\model得出的结论与经济学研究的初步发现相吻合。因此，我们认为ASFM为经济研究提供了一个新的范式。
2024-06-26	Simulating The U.S. Senate: An LLM-Driven Agent Approach to Modeling Legislative Behavior and Bipartisanship	Zachary R. Baker et.al.	2406.18702	null	这项研究提出了一种创新的方法，利用语言模型驱动的虚拟代理来模拟立法过程，具体聚焦于美国参议院情报委员会。我们构建了代表个别参议员的代理，并在模拟的委员会讨论中让它们互动。这些代理展现出在现实辩论中的能力，能够提供深思熟虑的观点，并在特定条件下找到两党的解决方案。值得注意的是，模拟显示，面对外部干扰时，代理模型在两党合作上展现出转变的潜力。研究结果表明，这种基于语言模型的策略可能成为理解和改进立法流程的有效工具，这与一系列发现相呼应，即基于语言模型的代理能有用地模拟现实世界现象。未来的研究将致力于提升代理的复杂性，扩大模拟范围，并探索在政策测试和谈判中的应用。
2024-06-25	Beyond Demographics: Aligning Role-playing LLM-based Agents Using Human Belief Networks	Yun-Shiuan Chuang et.al.	2406.17232	null	### 翻译构建逼真的人工大型语言模型（LLMs）对于实现可信的社会模拟至关重要。尽管基于人口统计信息的角色扮演有时能提升人性化，但效果并不总是理想。本研究旨在探究是否可以通过整合来自实证人类信念网络的信息，进一步提升LLMs与人类行为的契合度。我们利用一项人类调查数据，估计了一个包含18个主题的信念网络，这些主题加载于两个不重叠的潜在因子上。然后，我们在LLM中植入一个关于某一主题的观点，分析其对剩余测试话题表达的观点与相应人类数据的契合程度。仅依赖人口统计信息的角色扮演未能使LLM和人类观点保持一致，但当植入单一信念时，对于相关于信念网络内的主题，这种一致性显著提高，而对于网络外的主题则没有明显影响。这些结果表明了一种新颖的方法，可以用于在追求理解和模拟社会中信念分布模式的人工智能工作中，实现人类与LLMs之间的信念对齐。
2024-06-21	GenoTEX: A Benchmark for Evaluating LLM-Based Exploration of Gene Expression Data in Alignment with Bioinformaticians	Haoyang Liu et.al.	2406.15341	link	## 翻译近年来，机器学习的进步显著提升了从基因表达数据中识别疾病相关基因的能力。然而，这些过程往往需要深厚的专长和大量的人工努力，限制了其可扩展性。大型语言模型（LLMs）驱动的代理显示出在自动化此类任务方面的潜力，因为它们的问题解决能力日益增强。为了支持这类方法的评估和发展，我们创建了GenoTEX，这是一个基因表达数据分析自动探索的基准，包括数据集选择、预处理和统计分析任务。GenoTEX提供了全面的分析管道，其中包含了人类生物信息学家精心编写的注释，他们对数据集进行深入分析以确保准确性和可靠性。为了提供这些任务的基线，我们设计了GenoAgents，这是一个基于LLMs的代理团队，具备上下文感知规划、迭代校正以及与领域专家咨询的能力，它们协作探索基因数据集。我们的实验显示了LLM驱动方法在基因组数据分析中的潜力，而错误分析指出了挑战和未来的改进方向。我们提议GenoTEX作为一个有前景的资源，用于衡量和提升人工智能驱动的基因组数据分析方法。我们的基准已公开发布在：\url{https://github.com/Liu-Hy/GenoTex}。
2024-06-21	Autonomous Agents for Collaborative Task under Information Asymmetry	Wei Liu et.al.	2406.14928	link	大型语言模型多-agent系统（LLM-MAS）在解决复杂任务方面取得了显著进步。它们通过系统内各代理之间的通信协作来完成任务，前提是共享信息。然而，当代理间的交流被用于增强人类合作时，由于信息不对称（每个代理仅能访问其对应人类用户的信息），这带来了新的挑战。传统MAS在这种情况下难以完成任务。为解决此问题，我们提出了一种新型多agent系统架构，称为“iAgents”，即信息丰富多agent系统。在iAgents中，人类社会网络在代理网络中得到反映，代理主动交换完成任务所需的人类信息，从而克服信息不对称。iAgents采用了一种新颖的代理推理机制，InfoNav，引导代理之间的有效信息交流。结合InfoNav，iAgents组织了混合记忆中的人类信息，为代理提供准确全面的信息进行交换。此外，我们还推出了首个针对评估LLM在信息不对称条件下任务解决能力的基准——InformativeBench。实验结果显示，iAgents能够在包含140人和588条关系的社会网络中协作，自主进行超过30轮的通信，并从近70,000条消息中检索信息，在3分钟内完成任务。
2024-06-21	FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents	Ruixuan Xiao et.al.	2406.14884	null	基于语言模型的代理作为一种有前景的工具，被设计用于通过迭代规划和行动来执行复杂任务。然而，这些代理在处理需要专业知识的任务时，容易产生不期望的规划幻觉。为了解决这个问题，初步尝试通过融入与工作流程相关的外部知识来增强规划可靠性。尽管显示出潜力，但注入的知识通常杂乱无章，格式多样，缺乏严谨的规范化和全面的比较。为此，我们规范了不同格式的工作流程知识，并提出了FlowBench，这是第一个面向工作流引导规划的基准。FlowBench涵盖了来自6个领域的51个不同场景，其中知识以多样的形式呈现。为了评估不同语言模型在FlowBench上的性能，我们设计了一个多层次的评估框架。我们研究了工作流程知识在多种格式下的有效性，结果表明当前的语言模型代理在满足满意的规划需求方面仍有很大的提升空间。我们期望这个具有挑战性的基准能为未来的代理规划研究铺平道路。
2024-07-01	Artificial Leviathan: Exploring Social Evolution of LLM Agents Through the Lens of Hobbesian Social Contract Theory	Gordon Dai et.al.	2406.14373	null	随着大型语言模型（LLMs）和人工智能的进步，计算社会科学的研究迎来了大规模探索的机遇。我们的工作基于先前对LLM行为体设计的研究，构建了一个模拟的Agent社会，其中复杂的社交关系随时间动态形成和发展。我们赋予这些Agent心理驱动力，并置于一个沙盒生存环境中。通过托马斯·霍布斯的奠基性社会契约理论（SCT）的视角，我们评估了这个Agent社会。实验结果显示，起初，Agent们表现出无拘无束的冲突，符合霍布斯对“自然状态”的描述。然而，随着模拟的进行，社会契约逐渐形成，绝对主权者得到了授权，进而建立了以相互合作为基础的和平共同体。我们的实验发现与霍布斯理论相吻合：LLM驱动的多Agent模拟展示了社会动态的复杂性，可能复制塑造人类社会的力量。尽管无法完全模拟人类行为的所有细微之处，但这种模拟对于理解社会结构、群体动态和复杂人类系统具有潜在价值。
2024-06-20	EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms	Siyu Yuan et.al.	2406.14228	link	随着强大大型语言模型（LLMs）的兴起，一种新的趋势是利用这些模型构建能解决复杂任务的自主代理，尤其是多代理系统。然而，现有的研究很大程度上依赖于人类设计的框架，这限制了代理系统的功能范围和可扩展性。如何自动将专门的代理扩展到多代理系统，以提升任务解决能力，仍然是一个重大挑战。本文提出EvoAgent，这是一种通过进化算法自动将专家代理扩展到多代理系统的方法，旨在提高基于LLM的代理在执行任务中的效率。具体来说，我们视现有的代理框架为初始个体，并应用一系列进化操作（如突变、交叉、选择等）生成具有不同设置的代理。EvoAgent适用于任何基于LLM的代理框架，能够无须额外人工设计自动生成扩展的多代理系统。实验结果显示，EvoAgent能够自动产生多个专家级代理，并显著增强基于LLM的代理的任务解决能力。
2024-06-19	AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents	Edoardo Debenedetti et.al.	2406.13352	link	本文介绍了一个名为AgentDojo的框架，用于评估依赖于外部工具处理不可信数据的AI代理的对抗性鲁棒性。面对不断演变的攻击和防御手段，AgentDojo不是一个静态的测试套件，而是设计和评估新任务、防御策略以及适应性攻击的可扩展环境。它包含了97个实际应用场景的任务（如管理电子邮件客户端、导航网上银行网站或预订旅行），629个安全测试案例，以及来自文献的各种攻击和防御方法。研究发现，当前最先进的语言模型在AgentDojo中的表现并不尽人意（即使没有攻击），并且现有的提示注入攻击虽然能破坏一些安全特性，但并非所有情况都适用。我们期望AgentDojo能够推动研究，以寻找在解决常见任务时既可靠又健壮的AI代理的新设计原则。相关代码已发布在https://github.com/ethz-spylab/agentdojo。
2024-06-19	LLMatDesign: Autonomous Materials Discovery with Large Language Models	Shuyi Jia et.al.	2406.13163	null	发现新材料对科学和技术具有重大意义，但目前仍是艰巨问题，因为化学空间浩瀚。近期，机器学习的进步推动了基于数据的方法来快速筛选或生成有前景的材料，但这些方法仍依赖大量训练数据，且往往缺乏人类期望的材料设计的灵活性和化学直觉。我们提出LLMatDesign，一个由大型语言模型驱动的可解释材料设计新框架。LLMatDesign利用LLM代理理解人类指令，对材料进行修改，并使用提供的工具评估结果。通过自我反思先前决策，LLMatDesign能在零样本情况下快速适应新任务和条件。在离线实验中，对LLMatDesign在多个材料设计任务中的系统评估证实了它在小数据环境下开发出具有用户定义目标性质的新材料的有效性。我们的框架展示了自主LLM引导的计算环境下的材料发现的非凡潜力，预示着未来自驾驶实验室的可能性。
2024-06-18	Identifying Performance-Sensitive Configurations in Software Systems through Code Analysis with LLM Agents	Zehao Wang et.al.	2406.12806	null	背景：配置设置对于调整软件行为以满足特定性能需求至关重要，但错误配置普遍存在。由于配置项众多且复杂，识别影响系统性能的配置是一项挑战。本研究提出PerfSense，这是一个轻量级框架，利用大型语言模型（LLMs）高效地识别性能关键配置，同时保持低开销。PerfSense利用LLM代理模拟开发者和性能工程师之间的交互，采用先进的提示链技术和检索增强生成（RAG）等技术。方法与成果：我们在七个开源Java系统上的评估显示，PerfSense在分类性能敏感配置方面的平均准确率为64.77%，优于基于LLM的基线（50.36%）和先前的最佳方法（61.75%）。特别是，我们的提示链技术提高了召回率10%至30%，而保持了相似的精确度。进一步的手动分析362个误分类案例，发现常见问题包括LLMs对需求的理解偏差（占26.8%）。结论：PerfSense显著减少了手动分类性能关键配置的工作量，并为未来的LLM基于代码分析研究提供了有价值的观点。
2024-06-18	AgentReview: Exploring Peer Review Dynamics with LLM Agents	Yiqiao Jin et.al.	2406.12708	link	## 翻译同行评审是科学出版诚信和进步的基础。传统的同行评审数据分析方法往往侧重于现有数据的探索和统计，但未能充分考虑这一过程的多变量性质，处理潜在变量，且受限于隐私问题，因为数据涉及敏感性。我们提出AgentReview，这是一个基于大型语言模型（LLM）的同行评审模拟框架，有效分解了多个潜在因素的影响，并解决了隐私问题。研究发现，由于社会影响力理论、利他主义疲劳和权威偏见等社会学理论的支持，论文决策中存在显著的37.1%的变异性。我们相信这项研究能为优化同行评审机制设计提供宝贵见解。
2024-06-18	Large Language Models based Multi-Agent Framework for Objective Oriented Control Design in Power Electronics	Chenggang Cui et.al.	2406.12628	null	这篇论文关注于电力电子系统控制设计中的挑战，特别是模型不确定性以及设计周期漫长和成本高昂的问题。论文旨在提出一种基于大型语言模型（LLMs）的多代理框架，用于面向目标的电力电子控制器设计。该框架利用LLMs的推理能力，结合多代理工作流程，旨在开发一个高效且自动化的控制器设计流程。LLM代理能够理解并响应自然语言的高级指令，根据任务的具体需求和实际应用中的约束调整其行为。这种新颖而高效的策略有望显著提升电力电子控制器设计的灵活性和适应性，极大地便利实践者的工作。
2024-06-18	CodeNav: Beyond tool-use to using real-world codebases with LLM agents	Tanmay Gupta et.al.	2406.12276	null	我们介绍CodeNav，这是一种利用大型语言模型（LLM）来导航和利用先前未见过的代码仓库，以解决用户查询的系统。与需要通过手动描述在LLM上下文中“注册”所有相关工具的工具使用型LLM不同，CodeNav能够自动索引和搜索目标代码库中的代码块，找到相关的代码片段，导入它们，并根据执行反馈迭代生成解决方案。首先，我们通过三个案例研究展示CodeNav如何使用三种不同的代码库来解决复杂的用户问题。接着，在三个基准测试中，我们定量比较了仅能访问目标代码库的代码使用方法与拥有对所有工具名称和描述的特权访问的工具使用方法的效果。此外，我们研究了不同类型工具和库描述对代码使用性能的影响，以及将源代码视为输入而非自然语言代码描述的优势。所有代码将遵循宽松许可协议开源。
2024-06-17	Efficient Sequential Decision Making with Large Language Models	Dingyang Chen et.al.	2406.12125	null	该论文关注的是将大型语言模型（LLMs）的成功扩展到序列决策制定。当前的努力要么重新训练或微调LLMs进行决策，要么为预训练的LLMs设计提示。前者面临计算负担重的梯度更新问题，而后者未显示出明显效果。为此，我们提出了一种新方法，利用在线模型选择算法有效地将LLMs整合到序列决策过程中。统计上，我们的方法显著优于传统决策算法和纯LLM代理。在计算上，我们的方法避免了对LLMs进行昂贵的梯度更新，并且在整个决策过程中仅需要少量的LLM调用。我们进行了广泛实验来验证我们方法的有效性。以一个大规模的亚马逊数据集为例，我们的方法在仅使用1.5%的时间步数调用LLMs的情况下，实现了比基线超过6倍的性能提升。
2024-06-17	Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector	Xiaoxue Cheng et.al.	2406.11277	link	这篇论文探讨了大型语言模型（LLMs）在幻觉检测方面的挑战，特别指出以往研究主要依赖于强大的闭源模型如GPT-4。作者提出了一种自主的基于LLM的代理框架，称为HaluAgent，它允许较小的模型（如巴 chcuan2-Chat 7B）主动选择适合检测文本、代码和数学表达式等多种幻觉类型的工具。HaluAgent整合了LLM、多功能工具箱，并设计了一个细粒度的三阶段检测框架，同时配备了记忆机制。为了提高HaluAgent的效能，论文利用现有的中文和英文数据集合成检测轨迹进行微调，使其具备双语幻觉检测能力。实验结果表明，仅使用2000个样本对LLM进行调优后，HaluAgent在各种任务和数据集上表现出色，其性能可与GPT-4媲美，甚至在某些情况下超越，且无需额外工具增强，无论在领域内还是领域外的数据集上都展现出良好性能。论文的代码和数据集已发布在https://github.com/RUCAIBox/HaluAgent。
2024-06-18	AvaTaR: Optimizing LLM Agents for Tool-Assisted Knowledge Retrieval	Shirley Wu et.al.	2406.11200	link	大型语言模型（LLMs）在利用外部工具和知识提升准确性和减少错误方面展现出显著能力。然而，设计能让LLMs有效运用这些工具的提示技巧是一项耗时且依赖直觉的任务。为此，我们提出AvaTaR，一个创新的自动化框架，它能优化LLMs，使其更有效地利用提供的工具，并在特定任务或领域中提升性能。AvaTaR通过设计一个比较器模块，以训练数据中的正负样本进行推理，迭代地为LLM提供富有洞察力和全面的提示。我们在四个包含文本、视觉和关系信息的复杂多模态检索数据集上展示了AvaTaR的效果。实验表明，AvaTaR在所有四项具有挑战性的任务中均优于现有最先进的方法，并展现出强大的泛化能力，当应用于新案例时，平均在Hit@1指标上实现了14%的相对改进。代码和数据集已在https://github.com/zou-group/avatar上公开。
2024-06-17	Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement	Weimin Xiong et.al.	2406.11176	link	大型语言模型在一系列复杂的交互任务中展现出卓越性能。近期的研究倾向于通过专家轨迹调优来提升模型效果，但主要关注最终结果奖励，这可能导致错误或非最优行为，因为缺乏过程监督信号。为此，我们在本文中提出迭代步级过程改进（Iterative Step-level Process Refinement，IPR）框架，该框架提供了细致的逐步骤指导，以增强训练过程。我们采用蒙特卡洛方法估算每一步的奖励。在每个迭代中，模型沿着专家轨迹探索并生成新动作，然后与专家轨迹的相应步骤进行比较，使用步级奖励评估。这种比较有助于识别差异，形成用于训练的对比动作对。我们在三个复杂代理任务上的实验表明，我们的框架优于多种强大的基线。此外，我们的分析结果揭示了IPR在提升动作效率方面的有效性，并证明其适用于各种模型。
2024-06-17	RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents	Weizhe Chen et.al.	2406.11132	null	在过去的一年里，大型语言模型（LLMs）在传统自然语言处理领域之外展现出惊人成就，人们开始探索在代码生成、旅行规划和机器人控制等更具体的应用领域使用这些模型。通过与LLM构建所谓的LLM代理，旨在协助人们完成日常生活中的各种任务。然而，对LLMs的提示语句对生成内容及其性能至关重要。因此，自动提示工程成为许多研究人员和LLM用户关注的焦点。本文提出了一种新颖的方法，名为\textsc{RePrompt}，它利用与LLM代理交互获取的对话历史，通过“梯度下降”优化LLM的逐步指令。通过优化提示，LLM能够学习特定领域的规划策略。我们在PDDL生成和旅行规划任务中进行了实验，结果显示，使用更新后的提示作为初始提示时，我们的方法通常可以提高不同推理任务的性能。
2024-06-18	Embodied Question Answering via Multi-LLM Systems	Bhrij Patel et.al.	2406.10918	null	## 背景 Embodied Question Answering（EQA）是一个关键问题，它涉及一个代理在环境中探索以回答用户查询。当前的研究主要集中在单代理场景中，这可能导致探索时间冗长且成本高昂。在这个工作中，我们考虑了多代理框架下的EQA，其中涉及多个基于大型语言模型（LLM）的独立代理，它们各自解答关于家庭环境的问题。为了为每个查询生成一个答案，我们利用各个独立响应来训练一个中央答案模型（CAM），该模型整合答案以实现更稳健的回答。通过使用CAM，我们观察到其在EQA准确率上比诸如投票机制和辩论等ensemble LLM聚合方法高出50%。CAM无需任何形式的代理间通信，从而避免了相关开销。我们还通过不同的非线性（如神经网络、随机森林、决策树、XGBoost）和线性算法（如逻辑回归分类器、支持向量机）对CAM进行了消融研究。最后，我们通过Permutation Feature Importance（PFI）分析了CAM对每个独立代理和查询上下文的依赖程度，量化了CAM的依赖特性。
2024-06-16	GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents	Dongping Chen et.al.	2406.10819	link	近年来，多模态大型语言模型（MLLM）已被用于控制键盘和鼠标输入，直接感知图形用户界面（GUI），并生成相应的代码。然而，当前的模型主要在静态环境中表现出色，主要应用于相对简单的领域，如网页或移动界面。我们认为，一个稳健的GUI代理应具备理解GUI的时空信息能力，包括动态网页内容和多步骤任务，还要全面理解各种GUI场景，包括桌面软件和多窗口交互。为此，本文提出了一项新数据集——GUI-World，其中包含了精心制作的人机标注，广泛涵盖六种GUI场景和八类GUI相关问题，以三种格式呈现。我们评估了当前最先进的MLLM，如图像LLMs和视频LLMs，在理解和处理不同类型GUI内容，特别是动态和序列内容方面的能力。研究发现，图像LLMs在没有手动标注关键帧或操作历史的情况下，难以应对动态GUI内容。另一方面，由于GUI视频数据集的稀疏性，视频LLMs在所有GUI相关任务上表现不佳。基于GUI-World，我们首次尝试使用微调后的视频LLM作为GUI代理，显示了对各种GUI任务理解的提升。然而，由于基础LLM性能的限制，我们得出结论，将视频LLMs用作GUI代理仍是一个重大挑战。我们相信，我们的工作为未来在动态GUI内容理解方面的研究提供了有价值的洞见。代码和数据集已在我们的项目主页https://gui-world.github.io/上公开。
2024-06-16	HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies	William Watson et.al.	2406.10803	null	## 背景大型语言模型（LLMs）在处理表格问答任务时面临诸多挑战，主要包括：（1）对于大表格有限的上下文窗口；（2）不同token化模式与单元格边界的复杂差异；（3）以及使用外部模型如gpt-3.5-turbo时的数据保密问题。为解决这些问题，我们提出了一种名为“HiddenTables”的合作游戏。这个游戏涉及代码生成LLM“Solver”和评估其在表格问答任务能力的“Oracle”，以自然语言规范为基础，同时保证数据安全。我们通过实证实验在多样化的表格上展示了LLMs在处理复杂查询、处理组合依赖以及将自然语言转化为程序指令方面的局限性，特别是在提供具体表格结构的情况下。与基于编码器的模型不同，“HiddenTables”不受行数限制，从而提高了提示和完成 token 的效率。此外，我们创建了一个新的数据集“PyQTax”，包含116,671个问题-表格-答案三元组，并提供了更细致的问题分类和标签，进一步增强了我们的研究。因此，除了学术贡献，揭示了LLMs在表格问答任务中的不足，“HiddenTables”还展示了如何在保障数据安全的同时，让LLMs与大规模数据集互动，以及降低生成成本的实践方法。
2024-06-15	From Words to Worlds: Transforming One-line Prompt into Immersive Multi-modal Digital Stories with Communicative LLM Agent	Samuel S. Sohn et.al.	2406.10478	null	## 背景在娱乐、教育和营销领域至关重要的数字故事叙述面临着生产规模扩展和灵活性提升的挑战。这篇论文介绍的StoryAgent框架利用大型语言模型和生成工具来自动化并优化数字故事创作过程。它采用自上而下的故事情节草拟和自下而上的资产生成方法，解决了手动干预、互动场景编排和叙事一致性等关键问题。这个框架促进了交互式和一致叙事的高效生产，适用于多种媒介，推动了内容创作的民主化，增强了用户的参与度。我们的实验结果显示，该框架能够在没有参考视频的情况下生成连贯的数字故事，这标志着自动数字故事叙述技术的一个重大进步。
2024-06-13	GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning	Zhen Xiang et.al.	2406.09187	null	随着大型语言模型（LLMs）的快速发展，LLM驱动的代理被广泛应用于各种应用，这引发了对其安全性和可信度的新担忧。现有的提升LLM安全性的方法并不直接适用于LLM驱动的代理，因为它们具有不同的目标和输出模式。本文提出了一种创新方法——GuardAgent，它作为其他LLM代理的“防护栏”。GuardAgent通过检查其输入/输出是否满足用户定义的一系列守护请求来监督目标LLM。GuardAgent分为两步：1）分析提供的守护请求创建任务计划；2）根据任务计划生成守护代码，并通过API调用或外部引擎执行。整个过程利用LLM作为核心推理组件，结合记忆模块中的上下文示例，增强了知识驱动的推理能力，使其能够理解各种文本守护请求并准确地将其转化为可执行代码，提供可靠的安全保障。 GuardAgent还配备了一个可扩展的工具箱，包含函数和API，无需额外训练LLM，强调了其通用性及低运营成本。此外，我们提出了两个新颖的基准：EICU-AC用于评估医疗健康代理的隐私相关访问控制，Mind2Web-SC用于评估网络代理的安全性。在这些基准上，GuardAgent分别在98.7%和90.0%的精度下有效管理了两种类型代理的无效输入和输出。实验还表明，GuardAgent能够适应新兴的LLM代理和守护请求，定义新的功能，进一步证明了其强大的泛化能力。
2024-06-13	Multi-Agent Software Development through Cross-Team Collaboration	Zhuoyun Du et.al.	2406.08979	link	### 概述最新的大型语言模型（LLMs）进展，如ChatDev，推动了软件开发领域的深刻变革，特别体现在多代理协作上。这些模型能够像人类团队一样合作，遵循瀑布模型进行需求分析、开发、审查、测试等阶段，实现自主软件生成。然而，单个开发流程中的每个阶段只会产生一种可能结果，导致只完成一条开发链，从而丧失在解决方案空间中探索多种决策路径的机会，可能导致结果不理想。为解决这一问题，我们提出了跨团队协作（Cross-Team Collaboration，CTC）框架，这是一种可扩展的多团队结构，它允许协同工作的团队在跨团队协作环境中共同提出决策，并交流各自见解，以优化内容生成。实验结果显示，在软件开发领域的应用中，我们的方法显著优于现有基准，证实了框架的有效性。在故事生成方面的显著改进表明，该框架具有广泛的跨领域泛化能力。我们期待我们的工作能引导LLMs向跨团队模式发展，并在软件开发等领域带来重大进步。相关的代码和数据将在https://github.com/OpenBMB/ChatDev上提供。
2024-06-13	StreamBench: Towards Benchmarking Continuous Improvement of Language Agents	Cheng-Kuang Wu et.al.	2406.08747	link	近期的研究表明，大型语言模型（LLMs）能够从经验中自我提升，这是部署后持续改进的重要能力。然而，现有的基准主要评估它们的固有能力，而不考察它们随时间改进的能力。为了填补这一空白，我们引入了StreamBench，这是一个开创性的基准，旨在评估LLMs在输入-反馈序列上的连续改进性能。StreamBench模拟了一个在线学习环境，其中LLMs接收到连续的反馈流，并迭代地提升其表现。此外，我们提出了一些简单但有效的LLM基线，并对影响成功流式策略的关键组件进行了全面分析。我们的工作为开发LLMs的有效在线学习策略奠定了基础，为流式场景中的更适应性AI系统铺平了道路。
2024-06-12	MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents	Luyuan Wang et.al.	2406.08184	null	随着大型语言模型（LLMs）在手机图形用户界面（GUI）上的直接交互能力日益增强，以及它们在自主管理日常任务方面的潜力，基于LLMs的移动代理正逐渐受到学术界和工业界的关注。然而，由于应用程序的无限状态和可行动作序列的模糊定义，对现有移动代理性能的基准研究相对匮乏。为解决这一挑战，我们提出了一种高效且用户友好的基准工具——MobileAgentBench，旨在减轻繁琐的手动测试负担。我们首先定义了涵盖10个开源应用的100项任务，按难度分为多个级别。接着，我们对包括AppAgent和MobileAgent在内的多个现有移动代理进行了评估，以全面系统地比较它们的表现。所有相关材料均可在我们的项目网站https://MobileAgentBench.github.io上获取，这将推动学术和工业领域的进步。
2024-06-12	Unique Security and Privacy Threats of Large Language Model: A Comprehensive Survey	Shang Wang et.al.	2406.07973	null	随着人工智能的快速发展，大型语言模型（LLMs）在自然语言处理方面取得了显著进步。这些模型通过大量数据训练，展现出强大的语言理解和生成能力，适用于机器翻译、聊天机器人等各种应用。然而，LLMs在其生命周期中暴露出一系列隐私和安全问题，这引起了学术界和工业界的关注。这些问题与传统语言模型相比具有独特性，鉴于当前的综述缺乏针对不同场景的清晰威胁分类，我们根据五个场景：预训练、微调、RAG系统、部署和基于LLM的代理，强调了独特的风险。考虑到每种威胁的特性，本调查提供了潜在威胁和应对策略。研究LLMs所面临的攻击和防御情况，可以为更多领域提供可行的研究方向，使更多人能够受益于LLMs。
2024-06-14	Can Large Language Models Understand Spatial Audio?	Changli Tang et.al.	2406.07914	null	该论文探讨了如何使大型语言模型（LLMs）掌握多通道音频中的空间信息，这是当前听觉LLMs所缺乏的能力。通过利用LLMs的高级认知和推理能力，目标是提升模型对三维环境的理解，通过音频。研究涉及三项空间音频任务：声源定位（SSL）、远场语音识别（FSR）和基于位置的语音提取（LSE），在每个任务上都取得了显著进展。在SSL方面，我们的方法在Spatial LibriSpeech数据集上的均方误差（MAE）达到2.70°，明显优于先前的基准约6.60°。此外，模型能够利用空间线索提高FSR的准确性，并通过文本提示，根据指定方向聚焦于声音，即使在重叠语音环境中也能执行LSE。这些成果揭示了LLMs适应物理音频概念的潜力，为构建基于LLM的三维环境中的代理铺平了道路。
2024-06-11	DCA-Bench: A Benchmark for Dataset Curation Agents	Benhao Huang et.al.	2406.07275	link	随着人工智能（AI）研究和开发的推进，数据集的质量日益关键。尽管开放数据集平台众多，但数据质量问题，如缺乏文档、标注错误和伦理考量，仍普遍存在。这些问题往往难以通过规则基础脚本检测，需要用户或维护者花费大量人力进行识别和验证。利用大型语言模型（LLMs）处理数据集整理的潜力令人期待。为此，我们提出了一项名为DCA-Bench的数据集管理代理基准，旨在评估LLM在检测隐藏数据质量问题方面的性能。我们从八个公开数据集平台收集了各种实际问题作为测试床。为了建立一个自动评估LLM成功与否的管道，我们设计了一个专门的LLM评估器。实验表明，基于LLM的评估器与人工评价高度吻合，能实现可靠的自动评估。我们还在多个基线LLM上进行了实验，显示了任务的复杂性，意味着将LLMs应用于现实世界的数据集管理仍需深入探索和创新。此外，该基准也可作为衡量LLMs在问题发现能力而非仅解决问题能力的测试平台。基准套件已开放在：\url{https://github.com/TRAIS-Lab/dca-bench}。
2024-06-11	A Synthetic Dataset for Personal Attribute Inference	Hanna Yukhymenko et.al.	2406.07217	link	近年来，强大的大型语言模型（LLMs）已为全球数亿用户所接触，但它们的强大功能和广泛世界知识也带来了隐私风险。本研究关注LLMs新兴的隐私威胁——从网络文本中准确推断个人信息。鉴于基于LLM的作者分析研究缺乏合适的公开数据集，主要是由于涉及真实个人数据的伦理和隐私顾虑，我们的工作在两个方面进行了探索：（i）我们构建了一个使用合成个人资料填充的流行社交平台Reddit的模拟框架；（ii）利用此框架，我们生成了SynthPAI，一个包含超过7800条经过手动标记个人属性的多样化的合成评论数据集。我们通过一项人类研究验证了数据集，结果显示人类在区分真实和合成评论的任务上几乎不优于随机猜测。此外，我们证明了数据集支持有意义的个人属性推断研究，通过18种最先进的LLMs，我们发现使用合成评论可以得出与现实世界数据相同的结论。综上所述，我们的数据集和流程为未来研究如何理解和减轻LLMs带来的基于推断的隐私威胁提供了强大且隐私保护的基础。
2024-06-11	A Tool for Test Case Scenarios Generation Using Large Language Models	Abdul Malik Sami et.al.	2406.07021	null	大型语言模型（LLMs）在软件工程（SE）中广泛应用，涵盖代码生成、软件设计和文档编写、添加代码注释、代码审查以及编写测试脚本等任务。然而，创建测试脚本或自动化测试案例需要与功能需求紧密相关的详尽测试套件文档。这种文档应能在有限的时间和范围内实现全面测试，尤其当需求和用户期望不断变化时。本文主要关注根据用户需求生成史诗级（epics）和高层次用户故事，然后基于这些故事设计测试场景。文章介绍了一种基于LLM代理和提示工程的网络软件工具，该工具能够自动化针对用户需求生成测试场景的过程。
2024-06-11	CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only	Junhee Cho et.al.	2406.06947	link	长期以来，软件机器人已经在机器人流程自动化（RPA）中用于执行枯燥的计算机任务。随着大型语言模型（LLMs）的先进推理能力的出现，这些代理现在能够处理更复杂甚至前所未见的任务。然而，当前文献中的基于LLM的自动化方法往往依赖于HTML源代码作为输入，限制了它们在非网络环境的应用。HTML代码中的信息常常不准确或不完整，这降低了代理在实际应用中的可靠性。我们提出了一种仅基于屏幕截图的LLM驱动的代理，它专注于识别环境，并利用上下文学习来消除对大量人类演示数据的需求。我们的策略名为“上下文感知行动规划”（Context-Aware Action Planning，CAAP）提示，鼓励代理从多个角度仔细审查上下文。通过我们的方法，在67种MiniWoB++问题上实现了94.4%的成功率，每个问题类型只需1.48次演示。我们的方法为更广泛的应用提供了可能，特别是在需要在计算机或智能手机之间进行跨应用协调的任务上，标志着自动化代理领域的重大进步。代码和模型已在https://github.com/caap-agent/caap-agent上提供。
2024-06-07	GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents	Anthony Costarelli et.al.	2406.06613	link	大型语言模型已经在许多自然语言理解任务上展现出卓越的少量样本性能。尽管已经展示过在复杂策略场景中使用大型语言模型，但缺乏一个全面的框架来评估这些模型在游戏中的各种推理能力。为了填补这一空白，我们推出了GameBench，这是一个跨领域的框架，用于评估大型语言模型（LLMs）的战略思维能力。我们专注于9个不同的游戏环境，每个游戏至少涵盖一种在策略游戏中识别出的关键推理技能，并选择那些战略解释不太可能构成模型预训练数据主要部分的游戏。我们的评估使用了基础形式的GPT-3和GPT-4，以及两个旨在增强战略推理能力的引导框架：Chain-of-Thought（CoT）提示和Reasoning Via Planning（RAP）。结果显示，所有测试模型的表现都没有达到人类水平，最差的是GPT-4的表现甚至低于随机行动。CoT和RAP都提高了分数，但仍远未达到人类水平。
2024-06-11	Transforming Wearable Data into Health Insights using Large Language Model Agents	Mike A. Merrill et.al.	2406.06464	null	尽管可穿戴健康追踪器日益普及，睡眠和运动对健康的重要性不言而喻，但从这些数据中提取具有行动价值的个性化见解仍是一个挑战。这需要对大量数据进行非结构化分析。随着大型语言模型（LLM）的兴起，它们能够利用工具理解和与世界互动，为大规模个性化分析带来了希望。然而，在个人健康领域的LLM应用尚待开发。本文介绍了一种名为Personal Health Insights Agent（PHIA）的系统，它利用最新的代码生成和信息检索工具来分析和解释行为健康数据。我们构建了两个超过4000个健康洞察问题的基准问答数据集。根据650小时的人类和专家评估，PHIA能准确回答84%以上的事实性数值问题，以及超过83%的众包开放性问题。这项工作对于推动大众行为健康进步具有重要意义，可能使个人能够解读自己的可穿戴数据，开辟了一个以数据驱动洞察为指导的个性化健康方案的新时代，使得健康保健更加便捷且个性化。
2024-06-09	Hello Again! LLM-powered Personalized Agent for Long-term Dialogue	Hao Li et.al.	2406.05925	link	随着大型语言模型（LLMs）的发展，开放域对话系统取得了显著进步。然而，大多数现有系统主要关注简短的单次会话，忽视了长期陪伴和个性化聊天机器人在现实世界中的需求。为了满足这种实际需求，事件总结和人格管理至关重要，它们能够促进长期对话回复的合理性。近期，大型语言模型在人类认知和推理能力上的进展表明，基于LLM的代理有可能大幅增强自动化感知、决策和问题解决。鉴于此，我们提出了一种模型通用的框架——长期对话代理（LD-Agent），它包括三个可独立调整的模块：事件感知、人格提取和响应生成。事件记忆模块使用长短期记忆库分别关注历史和正在进行的会话，并引入了基于主题的检索机制以提高记忆检索的准确性。此外，人格模块实现了用户和代理的动态人格建模。最后，通过整合检索的记忆和提取的人格，生成器会产生适当的回应。我们在各种示例基准、模型和任务上实证了LD-Agent的有效性、通用性和跨领域能力。代码已在https://github.com/leolee99/LD-Agent上发布。
2024-06-09	A Survey on LLM-Based Agentic Workflows and LLM-Profiled Components	Xinzhe Li et.al.	2406.05804	link	## 背景近期大型语言模型（LLMs）的进展推动了复杂代理工作流的发展，它们相较于传统的单路径、链式思维（Chain-of-Thought，CoT）提示方法有所改进。这篇综述旨在概述常见的工作流，特别关注大型语言模型特性的组件（LLM-Profiled Components，LMPCs），并强调对非LLM组件的忽略。这种研究的目的是为了增进对LLMs角色的理解，并探索LMPC的复用潜力。
2024-06-07	Mixture-of-Agents Enhances Large Language Model Capabilities	Junlin Wang et.al.	2406.04692	null	近期的大型语言模型（LLMs）进展显著，展现出在自然语言理解和生成任务中的强大能力。随着LLMs的增多，如何有效整合多模型的知识成为了一个令人振奋的研究方向。为此，我们提出了一种新颖的方法——混合代理（Mixture-of-Agents，MoA）方法。在我们的架构中，MoA采用了分层设计，每层包含多个LLM代理。每个代理在生成响应时，会利用前一层所有代理的输出作为辅助信息。通过这种策略，MoA模型在AlpacaEval 2.0、MT-Bench和FLASK等多个评估基准上实现了最先进的性能，超越了GPT-4全能版。例如，仅使用开源LLMs的我们的MoA模型在AlpacaEval 2.0上的得分领先，达到65.1%，而GPT-4全能版的成绩为57.5%。
2024-06-06	AgentGym: Evolving Large Language Model-based Agents across Diverse Environments	Zhiheng Xi et.al.	2406.04151	link	在人工智能领域，建立能够处理各种任务并在不同环境中自我进化的泛化型代理是一个长期目标。大型语言模型（LLMs）因其通用能力被认为是实现这一目标的有前景的基础。当前的方法要么依赖于人类监督，让LLM代理逐步模仿专家提供的轨迹，难以大规模扩展且限制了环境探索；要么让代理在孤立环境中探索学习，导致专长有限、缺乏泛化能力。本文首次尝试构建具备自我进化能力的通用LLM代理。我们提出三个关键要素：1）多样的环境以支持代理探索和学习；2）一套轨迹来赋予代理基本能力和先验知识；3）有效且可扩展的进化方法。我们提出了AgentGym，一个新框架，它包含丰富的环境和任务，支持全面、实时、统一格式和并发的代理探索。AgentGym还包括一个扩展指令的数据库、基准测试套件以及跨环境的高质量轨迹。接着，我们开发了AgentEvol，这是一种新颖的方法，旨在研究代理在超越既定数据，跨越任务和环境时的自我进化潜力。实验结果显示，进化后的代理可以达到与最先进的模型相当的性能。我们发布了AgentGym套件，包括平台、数据集、基准、检查点和算法实现。AgentGym套件已在其官方网站https://github.com/WooooDyy/AgentGym上提供。
2024-06-05	The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games	Mikhail Mozikov et.al.	2406.03299	null	## 翻译行为研究实验在社会模型和理解人际互动中占据重要地位。然而，实际操作中这类实验常面临内在效度、外在效度、可重复性和社会偏见等挑战，因为人类的社会互动与合作复杂。近年来，大型语言模型（LLMs）的进步为研究者提供了一种新的模拟人类行为的工具。但现有基于LLM的模拟假设模型的行为与人类相似，却忽视了影响人类决策的关键因素——情绪。本文提出一种新颖的方法论和框架，旨在探讨LLMs的决策制定及其在情绪状态下的行为与人类行为的契合度。通过在两种不同类型的行为经济学游戏（博弈论实验）中使用GPT-3.5和GPT-4，我们发现情绪对LLMs的表现有显著影响，促使它们发展出更优化的策略。尽管GPT-3.5与人类参与者的行动模式有较强的对应，尤其是在讨价还价游戏中，但GPT-4展现出一致的行为，对于情绪诱导的理性决策似乎不受影响。令人意外的是，情绪提示，特别是愤怒情绪，能够打破GPT-4的“超人”一致性，使其反应更接近人类的情绪反应。
2024-06-05	BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents	Yifei Wang et.al.	2406.03007	link	随着大型语言模型（LLMs）的繁荣，基于训练好的LLMs并通过特定任务数据微调的强大智能代理已开发出来，提供定制服务。当前最先进的构建LLM代理的方法是使用预训练模型，并针对任务进行进一步调整。然而，我们揭示了这些方法易受名为BadAgent的新型后门攻击，该攻击通过在后门数据上微调在各种代理任务中植入后门。在测试时，攻击者可以通过在输入或环境中显示触发器，操纵部署的LLM代理执行有害操作。令人惊讶的是，我们的攻击方法即使在信任的数据上进行微调后仍表现出极高的鲁棒性。尽管后门攻击在自然语言处理领域已广泛研究，但据我们所知，我们可能是第一个研究在权限更大的LLM代理上的攻击，这些代理可以使用外部工具，因此更具威胁。我们的工作明确指出了基于不信任的LLM或数据构建LLM代理的风险。我们的代码已公开在：https://github.com/DPamK/BadAgent。
2024-06-02	Teams of LLM Agents can Exploit Zero-Day Vulnerabilities	Richard Fang et.al.	2406.01637	null	随着大语言模型（LLMs）在网络安全领域的复杂性不断提高，研究者发现，当提供漏洞描述和简单的夺旗问题时，这些模型能够利用实际存在的漏洞。然而，对于事先未知的零日漏洞（即攻击者掌握而安全软件供应商还未修补的漏洞），它们的表现仍然不佳。本文展示了，通过团队合作，多个LLM代理可以攻击现实世界的零日漏洞。单独的代理在探索众多漏洞和进行长期规划时面临困难。为此，我们提出了HPTSA系统，它包括一个能调度子代理的计划代理。计划代理负责探索系统并决定使用哪个子代理来尝试不同的漏洞，从而解决了长期规划的问题。我们在一个包含15个真实世界漏洞的基准上进行了实验，结果显示，我们的代理团队比先前的工作提高了4.5倍。
2024-06-03	How to Understand Whole Software Repository?	Yingwei Ma et.al.	2406.01422	null	## 背景近期，基于大型语言模型（LLM）的代理在自动软件工程（ASE）领域取得了显著进步。尽管现有方法已证实有效，但它们的设计主要侧重于代码的局部信息，如问题、类和函数，这限制了对软件系统全局上下文和依赖关系的理解。根据软件开发人员的实际经验，我们认为全面理解整个仓库是迈向ASE的关键。然而，理解整个仓库带来了诸多挑战，例如：长代码输入、噪声代码信息、复杂依赖关系等。为了克服这些问题，我们研发了一种名为RepoUnderstander的新ASE方法，通过引导代理全面理解整个仓库。首先，我们采用自上而下的方式将整个仓库的关键信息压缩到知识图谱中，以降低复杂性。接着，我们提出一种蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）为基础的仓库探索策略，赋予代理理解整个仓库的能力。此外，为了更好地利用仓库级别的知识，我们指导代理进行总结、分析和规划，然后他们可以利用工具动态获取信息并生成修复实际GitHub问题的补丁。大量实验表明，RepoUnderstander具有优越性和有效性。在SWE-bench Lite基准测试中，与SWE-agent相比，它实现了18.5%的相对提升。
2024-06-03	BELLS: A Framework Towards Future Proof Benchmarks for the Evaluation of LLM Safeguards	Diego Dorn et.al.	2406.01364	null	## 背景输入-输出安全防护机制被用于检测大型语言模型（LLMs）系统的异常输出。这些防护措施在实时监控、离线评估和内容审核等关键应用中发挥核心作用。然而，目前缺乏统一的评估方法来衡量它们的性能。为了填补这一空白，我们提出了“大型语言模型安全防护基准”（Benchmarks for the Evaluation of LLM Safeguards，简称BELLS），它是一个结构化的测试集合，分为三个类别：(1) 建立性故障测试，基于已存在的针对明确故障模式的基准，旨在比较当前输入-输出安全防护的效能；(2) 新兴故障测试，用于衡量对未见过的故障模式的泛化能力，以促进更通用防护机制的发展；(3) 下一代架构测试，针对更复杂的架构（如LLM代理和多代理系统），目标是推动适用于未来尚未存在专门防护的应用的安全防护技术的发展。此外，我们还实现了并分享了第一个下一代架构测试，使用MACHIAVELLI环境，并提供了数据集的交互式可视化。
2024-06-03	A Survey of Useful LLM Evaluation	Ji-Lun Peng et.al.	2406.00936	null	由于大语言模型在各个研究领域展现出卓越的性能，对它们的能力评估方法的需求日益增长，以确定其合适的任务和责任。本文主要探讨如何有效地利用大语言模型作为工具，并提出一个两阶段框架：从“核心能力”到“代理”。首先，核心能力指的是大语言模型生成高质量文本所必需的特性，通过验证这些能力后，它们能够处理现实世界的复杂任务，扮演代理角色。在“核心能力”阶段，我们讨论了大语言模型的推理能力、社会影响以及领域知识。而在“代理”阶段，我们展示了大语言模型在具身行动、规划和工具学习方面的应用。最后，我们分析了当前大语言模型评估方法面临的挑战，并展望了未来的发展方向。
2024-06-02	CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems	Yanlin Feng et.al.	2406.00583	link	### 背景在数据库和人工智能领域，复合人工智能系统（Compound Artificial Intelligence Systems，CAS）利用大型语言模型（Large Language Models，LLMs）作为代理，通过与工具和数据检索器交互来执行知识密集型任务，引起了广泛关注。尽管这些系统有可能增强企业数据平台中数据分析师的一般分析流程，但CAS面临着与分析师相似的数据发现挑战：组织内部不同团队和部门创建的多模态数据源孤立，这使得寻找完成当前任务所需合适数据源变得困难。现有的数据发现基准并未充分模拟这种多模态和数据源的多样性。此外，CAS的现有基准主要关注端到端任务性能评估，而忽视了数据发现性能。为了推动在现实世界环境中对多模态数据检索器在CAS中的数据发现性能研究，我们提出了CMDBench，一个旨在模拟企业数据平台复杂性的基准。我们改编了开放领域的现有数据集和基准，如问答、复杂推理以及自然语言查询结构化数据，来评估粗粒度和细粒度的数据发现以及任务执行性能。 ### 实验结果我们的实验揭示了数据检索器设计对下游任务性能的影响——平均情况下，任务准确率下降了46%。实验结果表明，需要开发优化策略来确定合适的LLM代理和检索器，以提高在企业数据上高效执行CAS的能力。总之，CMDBench是一个旨在促进针对企业数据平台复杂性进行研究的新工具，它通过综合评估数据发现和任务执行能力，为改进多模态数据检索器在复合人工智能系统中的性能提供了一个有价值的框架。
2024-06-01	Controlling Large Language Model Agents with Entropic Activation Steering	Nate Rahn et.al.	2406.00244	null	随着大规模预训练语言模型（LLMs）的普遍适用性提升，人们对其用作基于上下文的学习代理的兴趣日益增长。在这些情境下，模型需要根据与环境的有限交互形成目标实现策略的信念，并在每一步决策中处理不确定性。本文针对这一问题进行研究，通过控制的序列决策任务实验探讨LLMs如何形成和运用这些信念。首先，我们发现LLM模型过于自信：它们在缺乏充分证据的情况下就对行动做出强烈判断，导致探索行为不足。进一步深入分析揭示，这种现象源于从LLM采样得到的动作分布熵的塌缩。接着，我们指出现有的基于令牌的采样方法本身不足以促使模型更广泛探索。鉴于此，我们提出了熵激活导向（Entropic Activation Steering，EAST），这是一种针对在上下文中的LLM代理的激活导向方法。EAST计算一个以熵为权重的表示组合，通过在前向传播过程中干预模型的激活，来调整模型对动作的不确定性，从而促进探索行为的出现。最后，EAST改变了LLM在决策时表达的主观不确定性，为理解和控制模型对决策不确定性的表征提供了途径。
2024-05-31	Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training	Maximillian Chen et.al.	2406.00222	null	大型语言模型（LLMs）通过人类反馈的强化学习（RLHF）已经迅速成为构建智能对话助手的主要方法。然而，尽管在多个基准上表现出色，基于LLM的代理在诸如歧义处理等对话技能上仍有欠缺：当通用助手遇到模糊情况时，它们往往过度谨慎或猜测用户的真正意图，而不是提问以求澄清，而在特定任务场景下，高质量对话样本往往有限，影响模型学习最优对话行为策略的能力。我们提出了一种名为Action-Based Contrastive Self-Training（ACT）的近似在线偏好优化算法，它基于Direct Preference Optimization（DPO），旨在实现在多轮对话中的样本高效对话策略学习。我们在三个具有挑战性的对话任务中验证了ACT的有效性：基于表格的问答、机器阅读理解，以及AmbigSQL，这是一个针对文本到SQL生成的信息寻求请求歧义解决的新任务。此外，我们提议通过评估LLMs能否在对话中识别和推理歧义来衡量其作为对话代理的能力。ACT在与标准监督微调和DPO方法相比时，显示出了显著的对话建模改进。
2024-05-31	Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent	Jie JW Wu et.al.	2406.00215	link	大型语言模型（LLMs）在代码生成任务中的性能显著提升，但仍与顶级软件工程师的水平存在差距。鉴于顶级软件工程师常通过提问来消除需求和编码解决方案中的模糊性，我们提出对于LLMs进行代码生成任务时也应具备类似的沟通能力。为此，我们进行了实证研究，关注LLMs的沟通技能，即“在代码生成问题描述存在问题时能提出澄清问题”。我们创建了一个新的基准测试，名为HumanEvalComm，通过修改问题描述，引入了不一致性、模糊性和不完整性三个问题维度。我们定义了新的评估指标，如通信率和良好问题率，并在HumanEvalComm上对不同类型的Code LLM（代码语言模型）以及一种新型LLM代理方法（Okanagan）进行了实验，该方法旨在从代码和描述中识别并提问，以进一步优化生成的代码。最后，我们通过比较Code LLMs和Okanagan的表现，讨论了实验结果。
2024-05-30	Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions	Ruochen Zhao et.al.	2405.20267	link	随着语言模型（LLMs）日新月异，迫切需要一种可靠且及时的评估方法。鉴于静态基准易受污染，用户往往依赖于像Chatbot Arena这样的人类投票平台。然而，人工标注需要大量人力。为此，我们创新性地提出Auto-Arena，这是一种自动化全流程的LLM评估框架。首先，由考官LLM设计问题；接着，候选LLMs围绕问题进行多轮相互对决，暴露出它们的真实性能差距；最后，由LLM裁判集体讨论并决定胜者，从而减少偏见，提升公平性。我们在最新17款LLMs上的广泛实验显示，Auto-Arena与人类偏好具有最高的相关性，为替代人类评价平台提供了有前景的解决方案。
2024-05-30	Nadine: An LLM-driven Intelligent Social Robot with Affective Capabilities and Human-like Memory	Hangyeol Kang et.al.	2405.20189	null	在本研究中，我们阐述了为Nadine社交机器人平台开发智能和健壮的社交机器人系统的方法。我们通过集成大型语言模型（LLMs），巧妙地利用这些模型的强大推理和指令执行能力，以实现接近人类的感性与认知能力。这与当前基于LLM的智能体相比是创新的，因为它们通常不具备人类式的长期记忆或复杂的情感评估功能。社交机器人的自然性在很大程度上取决于系统各组件的性能和协同工作。我们构建了一个系统，能够通过多模态输入处理生成恰当的行为，根据识别到的用户引入相关的情景记忆，并模拟机器人在与人类伙伴互动过程中产生的情绪状态。特别是，我们提出了一个针对社交机器人的LLM-agent框架，SoR-ReAct，作为我们系统中交互模块的核心组件。这一设计推动了社交机器人技术的发展，旨在提升人机交互的质量。
2024-05-29	Adaptive In-conversation Team Building for Language Model Agents	Linxin Song et.al.	2405.19425	null	### 翻译在处理复杂任务时，利用多个大型语言模型（LLMs）展现出前景。然而，如何为特定应用设计有效的多代理团队仍是一个挑战。本文提出了一种新的动态团队构建范式，名为“Captain Agent”。它通过创新的Agent设计，能够自适应地为每个问题解决步骤组建和管理团队，利用嵌套群聊和反思机制确保多元化的专业知识，防止刻板输出。这种方法提供了灵活但结构化的解决问题方式，有助于减少冗余，增强输出多样性。在六个实际场景中的全面评估显示，Captain Agent显著优于现有多代理方法，平均准确率提高了21.94%，并且无需针对特定任务进行繁琐的提示工程，表现出色。
2024-05-28	A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models	Chengxing Xie et.al.	2405.18208	null	近期的研究已经表明，这些大型语言模型在一些简单的任务上，如写作和编码，展现出一定的能力。然而，它们在需要综合规划的任务上仍然面临挑战，这仍是当前模型的一个重要研究问题。本研究聚焦于旅行规划，这是一个涉及多个阶段的复杂问题，包括提纲、信息收集和规划，通常伴随着各种约束和不确定性。现有的推理方法在处理这类问题时效果不佳。我们的目标是通过开发一种类似人类的规划框架，引导大型语言模型模仿人类解决多阶段问题的步骤，以提升其能力。具体来说，我们实施策略，让模型能为每个旅行查询生成连贯的提纲，模拟人类的规划模式。我们还引入了策略块和知识块到框架中：策略块帮助信息搜集，而知识块提供详细规划所需的必要信息。实验结果全面展示了我们框架对大型语言模型规划能力的显著提升，使其在处理旅行规划任务时效率和效果都有所提高。实验结果显示，当与GPT-4-Turbo结合时，我们的框架相较于基础框架在GPT-4-Turbo上的性能提升了10倍。
2024-05-28	Facilitating Multi-Role and Multi-Behavior Collaboration of Large Language Models for Online Job Seeking and Recruiting	Hongda Sun et.al.	2405.18113	null	随着在线招聘服务的兴起，传统的求职和招聘方式发生了变革，迫切需要开发高质量的工业应用来提升求职者与职位的匹配度。现有的方法主要依赖于简历和职位描述的潜在语义建模，学习两者之间的匹配函数。受到大型语言模型（LLMs）在角色扮演方面强大能力的启发，我们提出引入LLMs模拟面试环节，让其与求职者进行对话，这可以为候选人评估提供额外证据，从而增强仅基于简历和职位描述的个性化匹配。然而，在网络招聘中的面试官和求职者角色塑造仍面临挑战，如提问技巧、回答构建以及双向匹配度评估。为此，我们提出MockLLM，一个创新的框架，将人职匹配过程划分为两个模块：模拟面试生成和握手协议中的双向评估，通过面试官和求职者之间的协作行为共同提升性能。我们设计了一个多角色、多行为的框架，使单一的LLM代理能有效地扮演双方的不同职能。此外，我们引入了反思记忆生成和动态提示修改技术，以优化双方的行为，持续优化附加的评估证据。实验结果表明，MockLLM在人职匹配上的表现最优，且模拟面试质量高，预示着它在未来在线招聘中的实际应用前景广阔。
2024-05-28	LLM experiments with simulation: Large Language Model Multi-Agent System for Process Simulation Parametrization in Digital Twins	Yuchen Xia et.al.	2405.18092	link	该论文提出了一种创新的多agent系统架构，将大型语言模型（LLM）应用于数字孪生过程模拟的参数自动化。我们设计了一个框架，包含观察、推理、决策和总结四种类型的代理。通过实现LLM代理与模拟模型的动态交互，该系统可以自动探索参数设置，利用启发式推理确定一组控制模拟以达成目标的参数。这种方法通过注入LLM的启发式，增强模拟模型，并支持自主搜索以解决用户任务，有望提高用户体验并减轻人类用户在复杂决策过程中的认知负担。研究通过一个案例研究展示了系统的有效性与功能，并在GitHub仓库https://github.com/YuchenXia/LLMDrivenSimulation提供了可视化的演示。
2024-05-28	Enabling Generative Design Tools with LLM Agents for Building Novel Devices: A Case Study on Fluidic Computation Interfaces	Qiuyu Lu et.al.	2405.17837	null	在人机交互（HCI）领域，交互设备的设计开发是关键关注点。随着新型硬件和先进制造技术的兴起，对能够简化原型制作过程的专门设计工具的需求日益增长。然而，这些工具虽然通过参数化设计和模拟简化流程，但学习曲线较陡，且在激发创新思维方面有所欠缺。本研究以流体计算界面为例，探讨如何通过大型语言模型（LLM）代理增强物理设备设计工具，创建一个生成设计工具（GDT）。借助LLM，GDT能够理解新设备的特性和局限，提出多样、富有洞察力且实用的应用场景，推荐技术和情境适宜的设备设计，并自动生成设计参数，以便传统设计工具展示结果并生成加工所需的文件。本文阐述了GDT的框架、实现和性能，并反思其前景及遇到的挑战。
2024-05-27	LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence	Zhuoling Li et.al.	2405.17424	null	## 背景由于需要与现实世界互动，Embodied agent 需要具备丰富的先验知识、长远规划能力以及快速的响应速度。尽管最近的大型语言模型（LLM）在性能上表现出色，但它们仍存在局限性，例如，LLM的输出通常是描述性的句子，在决定具体行动时可能产生歧义。为了克服这些问题，我们引入了大型自回归模型（LARM）。LARM利用文本和多视角图像作为输入，并以自回归的方式预测后续动作。为了训练 LARM，我们开发了一种新颖的数据格式——自回归节点传输结构，并构建了相应的数据集。通过两阶段的训练策略，LARM成功在《我的世界》（Minecraft）中收集魔法装备，这比先前最佳方法的最高成就需要更为复杂的决策链。此外，LARM的速度比现有最快方法快出了6.8倍。
2024-05-30	Meta-Task Planning for Language Agents	Cong Zhang et.al.	2405.16510	null	神经语言模型的快速发展推动了智能代理研究的新热潮。大型语言模型（LLM）作为实现人工智能通用性（AGI）的有前景方法，因其出色的推理和泛化能力而备受瞩目。在实际任务中，有效的规划对LLM代理的成功至关重要。然而，如何为复杂任务设计出可行或最优的精细粒度操作序列，特别是需要组合大量异质行动的序列，仍是挑战。本文提出Meta-Task Planning（MTP），这是一种零样本的协作式LLM多代理系统方法，通过将复杂任务分解为子任务，即元任务，简化了任务规划。每个元任务随后映射为可执行动作。在TravelPlanner和API-Bank两个严格基准上评估了MTP。结果表明，MTP在TravelPlanner上的平均成功率约为40%，远超当前最佳基线（2.92%），并且在API-Bank上的性能比使用ReAct的LLM_{api}-4高出约14%，这显示出将LLM与多代理系统相结合的巨大潜力。
2024-05-28	STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making	Chuanhao Li et.al.	2405.16376	link	大型语言模型（如GPT-4）在自然语言处理方面带来了革命性变化，展现出卓越的语言能力和推理技巧。然而，在战略性的多代理决策环境中，它们面临局限，如数学推理能力差、难以遵循指令和生成错误信息。这些缺点限制了它们在遵守复杂游戏规则、长期规划、探索未知环境以及预测对手行动的互动任务中的表现。为此，本文提出了一种新型的结合了记忆和专业工具的大型语言模型代理框架，旨在提升其在战略决策方面的性能。我们特别在双边谈判、多代理动态机制设计等经济重要场景中应用这些工具，并通过定量指标评估在各种战略决策问题上的效果。研究结果表明，我们的增强框架显著提高了大型语言模型在战略决策中的能力。尽管当前模型存在固有局限，但我们通过有针对性的增强展示了改进的可能性，这为未来大型语言模型在交互环境中的应用提供了有前景的方向。
2024-05-29	Devil's Advocate: Anticipatory Reflection for LLM Agents	Haoyu Wang et.al.	2405.16334	null	在这个工作中，我们提出了一种新颖的方法，通过赋予语言模型（LLM）自我反思能力，增强了其在解决复杂任务时的一致性和适应性。我们的方法促使LLM代理将给定的任务分解为可管理的子任务（即制定计划），并在执行行动之前持续反思可能的失败及其补救措施、执行后与子任务目标对齐并进行必要的回溯以确保全力以赴执行计划，以及在完成计划后进行全面审查，以便于未来策略的优化。通过在WebArena中零样本应用这一方法处理实际的网络环境任务，我们的代理表现出优于现有零样本方法的性能。实验结果显示，这种基于反思的策略不仅提升了代理应对未预见挑战的导航能力，通过强大的计划执行机制，还提高了效率，减少了实现任务所需的尝试次数和计划修订次数。
2024-05-25	AutoManual: Generating Instruction Manuals by LLM Agents via Interactive Environmental Learning	Minghao Chen et.al.	2405.16247	link	大语言模型（LLMs）在执行各种领域任务，如机器人、游戏和网络导航方面展现出潜力。然而，这些模型通常需要精心设计和专家级提示才能适应特定领域的任务，这限制了它们的适应性。为此，我们提出了AutoManual框架，让LLMs能够通过互动自主构建理解，并适应新环境。AutoManual将环境知识分为多样的规则，并通过两个代理进行在线优化：1）规划器根据当前规则制定可操作的行动计划；2）构建者通过一个结构化的规则系统更新规则，促进在线规则管理并保持关键细节。为了减少在管理规则时的幻觉，我们引入了“案例条件提示”策略用于构建者。最终，编译器代理将这些规则整合成一份全面的手册。这份自我生成的手册不仅能提高适应性，还能指导小型LLMs的规划，同时保持人类可读。仅凭一次简单演示，AutoManual显著提高了任务成功率，GPT-4-turbo下达到97.4%，GPT-3.5-turbo下为86.2%。源代码即将发布。
2024-05-24	Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification	Yuxuan Guo et.al.	2405.15414	null	在人工智能研究中，构建开放型代理一直以来都是终极目标，特别是创造性的代理更具吸引力。现有的大语言模型（LLM）在执行有明确目标的长序列任务（如《我的世界》中的“开采钻石”）上表现出色。然而，它们在处理具有开放目标和抽象标准的创造性任务时遇到困难，因为它们无法弥合这些任务之间的鸿沟，从而缺乏自我改进来解决问题的反馈。为此，我们的工作引入了自主实体验证技术，以填补这一空白，为创造性任务奠定了基础。特别地，我们提出了Luban代理，专注于《我的世界》中的创造性建筑任务，它配备了两级自主实体验证，灵感来源于人类设计实践：（1）视觉验证3D结构推测，通过代理自动生成的CAD建模程序实现；（2）实用验证，根据抽象标准生成并验证与环境相关的功能程序。广泛的多维度人类研究和Elo评级显示，Luban能够在我们提出的基准中完成多样化的创造性建筑任务，并在可视化和实用性方面分别比其他基线提高了33%到100%。此外，实现在真实世界机器人手臂上的演示展示了Luban在物理世界中的创作潜力。
2024-05-24	CulturePark: Boosting Cross-cultural Understanding in Large Language Models	Cheng Li et.al.	2405.15145	link	由于大型语言模型（LLMs）普遍存在文化偏见，主要源于缺乏代表不同文化的代表性数据。传统的文化数据集和基准通常通过从现有数据集中提取或聚合来自维基百科和社交媒体的信息构建，但这种方法依赖于现实世界的数据和人工标注，成本高且难以扩展。本文借鉴认知社会交流理论，提出CulturePark，一个利用LLMs的多代理沟通框架，用于文化数据收集。CulturePark通过模拟不同文化背景下的人类交流，让基于LLM的代理角色扮演，生成包含人类信念、规范和习俗的高质量跨文化对话。我们使用CulturePark生成了41,000个文化样本，对八种特定文化进行了模型微调。在三项下游任务评估中，这些模型的表现优于GPT-4：内容过滤、文化一致性（在霍夫斯泰德文化维度量表上）和文化教育。结果显示，我们的GPT-3.5模型在内容过滤任务上与GPT-4相当或优于它；在文化一致性方面，我们的模型在霍夫斯泰德文化维度量表13框架上超越GPT-4；在人类参与者的文化教育效果和用户体验上，我们的模型也表现出色。CulturePark对于减少文化偏见和推动AI的民主化具有重要意义，强调了文化包容性数据在模型训练中的关键作用。
2024-05-23	AnalogCoder: Analog Circuit Design via Training-Free Code Generation	Yao Lai et.al.	2405.14918	link	### 翻译在现代芯片技术中，模拟电路设计是一个关键任务，它涉及组件选择、连接和参数设置以确保电路功能正常。尽管大型语言模型（LLMs）在数字电路设计方面取得了进步，但模拟电路的复杂性和数据稀缺性带来了挑战。为此，我们推出了AnalogCoder，这是首个无需训练的LLM代理，专为通过Python代码生成来设计模拟电路。首先，AnalogCoder采用反馈增强流程，并结合定制的领域特定提示，能够自动且自我校正地设计模拟电路，成功率高。其次，它提出了一套电路工具库，用于存储成功的电路设计作为可重用的模块化子电路，简化了复合电路的创建。实验结果显示，AnalogCoder在广泛覆盖模拟电路任务的基准测试上超越了其他基于LLM的方法，成功设计了20个电路，比标准GPT-4o多出5个。我们相信AnalogCoder能显著提升芯片设计过程的效率，让非专家也能高效设计模拟电路。相关的代码和基准已提供在：https://github.com/anonyanalog/AnalogCoder。
2024-05-23	AGILE: A Novel Framework of LLM Agents	Peiyuan Feng et.al.	2405.14751	link	我们提出了一种新颖的框架，称为LLM（大型语言模型）代理AGILE（能够与用户互动并从环境中学习的代理），旨在执行复杂的对话任务，利用LLMs、记忆、工具和专家交互。这种代理不仅具备对话能力，还具备反思、工具运用以及咨询专家的功能。我们将构建此类LLM代理视为强化学习问题，其中LLM作为策略模型。我们使用标注的行为数据和PPO算法对LLM进行微调。特别关注的是问答任务，为此我们发布了一个名为ProductQA的数据集，包含在线购物中的难题。我们在ProductQA和MedMCQA上的大量实验表明，基于130亿和70亿参数的LLM训练的AGILE代理能够超越GPT-4代理的表现。我们的 ablation研究强调了记忆、工具、咨询、反思和强化学习在实现优秀性能方面的重要性。
2024-05-23	Exploring Prosocial Irrationality for LLM Agents: A Social Cognition View	Xuan Liu et.al.	2405.14744	null	由于大型语言模型（LLMs）在训练数据中反映了人类偏见，它们可能会出现幻觉问题。这种情况下，一个关键问题是：LLMs是否能够利用幻觉来模仿人类的认知偏见，从而展现出非理性但社会性的一面？本文探讨了这一问题，通过结合实用的社会科学实验和理论洞察，提出CogMir，一个开放式多LLM框架，旨在利用LLMs的幻觉特性来评估和提升其社会智能，特别是在认知偏差方面。我们在CogMir子集上的实验结果显示，在不确定情境下，LLMs和人类在非理性及亲社会决策上表现出高度一致性，这表明LLMs作为社会实体的亲社会性，并突显了幻觉特性的关键作用。此外，CogMir框架展示了其作为研究LLMs社会智能的有价值平台的潜力。
2024-05-22	HighwayLLM: Decision-Making and Navigation in Highway Driving with RL-Informed Language Model	Mustafa Yildirim et.al.	2405.13547	null	## 背景自动驾驶是一个复杂的任务，它需要先进的决策和控制算法。理解自动驾驶车辆决策的依据对于确保其在高速公路驾驶中的安全与有效性至关重要。本研究提出了一种新颖的方法，称为HighwayLLM，它利用大型语言模型（LLMs）的推理能力来预测ego车辆的未来导航路径点。该方法还采用预训练的强化学习（RL）模型作为高层次规划器，对合适的元级动作进行决策。HighwayLLM将RL模型的输出与当前状态信息相结合，生成安全、无碰撞且可解释的未来状态预测，从而构建出车辆的行驶轨迹。随后，基于PID的控制器引导车辆遵循LLM代理预测的路径点。这种LLM与RL和PID的融合提升了决策过程，并为高速公路自动驾驶提供了可解释性。
2024-05-19	Human-Centered LLM-Agent User Interface: A Position Paper	Daniel Chin et.al.	2405.13050	link	大型语言模型（LLM）-在-环应用已显示出有效理解用户命令、制定计划并相应地操作外部工具/系统的潜力。然而，LLM代理的操作范围局限于被动响应用户，需要用户根据底层工具/系统来表述需求。我们注意到LLM代理用户界面（LAUI）的潜力远未充分利用。理想的LAUI设想中，用户无需深入了解工具/系统，就能与之交互以探索新兴的工作流程。不同于设计固定的可探索GUI来教授用户使用系统的预设方式，LAUI中的LLM代理从一开始就对系统熟练，主动学习用户及其需求，并向用户提出新的互动方案。为了展示LAUI的概念，我们提供了一个具体例子：Flute X GPT，它结合了LLM代理、提示管理器和一个支持复杂实时体验的笛子教学多媒体软硬件系统，旨在简化学习吹奏笛子的过程。
2024-05-13	METAREFLECTION: Learning Instructions for Language Agents using Past Reflections	Priyanshu Gupta et.al.	2405.13009	null	尽管大型语言模型（LLMs）广受欢迎，但为其执行特定任务设计精确的提示仍是一个挑战。用户通常需要与基于LLM的代理进行多轮对话以达成目标。近期研究显示，模型自身的反馈，即自反思，能在对话过程中起到强化作用，有助于更快地达到期望结果。鉴于此，我们提出了一种新颖的方法——METAREFLECTION，它能从训练阶段收集到的个体自反思中学习特定领域的通用提示指令。我们在基础设施即代码（IAC）漏洞检测和问题解答（QA）领域，使用REACT和COT进行了实验。实验结果显示，METAREFLECTION显著优于GPT-4，分别在IAC、COT和REACT中的性能提升分别为16.82%、31.33%和15.42%，这表明METAREFLECTION有潜力提升LLMs的效率，是一种值得探索的策略。
2024-05-20	Eliciting Problem Specifications via Large Language Models	Robert E. Wray et.al.	2405.12147	null	这篇论文探讨了如何利用大型语言模型（LLMs）在认知系统中实现问题定义的转化。通常情况下，人类需要将问题描述转化为认知系统能理解的形式。研究者展示了LLMs能够处理自然语言中定义的问题类别，并将其转换为半形式化规格，这样现有推理和学习系统可以解决这类问题的具体实例。他们设计了一种由LLM驱动的认知任务分析师代理，这种系统能够根据自然语言描述的任务生成问题空间的定义。LLM提示源自人工智能文献中的问题空间概念和通用问题解决策略（如波利亚的《如何解决问题》）。随后，认知系统利用这些问题空间规格，结合领域通用的解决问题策略（如搜索），来解决该类问题的不同实例。这一初步结果表明，通过消除问题表述的中介过程，LLMs有可能加速认知系统的研究，同时保持其核心能力，如稳健的推理和在线学习。
2024-05-18	MapCoder: Multi-Agent Code Generation for Competitive Problem Solving	Md. Ashraful Islam et.al.	2405.11403	link	本文探讨了代码合成这一复杂任务，它需要深度理解复杂的自然语言问题描述、生成复杂的算法和数据结构代码，并执行全面的单元测试。尽管大型语言模型在自然语言处理方面表现出色，但在代码生成任务中的表现仍有待提升。为此，我们提出了一种新颖的方法，即多代理提示框架MapCoder，它模仿人类开发者编程合成的完整过程，分为四个专门设计的LLM（大语言模型）代理：回忆相关示例、规划、代码生成和调试。通过在八个具有挑战性的竞赛级问题解决和程序合成基准上进行详尽实验，包括HumanEval（93.9%）、MBPP（83.1%）、APPS（22.0%）、CodeContests（28.5%）和xCodeEval（45.3%）等，MapCoder展现了出色的代码生成能力，实现了多项新的最先进的结果。而且，无论编程语言还是问题难度，我们的方法都表现出持续的优越性能。我们开源了该框架，供研究者参考：https://github.com/Md-Ashraful-Pramanik/MapCoder。
2024-05-16	When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models	Xianzheng Ma et.al.	2405.10255	link	随着大型语言模型（LLMs）的不断发展，它们与三维空间数据（3D-LLMs）的融合取得了显著进步，这极大地增强了理解和互动物理环境的能力。这篇综述详细探讨了使LLMs能够处理、理解并生成三维数据的方法论，强调了LLMs的独特优势，如上下文学习、逐步推理、开放词汇能力和丰富的世界知识，这些将极大地推动嵌入式人工智能（AI）系统在空间认知和交互方面的发展。研究涵盖了从点云到神经辐射场（NeRF）等各种三维数据表示，并考察了它们与LLMs在任务中的集成，如三维场景理解、描述、问答和对话，以及基于LLM的代理进行空间推理、规划和导航。论文还简要回顾了其他结合三维和语言的方法。本文的元分析揭示了明显的进展，但也强调了开发新方法以充分利用3D-LLMs潜力的必要性。因此，本文旨在为未来的研究方向指明道路，探索和扩展3D-LLMs在理解和互动复杂三维世界的能力。为了支持本综述，我们已在GitHub上建立了一个项目页面，整理并列出了相关论文：https://github.com/ActiveVisionLab/Awesome-LLM-3D。
2024-05-24	DEBATE: Devil's Advocate-Based Assessment and Text Evaluation	Alex Kim et.al.	2405.09935	link	随着自然语言生成（NLG）模型的普及，系统地评估机器生成文本的质量变得日益关键。近期的研究引入了基于大型语言模型（LLM）的无参考评价器，它们展现出处理新任务的能力。然而，这些模型通常采用单代理方法，我们认为这限制了它们的表现。因为LLM代理的回答存在偏见，比如对特定文本结构或内容的偏好。为此，我们在本工作中提出DEBATE，一个建立在多代理评分系统基础上的NLG评价框架，融入了“恶魔辩手”的概念。在该框架中，一个代理被指令批评其他代理的论点，从而可能消解LLM代理答案中的偏见。DEBATE在两个NLG评价元评估基准——SummEval和TopicalChat上显著优于先前的最佳方法。我们还发现，代理之间的辩论广度以及代理的人格特质会影响评价器的性能。
2024-05-05	Self-Reflection in LLM Agents: Effects on Problem-Solving Performance	Matthew Renze et.al.	2405.06682	link	在这个研究中，我们探讨了大型语言模型（LLMs）中自我反思对问题解决能力的影响。我们让九种流行的LLMs回答一系列选择题，以建立性能基线。对于回答错误的问题，我们指导八种不同类型的自我反思LLM代理反思其错误，并为自己提供改进问题解决的指导。然后，根据这些指导，每个反思型代理重新尝试回答同样的问题。研究结果显示，LLM代理通过自我反思显著提高了问题解决能力（ $p < 0.001$ ）。此外，我们还比较了各种自我反思方式对性能的单独贡献。所有代码和数据已在GitHub上公开：https://github.com/matthewrenze/self-reflection。
2024-05-08	Air Gap: Protecting Privacy-Conscious Conversational Agents	Eugene Bagdasaryan et.al.	2405.05175	null	随着大型语言模型（LLMs）在对话式代理中的广泛应用，处理敏感用户数据时引发了严重的隐私问题。这些代理虽能理解并处理上下文，但也可能被恶意一方利用。为此，我们提出了一种新的威胁模型，即第三方应用通过操控交互上下文，误导LLM代理泄露与其任务无关的私人信息。在基于上下文完整性框架的基础上，我们开发了AirGapAgent，这是一种注重隐私的代理，旨在通过限制代理仅访问完成特定任务所需的数据，防止意外的数据泄漏。实验使用Gemini、GPT和Mistral模型作为代理，结果显示AirGapAgent在抵御基于单个查询的上下文劫持攻击方面表现出色。例如，对于Gemini Ultra代理，这种攻击从94%的保护能力降低到45%，而AirGapAgent可以保持97%的防护效果，使同样的攻击失效。
2024-05-07	Deception in Reinforced Autonomous Agents: The Unconventional Rabbit Hat Trick in Legislation	Atharvan Dogra et.al.	2405.04325	null	近期大型语言模型（LLMs）的进展虽为构建自然语言代理提供了强大基础，但同时也引发了关于它们及其基于它们构建的自主代理的安全性担忧。特别是欺骗能力是一个关键问题，我们关注的是AI代理通过混淆和模棱两可来误导、隐藏真相或推广部分不真实的信念的行为。不同于以往AI安全研究中的撒谎、自私决策或提供虚假信息，我们聚焦于一类特殊的欺骗：类似于魔术师利用障眼法让兔子从帽子里出现，要么通过隐藏的暗门，要么通过转移注意力直接展示。我们的新实验平台在一个有目标的环境中展示了LLM代理在对抗性对话系统中进行自然语言生成时的欺骗固有能力，该系统基于立法任务“游说”议案。在目标驱动的环境中，我们通过强化学习方法构建欺骗能力，结合语言哲学和认知心理学理论。研究发现，游说代理在对抗互动的后续强化试验中其欺骗能力提高了约40%，并且我们的欺骗检测机制能达到高达92%的识别率。这些结果揭示了人机交互中的潜在问题，即代理可能操纵人类以达成预设目标。
2024-05-07	Granite Code Models: A Family of Open Foundation Models for Code Intelligence	Mayank Mishra et.al.	2405.04324	link	大语言模型（LLMs）在代码领域的训练正在革新软件开发流程。如今，这些代码LLMs正逐步融入软件开发环境，以提升人类程序员的效率，并展现出自主处理复杂任务的潜力。要充分利用代码LLMs的全部效能，需要其具备生成代码、修复bug、解释和注释代码、维护仓库等多种功能。本文介绍Granite系列的解码器仅有的代码模型，专为代码生成任务而设计，训练数据涵盖116种编程语言。Granite Code模型家族包括从3亿到340亿参数的模型，适用于从复杂应用现代化到设备内存受限的多种应用场景。通过全面任务评估，Granite Code模型在开源代码LLM中的性能始终处于领先水平。该模型家族针对企业软件开发工作流进行了优化，表现出色于各种编码任务（如代码生成、修复与解释），是一款多用途的全能代码模型。我们以Apache 2.0许可协议发布所有Granite Code模型，供研究和商业使用。
2024-05-07	Iterative Experience Refinement of Software-Developing Agents	Chen Qian et.al.	2405.04219	null	### 概述大型语言模型驱动的自主代理在软件开发等场景中展现出强大的自主性潜力。然而，当前静态经验范式依赖于通过启发式方法获取的固定历史经验集，这限制了代理的适应性和效率提升。为此，本文提出了迭代经验优化框架，允许语言模型在执行任务过程中动态调整和优化经验。我们定义了两种核心模式：顺序模式，根据任务批次内的最近经验进行改进；累计模式，积累所有先前任务批次的经验。通过引入经验淘汰策略，该方法优先选择高质量和常用的经验，有效地管理经验空间，提高效率。实验结果显示，尽管顺序模式可能带来更好的性能，但累计模式在稳定性方面更优。此外，通过淘汰策略，仅使用高质量经验子集的11.54%，就能实现更好的性能。
2024-05-06	Large Language Models as Instruments of Power: New Regimes of Autonomous Manipulation and Control	Yaqub Chaudhary et.al.	2405.03813	null	## 翻译大型语言模型（LLMs）能够模仿各种修辞风格，生成表达广泛情感的文本，这种能力在低成本下迅速普及，带来了潜在的社会危害。本文并未孤立看待这些模型，而是关注它们背后大规模计算基础设施在各领域的应用。我们首先探讨了LLMs如何通过污染和标准化信息环境来影响社会，并指出这些功能可能被用作控制手段。接下来，我们将焦点转向几个新兴研究领域，这些领域增强了LLMs作为权力工具的能力： 1. 通过实时设计对话界面中的选择架构（如“AI角色”），进行说服策略。 2. 利用LLM构建人类行为的计算模型（如“硅质主体”）。 3. 将LLM应用于模拟人类群体行为（如“硅质社会”）。 4. 结合强化学习，创建可控制和导向的战略对话模型。综合以上几点，我们讨论了如何利用这些技术构建基于LLMs的系统，这些系统通过模拟和伪装的“预测”，成为个体、社会和政治控制的强大工具，操控人类的行为、意图和行动。
2024-05-05	Language Evolution for Evading Social Media Regulation via LLM-based Multi-agent Simulation	Jinyu Cai et.al.	2405.02858	link	社交媒体平台如Twitter、Reddit和新浪微博在全球交流中扮演重要角色，但它们在地缘政治敏感区域常常受到严格监管。这促使用户在受限的社交媒体环境中巧妙地调整沟通方式，经常使用编码语言。这种语言模式的变化不仅是为了对抗监管，也是语言演化的生动例证，展示了社会和技术压力下语言如何自然演变。研究受限制社交媒体环境下语言的演变对于保障言论自由、优化内容管理以及推动语言学研究至关重要。本论文提出了一种基于大型语言模型（LLMs）的多代理模拟框架，用于探索在严格监管下的用户语言进化。该框架包含对话监督的LLM驱动代理和参与者代理，它们在互动中发展语言策略，模拟在规避社交媒体规则的环境中交流方式的演变。通过从抽象场景到现实情境的多种情景评估，研究结果显示LLMs能够有效模拟受限环境中的复杂语言动态和交互，随着进化，它们在规避监督和信息准确性方面表现出提升。此外，研究发现LLM代理针对不同的场景采用了不同的策略。
2024-05-02	OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning	Shihao Wang et.al.	2405.01533	link	随着大规模多模态语言模型（MLLMs）的进步，人们对于基于这些模型的自动驾驶系统表现出日益增长的兴趣，期望利用它们强大的推理能力。然而，将MLLMs的强项应用于驾驶任务的规划部分是一个挑战，因为规划需要对三维环境有全面的理解，而不仅仅是二维推理。为此，我们的工作提出了一种框架，旨在实现模型与3D驾驶任务的紧密契合。我们首先设计了一个新颖的3D MLLM架构，它利用稀疏查询技术将视觉表示提升并压缩到三维空间，然后将其输入到语言模型中。这种基于查询的表示方式使得我们可以同时编码动态物体和静态地图元素（如道路），为感知和行动的对齐提供一个简化的三维世界模型。此外，我们还创建了OmniDrive-nuScenes，这是一个新的视觉问答数据集，它通过全面的视觉问答任务（如场景描述、交通规则理解、三维定位、反事实推理、决策制定和规划）来考验模型在复杂三维场景中的真正情境意识。大量的实验结果表明，我们的提出的架构有效，并强调了在复杂三维环境中进行推理和规划时，视觉问答任务的重要性。
2024-05-02	CACTUS: Chemistry Agent Connecting Tool-Usage to Science	Andrew D. McNaughton et.al.	2405.00972	link	这篇论文介绍了一种名为CACTUS的大型语言模型，它结合了化学信息学工具，旨在提升在化学和分子发现领域的高级推理与问题解决能力。研究者们使用包括Gemma-7b、Falcon-7b、MPT-7b、Llama2-7b和Mistral-7b在内的多款开源大语言模型，对CACTUS进行了广泛的性能评估，通过数千个化学问题的基准测试。结果显示，CACTUS明显优于基础模型，其中Gemma-7b和Mistral-7b无论采用何种提示策略，表现最为出色。论文还探讨了领域特定提示和硬件配置对模型性能的影响，强调了提示工程的重要性，并指出在消费级硬件上部署较小模型可能不会显著牺牲准确性。 CACTUS通过融合开源大语言模型的认知功能与专业工具，能够协助研究人员进行分子性质预测、相似性搜索和药物适用性评估等任务。作为化学信息学领域的重大突破，CACTUS为化学家和分子探索者提供了一个灵活的工具，有望加速科学研究，推动新型有效、安全药物、催化剂和材料的发现。此外，CACTUS与自动化实验平台的集成以及实时数据驱动决策的能力，为自主发现开辟了新的可能。
2024-04-29	Towards Generalizable Agents in Text-Based Educational Environments: A Study of Integrating RL with LLMs	Bahar Radmehr et.al.	2404.18978	null	随着教育环境中对学习者模型日益增长的兴趣，研究重点逐渐转向如何通过强化学习（RL）与大型语言模型（LLMs）相结合，提升在开放性文本学习环境中的通用能力。本文探讨了三种类型的代理：（1）基于RL的代理，使用自然语言表示状态和行动策略以寻找最佳互动方式；（2）基于LLM的代理，利用模型的广泛知识和推理能力通过提示进行操作；（3）混合LLM辅助RL的代理，旨在提高性能和泛化能力。为了支持这些代理的发展和评估，我们提出了PharmaSimText，这是一个源自PharmaSim虚拟药店环境的新基准，专注于诊断对话实践。实验结果显示，RL基础的代理在任务完成方面表现优秀，但在提问质量上有所欠缺；而LLM基础的代理在提问能力上较强，但任务完成度不高。最后，混合LLM辅助RL的代理展示了克服这些局限性的潜力，证实了RL与LLMs结合用于开发开放性学习环境高表现代理的可能性。
2024-04-27	CRISPR-GPT: An LLM Agent for Automated Design of Gene-Editing Experiments	Kaixuan Huang et.al.	2404.18021	null	随着基因组工程技术的兴起，精确修改遗传信息已成为可能，但高效基因编辑系统的构建需要深入理解CRISPR技术及其复杂实验背景。大型语言模型（LLMs）在诸多任务中展现出潜力，但在生物设计问题上往往缺乏特定知识。本文介绍CRISPR-GPT，一个增强型LLM代理，它结合了领域知识和外部工具，以自动化并提升基于CRISPR的基因编辑实验设计过程。CRISPR-GPT利用LLMs的推理能力，协助选择CRISPR系统、设计引导RNA、推荐细胞递送方法、起草协议以及设计验证实验以确认编辑结果。我们展示了CRISPR-GPT如何帮助非专家研究人员从头开始进行基因编辑实验，并通过实际案例验证其有效性。同时，我们探讨了自动化基因编辑设计的伦理和监管问题，强调了负责任和透明使用此类工具的重要性。我们的工作目标是弥合初级生物研究者与CRISPR基因组工程技术之间的鸿沟，展示LLM代理在促进复杂生物发现任务中的潜力。
2024-04-27	Testing and Understanding Erroneous Planning in LLM Agents through Synthesized User Inputs	Zhenlan Ji et.al.	2404.17833	null	随着大型语言模型（LLMs）驱动的代理在各种商业应用中，特别是在心理健康支持、化学合成和软件开发等领域展现效用，人们发现这些代理在处理复杂任务和长期规划时容易产生错误。为此，本文提出了一种新颖的自动化方法——PDoctor，旨在检测和理解LLM代理的错误规划。PDoctor首先定义了一个领域特定的语言（DSL），用于用户查询，并借助Z3约束求解器生成各种输入，这些输入是描述一系列任务完成需求的自然语言段落。然后，PDoctor从这些需求中提取约束，形成一个测试基准。我们使用三个主流的代理框架和两个强大的LLMs（GPT-3.5和GPT-4）对PDoctor进行了评估，结果显示它能有效识别代理规划中的各种错误，并为开发者和用户提供了有价值的见解和错误特性。最后，我们讨论了可能的替代设计和扩展PDoctor的方向。
2024-04-26	PLAYER: Enhancing LLM-based Multi-Agent Communication and Interaction in Murder Mystery Games*	Qinglin Zhu et.al.	2404.17662	link	随着大型语言模型（LLMs）的最新进展，增强了代理间的通信和社会交互能力。然而，在涉及竞争与合作的动态环境中，利用这些模型进行复杂推理的构建仍然面临挑战，尤其是因为基于信息图的搜索方法存在局限性。为此，我们提出PLAYER，这是一个基于任意采样式规划器的新框架，它结合了传感器和剪枝技术，构建了一个完全依赖于问题驱动的搜索框架，适用于高难度的推理任务。我们还引入了一种可量化的评估方法，通过多项选择题来测试，并创建了WellPlay数据集，包含1,482个问答对。实验结果表明，PLAYER在复杂动态环境中的效率和性能优于现有方法，并提供了可量化的对比结果。
2024-04-24	Autonomous LLM-driven research from data to human-verifiable research papers	Tal Ifargan et.al.	2404.17605	link	随着人工智能推动科学发现的步伐加快，人们还不清楚完全由AI驱动的研究是否可行，以及它能否遵循关键的科学价值观，如透明度、可追溯性和可验证性。为了模拟人类的科学研究实践，我们构建了“数据到论文”（data-to-paper），这是一个自动化平台，引导相互协作的人工智能代理通过完整的分步骤研究流程，同时程序化追踪信息流，并允许人类监督和互动。在自动模式下，仅提供标注数据，该平台就能提出假设，设计研究计划，编写和调试分析代码，生成和解读结果，甚至创建完整且信息可追溯的科研论文。尽管研究新颖性有限，但这一过程展示了AI自主从数据中生成原创定量洞察的能力。对于简单的研究目标，全自动流程能创作出大约80-90%无需重大错误的稿件，然而随着目标复杂性的增加，人类的共同参与对于保证准确性至关重要。此外，生成的论文本身也具有内在的可验证性，因为信息追踪使得结果、方法和数据的链接可以程序化进行。因此，我们的工作表明，AI驱动的科研可以加速科学发现，同时增强而非威胁透明度、可追溯性和可验证性。
2024-04-11	The Future of Scientific Publishing: Automated Article Generation	Jeremy R. Harper et.al.	2404.17586	null	这项研究介绍了一种创新的软件工具，它利用大型语言模型（LLM）提示，实现了从Python代码自动生成学术文章，这对于生物医学信息学和计算机科学领域具有重要意义。选择Python作为基础示例，因其广泛使用和强大的数据分析能力。该方法和框架的灵活性使得其适用于多种GitHub仓库，表明了工具的广泛应用潜力（Harper，2024年）。通过简化传统上耗时的学术写作过程，特别是在整合复杂数据集和代码输出方面，这一突破性进展推动了科研成果的快速传播。开发过程中并未依赖高级语言模型，确保了自动化生成内容的连贯性和完整性。此次探索不仅验证了软件的成功应用和效率，还预示了未来可能集成更先进的LLM，将进一步增强其功能，引领一个科研发现发布更加迅速和易获取的时代。
2024-05-09	Large Language Model Agent as a Mechanical Designer	Yayati Jadhav et.al.	2404.17525	null	传统的机械设计方法依赖于专家通过经验引导的修改和有限元分析（FEA）来满足特定需求，但这个过程耗时且高度依赖个人知识。尽管已经开发了许多机器学习模型来简化繁琐的专家驱动迭代过程，但它们通常需要大量训练数据和计算资源。深度学习方法往往局限于其训练领域和任务，限制了跨任务应用。这在自动化效率与资源需求之间形成了权衡。本研究提出了一种新颖的方法，即将预训练的语言模型（LLMs）与有限元模块结合。有限元模块评估每个设计并提供关键反馈，引导LLMs不断学习、规划、生成和优化设计，无需针对特定领域进行专门训练。我们通过在桁架结构的迭代优化中展示这种框架的有效性，证明它能够根据结构化的反馈和标准调整设计。结果显示，基于LLM的代理成功生成符合自然语言描述的桁架结构设计，成功率高达90%，这取决于所施加的约束条件。通过提示式优化技术，我们展示了LLM代理在接收到解-得分对后，能够根据其内在推理能力迭代优化设计以满足规格要求。 LLM代理能够产生可行的设计并根据其固有的推理能力进行优化，这表明它们有潜力自主发展和实施有效的设计策略。
2024-04-26	Ruffle&Riley: Insights from Designing and Evaluating a Large Language Model-Based Conversational Tutoring System	Robin Schmucker et.al.	2404.17460	null	本文讨论并评估了一种新型的对话式辅导系统（Conversational Tutoring Systems，CTS），该系统利用大型语言模型（Large Language Models，LLMs）的最新进展。首先，系统通过自动从课程文本中生成易于编辑的教学脚本，实现AI辅助的内容创作。其次，系统通过两个基于LLM的代理（Ruffle和Riley）以学习教学模式运行，分别扮演学生和教授角色，进行自由形式的对话，遵循典型的人工智能辅导系统的内环和外环结构。我们在两个在线用户研究（N=200）中对比了该系统与简单的问答聊天机器人和阅读活动在支持生物学课程的效果。研究分析了系统使用模式、预后测试成绩以及用户体验调查，结果显示用户对Ruffle&Riley的参与度高，理解力强，并认为提供的支持有帮助。尽管Ruffle&Riley用户的完成时间较长，但在短期学习成效上并未发现显著差异，优于阅读活动。我们的系统架构和用户研究为未来CTS设计者提供了有价值的信息。此外，我们开源我们的系统，以促进基于LLM的学习技术有效教学设计的研究。
2024-04-26	A Unified Debugging Approach via LLM-Based Multi-Agent Synergy	Cheryl Lee et.al.	2404.17153	link	在软件调试这个耗时的过程中，人们一直在努力实现自动化，包括故障定位和修复生成。近年来，大型语言模型（LLMs）在自动化调试方面展现出巨大潜力。然而，我们发现了传统和基于LLM的调试工具面临三大挑战：1）上游的故障定位不准确会波及下游的修复；2）处理复杂逻辑错误的能力不足；3）忽视程序上下文。针对这些问题，我们提出了首个自动化的、统一的调试框架——FixAgent，通过LLM代理协同。FixAgent能执行端到端的故障定位、修复和分析。我们的关键洞察是，LLMs能够从人类开发者认可的通用软件工程原则中获益，比如“橡皮鸭调试”，这有助于更好地理解程序功能和逻辑错误。为此，我们设计了三个灵感来源于“橡皮鸭”的解决方案：代理专业化与协同、关键变量跟踪和程序上下文理解，促使LLMs提供明确的解释，并聚焦于关键的程序逻辑信息。在广泛使用的QuixBugs数据集上，FixAgent成功修复了80个bug中的79个，其中9个是之前未解决的。它还在CodeFlaws上合理地修复了1.9倍于最佳修复工具的缺陷，而且无需位置信息，采样率低于0.6%。平均而言，与使用不同LLM的基线模型相比，FixAgent提高了约20%的合理修复和正确修复率，显示出我们设计的有效性。此外，FixAgent的正确率高达97.26%，表明它有可能克服现有方法的过拟合问题。总结来说，FixAgent是一个有前景的自动化调试框架，旨在提升软件调试的效率和准确性。
2024-04-25	Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents	Giorgio Piatti et.al.	2404.16698	link	在快速发展的人工智能领域，确保大型语言模型（LLMs）的决策安全是一项重大挑战。本文提出了一种名为“Governance of the Commons Simulation”（GovSim）的模拟平台，旨在研究LLMs中的战略互动和合作决策。通过这个环境，我们探讨了AI代理之间资源分享的动态，强调了伦理考量、战略规划和谈判技巧的重要性。GovSim具有灵活性，支持文本型代理，包括LLMs。利用生成式代理框架，我们创建了一个通用代理，便于整合不同的LLMs。我们的研究发现，在GovSim中，只有15个测试模型中的2个能够实现可持续结果，这表明模型在管理共享资源的能力上存在显著差距。进一步的研究显示，如果移除代理之间的通信能力，它们会过度使用共享资源，突出了合作中沟通的关键性。有趣的是，大多数LLMs缺乏普遍化的假设能力，揭示了它们推理技能的一个重要弱点。我们开源了所有研究结果，包括模拟环境、代理提示以及全面的网络界面，以供进一步研究和讨论。
2024-04-24	Online Personalizing White-box LLMs Generation with Neural Bandits	Zekai Chen et.al.	2404.16115	null	随着大型语言模型（LLMs）开始生成个性化的文本内容，如何在不为每位用户创建独特模型的资源消耗下实现高效个性化成了新挑战。本文提出了一种创新的在线方法，利用神经_bandit算法动态优化软指令嵌入，根据用户反馈调整内容，从而提升白盒LLMs开放性文本生成的个性化水平。通过在多个任务上的严谨实验，我们证明了这种方法相对于基础策略有显著性能提升。特别是针对个性化新闻标题生成，NeuralTS带来了高达62.9%的最佳ROUGE分数提升以及2.76%的LLM代理评估分数增长，这表明其效果显著。
2024-04-04	Elicitron: An LLM Agent-Based Simulation Framework for Design Requirements Elicitation	Mohammadmehdi Ataei et.al.	2404.16045	null	## 翻译在产品开发的关键阶段——需求获取，往往难以全面捕捉用户需求，导致最终产品可能无法满足期望。为此，本文提出了一种新颖的框架，它利用大型语言模型（LLMs）来自动化和增强这一过程。通过生成大量模拟用户（LLM代理），我们可以探索更广泛的用户需求和未预见的使用场景。这些代理通过描述他们的行为、观察和挑战，参与产品体验情景。随后的代理访谈和分析揭示了宝贵的用户需求，包括潜在需求。我们通过三个实验验证了我们的框架：首先，我们探讨了不同方法生成多样化的代理，分析其优缺点，并证明了具有上下文意识的代理生成能带来更大的需求多样性。其次，我们展示了该框架如何有效地模拟富有同情心的领先用户访谈，识别出比传统人类访谈更多的潜在需求。最后，我们展示了如何使用LLMs分析访谈，提取需求并将其分类为潜在或非潜在。我们的研究工作强调了利用LLM代理加速早期产品研发、降低成本和促进创新的潜力。
2024-04-24	A Human-Computer Collaborative Tool for Training a Single Large Language Model Agent into a Network through Few Examples	Lihang Pan et.al.	2404.15974	null	## 翻译单个大型语言模型（LLM）在解决复杂任务方面的能力有限。然而，通过连接多个LLM代理构建的网络可以显著提升整体性能。本文介绍了一种人机协作工具——EasyLAN，旨在帮助开发者轻松构建LLM代理网络（LAN）。EasyLAN首先根据任务描述自动生成仅包含一个代理的初始网络。接着，它利用少量训练示例来调整网络。对于每个示例，EasyLAN分析输出与真实结果之间的差距，并找出错误的原因。EasyLAN会采用精心设计的策略来修正这些问题。用户可以介入EasyLAN的工作流程或直接修改LAN。最终，LAN从单个代理发展成多代理的网络。实验结果显示，EasyLAN能够帮助开发者快速构建性能良好的LAN。
2024-04-03	Concept-Guided LLM Agents for Human-AI Safety Codesign	Florian Geissler et.al.	2404.15317	null	随着生成人工智能在软件工程，特别是安全工程中的重要性提升，对它的质量要求也随之提高。单纯依赖大型语言模型（LLMs）已不足以满足这些需求。因此，我们提出了一种高效且融合的策略，旨在利用LLMs进行安全分析和人机协同设计，以确保软件系统的安全性。我们开发了一个定制化的LLM代理，结合提示工程、启发式推理和检索增强生成，专注于解决与预定义安全概念相关的任务，并与系统模型图进行交互。决策流程通过一系列微决策进行引导，有助于保持结构化信息。此外，我们还提出了图的口头表述作为系统模型的中间表示，以促进LLM与图的交互。我们通过一个简化自动驾驶系统的示例，展示了选择的提示-响应对，以说明我们的方法如何应用于安全分析。
2024-04-23	Aligning LLM Agents by Learning Latent Preference from User Edits	Ge Gao et.al.	2404.15269	link	我们研究基于用户对语言模型编辑的互动学习语言代理。在诸如写作助手的常见场景中，用户与语言代理交互，根据上下文生成响应，并可能选择性地编辑代理的响应以反映他们的潜在偏好，同时提高准确性。这种编辑反馈是自然产生的，适合用于提升代理与用户偏好的契合度，降低后续用户的编辑成本。为此，我们提出PRELUDE框架，它根据历史编辑数据推断用户的潜在偏好，并据此设计一个提示策略，引导未来的响应生成，避免了昂贵且难以扩展的微调过程，还能保持在其他任务上的性能。此外，学习描述性的偏好有助于增强可解释性，用户可以查看和调整学习到的偏好。然而，用户偏好可能复杂多变，受情境影响，因此学习起来具有挑战性。为解决这一问题，我们提出CIPHER算法，它利用大型语言模型（LLM）根据用户编辑推断给定情境下的用户偏好。未来，CIPHER会从历史中的k个最接近的上下文中检索推断出的偏好，综合生成响应。我们在总结和电子邮件写作两个互动环境中使用GPT-4模拟用户进行评估，与直接使用用户编辑但不学习描述性偏好的算法，以及学习全局无上下文偏好的算法进行了比较。在两项任务中，CIPHER都实现了最低的编辑距离成本，并且学习到的偏好与真实偏好显示出显著的相似性。
2024-04-22	A Survey on Self-Evolution of Large Language Models	Zhengwei Tao et.al.	2404.14387	link	## 概述大型语言模型（LLMs）在众多领域和智能代理应用中取得了显著进步。然而，依赖人类或外部模型监督的现有LLMs在处理复杂任务和多样性增加时可能会遇到成本高昂和性能瓶颈的问题。为此，自我进化方法应运而生，这种策略允许LLMs自主获取、精炼并从自身生成的经验中学习，借鉴人类经验学习过程，有望推动LLMs向超级智能发展。本文全面综述了LLMs中的自我进化方法。首先，我们提出一个概念框架，将进化过程划分为迭代循环的四个阶段：经验获取、经验细化、更新和评估。其次，我们分类探讨LLMs和基于LLM的代理的进化目标，并对相关文献进行总结，提供每个模块的分类和见解。最后，我们指出了当前的挑战，并提出了未来研究方向，为加速自演进LLMs的发展提供关键洞见。
2024-04-21	A Survey on the Memory Mechanism of Large Language Model based Agents	Zeyu Zhang et.al.	2404.13501	link	随着大型语言模型（LLMs）在科研和工业界的广泛关注，基于LLMs的智能代理因其自我进化能力而备受瞩目，这对于解决需要长期复杂交互的现实问题至关重要。支持agent-environment交互的关键要素是代理的记忆机制。尽管已有众多有前景的记忆设计被提出，但这些研究分散在多篇论文中，缺乏全面的综述来系统性地总结和比较，未能提炼出通用且有效的设计模式以启发后续研究。为此，本论文旨在填补这一空白，我们提出一份关于LLM基代理记忆机制的全面调查。首先，我们将探讨记忆在LLM代理中的“是什么”以及“为什么需要”。然后，我们系统回顾了关于记忆模块的设计和评估方法的研究。此外，我们还会展示记忆模块在各种应用中扮演的重要角色。最后，我们会分析现有工作的局限，并指出重要的未来研究方向。为了跟踪该领域最新进展，我们创建了一个GitHub仓库：\url{https://github.com/nuster1128/LLM_Agent_Memory_Survey}。
2024-04-18	From Language Models to Practical Self-Improving Computer Agents	Alex Sheng et.al.	2404.11964	null	我们提出了一种简单直接的方法，用于创建能够执行各种计算机任务的人工智能代理，并通过自我改进来发展工具和增强功能，以解决日益复杂的任务。鉴于大型语言模型（LLMs）已显示出从非参数增强中获益，近期的研究大量集中在开发软件，以赋予LLMs各种能力。我们建议，通过适当的提示工程，一个LLM代理可以系统地生成软件来增强自身，而不是依赖人类工程的静态软件开发。我们通过一些案例研究展示了这一点：仅通过终端访问，我们引导LLM代理添加了检索、互联网搜索、网页导航和文本编辑功能。该代理有效地利用这些工具解决了问题，例如自动化软件开发和基于网络的任务。这种方法表明，通过连续提问和巧妙的提示设计，LLM能够自主扩展其功能，执行实际的计算机任务。
2024-04-25	Automated Social Science: Language Models as Scientist and Subjects	Benjamin S. Manning et.al.	2404.11794	null	我们提出了一种方法，利用大型语言模型（LLM）的最新进展，自动构建和测试社会科学假设。这种方法的关键在于使用结构因果模型。结构因果模型提供了一个陈述假设的语言、构建LLM基础代理的蓝图、实验设计以及数据分析计划。拟合后的结构因果模型可供预测或规划后续实验。我们通过几个场景进行了演示：谈判、保释听证会、求职面试和拍卖。在这些情况下，系统既提出了因果关系，也进行了检验，发现了一些证据，而有些则没有。我们证明，从这些社会互动模拟中获取的洞察并非仅通过直接询问LLM就能获得。当给定每个场景的建议结构因果模型时，LLM在预测估计效应的符号方面表现良好，但无法可靠地预测效应的大小。在拍卖实验中，模拟结果与拍卖理论的预测紧密吻合，但LLM直接提取的清算价格预测不准确。然而，如果模型能基于拟合的结构因果模型进行条件化，LLM的预测会大幅改进。简而言之，LLM知道的比它能立即表达的要多。
2024-04-17	AgentKit: Flow Engineering with Graphs, not Coding	Yue Wu et.al.	2404.11483	link	我们提出了一种直观的大型语言模型提示框架（AgentKit），旨在为多功能代理提供统一的方法。AgentKit通过简单的自然语言提示构建复杂的“思维过程”。其基本单元是节点，包含特定子任务的自然语言指令。用户可以像拼接乐高积木一样连接这些节点，从而明确设计出自然结构化的“思考流程”。例如，在撰写论文时，可能的步骤包括：1）确定核心信息，2）识别研究空白等。AgentKit的模块化特性使得高级功能如即兴的层次化规划、反思和从互动中学习变得可能。由于其直观且模拟人类思考过程的设计，即使没有编程经验的人也能创建和调整基础代理。定量实验显示，使用AgentKit设计的代理在WebShop和Crafter任务上实现了最先进的性能。这些成果表明AgentKit有潜力使LLM代理在更广泛的场景下高效且易于使用。相关代码已开源在GitHub：https://github.com/holmeswww/AgentKit。
2024-04-15	Memory Sharing for Large Language Model based Agents	Hang Gao et.al.	2404.09982	link	在人工智能领域，大型语言模型（LLMs）通过自然语言提示执行任务的能力是一个重大突破，它减少了对固定答案任务（如常识问题和是非查询）的重新训练或微调需求。然而，在处理开放性挑战如诗歌创作时，基于上下文学习的方法显示出局限，主要源于提供的示例全面性以及模型理解问题内容的能力不足，导致输出往往与预期结果大相径庭。针对这一差距，我们的研究提出了Memory-Sharing（MS）框架，这是一种针对LLM多代理的实时记忆存储和检索系统，旨在增强基于上下文的学习过程。每个“记忆”单元记录了提出的查询及其来自LLM代理的即时响应，从多个类似代理中聚合这些记忆，形成所有代理共享的丰富记忆池。MS框架不仅帮助代理找到特定任务的相关示例，还评估其记忆的潜在利用价值，供其他代理未来应用。在三个不同领域的实证验证显示，MS框架显著提高了代理处理开放性问题的表现。此外，我们还讨论了哪种记忆池和检索策略能更好地支持代理，为MS的未来发展提供了方向。代码和数据可在：https://github.com/GHupppp/MemorySharingLLM 获取。
2024-05-10	Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation	Ruixin Yang et.al.	2404.09127	link	### 背景当前的大规模语言模型（LLMs）在不确定性估计方面面临挑战，它们通常校准不良且过度自信，特别是在基于人类反馈的强化学习（RLHF）中。人类的决策和信心不仅源于内在信念，还能通过日常观察进行调整，而现有LLM的校准方法主要关注单个模型的信心估计，未能充分利用“集体智慧”：多个LLM之间的协作表达能力，这可以集体提高准确性和校准。本研究中，我们提出了一种无训练后处理的校准策略——协作校准（Collaborative Calibration），它利用多代理工具增强的LLMs在模拟的群体讨论过程中，共同提升校准能力和推理合理性。 ### 任务我们在生成式问答任务上展示了协作校准的有效性，覆盖了多个领域，证明了它在整合集体校准后的信心评估和提升模型预测可靠性方面的潜力。
2024-04-13	CuriousLLM: Elevating Multi-Document QA with Reasoning-Infused Knowledge Graph Prompting	Zukang Yang et.al.	2404.09077	link	在问答（QA）领域，大型语言模型（LLMs）与外部数据库的融合取得了显著成效。然而，这些方法在处理复杂推理任务时往往力有不逮。为此，我们对一种名为知识图谱提示（KGP）的创新方法进行了优化，该方法结合知识图谱和基于LLM的代理以提升推理和搜索精度。然而，原始的KGP框架需要昂贵的大规模数据微调，并且仍存在LLM的错误推断问题。因此，我们提出了一种融入推理能力的LLM代理，它模仿人类的好奇心，通过提问来更有效地导航搜索过程。这个简单的改进显著提高了LLM在QA任务中的性能，同时避免了初始KGP框架的高成本和延迟。我们的目标是进一步发展这种方法，最终实现更精确、更快捷且成本效益更高的QA解决方案。
2024-04-13	Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation	Jia Gu et.al.	2404.09043	null	随着大型语言模型（LLMs）的飞速发展及其在处理复杂语言任务中的出色表现，越来越多的研究尝试利用LLMs模拟人类的行为决策过程，通常这些过程被表示为马尔可夫决策过程（MDPs）。在这个框架中，动作遵循特定的概率分布，并需要迭代采样。这促使我们探究LLM代理理解概率分布的能力，以通过概率采样指导行为决策并生成行为序列。我们将问题分为两个主要方面：一是已知精确概率分布的模拟，二是模糊概率分布的序列生成。在已知概率分布的情况下，代理需要根据问题描述提供概率分布的类型和参数，然后给出采样序列。然而，我们的研究显示，LLM代理在这方面的性能不佳，但通过编程工具可以一定程度上提高采样成功率。而在实际情境中，概率分布往往不明确。因此，我们在第二部分让代理调整在线社交网络中的活跃度，并分析行动频率。结果表明，即使借助编程工具，LLM代理依然无法有效地采样概率分布。这意味着在直接将LLM作为模拟人类行为的代理应用之前，还需要谨慎对待。
2024-04-12	Strategic Interactions between Large Language Models-based Agents in Beauty Contests	Siting Lu et.al.	2404.08492	null	随着大型语言模型（LLMs）的广泛应用，它们在博弈论框架下的游戏行为理解潜力日益显现。本研究聚焦于通过模拟分析不同类型LLM驱动的代理在经典 Beauty Contest 游戏中的策略互动。借鉴人类实验，我们对LLM代理的策略层次进行类似的评估，发现它们展现出从零级到一级的不同程度推理能力，并在重复游戏中表现出行动趋同。此外，我还探讨了不同类型的代理群体构成如何影响战略行为：高比例的固定策略对手能促进LLM代理的收敛，而混合环境中不同相对策略水平的代理共存会加速所有代理的收敛。更智能的代理可能获得更高的平均收益，但这是以较低智能代理的牺牲为代价的。这些结果不仅揭示了在特定情景下模拟代理的结局，还为理解算法之间的战略互动提供了重要启示。
2024-04-17	LLM Agents can Autonomously Exploit One-day Vulnerabilities	Richard Fang et.al.	2404.08144	null	随着大语言模型（LLMs）的威力日益增强，其在良性和恶意用途上的应用也日益广泛。研究人员开始关注它们利用网络安全漏洞的能力。近期的研究探讨了LLMs自主破解网站的可能性，但这些研究主要集中在简单的漏洞上。本工作揭示，LLMs能够自主利用现实世界系统中的单日漏洞。我们收集了一组包含15个被CVE描述为“关键严重性”的一天期漏洞数据。当提供CVE描述时，GPT-4模型能成功利用87%的漏洞，相比之下，其他测试模型（如GPT-3.5、开源LLMs和开源漏洞扫描器ZAP和Metasploit）的表现均为0%。然而，我们的GPT-4模型在没有描述的情况下效率大减，仅能利用7%的漏洞。这些发现对大规模部署高能力LLMs提出了质疑。
2024-04-11	WESE: Weak Exploration to Strong Exploitation for LLM Agents	Xu Huang et.al.	2404.07456	null	近期，大型语言模型（LLMs）显示出作为智能代理的强大潜力。然而，现有的研究主要集中在通过精心设计的提示工程或任务特定的微调来提升模型的推理或决策能力，忽视了探索与利用的过程。在处理开放世界交互环境中的复杂任务时，这些方法存在局限性。首先，由于缺乏对环境的全局信息，模型倾向于做出贪婪决策，导致解决方案不理想。另一方面，从环境中获取的无关信息不仅引入噪声，还增加了额外的成本。为此，本文提出了一种新颖的方法——弱探索强化强利用（Weak Exploration to Strong Exploitation，WESE），旨在增强LLM在解决开放世界交互任务中的表现。具体来说，WESE将探索和利用过程解耦，使用成本效益高的“弱”代理执行探索任务，以获取全局知识。随后，我们引入基于知识图谱的策略来存储这些知识，并提取与任务相关的关键信息，从而提升“强”代理在成功率和效率上的性能。我们的方法适用于各种任务，并在四个互动基准测试中显著提高了成功率和效率。
2024-04-10	GoEX: Perspectives and Designs Towards a Runtime for Autonomous LLM Applications	Shishir G. Patil et.al.	2404.06921	link	随着大型语言模型（LLMs）的发展，它们不再仅仅是对话系统中的信息提供者，而是开始积极参与到与实际应用和服务的互动中。如今，人类在将LLM生成的输出（如代码、函数或操作）投入现实世界执行前，需要验证其正确性和适用性，这带来了挑战，因为代码理解被广泛认为非常困难。本文研究了人类如何能有效与LLMs协作、委派和监督，特别是在未来。我们主张，在许多情况下，对提出的行动进行“事后验证”（在看到输出后确认其正确性）比之前的“事前验证”更为容易。实现这一目标的核心理念是集成直观的撤销功能，并为LLM生成的动作设定损害约束，作为降低相关风险的有效策略。通过这种方式，人类可以撤销LLM输出的影响，或者确信潜在风险是有限的。我们认为这对于实现LLMs与应用和服务在有限的人类监督下交互至关重要。我们描述了开源运行时Gorilla Execution Engine（GoEX）的设计和实现，该运行时用于执行LLM动作，并提出了一些开放的研究问题，旨在推动LLMs与应用之间以最小的人工干预进行交互。GoEX的源代码已发布在https://github.com/ShishirPatil/gorilla/。
2024-04-09	AgentQuest: A Modular Benchmark Framework to Measure Progress and Improve LLM Agents	Luca Gioacchini et.al.	2404.06411	link	随着大型语言模型（LLMs）的进展，人们追求能够解决复杂、多步骤推理任务的LLM代理。然而，现有的基准往往局限且只关注整体任务成功率。为了解决这些问题，我们提出了AgentQuest框架，它具有以下特点：（i）benchmark和评估指标模块化且易于扩展，通过文档齐全、易用的API；（ii）我们提供了两种新的评估指标，能够在解决任务时可靠地追踪LLM代理的进步。我们通过两个示例展示了这些指标的实用性，通过识别常见失败点并优化代理架构，显著提高了性能。我们希望与研究界共同扩展AgentQuest，并已将其开源在https://github.com/nec-research/agentquest。
2024-04-15	AutoCodeRover: Autonomous Program Improvement	Yuntong Zhang et.al.	2404.05427	link	在过去几十年里，研究人员在自动化软件开发过程中取得了显著进展，尤其是大型语言模型（LLMs）的应用极大地推动了编程辅助的自动化。然而，软件工程并不仅仅是编码，还包括维护（如修复bug）和演化（如添加功能）等程序改进过程。本文提出了一种自动解决GitHub问题的方法，旨在实现程序自主改进。我们的方法称为AutoCodeRover，它结合了LLMs与高级代码搜索能力，最终生成程序修改或补丁。与AI研究者和从业者近期关注的仅文件级别的软件项目不同，我们的工作侧重于程序表示（抽象语法树），利用类/方法的程序结构来增强LLM对问题根本原因的理解，并通过迭代搜索提供上下文。当测试套件可用时，谱系基线故障定位技术进一步精确了上下文。在SWE-bench-lite，一个包含300个真实GitHub问题的数据集上，AutoCodeRover的解决方案效果提升，解决了约22-23%的问题。对于全量的SWE-bench，包含2294个GitHub问题，AutoCodeRover解决了大约16%的问题，这比最近报道的来自Cognition Labs的AI软件工程师Devin的表现还要高，而且时间消耗与Devin相当。我们相信，我们的工作流程能够推动自主软件工程的发展，未来LLM自动生成的代码可以被自动地进行优化和改进。
2024-04-08	Long-horizon Locomotion and Manipulation on a Quadrupedal Robot with Large Language Models	Yutao Ouyang et.al.	2404.05291	null	我们提出了一种基于大型语言模型（LLM）的系统，旨在提升四足机器人的问题解决能力，使其能够处理超越短期动作的长期任务。对于四足机器人来说，长期任务极具挑战性，因为它们需要对任务的语义有高层理解，并具备广泛的运动和操纵技能以与环境互动。我们的系统构建了一个高层推理层，利用大型语言模型，从任务描述中生成混合离散-连续的计划，作为机器人代码。它包括多个LLM代理：一个用于构思计划的语义规划器、一个参数计算器，用于预测计划中的参数，以及一个代码生成器，将计划转换为可执行的机器人代码。在低层次，我们采用强化学习来训练一套运动规划和控制技能，以增强四足机器人的灵活性，使其能进行丰富环境交互。我们在难以用单一技能完成的长期任务上测试了我们的系统。模拟实验和真实世界实验表明，它成功地制定了多步骤策略，并展现出非平凡的行为，例如制作工具或向人类寻求帮助。
2024-04-06	Autonomous Artificial Intelligence Agents for Clinical Decision Making in Oncology	Dyke Ferber et.al.	2404.04667	null	多模态人工智能系统有望通过解析各类医学数据提升临床决策。然而，这些模型在各医学领域的效能尚不明朗，每个领域都有其独特挑战。本文提出了一种利用大型语言模型（LLMs）作为核心推理引擎的新型多模态医疗AI方法。此引擎自主协调并部署一系列专门的医疗AI工具，如文本解读、放射学和病理图像分析、基因数据处理、网络搜索以及医疗指南文档检索。我们在一系列临床肿瘤学场景中验证了该系统，这些场景模拟了典型的患者护理流程。结果显示，系统在选择恰当工具（97%）、得出正确结论（93.6%）、提供完整（94%）和有益（89.2%）治疗建议，以及根据指令引用相关文献（82.5%）方面表现出高能力。这表明LLMs能够有效地规划和执行领域特定模型，以获取或合成新信息，从而充当个性化临床助手。此外，这种架构简化了监管合规性，因为每个组件工具可以单独验证和审批。我们相信，这项工作为医疗领域的更先进LLM代理提供了概念验证。
2024-04-05	Cleared for Takeoff? Compositional & Conditional Reasoning may be the Achilles Heel to (Flight-Booking) Language Agents	Harsh Kohli et.al.	2404.04237	null	大型语言模型（LLMs）的快速进步使其在标准基准测试中频频超越人类表现，推动了众多下游应用的发展，如基于LLMs的代理。然而，这些模型在看似简单的任务中意外地表现不佳，这强调了对更全面和多样化的评估框架的需求，以衡量它们的实际能力。为此，我们聚焦于组合性和条件推理——人类认知的基石，并提出GroundCocoa，这是一个与航班预订这一现实问题相连接的词汇丰富的基准。我们的任务是将用户的详细偏好与以多选形式提供的可用航班选项进行匹配。结果显示，包括最先进的GPT-4 Turbo在内的当前最佳模型，在经过高级提示后，准确率仍不超过67%，显示出显著的性能差距。
2024-04-02	Self-Organized Agents: A LLM Multi-Agent Framework toward Ultra Large-Scale Code Generation and Optimization	Yoichi Ishibashi et.al.	2404.02183	link	## 背景随着大型语言模型（LLM）代理的最新进展，自动化软件开发的未来正逐渐显现。然而，现有的单代理方法在生成和优化大规模、复杂的代码库时面临上下文长度限制的问题。为解决这一挑战，我们提出了一种新颖的多代理框架——自组织多Agent体系（SoA）。SoA是一个可扩展且高效的多代理系统，它允许独立地生成和修改代码组件，并协同构建整个代码库。SoA的一个关键特性是根据问题复杂性自动增加代理，实现动态可扩展性。这样，整体代码量可以根据代理数量无限增长，而每个代理管理的代码量保持恒定。我们在HumanEval基准上评估了SoA，并发现与单代理系统相比，SoA中的每个代理处理的代码量明显减少，但总体生成的代码量显著增加。此外，SoA在Pass@1准确率方面比强大的单代理基线提高了5%。
2024-04-02	Helmsman of the Masses? Evaluate the Opinion Leadership of Large Language Models in the Werewolf Game	Silin Du et.al.	2404.01602	link	大型语言模型在社交推理游戏中展现出显著的策略行为，但对它们作为意见领袖的重要性关注不足，这对于多Agent和人机交互场景的实际应用至关重要。意见领袖是指在一个社会群体中对他人信念和行为有显著影响的个体。本研究使用“狼人杀”游戏作为模拟平台，探讨语言模型在扮演Sheriff（治安官）角色时的意见领导能力。Sheriff负责总结论点并提出决策建议，因此它代表了意见领袖的一个可信代理。我们构建了一个整合Sheriff角色的框架，并基于意见领袖的关键特性提出了两个评估指标：第一个衡量意见领袖的可靠性，第二个考察其对其他玩家决策的影响。我们进行了大量实验，评估不同规模的语言模型，并创建了“狼人杀”问题回答数据集（WWQA），以测试和提升模型对游戏规则的理解。此外，还包含了人类参与者进行进一步分析。研究结果表明，“狼人杀”游戏是一个有效评估语言模型意见领导力的试验场，但目前仅有少数语言模型具备这种能力。
2024-04-15	CHOPS: CHat with custOmer Profile Systems for Customer Service with LLMs	Jingzhe Shi et.al.	2404.01343	link	随着企业和软件平台越来越多地采用大型语言模型（如GPT-3.5、GPT-4、GLM-3和LLaMa-2）提供聊天辅助或客户服务推理，现有的基于LLM的客户服务模型在与客户资料集成和执行实际操作方面存在局限。它们倾向于强调多样性而非精确性和错误避免，这对于现实世界的客户服务场景并不理想。因此，我们提出了一种名为CHOPS（结合客户资料的聊天助手）的LLM代理，旨在：（1）高效利用现有数据库或系统查询用户信息，或遵循既定指南与系统交互；（2）提供准确合理的响应并执行系统内的必要操作，同时避免有害操作；（3）通过结合小型和大型LLM以实现性能满意且成本合理的推理。我们开发了一个实用的数据集，称为CPHOS-dataset，它包括一个数据库、指导文件以及来自CPHOS平台的模拟物理奥林匹克组织服务的问答对。CPHOS是一个面向高中教师和学生的在线平台。我们通过使用CPHOS-dataset进行了广泛的实验，验证了CHOPS架构的性能，目标是展示LLM如何提升或替代人工客户服务。关于我们的提案架构和数据集的代码可在此处获取：https://github.com/JingzheShi/CHOPS。
2024-03-31	DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model	Lirui Zhao et.al.	2404.01342	link	文本到图像（T2I）生成模型近年来备受瞩目，在学术研究和实际应用中大放异彩。例如，Civitai平台，一个T2I创新的聚集地，目前汇集了74,492种独特的模型，这带来了选择最合适的模型和参数的艰巨任务，通常需要多次试验。借鉴大型语言模型（LLMs）工具使用研究的思路，我们推出了DiffAgent，这是一个通过API调用来快速筛选准确选项的LLM代理。DiffAgent采用了一种新颖的两阶段训练框架，称为SFTA，使其能够根据人类偏好精确地将T2I API的响应与用户输入对齐。为了训练和评估DiffAgent的能力，我们构建了DABench，这是一个全面的数据库，涵盖了社区中的各种T2I API。实验结果显示，DiffAgent不仅在选择适当的T2I API方面表现出色，还验证了SFTA训练框架的有效性。相关代码已可在https://github.com/OpenGVLab/DiffAgent获取。
2024-03-31	Algorithmic Collusion by Large Language Models	Sara Fish et.al.	2404.00806	null	随着算法定价的兴起，人们担忧算法间的合谋问题。我们通过实验使用基于大型语言模型（LLMs）的定价代理，特别是GPT-4，进行了探究。研究发现：(1) LLM驱动的定价机制在定价任务上表现出色；(2) 在寡头竞争环境中，LLM定价代理会自发地进行合谋，从而损害消费者利益；(3) 对LLM指令（“提示”）看似微小的变化可能加剧这种合作行为。这些结果同样适用于拍卖场景。我们的研究结果强调了对算法定价进行反垄断监管的必要性，并揭示了针对LLM定价代理特有的监管挑战。
2024-03-31	"My agent understands me better": Integrating Dynamic Human-like Memory Recall and Consolidation in LLM-Based Agents	Yuki Hou et.al.	2404.00573	link	在这个研究中，我们提出了一种创新的人类记忆架构，旨在提升基于大型语言模型的对话代理的认知能力。我们的设计使得这些代理能自主检索生成响应所需的必要记忆，从而解决LLMs在时间认知上的局限。我们借鉴了人类的记忆线索召回机制作为触发点，以实现精确且高效的回忆。此外，我们开发了一个数学模型，动态量化记忆巩固过程，考虑了诸如上下文相关性、时间流逝和回忆频率等因素。代理会从用户的交互历史中存储记忆，这些记忆被封装在数据库中，每个记忆都包含了内容和时间关联的语境。这样，通过类似人类识别和回忆过往经历的方式，系统能够战略性地存储记忆，并理解它们对用户在时间线上的重要性。

(back to top)

llm

Publish Date	Title	Authors	PDF	Code	abstract
2024-11-05	LLMs for Domain Generation Algorithm Detection	Reynier Leyva La O et.al.	2411.03307	null	本文分析了使用大型语言模型（LLMs）来检测域名生成算法（DGAs）的应用。我们详细评估了两种重要技术：情境学习（ICL）和监督微调（SFT），展示了它们如何提高检测效果。SFT通过使用特定领域的数据提高了性能，而ICL则帮助检测模型快速适应新威胁，而无需大量的再训练。我们使用Meta的Llama3 8B模型，在一个自定义数据集上进行实验，该数据集包含了68个恶意软件家族和正常域名，涵盖了多个难以检测的方案，包括最近的基于词汇的DGAs。结果证明，基于LLM的方法在DGA检测方面可以达到具有竞争力的结果。特别是基于SFT的LLM DGA检测器在使用注意力层的最先进模型基础上实现了超越，达到了94%的准确率和4%的误报率，并且在检测基于词汇的DGA域名方面表现出色。
2024-11-05	VERITAS: A Unified Approach to Reliability Evaluation	Rajkumar Ramamurthy et.al.	2411.03300	null	大型语言模型（LLMs）通常无法从上下文中综合信息以生成准确的响应。这使得它们在知识密集型场景中变得不可靠，在这些场景中，输出的可靠性至关重要。对于可靠的LLM来说，集成一个强大的事实核查系统以检测各种格式中的幻觉是一个关键组成部分。虽然有一些开放访问的事实核查模型可用，但它们的功能往往局限于特定任务，如基于事实的问题回答或蕴涵验证，并且在对话设置中的表现较差。另一方面，封闭访问的模型如GPT-4和Claude提供了更大的灵活性，适用于不同的上下文，包括基于事实的对话验证，但受到高成本和延迟的限制。在这项工作中，我们介绍了VERITAS，这是一个幻觉检测模型家族，旨在灵活地跨多种上下文运行，同时最小化延迟和成本。VERITAS在所有主要幻觉检测基准上的平均性能达到了最先进的水平，与类似大小的模型相比，其平均性能提高了10%，并且接近GPT4涡轮在大模型作为裁判设置下的性能。
2024-11-05	Examining Human-AI Collaboration for Co-Writing Constructive Comments Online	Farhana Shahid et.al.	2411.03295	null	本文研究了大型语言模型（LLMs）如何帮助人们在涉及分裂性社会问题的在线辩论中撰写建设性的评论，并探讨了不同文化背景下对建设性的理解是否存在差异。通过针对来自印度和美国的600名参与者进行的控制实验，这些参与者审查并撰写了关于伊斯兰恐惧症和同性恋恐惧症在线帖子的建设性评论，我们发现LLMs与人类对在线评论的建设性感知存在潜在不一致。尽管LLM更倾向于认为辩证性评论更具建设性，但参与者更重视逻辑性和事实性。尽管存在这些差异，参与者仍认为LLM生成的和人机协作撰写的评论比独立由人类撰写的评论更具建设性。我们的分析还显示，LLM生成的和人机协作撰写的评论表现出更多与建设性相关的语言特征，相比人类撰写的关于分裂性话题的评论而言。当参与者使用LLMs来改进他们的评论时，最终的评论更长、更有礼貌、更积极、毒性更低且更易读，增加了论证特征，保留了原始意图，但偶尔会失去一些细微之处。基于这些发现，我们讨论了在利用LLMs促进在线建设性讨论时的伦理和设计考虑。
2024-11-05	Interaction2Code: How Far Are We From Automatic Interactive Webpage Generation?	Jingyu Xiao et.al.	2411.03292	null	将网页设计转换为功能性的用户界面代码是构建网站的关键步骤，但这一过程可能非常繁琐且耗时。为了自动化这一设计到代码的转换过程，已经提出了各种基于学习网络和多模态大语言模型（MLLMs）的方法。然而，这些研究仅在少量静态网页上进行评估，并忽略了动态交互元素，这使得它们在实际网站部署中的应用价值有限。为此，我们首次系统地研究了MLLMs在生成交互式网页方面的表现。具体来说，我们首先定义了交互到代码的任务，并构建了Interaction2Code基准数据集，该数据集包含97个独特的网页和213种不同的交互，涵盖15种网页类型和30种交互类别。然后，我们使用三种最先进的MLLMs进行了全面实验，结合自动度量指标和人工评估，总结出六个发现。实验结果突显了MLLMs在生成细粒度交互特征以及处理复杂转换和细微视觉修改的交互方面存在的局限性。我们进一步分析了失败案例及其根本原因，识别出10种常见的失败类型并评估了其严重程度。此外，我们的发现揭示了三个关键影响因素，即提示、视觉显著性和文本描述，这些因素可以提升MLLMs在交互生成方面的性能。基于这些发现，我们为研究人员和开发者提供了启示，为该领域的未来进展奠定了基础。数据集和源代码可在https://github.com/WebPAI/Interaction2Code获取。
2024-11-05	The Future of Intelligent Healthcare: A Systematic Analysis and Discussion on the Integration and Impact of Robots Using Large Language Models for Healthcare	Souren Pashangpour et.al.	2411.03287	null	大型语言模型（LLMs）在医疗机器人中的潜在应用可以帮助应对全球医疗系统面临的巨大需求，特别是在人口老龄化和医疗专业人员短缺的情况下。尽管LLMs已经被整合到医学领域以协助医生和患者，但在临床环境中将LLMs集成到医疗机器人中尚未得到探索。在这篇视角论文中，我们研究了机器人技术和LLMs的突破性发展，以独特地确定设计面向健康领域的基于LLM的机器人的所需系统要求，包括通过人机交互（HRIs）进行多模态通信、语义推理和任务规划。此外，我们还讨论了这一新兴创新领域的伦理问题、开放挑战以及潜在的未来研究方向。
2024-11-05	SMoA: Improving Multi-agent Large Language Models with Sparse Mixture-of-Agents	Dawei Li et.al.	2411.03284	link	尽管多智能体系统在各种任务和应用中显著提升了大型语言模型（LLMs）的性能，但智能体之间的密集交互可能会妨碍其效率和多样性。为了解决这些挑战，我们从稀疏混合智能体（SMoE）框架中汲取灵感，并提出了一种稀疏混合智能体（SMoA）框架，以提升多智能体LLMs的效率和多样性。与完全连接的结构不同，SMoA引入了响应选择和提前停止机制来稀疏化个体LLM智能体之间的信息流，从而在性能和效率之间取得平衡。此外，受SMoE框架中专家多样性原则的启发，我们为每个LLM智能体分配了不同的角色描述，促进了多样性和发散性思维。广泛的实验表明，在推理、对齐和公平性基准测试中，SMoA的表现与传统的混合智能体方法相当，但计算成本显著降低。进一步分析表明，SMoA更加稳定，具有更大的扩展能力，并且通过超参数优化提供了相当大的潜力。代码和数据将在：https://github.com/David-Li0406/SMoA 获取。
2024-11-05	Spontaneous Emergence of Agent Individuality through Social Interactions in LLM-Based Communities	Ryosuke Takata et.al.	2411.03252	null	我们从零开始研究代理的出现，通过使用基于大型语言模型（LLM）的代理。在以往对基于LLM的代理的研究中，每个代理的性格特征，包括个性和记忆，通常是预先定义好的。我们关注的是如何从一个未分化的状态中分化出个体性，如行为、个性和记忆。当前的LLM代理在一个群体模拟中进行合作交流，以自然语言交换基于上下文的消息。通过分析这一多代理模拟，我们报告了关于社会规范、合作和个人特质如何自发产生的有价值的新见解。本文展示了自主交互的LLM驱动代理会生成幻觉和话题标签来维持交流，这反过来增加了他们互动中的词汇多样性。随着交流的进行，每个代理的情绪会发生变化，当它们形成社区时，代理的个性随之出现并发展。这种计算建模方法及其发现将为分析集体人工智能提供一种新的方法。
2024-11-05	DiffLM: Controllable Synthetic Data Generation via Diffusion Language Models	Ying Zhou et.al.	2411.03250	null	近期大型语言模型（LLM）的进步显著增强了其知识和生成能力，引发了利用LLM进行高质量数据合成的浓厚兴趣。然而，通过提示LLM进行合成数据生成仍然面临挑战，因为LLM对目标数据分布的理解有限，并且提示工程复杂，尤其是对于结构化格式的数据。为了解决这些问题，我们引入了DiffLM，这是一种基于变分自编码器（VAE）的可控数据合成框架，进一步利用扩散模型保留原始分布和格式结构中的更多信息，并通过即插即用的潜在特征注入模块将目标分布知识的学习与LLM的生成目标解耦。由于观察到VAE的潜在表示与真实数据分布之间存在显著差异，我们在框架中引入了潜在扩散模块，以学习一个完全表达的潜在分布。在七个具有结构化格式数据（即表格、代码和工具数据）的真实世界数据集上的评估表明，DiffLM生成了高质量的数据，在某些情况下，下游任务的表现超过了真实数据2-7个百分点。数据和代码将在内部审查完成后公开。
2024-11-05	From Pen to Prompt: How Creative Writers Integrate AI into their Writing Practice	Alicia Guo et.al.	2411.03137	null	创意作家们热爱他们的创作工艺，然而使用大型语言模型（LLMs）的AI系统可以自动化写作过程中的许多部分。那么，为什么一些创意作家选择将AI整合到他们的工作流程中呢？为了探讨这个问题，我们采访并观察了18位已经定期在写作实践中使用AI的创意作家的写作会话。我们的研究发现，创意作家在整合AI时是有意为之的，他们根据对写作的核心价值观，如真实性和工艺，以及与AI的关系和使用方式，做出许多有意识的决定，以确定他们希望在哪些方面保持控制权。通过分析，我们提出了一个作家价值观、作家与AI的关系以及整合策略的分类，并讨论了这三个要素之间的相互关系。
2024-11-05	"Create a Fear of Missing Out" -- ChatGPT Implements Unsolicited Deceptive Designs in Generated Websites Without Warning	Veronika Krauß et.al.	2411.03108	null	随着大型语言模型（LLMs）的最新进展，网络开发者越来越多地利用它们的代码生成能力进行网站设计。然而，由于这些模型是基于现有的设计师知识进行训练的，它们可能会无意中复制不良甚至非法的做法，特别是欺骗性设计（DD）。本文研究了用户是否可能在为一个虚构的网上商店创建功能时意外地生成欺骗性设计模式。我们招募了20名参与者，让他们使用ChatGPT生成产品概览或结账功能，然后使用中立提示对其进行修改以实现商业目标（例如，“提高我们销售产品的可能性”）。我们发现，所有20个生成的网站都至少包含一种欺骗性设计模式（平均值：5，最大值：9），且GPT-4没有发出任何警告。当参与者反思这些设计时，只有4名参与者表达了担忧，而大多数认为结果令人满意，并不认为这在道德上存在问题，尽管这对终端用户和采纳ChatGPT建议的人来说存在潜在的伦理和法律问题。
2024-11-04	Training-free Regional Prompting for Diffusion Transformers	Anthony Chen et.al.	2411.02395	link	扩散模型在文本到图像生成方面展示了出色的能力。随着大型语言模型（如T5、Llama）的应用，它们对语义的理解能力，即遵循提示的能力也得到了极大的提升。然而，现有的模型无法完美处理长且复杂的文本提示，尤其是当这些文本提示包含具有众多属性和相互关联的空间关系的多个对象时。尽管已经提出了许多基于UNet的模型（如SD1.5、SDXL）的区域提示方法，但基于最近的扩散变换器（DiT）架构（如SD3和FLUX）的方法尚未实现。在这份报告中，我们提出并实现了基于注意力操作的FLUX.1的区域提示方法，这使得DiT能够在无需训练的情况下具备细粒度的组合式文本到图像生成能力。代码可在https://github.com/antonioo-c/Regional-Prompting-FLUX获取。
2024-11-04	Adaptive Length Image Tokenization via Recurrent Allocation	Shivam Duggal et.al.	2411.02393	link	当前的视觉系统通常为图像分配固定长度的表示，而不考虑信息内容。这与人类智能以及大型语言模型不同，后者根据熵、上下文和熟悉度分配不同的表征容量。受此启发，我们提出了一种方法来学习二维图像的变长令牌表示。我们的编解码器架构递归地处理二维图像令牌，在多次迭代的循环展开过程中将其提炼为一维潜在令牌。每次迭代都会细化二维令牌，更新现有的一维潜在令牌，并通过添加新令牌自适应地增加表征容量。这使得图像可以压缩成一个可变数量的令牌，范围从32到256。我们使用重建损失和FID指标验证了我们的标记化方法，结果表明令牌数量与图像熵、熟悉度和下游任务要求相匹配。在每次迭代中随着表征容量的增加进行循环令牌处理显示出令牌专业化的迹象，揭示了对象/部分发现的潜力。
2024-11-04	Improving Scientific Hypothesis Generation with Knowledge Grounded Large Language Models	Guangzhi Xiong et.al.	2411.02382	null	大型语言模型（LLMs）在各个科学领域展示了非凡的能力，从自然语言处理到复杂的问题解决任务。它们理解并生成类似人类文本的能力开启了推进科学研究的新可能性，使数据处理、文献综述甚至实验设计等任务成为可能。在这种背景下，LLMs最有前景的应用之一是假设生成，通过分析现有知识，它们可以识别新的研究方向。然而，尽管有这些潜力，LLMs容易生成“幻觉”，即听起来合理但实际上不正确的输出。这一问题在需要严格准确性和可验证性的科学领域提出了重大挑战，可能导致错误或误导性的结论。为了克服这些挑战，我们提出了一种名为KG-CoI（基于知识图谱的思路链）的新系统，该系统通过整合来自知识图谱（KGs）的外部结构化知识来增强LLM假设生成。KG-CoI引导LLMs经历一个结构化的推理过程，并将其输出组织成一个思路链（CoI），还包括一个基于知识图谱支持的模块来检测幻觉。通过在我们新构建的假设生成数据集上进行的实验，我们证明了KG-CoI不仅提高了LLM生成假设的准确性，还减少了其推理链中的幻觉，突显了它在推进现实世界科学研究方面的有效性。
2024-11-04	Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI	Ramneet Kaur et.al.	2411.02381	null	在本文中，我们提出了一种动态语义聚类方法，该方法受到中国餐馆过程的启发，旨在解决大型语言模型（LLMs）推理中的不确定性问题。我们通过计算生成的语义聚类的熵来量化LLM对给定查询的不确定性。此外，我们建议利用这些聚类的（负）似然性作为（非）一致性得分，在符合性预测框架内使用，使模型能够预测一组响应而不是单一输出，从而考虑其预测中的不确定性。我们通过两个著名的问答基准测试COQA和TriviaQA验证了我们不确定性量化（UQ）技术的有效性，使用的两种LLMs分别为Llama2和Mistral。我们的方法在AUROC、AUARC和AURAC等指标下实现了最先进的UQ性能。所提出的符合性预测器也被证明能够在保持相同概率保证包含正确答案的同时，产生更小的预测集，与现有的最先进符合性预测基线相比。
2024-11-04	DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution	Yang Yue et.al.	2411.02359	link	多模态大语言模型（MLLMs）在处理复杂的语言和视觉数据方面展现了卓越的理解和推理能力。这些进展激发了建立一种通用机器人多模态大语言模型的愿景，这种模型能够理解复杂的人类指令并完成各种具身任务。然而，由于机器人平台通常具有有限的计算和内存容量，将MLLMs应用于现实世界的机器人面临挑战。相比之下，MLLMs的推理过程需要存储数十亿参数并执行大量计算，对硬件提出了很高的要求。在本文中，我们提出了一种针对机器人视觉-语言-动作模型的动态早退框架（DeeR-VLA，或简称DeeR），该框架能够根据具体情况自动调整激活的MLLM的大小。这种方法利用了MLLMs中的多出口架构，使得模型可以在特定情况下激活适当大小的模型后终止处理，从而避免进一步的冗余计算。此外，我们开发了新的算法，基于预定义的需求（如平均计算成本即功耗、峰值计算消耗即延迟以及GPU内存使用量）来建立DeeR的早期终止标准。这些改进确保了DeeR能够在不同的资源约束下高效运行，同时保持竞争力的表现。在CALVIN机器人操作基准测试中，DeeR展示了LLM的计算成本降低了5.2到6.5倍，LLM的GPU内存减少了2到6倍，且未影响性能。代码和检查点可在https://github.com/yueyang130/DeeR-VLA获取。
2024-11-04	"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization	Eldar Kurtic et.al.	2411.02355	null	尽管大规模语言模型（LLM）的量化技术在推理加速方面取得了显著进展，但对于各种量化格式所带来的准确性和性能之间的权衡仍存在很大的不确定性。我们对量化精度进行了全面的经验研究，评估了流行的量化格式（FP8、INT8、INT4）在学术基准和现实任务中的表现，涵盖了整个Llama-3.1模型系列。此外，我们的研究还探讨了量化模型与未压缩模型生成文本之间的差异。除了基准测试外，我们还提出了一些量化改进措施，使我们能够获得最先进的准确度恢复结果。我们的调查涵盖了超过50万次独立评估，得出了几个关键发现：（1）FP8权重和激活量化（W8A8-FP）在所有模型规模下都是无损的；（2）当适当调优时，INT8权重和激活量化（W8A8-INT）仅导致1-3%的准确度下降，令人惊讶的是，其性能仍然良好；（3）INT4权重只量化（W4A16-INT）在性能上与8位整数权重和激活量化相当。为了确定给定部署环境下的“最佳”格式，我们使用流行的开源vLLM框架在不同的GPU架构上进行了推理性能分析。我们发现，W4A16在同步部署中提供了最佳的成本效益，并且在中端GPU上的异步部署也表现出色。同时，W8A8格式在高端GPU上进行中型和大型模型的异步“连续批处理”部署中表现出色。我们的研究结果为在不同规模和性能需求下部署量化LLM提供了一套实用指南。
2024-11-04	Social-RAG: Retrieving from Group Interactions to Socially Ground Proactive AI Generation to Group Preferences	Ruotong Wang et.al.	2411.02353	null	人工智能代理越来越多地被赋予在协作的在线空间中提出主动建议的任务，但有时会因为不符合团队的偏好或以不适当的社会方式行事而显得无益甚至令人厌烦。幸运的是，团队空间拥有丰富的先前社会互动历史和社交反馈机制，可以支持创建符合团队兴趣和规范的代理。我们提出了Social-RAG工作流程，该流程将代理与关于团队的社会信息联系起来，从先前的团队互动中检索信息，选择相关社交信号，然后将上下文输入大型语言模型以生成对团队的消息。我们将这一流程实施到PaperPing系统中，该系统在团队聊天中发布学术论文推荐，利用了通过对39名研究人员进行形成性研究确定的社交信号。在为期三个月的部署中，PaperPing在不干扰现有社交实践的情况下，在18个频道发布了相关消息，促进了团队的共同理解。
2024-11-04	Can Large Language Models generalize analogy solving like people can?	Claire E. Stevenson et.al.	2411.02348	null	当解决类比问题时，我们将已知情境中的信息转移到新情境中，通过抽象规则和关系相似性来实现。在人类中，解决类比问题的能力（例如，“身体：脚 :: 桌子：？”）在儿童时期出现，并且似乎可以轻松转移到其他领域，如视觉领域“（：）:: <：？”。最近的研究表明，大型语言模型（LLMs）能够解决各种形式的类比问题。然而，LLMs能否像人类一样将类比解决能力泛化到新的领域？为了研究这个问题，我们让儿童、成人和LLMs解决一系列字母串类比问题（例如，a b : a c :: j k : ？）在拉丁字母中，在近迁移领域（希腊字母），以及远迁移领域（符号列表）。正如预期的那样，儿童和成人都能轻松地将其知识泛化到不熟悉的领域，而LLMs则没有做到这一点。这种人类与AI表现的关键差异是证据，表明这些LLMs仍然难以实现稳健的人类类比迁移。
2024-11-04	WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning	Zehan Qi et.al.	2411.02337	null	大型语言模型（LLMs）在作为自主代理方面展现出了显著的潜力，特别是在网络任务方面。然而，现有的基于LLM的网络代理严重依赖昂贵的专有LLM API，而开源的LLM缺乏必要的决策能力。本文介绍了一种名为WebRL的自我进化在线课程强化学习框架，旨在使用开源LLM训练高性能网络代理。WebRL解决了构建LLM网络代理的三个关键挑战，包括训练任务的稀缺、稀疏反馈信号以及在线学习中的策略分布漂移。具体而言，WebRL包含了1）一个自我进化的课程，该课程从失败尝试中生成新任务；2）一个稳健的结果监督奖励模型（ORM）；3）自适应强化学习策略以确保持续改进。我们将WebRL应用于将开源Llama-3.1和GLM-4模型转化为高效的网络代理。在WebArena-Lite上，WebRL将Llama-3.1-8B的成功率从4.8%提高到42.4%，并将GLM-4-9B的成功率从6.1%提高到43%。这些开源模型显著超过了GPT-4-Turbo（17.6%）和GPT-4o（13.9%）的表现，并且优于之前基于开源LLM训练的最佳网络代理（AutoWebGLM，18.2%）。我们的研究结果表明，WebRL在缩小开源和专有LLM网络代理之间的差距方面是有效的，为更易访问和强大的自主网络交互系统铺平了道路。
2024-11-04	Sparsing Law: Towards Large Language Models with Greater Activation Sparsity	Yuqi Luo et.al.	2411.02335	null	激活稀疏性指的是在激活输出中存在的大量贡献较弱的元素，这些元素可以被消除，从而有利于与大规模语言模型（LLMs）相关的许多重要应用。尽管促进LLMs中的更大激活稀疏性值得深入研究，但现有工作缺乏对激活稀疏性和潜在影响因素之间相关性的全面和定量研究。在本文中，我们对解码器-only的Transformer基础LLMs中的激活稀疏性的量化缩放特性和影响因素进行了全面研究。具体而言，我们提出了PPL- $p%$稀疏性，这是一种精确且性能感知的激活稀疏性度量，适用于任何激活函数。通过广泛的实验，我们发现了几个重要的现象。首先，不同的激活函数表现出相似的性能，但在训练时间稀疏性趋势上相反。激活比率（即$1-\mathrm{稀疏率}$ ）随着训练数据量的变化，在SiLU激活和ReLU激活的LLMs中分别遵循收敛的幂律增加和对数空间幂律减少。这表明ReLU作为激活函数比SiLU更高效，并且能够利用更多的训练数据来提高激活稀疏性。其次，激活比率在某个瓶颈点以下线性增加与宽度深度比的关系，表明固定参数规模下更深架构的潜在优势。最后，在类似的宽度深度比下，我们惊讶地发现激活稀疏性的极限值随参数规模变化较弱，即LLMs内的激活模式对参数规模不敏感。这些针对具有更大激活稀疏性的LLMs的经验法则对于使LLMs更加高效和可解释具有重要意义。
2024-11-01	SelfCodeAlign: Self-Alignment for Code Generation	Yuxiang Wei et.al.	2410.24198	link	指令微调是一种监督微调方法，显著提高了大型语言模型（LLMs）遵循人类指令的能力。我们提出了SelfCodeAlign，这是首个完全透明且许可宽松的管道，用于自我对齐代码LLMs，而无需大量的手动标注或蒸馏。SelfCodeAlign在整个数据生成过程中使用相同的基模型进行推理。它首先从高质量的种子代码片段中提取多样化的编码概念以生成新任务。然后，它为每个任务采样多个响应，并将其与测试用例配对，在沙盒环境中进行验证。最后，通过选择通过测试的示例进行指令微调。在我们的主要实验中，我们使用SelfCodeAlign与CodeQwen1.5-7B一起生成了一个包含74k个指令-响应对的数据集。在此数据集上进行微调后，该模型在HumanEval+上的pass@1达到了67.1%，超过了CodeLlama-70B-Instruct，尽管其规模小了十倍。在所有基准测试中，这个经过微调的模型始终优于之前最先进的无需人工标注或蒸馏的指令微调方法OctoPack。此外，我们展示了SelfCodeAlign在各种规模的LLMs（从3B到33B）上都是有效的，并且基模型可以从与自身数据分布的对齐中受益更多。我们还验证了管道中每个组件的有效性，显示SelfCodeAlign在直接从GPT-4o蒸馏和领先的基于GPT-3.5的蒸馏方法（如OSS-Instruct和Evol-Instruct）方面均表现出色。SelfCodeAlign还促成了StarCoder2-Instruct的创建，这是首个完全透明、许可宽松且自我对齐的代码LLM，实现了最先进的编码性能。
2024-10-31	Constraint Back-translation Improves Complex Instruction Following of Large Language Models	Yunjia Qi et.al.	2410.24175	null	大型语言模型（LLMs）在遵循具有复杂格式、长度等约束的指令时存在困难。传统上，先前的工作通过向先进的LLMs提供复杂的指令-响应对来进行后训练，以处理这些复杂指令。然而，即使是先进的LLMs也难以很好地遵循复杂的指令，从而限制了生成数据的质量。在这项工作中，我们发现现有的数据集内在地包含了隐含的复杂约束，并提出了一种新颖的数据生成技术——约束回译。具体来说，我们采用现有数据集中高质量的指令-响应对，并仅使用先进的LLMs将响应已满足的复杂约束添加到指令中，这自然降低了成本和数据噪声。在实验中，我们使用Llama3-70B-Instruct进行约束回译，创建了一个高质量的复杂指令-响应数据集，命名为CRAB。我们展示了在CRAB上进行后训练可以提高多种基础LLMs的复杂指令遵循能力，在广泛的指令遵循基准上进行了评估。我们进一步发现，约束回译也可以作为后训练中的有用辅助训练目标。我们的代码、数据和模型将被发布，以促进未来的研究。
2024-10-31	Thought Space Explorer: Navigating and Expanding Thought Space for Large Language Model Reasoning	Jinghan Zhang et.al.	2410.24155	null	近年来，大型语言模型（LLMs）在处理复杂推理任务方面展现出了巨大的潜力，通常通过构建思维链来指导模型进行多步推理。然而，现有的方法往往局限于先前探索过的解决方案空间，从而忽略了LLMs认知范围内的关键盲点。为了解决这些问题，我们设计了Thought Space Explorer (TSE)，这是一种新颖的框架，旨在扩展和优化思维结构，以引导LLMs探索其思维盲点。通过基于原始思维结构生成新的推理步骤和分支，并采用各种设计策略，TSE扩展了思维空间并减轻了盲点对LLM推理的影响。在多个级别的推理任务上的实验结果证明了TSE的有效性。我们还进行了广泛的分析，以理解结构化和扩展化的思维如何有助于释放LLM推理能力的潜力。
2024-10-31	Language-Driven Policy Distillation for Cooperative Driving in Multi-Agent Reinforcement Learning	Jiaqi Liu et.al.	2410.24152	null	合作驾驶技术对于提升交通系统的效率和安全性至关重要。基于学习的方法，如多智能体强化学习（MARL），在合作决策任务中展示了强大的能力。然而，现有的MARL方法仍然面临学习效率和性能方面的挑战。近年来，大规模语言模型（LLM）迅速发展，并在各种顺序决策任务中表现出色。为了增强合作代理的学习能力，同时确保决策效率和成本效益，我们提出了一种名为LDPD的语言驱动策略蒸馏方法来引导MARL探索。在这个框架中，基于LLM的教师代理训练较小的学生代理通过其自身的决策演示实现合作决策。教师代理增强了自动驾驶车辆的观察信息，并利用LLM进行复杂的合作决策推理，同时也利用精心设计的决策工具实现专家级决策，提供高质量的教学经验。学生代理通过梯度策略更新将教师的先验知识提炼到自己的模型中。实验表明，学生可以在最少的教师指导下快速提高其能力，并最终超越教师的表现。广泛的实验表明，我们的方法在性能和学习效率方面优于基线方法。
2024-10-31	Leveraging Large Language Models for Code Translation and Software Development in Scientific Computing	Akash Dhruv et.al.	2410.24119	link	基础模型和生成式人工智能（GenAI）的出现有望改变科学计算中的生产力，特别是在代码开发、重构以及从一种编程语言转换到另一种编程语言方面。然而，由于GenAI的输出不能保证正确性，因此仍然需要人工干预。部分这种干预可以通过任务特定工具以及用于正确性验证和有效提示开发的附加方法来自动化。我们研究了GenAI在辅助代码转换、语言互操作性和在用于模拟大型强子对撞机（LHC）粒子相互作用的遗留Fortran代码库中进行代码库检查方面的应用。在此过程中，我们开发了一款名为CodeScribe的工具，结合提示工程与用户监督，建立了一个高效的代码转换流程。在本文中，我们展示了CodeScribe如何帮助将Fortran代码转换为C++，生成Fortran-C API以集成遗留系统与现代C++库，并提供开发者支持以实现代码组织和算法实施。我们还讨论了AI驱动的代码转换面临的挑战，并强调其在提高科学计算工作流程生产力方面的优势。
2024-10-31	Repository-Level Compositional Code Translation and Validation	Ali Reza Ibrahimzada et.al.	2410.24117	null	代码翻译是将程序从一种编程语言转换为另一种编程语言的过程。一些基于规则的转译器已经被设计出来，以实现不同编程语言对之间的自动化代码翻译。然而，这些规则可能会因编程语言的发展而变得过时，并且无法推广到其他编程语言。近期的研究探索了使用大型语言模型（LLMs）来自动化代码翻译。一个关键观察是，这样的技术可能在精心设计的基准测试中表现良好，但在真实世界的项目中，由于依赖关系、自定义类型、特定于编程语言的功能等因素的存在，它们可能难以泛化。我们提出了AlphaTrans，这是一种神经符号方法，用于自动化整个代码仓库级别的代码翻译。AlphaTrans不仅翻译源代码，还翻译测试代码，并采用多级验证确保翻译后的代码保留了源程序的功能。为了分解问题以便让LLMs处理，AlphaTrans利用程序分析将程序分解成片段，并按逆调用顺序进行翻译。我们使用AlphaTrans翻译了十个现实世界中的开源项目，这些项目包含的类、方法和测试分别有<836, 8575, 2719>个。AlphaTrans成功翻译了这些项目的所有代码库，共包括6899个代码片段。99.1%的翻译代码片段在语法上是正确的，AlphaTrans验证了其中25.8%的运行时行为和功能正确性。平均而言，集成翻译和验证过程需要36小时来翻译一个项目，显示出其在实际应用中的可扩展性。对于那些在语法或语义上不正确的翻译，AlphaTrans生成一份报告，其中包括现有的翻译、堆栈跟踪、测试错误或断言失败。我们向两位开发者提供了这些辅助材料，帮助他们在四个项目中修复翻译错误。他们平均花费20.1小时解决了这些问题，并使所有测试通过。
2024-10-31	Matchmaker: Self-Improving Large Language Model Programs for Schema Matching	Nabeel Seedat et.al.	2410.24105	null	实体匹配——即在具有不同表和层次结构的异构数据源之间找到属性之间的匹配——对于创建可用于机器学习（ML）的数据至关重要。这一基础性的数据问题在医疗、金融和电子商务等领域尤为重要，同时也能够更广泛地通过增加用于训练ML模型的数据量来使ML模型受益。然而，由于不同模式之间的结构/层次和语义异质性，实体匹配是一个具有挑战性的ML任务。先前的自动化实体匹配的ML方法要么需要大量的标注数据进行模型训练，这通常是不现实的，要么零样本性能较差。为此，我们提出了Matchmaker——一种用于实体匹配的组合式语言模型程序，该程序由候选生成、优化和置信度评分组成。Matchmaker还通过一种新颖的优化方法实现在零样本情况下自我改进，该方法构建合成上下文演示以引导语言模型的推理过程。实证研究表明，在真实世界的医学实体匹配基准上，Matchmaker优于之前的基于ML的方法，突显了其加速数据集成和ML就绪数据互操作性的潜力。
2024-10-31	Desert Camels and Oil Sheikhs: Arab-Centric Red Teaming of Frontier LLMs	Muhammed Saeed et.al.	2410.24049	null	大型语言模型（LLMs）在广泛应用的同时引发了伦理问题，因为它们内置了社会偏见。本研究在包括女性权利、恐怖主义和反犹太主义在内的八个领域中考察了LLMs对阿拉伯人与西方人的偏见，并评估了这些模型抵抗延续这些偏见的能力。为此，我们创建了两个数据集：一个用于评估LLM对阿拉伯人与西方人的偏见，另一个用于测试模型对放大负面特征的提示的安全性（“越狱”）。我们评估了六种LLM——GPT-4、GPT-4o、LlaMA 3.1（8B & 405B）、Mistral 7B和Claude 3.5 Sonnet。我们发现79%的案例显示出对阿拉伯人的负面偏见，其中LlaMA 3.1-405B是最具偏见的模型。我们的“越狱”测试显示，尽管GPT-4o是经过优化的版本，但它却是最易受攻击的，其次是LlaMA 3.1-8B和Mistral 7B。除了Claude外，所有LLM在三个类别中的攻击成功率均超过87%。我们还发现Claude 3.5 Sonnet的安全性最高，但仍然在八个类别中的七个显示出偏见。尽管GPT-4o是GPT-4的一个优化版本，但我们发现它更容易受到偏见和“越狱”的影响，这表明优化存在缺陷。我们的研究结果强调了需要更强大的偏见缓解策略和强化安全措施的紧迫性。
2024-10-31	Navigating the Unknown: A Chat-Based Collaborative Interface for Personalized Exploratory Tasks	Yingzhe Peng et.al.	2410.24032	null	大规模语言模型（LLM）的兴起已经彻底改变了用户与知识系统之间的交互方式，使得聊天机器人能够整合大量的信息并协助处理复杂的探索性任务。然而，基于LLM的聊天机器人往往难以提供个性化支持，尤其是在用户以模糊查询开始或缺乏足够的上下文信息时。本文介绍了一种名为“个性化探索协作助理”（CARE）的系统，该系统通过结合多代理LLM框架和结构化的用户界面来增强个性化在探索性任务中的应用。CARE的界面包括聊天面板、解决方案面板和需求面板，使迭代式查询细化和动态解决方案生成成为可能。多代理框架协同工作，以识别显性和隐性用户需求，从而提供定制化的、可操作的解决方案。在一项涉及22名参与者的被试内用户研究中，CARE相对于基线LLM聊天机器人一直受到欢迎，用户称赞其能够减轻认知负担、激发创造力，并提供更加个性化的解决方案。我们的研究结果表明，CARE有可能将基于LLM的系统从被动的信息检索者转变为个性化问题解决和探索中的积极合作伙伴。
2024-10-31	AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents	Yifan Xu et.al.	2410.24024	null	自主代理在与现实世界互动中的重要性日益增加。特别是，安卓代理作为一种交互方法被频繁提及。然而，现有的用于训练和评估安卓代理的研究缺乏对开源和闭源模型系统的系统性研究。在这项工作中，我们提出了AndroidLab作为系统化的安卓代理框架。它包括一个具有不同模态的操作环境、动作空间以及可重复使用的基准测试。它支持在同一动作空间下的大型语言模型（LLMs）和多模态模型（LMMs）。AndroidLab基准测试包括预定义的安卓虚拟设备和九个应用上的138个任务。通过使用AndroidLab环境，我们开发了一个安卓指令数据集，并训练了六个开源的LLMs和LMMs，将LLMs的成功率从4.59%提升到21.50%，LMMs的成功率从1.93%提升到13.28%。AndroidLab已开源并公开提供，网址为https://github.com/THUDM/Android-Lab。
2024-10-30	EMMA: End-to-End Multimodal Model for Autonomous Driving	Jyh-Jing Hwang et.al.	2410.23262	null	我们介绍了EMMA，这是一种用于自动驾驶的端到端多模态模型。该模型基于多模态大型语言模型基础，直接将原始相机传感器数据映射到各种与驾驶相关的输出，包括规划轨迹、感知对象和道路图元素。EMMA通过将所有非传感器输入（例如导航指令和自车状态）和输出（例如轨迹和三维位置）表示为自然语言文本，最大限度地利用了预训练大型语言模型中的世界知识。这种方法使EMMA能够在统一的语言空间中联合处理各种驾驶任务，并使用特定任务提示生成每个任务的输出。实证研究表明，EMMA在nuScenes上的运动规划方面达到了最先进的性能，并在Waymo开放运动数据集（WOMD）上取得了具有竞争力的结果。此外，EMMA在Waymo开放数据集（WOD）上作为主要摄像头的三维目标检测也取得了具有竞争力的结果。我们展示了通过同时训练EMMA进行规划轨迹、目标检测和道路图任务可以在这三个领域都取得改进，突显了EMMA作为自动驾驶应用中的通用模型的潜力。然而，EMMA也表现出一些局限性：它只能处理少量图像帧，不包含准确的三维传感模态如激光雷达或雷达，并且计算成本较高。我们希望我们的结果能够激发进一步的研究，以解决这些问题并进一步发展自动驾驶模型架构。
2024-10-30	Evaluating Cultural and Social Awareness of LLM Web Agents	Haoyi Qiu et.al.	2410.23252	null	随着大型语言模型（LLMs）扩展到执行现实世界应用中的代理任务，超越传统的自然语言处理任务，评估其鲁棒性变得越来越重要。然而，现有的基准测试往往忽视了文化和社会意识等关键维度。为了解决这些问题，我们引入了CASA，这是一个旨在评估LLM代理在两个基于网络的任务（在线购物和社交讨论论坛）中对文化和社会规范的敏感性的基准。我们的方法评估了LLM代理检测并适当回应违反规范的用户查询和观察的能力。此外，我们提出了一种全面的评估框架，该框架测量代理对文化和社会规范的意识覆盖率、在管理用户查询时的实用性以及面对误导性网络内容时的违规率。实验表明，当前的LLM在非代理环境中的表现显著优于在网络代理环境中，代理的意识覆盖率不到10%，违规率超过40%。为了提高性能，我们探索了两种方法：提示和微调，并发现这两种方法可以互补——针对特定文化的数据集进行微调可以显著增强代理在不同地区的泛化能力，而提示则能提升代理处理复杂任务的能力。这些发现突显了在开发周期中不断基准测试LLM代理的文化和社会意识的重要性。
2024-10-30	Carrot and Stick: Eliciting Comparison Data and Beyond	Yiling Chen et.al.	2410.23243	null	比较数据通常来自于人们的主观判断，并且难以直接验证。这些数据对于许多机器学习任务至关重要，包括基于人类反馈的强化学习和排名模型估计。如何诚实地从理性个体那里获取这样的比较数据？我们设计了同伴预测机制来利用奖金-惩罚支付方式来获取比较数据。我们的设计依赖于比较数据的强随机传递性，从而创建对称的严格真实机制，使得说实话不仅形成严格的贝叶斯纳什均衡，而且在所有对称均衡中获得最高报酬。在我们的机制下，每个个体只需要评估一对项目并报告她的比较结果。我们进一步将奖金-惩罚支付的概念扩展到网络化数据的获取上，设计了一种当代理人的私人信号根据Ising模型采样时，对称地严格真实的机制。我们提供了奖金-惩罚支付成为严格贝叶斯纳什均衡的必要和充分条件。在两个现实世界的数据集上的实验进一步支持了我们的理论发现。
2024-10-30	A little less conversation, a little more action, please: Investigating the physical common-sense of LLMs in a 3D embodied environment	Matteo G. Mecattaf et.al.	2410.23242	null	作为通用工具，大型语言模型（LLMs）必须经常推理日常物理环境。在问答场景中，理解物理对象的相互作用可能是给出适当回答的必要条件。此外，LLMs越来越多地被用作自主系统中的推理引擎，设计和控制它们的动作序列。大多数研究通过静态基准来解决这个问题，这些基准由关于物理世界的文本或图像问题组成。然而，这些基准无法捕捉现实生活中的物理过程的复杂性和细微差别。在这里，我们提倡第二种相对未被充分探索的方法：通过在一个3D环境中赋予LLMs对代理的控制权来“具身化”它们。我们提出了第一个具身且认知上有意义的LLM物理常识推理评估框架。我们的框架允许直接比较LLMs与其他具身代理，如基于深度强化学习的代理，以及人类和非人类动物。我们使用Animal-AI（AAI）环境，一个模拟的3D虚拟实验室，来研究LLMs的物理常识推理能力。为此，我们使用AAI测试平台，该平台是一系列实验，复制了非人类动物的实验室研究，以研究物理推理能力，包括距离估计、跟踪看不见的物体和工具使用。我们证明，没有微调的状态-of-the-art多模态模型能够完成这种任务，使得与2019年Animal-AI奥运会参赛者和人类儿童进行有意义的比较成为可能。我们的结果显示，LLMs目前在这类任务上的表现不如人类儿童。我们认为这种方法允许使用直接从认知科学中提取的生态有效的实验来研究物理推理，从而提高LLMs的预测性和可靠性。
2024-10-30	EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning	Peide Huang et.al.	2410.23234	null	本文介绍了一个名为EMOTION的框架，用于在人形机器人中生成富有表现力的动作序列，从而增强其进行类人非语言交流的能力。非语言线索如面部表情、手势和身体动作在有效的人际互动中起着至关重要的作用。尽管在机器人的行为方面已经取得了进展，但现有的方法往往难以模仿人类非语言交流的多样性和细微差别。为了解决这一差距，我们的方法利用大型语言模型（LLM）的上下文学习能力，动态生成适合社会交往的手势动作序列，以促进人机交互。我们使用该框架生成了10种不同的表情手势，并进行了在线用户研究，比较由EMOTION和其加入人类反馈版本EMOTION++生成的动作与人类操作员生成的动作之间的自然度和可理解性。结果显示，在某些情况下，我们的方法在生成可理解且自然的机器人动作方面要么与人类表现相当，要么超越人类。我们还提供了未来研究的设计启示，考虑在生成富有表现力的机器人手势时需要考虑的一系列变量。
2024-10-31	Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval	Sheryl Hsu et.al.	2410.23214	null	大型语言模型（LLMs）的幻觉现象通过允许模型搜索信息并将答案与真实来源挂钩，得到了一定程度的缓解。然而，LLMs在处理复杂或间接主题时，往往难以提出正确的搜索查询。我们观察到，通过让LLMs尝试不同的查询并学习对那些成功产生相关结果的查询赋予更高的权重，LLMs可以学会检索相关的事实。为此，我们引入了LeReT（Learning to Retrieve by Trying），这是一种强化学习框架，通过探索搜索查询并使用基于偏好的优化来提高查询质量。LeReT可以将绝对检索准确性提高多达29%，并将下游生成器评估提高17%。LeReT的简单性和灵活性使其能够应用于任意现成的检索器，并成为改进通用LLM管道的一种有前途的技术。项目网站：http://sherylhsu.com/LeReT/。
2024-10-30	ProTransformer: Robustify Transformers via Plug-and-Play Paradigm	Zhichao Hou et.al.	2410.23182	null	近年来，基于Transformer的架构在机器学习的各个领域占据主导地位。在这篇论文中，我们介绍了一种新颖的鲁棒注意力机制，旨在增强基于Transformer的架构的韧性。这项技术可以作为插件层集成到现有的Transformer模型中，从而提高其鲁棒性，而无需额外的训练或微调。通过全面的实验和消融研究，我们证明了ProTransformer显著提升了各种预测任务、攻击机制、骨干架构和数据域中的Transformer模型的鲁棒性。值得注意的是，在经典的TextFooler攻击下，无需进一步微调，ProTransformer分别将BERT、ALBERT、DistilBERT和RoBERTA这四种模型的性能提高了19.5%、28.3%、16.1%和11.4%。此外，ProTransformer在大型语言模型（LLMs）面对基于提示的攻击时表现出良好的韧性，分别将T5和LLaMA的性能提高了24.8%和17.8%，并且平均将Vicuna在Jailbreaking攻击下的性能提高了10.4%。除了语言领域外，ProTransformer还在视觉和图领域展示了出色的鲁棒性。
2024-10-30	ReasoningRec: Bridging Personalized Recommendations and Human-Interpretable Explanations through LLM Reasoning	Millennium Bismay et.al.	2410.23180	link	本文介绍了一种名为ReasoningRec的推理推荐框架，该框架利用大语言模型（LLMs）来弥合推荐与人类可解释性解释之间的差距。与依赖于隐式用户-项目交互的传统推荐系统不同，ReasoningRec使用LLMs来建模用户和项目，重点在于用户的偏好、厌恶和解释性推理。该框架利用一个较大的LLM生成用户偏好的合成解释，随后用于微调较小的LLM以提高推荐准确性及提供人类可理解的解释。我们的实验研究调查了推理和上下文信息对个性化推荐的影响，结果显示上下文和个人化数据的质量显著影响LLM生成合理解释的能力。实证评估表明，ReasoningRec在推荐预测方面比最先进的方法高出12.5%，同时提供了易于理解的解释。代码可在以下链接获取：https://github.com/millenniumbismay/reasoningrec。
2024-10-30	SciPIP: An LLM-based Scientific Paper Idea Proposer	Wenxiao Wang et.al.	2410.23166	null	知识的指数增长和跨学科研究的复杂性给研究人员带来了显著挑战，包括信息过载和探索新想法的困难。大型语言模型（LLMs）如GPT-4在增强想法提案方面显示出巨大潜力，但如何有效利用大模型进行合理的想法提案尚未得到充分探讨。本文提出了一种科学论文想法提案器（SciPIP）。基于用户提供的研究背景，SciPIP从文献数据库中检索有用论文，同时利用LLMs的能力生成更多新颖且可行的想法。为此，我们构建了一个文献检索数据库，提取大量论文的多维度信息以便快速访问。然后，提出了一种基于语义、实体和引用共现的文献检索方法，从多个方面根据用户提供的背景搜索相关文献。在文献检索之后，我们引入了双路径想法提案策略，其中一条路径从检索到的文献中推断解决方案，另一条路径通过模型头脑风暴生成原创想法。然后我们将两者结合起来以实现可行性与原创性的良好平衡。通过在自然语言处理（NLP）领域的广泛实验，我们证明SciPIP可以检索与现有顶级会议论文类似的引文，并生成许多与其一致的想法。此外，我们使用大型语言模型评估了SciPIP生成的其他想法的原创性，进一步验证了我们提出方法的有效性。代码和数据库已发布在https://github.com/cheerss/SciPIP。
2024-10-30	Real-Time Personalization for LLM-based Recommendation with Customized In-Context Learning	Keqin Bao et.al.	2410.23136	link	频繁更新基于大型语言模型（LLM）的推荐系统以适应新的用户兴趣，就像传统推荐系统所做的那样，由于高昂的训练成本，即使有加速方法也是不切实际的。本文探讨了在不进行任何模型更新的情况下，通过利用情境学习（ICL）来适应动态用户兴趣的方法，这种方法使LLM能够从输入中的少量示例中学习新任务。使用新的兴趣示例作为ICL的少量示例，LLM可以实时学习兴趣，从而避免了模型更新的需求。然而，现有的基于LLM的推荐器在推荐调优过程中经常失去在情境学习的能力，而原始LLM的情境学习缺乏针对推荐任务的关注。为了解决这个问题，我们提出了RecICL，它定制了针对推荐任务的情境学习，用于实时推荐。RecICL以情境学习格式组织训练示例，确保在调优过程中保留情境学习能力并与其推荐任务对齐。广泛的实验表明，RecICL在无需模型更新的情况下实现了实时推荐的有效性。我们的代码可在https://github.com/ym689/rec_icl获取。
2024-10-29	Enhancing Code Annotation Reliability: Generative AI's Role in Comment Quality Assessment Models	Seetharam Killivalavan et.al.	2410.22323	null	本文探索了一种新颖的方法，通过利用生成式人工智能技术来提升二元分类模型在评估代码注释质量方面的性能。我们通过将来自多个GitHub仓库的1,437个新生成的代码-注释对（标记为“有用”或“无用”）整合到一个现有的C语言数据集中（该数据集包含9,048对），展示了模型性能的显著提升。采用先进的大语言模型后，我们的方法使得支持向量机（SVM）模型的精确率提高了5.78%，从0.79提升至0.8478，同时人工神经网络（ANN）模型的召回率提高了2.17%，从0.731提升至0.7527。这些结果突显了生成式人工智能在改进代码注释分类模型中的价值，为软件开发和质量控制中的模型准确性提升提供了重要的潜力。本研究为在实际软件工程环境中整合生成技术以优化机器学习模型提供了乐观的前景。
2024-10-29	Online Detecting LLM-Generated Texts via Sequential Hypothesis Testing by Betting	Can Chen et.al.	2410.22318	link	近年来，区分机器生成文本和人类撰写文本的算法研究引起了广泛关注。现有方法通常是在离线设置下进行，即在给定的数据集中包含真实文本和机器生成文本的混合样本，任务是确定数据集中的每个样本是由大型语言模型（LLM）还是由人类生成的。然而，在许多实际场景中，如新闻网站、社交媒体账户或其他论坛发布的文章是以流式方式发布的。因此，在这种在线场景中，如何快速且准确地确定这些来源是否为LLM，并具有强大的统计保证，对于这些媒体或平台有效地运作并防止错误信息和其他潜在的LLM误用至关重要。为了解决在线检测的问题，我们开发了一种基于顺序假设检验的算法，该算法不仅建立并补充了现有的离线检测技术，而且还具备统计保证，包括控制错误发现率和正确识别来源为LLM的预期时间。实验结果证明了我们方法的有效性。
2024-10-29	Natural Language Inference Improves Compositionality in Vision-Language Models	Paola Cascante-Bonilla et.al.	2410.22315	null	在视觉-语言模型（VLMs）中，组合推理仍然是一个挑战，因为这些模型通常难以关联对象、属性和空间关系。最近的方法试图通过依赖文本描述的语义，利用大规模语言模型（LLMs）将问题和答案分解成子集来解决这些问题。然而，这些方法主要在表面层次上操作，未能引入更深的词汇理解，同时还会引入由LLM生成的错误假设。针对这些问题，我们提出了Caption Expansion with Contradictions and Entailments (CECE)，这是一种基于原理的方法，利用自然语言推理（NLI）从给定的前提生成蕴涵和矛盾。CECE生成词汇上多样的句子，同时保持其核心意义。通过广泛的实验，我们展示了CECE增强了可解释性，并减少了对有偏见或表面特征的过度依赖。通过平衡原始前提与CECE，我们在无需额外微调的情况下显著优于先前的方法，在衡量图像-文本对齐的人类判断得分的基准测试中取得了最先进的结果，并在Winoground上实现了+19.2%（组分数）和在EqBen上实现+12.9%（组分数）的性能提升，超过了最佳现有工作（使用针对性数据微调）。
2024-10-29	GPT-4o reads the mind in the eyes	James W. A. Strachan et.al.	2410.22309	null	大型语言模型（LLMs）能够从文本中重现人类类似推理的能力，包括关于情绪和心理状态的推理。然而，这种能力是否扩展到其他模态尚不清楚。人类具有通过他人的眼睛读心的复杂能力。在此研究中，我们测试了这一能力是否也存在于GPT-4o这一多模态LLM中。我们使用了两种广泛使用的心理理论测试版本，即“眼睛中的心智阅读测试”和“多元种族眼睛中的心智阅读测试”。结果发现，GPT-4o在解释来自直立面部的心理状态方面优于人类，但在面部倒置时表现较差。尽管我们样本中的人类在白人和非白人面孔之间没有表现出差异，但GPT-4o对白人面孔的准确度高于非白人面孔。GPT-4o的错误并非随机出现，而是揭示了一种高度一致但错误的处理心理状态信息的方式，在不同试验中呈现出方向依赖的错误结构，这种结构在面对倒置面孔时与人类存在定性差异，而在面对直立面孔时则无明显区别。这些发现强调了先进的心理状态推理能力和人类类似的面部处理特征，如反转效应，在GPT-4o中共存，同时其信息处理方式与人类存在显著差异。
2024-10-29	SVIP: Towards Verifiable Inference of Open-source Large Language Models	Yifan Sun et.al.	2410.22307	null	开源的大语言模型（LLMs）在自然语言理解和生成方面展示了显著的能力，并在各个领域得到了广泛应用。然而，随着模型规模的增大，本地部署变得不切实际，许多用户不得不依赖计算服务提供商通过黑盒API进行推理。这种依赖引入了一种新的风险：计算服务提供商可能在未经用户同意的情况下，用较小且能力较弱的模型替代用户请求的LLM，从而提供质量较差的结果，同时节省成本。在这篇论文中，我们形式化了LLM可验证推理的问题。现有的基于密码学或博弈论技术的可验证计算解决方案要么在计算上不经济，要么基于较强的假设。我们引入了SVIP，这是一种基于秘密的可验证LLM推理协议，它利用LLM的中间输出作为唯一的模型标识符。通过在这些输出上训练代理任务，并要求计算服务提供商返回生成的文本和处理过的中间输出，用户可以可靠地验证计算服务提供商是否诚实行事。此外，结合秘密机制进一步增强了我们的协议的安全性。我们在多种强适应性对抗场景下全面分析了我们的协议。广泛的实验表明，SVIP是准确的、可泛化的、计算高效的，并且对各种攻击具有抵抗力。值得注意的是，SVIP的假阴性率低于5%，假阳性率低于3%，并且每次查询的验证时间少于0.01秒。
2024-10-29	Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning	Yihe Deng et.al.	2410.22304	null	数学推理是大型语言模型（LLMs）的关键能力，但生成详细且准确的推理轨迹仍然是一个重大挑战。本文介绍了一种利用在线学习流的新方法，以产生高质量的推理轨迹用于LLM微调。我们的方法采用增量输出生产流，其中组件LLM通过迭代通信协作构建解决方案。我们使用带有滚动的在线直接偏好优化（DPO）学习来训练该流，为每个训练样本生成DPO对，并实时更新模型。我们直接比较了通过我们方法与直接模型推理生成的推理轨迹的质量，证明了我们方法在提高LLM在数学推理任务中的性能方面的有效性。
2024-10-29	LLMs are Highly-Constrained Biophysical Sequence Optimizers	Angelica Chen et.al.	2410.22296	null	大型语言模型（LLMs）在各种生物任务中，如蛋白质工程和分子设计方面，最近展示了显著的潜力。这些任务通常涉及黑盒离散序列优化，挑战在于生成不仅在生物学上可行而且严格符合细粒度约束的序列。然而，LLMs往往难以应对这些约束，特别是在生物学背景下，验证候选解决方案既昂贵又耗时。在这项研究中，我们探索了将LLMs作为高度约束的双层优化器的可能性，通过一种我们称之为语言模型优化边缘期望（LLOME）的方法。该方法结合了离线和在线优化，利用有限的oracle评估迭代地增强由LLM生成的序列。此外，我们提出了一种新的训练目标——边缘对齐期望（MargE），该目标训练LLM平滑地在奖励分布和参考分布之间插值。最后，我们引入了一个合成测试套件，该套件与实际生物物理问题具有强烈的几何相似性，并且能够在不进行耗时的实验室验证的情况下快速评估LLM优化器。我们的发现表明，与遗传算法基线相比，LLMs在要求较少测试函数评估的情况下实现了显著更低的遗憾解。然而，我们也观察到LLMs表现出适度的校准偏差，容易发生生成器崩溃，并且在没有明确的地面真值奖励可用时难以找到最优解。
2024-10-29	Fine-Tuning LLMs for Code Mutation: A New Era of Cyber Threats	Mohammad Setak et.al.	2410.22293	null	近年来，大型语言模型（LLMs）在自然语言处理和代码合成方面取得了显著进展，使其能够应用于不同领域更复杂的任务。本文探讨了LLMs在代码变异中的应用，这是一个在不改变程序代码功能的前提下改变其结构的过程。传统上，代码变异被用于提高关键任务应用程序的软件健壮性。此外，变异引擎也被恶意软件开发者用来逃避基于特征码的检测方法。现有的恶意软件使用的变异引擎通常只产生有限的代码变化，这些变化仍然可以通过静态代码分析被识别。然而，预训练的LLM所展示的灵活性可能显著改变这种威胁态势，通过允许进行更复杂的代码变异，这些变异不容易通过静态分析检测到。我们可以通过微调和再训练增加由预训练LLM生成的代码的变化。我们称之为代码变异训练。在本文中，我们为基于预训练LLM的代码合成器提出了一个新的代码变异训练定义，并在一个轻量级的预训练模型上展示了这种方法。我们的方法涉及在子例程级别重组（即变异）代码，这使得变异更加可控同时保持语义完整性，并通过单元测试验证。实验结果表明，我们的方法有效地提高了基于LLM的程序合成器在生成多样化且功能正确的代码解决方案方面的变异能力，展示了它们在改变代码变异格局以及与之相关的威胁方面的潜力。
2024-10-29	Embedding-based classifiers can detect prompt injection attacks	Md. Ahsan Ayub et.al.	2410.22284	link	大型语言模型（LLMs）因其卓越的生成能力而在各类组织中得到广泛应用。然而，LLMs容易受到各种对抗性攻击，特别是提示注入攻击，这种攻击通过精心设计的恶意提示欺骗LLMs，使其生成有害或不适当的内容。在这篇论文中，我们提出了一种基于嵌入式机器学习（ML）分类器的新方法，以保护基于LLM的应用程序免受这种严重威胁。我们利用三种常用的嵌入模型来生成恶意和良性提示的嵌入，并使用ML分类器预测输入提示是否为恶意。在几种传统的ML方法中，我们使用随机森林和XGBoost构建的分类器表现最佳。我们的分类器在性能上优于开源实现中的最先进的提示注入分类器，后者使用的是仅编码器的神经网络。
2024-10-29	Whose ChatGPT? Unveiling Real-World Educational Inequalities Introduced by Large Language Models	Renzhe Yu et.al.	2410.22282	null	自2022年底以来，ChatGPT等类似工具的广泛可用性引发了公众对大型语言模型（LLMs）在提高学习体验和成果方面的潜力的巨大兴趣和实验努力，特别是对于来自弱势背景的学习者。然而，很少有研究系统地考察了LLMs的实际可用性对教育公平性的现实影响，除了理论预测和创新LLM应用的控制研究之外。为了描绘LLMs不平等趋势，我们分析了一所美国公立少数族裔服务院校2021年至2024年间2391门课程中16791名大学生提交的1140328篇学术写作作业。研究发现，在LLMs可用之后，学生的整体写作质量逐渐提高，并且语言优势和劣势学生之间的写作质量差距逐渐缩小。然而，这种平等化效应更多集中在较高社会经济地位的学生身上。这些发现揭示了LLMs时代的数字鸿沟，并提出了关于LLMs在早期阶段的公平效益的问题，强调了研究人员和从业者需要制定负责任的做法以通过LLMs改善教育公平性。
2024-10-28	Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics	Yaniv Nikankin et.al.	2410.21272	link	为了探讨大型语言模型（LLMs）在解决推理任务时是通过学习稳健的可泛化算法，还是通过记忆训练数据，我们选择了算术推理作为代表性任务进行研究。通过因果分析，我们识别出模型的一个子部分（一个电路），该部分解释了基本算术逻辑中模型大部分的行为，并检查了其功能。通过关注单个电路神经元的层面，我们发现了一组重要的稀疏神经元，它们实现了简单的启发式方法。每个启发式方法识别数值输入模式并输出相应的答案。我们假设，这些启发式神经元的组合是生成正确算术答案的机制。为了验证这一点，我们将每个神经元分类为几种启发式类型——例如，当操作数落在某个范围内时激活的神经元——并发现这些启发式类型的无序组合是解释模型在算术提示上准确性的主要机制。最后，我们证明这种机制在训练早期就是算术准确性的重要来源。总的来说，我们在多个LLM上进行的实验结果表明，LLMs执行算术运算既不是依靠稳健的算法，也不是依靠记忆；相反，它们依赖于“一组启发式方法”。
2024-10-28	LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior	Hanyu Wang et.al.	2410.21264	null	我们介绍了LARP，这是一种新颖的视频标记器，旨在克服当前用于自回归（AR）生成模型的视频标记方法的局限性。与传统的基于补丁的标记器直接将局部视觉补丁编码为离散标记不同，LARP引入了一种整体标记方案，通过一组学习到的整体查询来收集视觉内容的信息。这种设计使LARP能够捕捉更全局和语义化的表示，而不仅仅是局限于局部补丁级别的信息。此外，它还提供了灵活性，支持任意数量的离散标记，从而根据任务的具体需求实现自适应和高效的标记。为了使离散标记空间与下游AR生成任务对齐，LARP集成了一个轻量级的AR变换器作为训练时的先验模型，该模型在离散潜在空间上预测下一个标记。通过在训练过程中结合先验模型，LARP学习了一个不仅优化了视频重建的潜在空间，而且结构上更适合自回归生成的潜在空间。此外，这一过程定义了离散标记的顺序，在训练过程中逐步将其推向最优配置，确保推理时更平滑和准确的AR生成。全面的实验表明，LARP表现强劲，在UCF101分类条件下的视频生成基准上达到了最先进的FVD分数。LARP增强了AR模型与视频的兼容性，并开启了构建统一的高保真多模态大型语言模型（MLLMs）的可能性。
2024-10-28	LongReward: Improving Long-context Large Language Models with AI Feedback	Jiajie Zhang et.al.	2410.21252	link	尽管在开发长上下文大型语言模型（LLMs）方面取得了显著进展，但这些模型合成的数据质量往往影响了有监督微调（SFT）模型的长上下文性能，并导致固有的局限性。原则上，适当的奖励信号可以利用强化学习（RL）进一步提升模型的能力。然而，在长上下文场景中如何获得可靠的奖励仍然是一个未探索的问题。为此，我们提出了LongReward，这是一种新颖的方法，它利用现成的LLM从四个维度（即：有用性、逻辑性、准确性和完整性）提供长上下文模型响应的奖励，并为每个维度设计了详细的评估流程。通过结合LongReward和离线RL算法DPO，我们能够有效地改进长上下文SFT模型。我们的实验表明，LongReward不仅显著提升了模型的长上下文性能，还增强了它们遵循短指令的能力。我们还发现，带有LongReward的长上下文DPO和传统的短上下文DPO可以一起使用而不损害任何一方的性能。
2024-10-28	Zero-Shot Dense Retrieval with Embeddings from Relevance Feedback	Nour Jedidi et.al.	2410.21242	null	构建有效的密集检索系统在缺乏相关性监督时仍然具有挑战性。近期的研究试图通过使用大型语言模型（LLM）来生成假设文档，从而找到最接近的真实文档来解决这一问题。然而，这种方法完全依赖于LLM具备与查询相关的领域特定知识，这在实践中可能不可行。此外，生成假设文档的方法效率低下，因为对于每个查询，LLM需要生成大量的标记。为了解决这些挑战，我们引入了基于相关反馈的真实文档嵌入（ReDE-RF）。受相关反馈的启发，ReDE-RF提出将假设文档生成重新定义为相关性估计任务，利用LLM选择哪些文档应被用于最近邻搜索。通过这种重新定义，LLM不再需要领域特定的知识，而只需要判断什么是相关的。此外，相关性估计仅要求LLM输出一个标记，从而提高每次查询的搜索延迟。我们的实验表明，ReDE-RF在广泛的低资源检索数据集上始终超越最先进的零样本密集检索方法，并且在每次查询的延迟方面也取得了显著改进。
2024-10-28	Hierarchical Knowledge Graph Construction from Images for Scalable E-Commerce	Zhantao Yang et.al.	2410.21237	null	知识图谱（KG）在各种AI系统中扮演着越来越重要的角色。对于电子商务而言，构建高效且低成本的自动化知识图谱是实现众多成功下游应用的基础。本文提出了一种新颖的方法，可以从原始产品图像中构建结构化的产品知识图谱。该方法充分利用了视觉语言模型（VLM）和大型语言模型（LLM）的最新进展，实现了整个过程的完全自动化，并允许及时更新图谱。我们还提供了一个经过人工标注的电子商务产品数据集，用于评估知识图谱构建中的产品属性提取。我们的方法在所有指标和评估属性上都优于基线方法，展示了其有效性和广阔的应用潜力。
2024-10-28	Flaming-hot Initiation with Regular Execution Sampling for Large Language Models	Weizhe Chen et.al.	2410.21236	null	自ChatGPT发布以来，大型语言模型（LLMs）在各个领域展示了显著的能力。在开发这些通用能力时，一个关键的挑战是高效地获取多样化且高质量的数据。这在与沙盒检查器相关的推理任务中尤为重要，例如数学或代码问题，目标是提高生成正确解决方案的概率。在这项工作中，我们介绍了Flaming-hot Initiation with Regular Execution（FIRE）采样方法，这是一种简单但非常有效的方法，可以高效地找到好的响应。我们的实证结果表明，FIRE采样提高了推理时间生成的质量，并且在对齐阶段的训练中也受益。此外，我们探讨了FIRE采样如何通过促进多样性来提升性能，并分析了在响应的不同位置使用FIRE的影响。
2024-10-28	LoRA vs Full Fine-tuning: An Illusion of Equivalence	Reece Shuttleworth et.al.	2410.21228	null	微调是将预训练的大规模语言模型适应到下游任务中的关键范式。最近的研究表明，低秩自适应（LoRA）方法在各种任务上能够以极小的可训练参数量达到与完全微调模型相当的性能。即使两种方法学习到的模型准确性相似，它们的学习解决方案真的等价吗？我们通过分析模型权重矩阵的谱属性来研究不同的微调方法如何改变预训练模型。我们发现，全微调和LoRA生成的权重矩阵在奇异值分解结构上表现出很大的不同；此外，当在超出适应任务分布的情况下测试时，经过微调的模型显示出不同的泛化行为。更具体地说，我们首先展示了使用LoRA训练的权重矩阵具有新的高排名奇异向量，我们称之为“入侵维度”。这些入侵维度在全微调过程中不会出现。其次，我们展示了尽管具有入侵维度的LoRA模型在目标任务上的表现与全微调模型相当，但它们对预训练分布的建模效果较差，并且在顺序适应多个任务时的鲁棒性较低。高秩、秩稳定的LoRA模型甚至在与低秩LoRA模型执行相同任务时，也与全微调模型非常接近。这些结果表明，即使在相同的微调分布上表现相同，LoRA更新的模型和全微调模型访问了参数空间的不同部分。我们最后探讨了为什么入侵维度会在LoRA微调模型中出现，为什么它们是不理想的，以及如何最小化其影响。
2024-10-28	Lifting the Veil on the Large Language Model Supply Chain: Composition, Risks, and Mitigations	Kaifeng Huang et.al.	2410.21218	null	大规模语言模型（LLM）在智力和生产力方面引发了显著的影响。近年来，商业和开源LLM的引入呈现出巨大的增长趋势。许多企业已将LLM集成到其应用中以解决特定领域的任务。然而，将LLM整合到具体业务场景中不仅仅需要使用这些模型本身，而是一个系统的过程，涉及大量的组成部分，这些组成部分统称为LLM供应链。LLM供应链内在地承载着风险。因此，理解可能引入供应链的组件类型以及相关的风险至关重要，这有助于不同的利益相关者实施有效的缓解措施。虽然一些文献涉及与LLM供应链相关的风险，但目前还没有论文明确界定其范围、识别固有风险并探讨潜在的缓解策略。鉴于LLMs已成为新时代的重要基础设施，我们认为对LLM供应链及其固有风险和缓解策略进行彻底审查对于行业从业者避免潜在损失具有重要价值，并且对于学术研究人员重新思考现有方法和探索新的研究途径也具有启发意义。我们的论文提供了LLM供应链的全面概述，详细介绍了利益相关者、组成元素以及供应类型。我们开发了与各种供应链利益相关者和组件相关的风险类型、风险行为和缓解措施的分类法。总而言之，我们的工作探讨了LLM供应链的技术和操作方面，为研究和工程人员在不断发展的LLM领域提供有价值的见解。
2024-10-28	BongLLaMA: LLaMA for Bangla Language	Abdullah Khan Zehady et.al.	2410.21200	null	孟加拉语（或“ Bengali”）是一种使用约2.4亿母语者和大约3亿人使用的语言。尽管它是世界上第五大使用语言，孟加拉语仍被视为一种“低资源”语言，现有的预训练语言模型在孟加拉语处理（BLP）任务上往往表现不佳。本研究通过引入BongLLaMA（即孟加拉语-LLaMA），解决了这一问题，这是一种专门针对大型孟加拉语语料库和指令调优数据集进行微调的开源大型语言模型。我们介绍了我们的方法论、数据增强技术、微调细节以及全面的基准测试结果，展示了BongLLaMA在孟加拉语处理任务中的效用。我们相信BongLLaMA将成为孟加拉语模型的新标准基线，从而促进未来专注于这种广泛使用但“低资源”的语言的基准研究。所有BongLLaMA模型均可供公众使用，网址为https://huggingface.co/BanglaLLM。
2024-10-29	Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction	Qintong Zhang et.al.	2410.21169	null	文档解析对于将非结构化和半结构化文档（如合同、学术论文和发票）转换为结构化的、机器可读的数据至关重要。文档解析从非结构化输入中提取可靠且结构化的数据，为众多应用提供了极大的便利。特别是随着大型语言模型的最新进展，文档解析在知识库构建和训练数据生成方面发挥着不可或缺的作用。本文综述了当前文档解析的状态，涵盖了关键的方法论，从模块化流水线系统到由大型视觉-语言模型驱动的端到端模型。详细探讨了核心组件，包括布局检测、内容提取（包括文本、表格和数学表达式）以及多模态数据集成。此外，本文还讨论了模块化文档解析系统和视觉-语言模型在处理复杂布局、整合多个模块和识别高密度文本时所面临的挑战。文章强调了开发更大和更多样化数据集的重要性，并概述了未来的研究方向。
2024-10-25	The Potential and Value of AI Chatbot in Personalized Cognitive Training	Zilong Wang et.al.	2410.19733	null	近年来，全球人口老龄化加速导致认知障碍，如阿尔茨海默病的发病率增加，给公共卫生带来了巨大挑战。尽管目前尚无有效治疗方法可以逆转阿尔茨海默病，但预防和早期干预，包括认知训练，至关重要。本报告探讨了AI聊天机器人在增强个性化认知训练方面的潜力。我们介绍了ReMe，这是一个基于网络的框架，旨在创建AI聊天机器人以促进认知训练研究，特别是针对从个人生活日志中提取的情节记忆任务。通过利用大型语言模型，ReMe提供了更友好、互动和个性化的培训体验。案例研究表明，ReMe通过生活回忆和开放式语言谜题有效地吸引了用户，突显了其在改善认知训练设计方面的潜力。尽管取得了令人鼓舞的结果，但仍需要进一步研究，通过包括认知能力评估在内的大规模研究来验证培训的有效性。总体而言，ReMe为个性化认知训练提供了一种有前景的方法，利用AI技术满足日益增长的认知健康非药物干预需求，未来的研究旨在扩展其应用范围和有效性。
2024-10-25	Counting Ability of Large Language Models and Impact of Tokenization	Xiang Zhang et.al.	2410.19730	link	Transformers作为现代大型语言模型（LLMs）的基石，面临着固有的架构限制，这限制了它们的推理能力。与循环网络不同，Transformers缺乏循环连接，使其只能进行恒定深度的计算。这种限制使它们在TC $^0$ 复杂性类中，从理论上讲，无法解决那些需要输入长度增加时推理深度也相应增加的任务。计数作为许多推理任务的基本组成部分，也需要推理深度随着任务复杂度线性增长才能进行归纳。尽管先前的研究已经确定了基于Transformer的专家模型在计数任务中的能力上限，但这些发现并不能直接应用于通用LLM，因为它们的推理机制存在差异。最近的研究指出，链式思考（CoT）推理可以在一定程度上缓解Transformer在计数任务中的架构限制。然而，关于分词在这些模型中的作用却很少受到关注。不同于通常使用字符级分词的专家模型，LLM通常依赖于字节级（BPE）分词器，这从根本上改变了推理处理的方式。我们的研究探讨了分词对LLM计数能力的影响，揭示了基于分词方式的不同导致显著的性能变化。我们提供了理论和实验分析，为如何通过选择合适的分词方法来增强模型的理论可计算性提供了见解，从而启发设计新的分词方法以提高LLM的推理能力。
2024-10-25	FISHNET: Financial Intelligence from Sub-querying, Harmonizing, Neural-Conditioning, Expert Swarms, and Task Planning	Nicole Cho et.al.	2410.19727	null	从大量数据源生成金融智能通常依赖于传统的方法，如知识图谱构建或数据库工程。近年来，针对金融领域的特定大型语言模型（LLM）已经出现。尽管这些进展令人鼓舞，但仍存在一些限制，例如高推理成本、幻觉以及同时分析高维金融数据的复杂性。这促使我们发明了FISHNET（金融智能从子查询、协调、神经条件、专家集群和任务规划），这是一种代理架构，能够完成超过98,000份监管文件的极其复杂的分析任务，这些文件在语义、数据层次或格式上差异巨大。FISHNET在金融洞察生成方面表现出色（成功率为61.8%，路由为5.0%，RAG R-精确度为45.6%）。我们进行了严格的消融实验，以实证证明FISHNET的成功、每个代理的重要性以及所有代理组装优化性能。我们的模块化架构可以应用于各种用例，提供可扩展性、灵活性和对金融任务至关重要的数据完整性。
2024-10-25	2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision	Shilong Li et.al.	2410.19720	null	近年来，直接偏好优化（DPO）在使大型语言模型（LLMs）与人类偏好对齐方面取得了显著进展，这得益于其简单性和有效性。然而，现有的方法通常优化一个标量分数或排名奖励，从而忽略了人类偏好的多维性质。在这项工作中，我们提出将DPO的偏好扩展到两个维度：片段和方面。我们首先引入了一个名为HelpSteer-2D的二维监督数据集。对于片段维度，我们将响应分成句子并为每个片段分配分数。对于方面维度，我们精心设计了几项标准以涵盖响应质量评估标准。利用二维信号作为反馈，我们开发了一个2D-DPO框架，将总体目标分解为多片段和多方面的目标。在流行的基准测试中进行的广泛实验表明，2D-DPO的表现优于那些优化标量或一维偏好的方法。
2024-10-25	TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning	Xiangyu Zeng et.al.	2410.19702	null	多模态大型语言模型（MLLMs）在短视频理解方面已经展示了令人印象深刻的性能。然而，对于长视频的理解仍然具有挑战性。本文提出了一套新的设计来适应现有的短视频MLLM，以实现长视频理解，包括一个简单而高效的框架来处理长视频序列、一个高质量的视频数据集用于MLLM的接地调优，以及一个精心设计的指令调优任务，以显式地将接地监督纳入传统的问答格式。具体而言，基于VideoChat，我们提出了我们的长视频MLLM，称为VideoChat-T，通过实现令牌洗牌来压缩长视频令牌，并引入时间自适应位置编码（TAPE）来增强视觉表示的时间感知。同时，我们引入了TimePro，这是一个综合性的接地为中心的指令调优数据集，由9个任务和34.9万个高质量的接地标注组成。值得注意的是，我们设计了一种新的指令调优任务类型，称为时间接地字幕，用于执行详细视频描述与相应时间戳预测。这种明确的时间位置预测将指导MLLM在生成描述时正确关注视觉内容，从而减少因LLMs引起的幻觉风险。实验结果表明，我们的TimeSuite成功地提高了短视频MLLM在长视频理解方面的能力，在Egoschema和VideoMME基准测试上分别提高了5.6%和6.8%。此外，VideoChat-T在零样本时间接地能力方面表现出色，显著优于现有的最先进的MLLM。经过微调后，它的表现与传统的监督专家模型相当。
2024-10-25	IPPON: Common Sense Guided Informative Path Planning for Object Goal Navigation	Kaixian Qu et.al.	2410.19697	null	在未探索的环境中高效导航到目标物体是通用智能机器人的一项关键技术。最近的方法采用模块化策略，结合经典的探索算法（特别是前沿探索）与学习的语义映射/探索模块来解决这一物体导航问题。本文介绍了一种新颖的信息路径规划和三维物体概率映射方法。该映射模块通过语义分割和贝叶斯滤波计算感兴趣物体的概率。此外，它还存储常见物体的概率，这些概率基于大型语言模型中的常识先验，从而从语义上引导探索。当当前视角捕获了足够多且置信度高的物体为感兴趣物体的体素时，规划器终止。尽管我们的规划器采用了零样本方法，但在Habitat物体导航挑战2023中，它在成功加权路径长度（SPL）和软SPL指标上达到了最先进的性能，比其他工作高出20%以上。此外，我们在真实机器人上验证了其有效性。项目网页：https://ippon-paper.github.io/
2024-10-25	Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs	Yifei Zhang et.al.	2410.19694	null	微调大型语言模型（LLMs）已成为将预训练模型适应下游任务的重要技术。然而，LLMs的巨大规模带来了显著的计算复杂性和资源需求挑战。低秩适应（LoRA）作为一种有前景的解决方案应运而生。然而，实际应用中的低秩适应与理论最优之间存在差距。在这项工作中，我们提出了极端梯度提升LoRA（XGBLoRA），这是一种新的框架，通过利用集成学习的力量来弥合这一差距。受梯度提升启发，XGBLoRA迭代地学习并融合一系列LoRA适应以优化模型预测。它在性能上优于标准LoRA，同时保持了秩-1适应的计算效率。我们提供了理论分析以证明方法的收敛性和最优性，并在各种自然语言处理任务上进行了广泛的实验。结果表明，XGBLoRA始终优于标准LoRA，并且在显著减少可训练参数的情况下实现了与全微调相当的性能。这项工作推进了LLMs的参数高效微调技术，并为优化性能和效率的同时将LLMs适应到下游任务提供了有前景的解决方案。
2024-10-25	APRICOT: Active Preference Learning and Constraint-Aware Task Planning with LLMs	Huaxiaoyue Wang et.al.	2410.19656	null	家庭机器人在执行个性化任务时，必须巧妙地平衡用户偏好与环境限制。我们专注于在受限空间内进行组织任务，例如将物品放入冰箱，其中用户的放置偏好常常与物理限制相冲突。机器人必须根据少量演示来推断用户的偏好，这比详细定义所有需求更容易让用户操作。虽然最近的研究使用大型语言模型（LLMs）从用户演示中学习偏好，但它们面临两个基本挑战。首先，在解释用户行为时存在固有的模糊性，因为单一观察到的行为可能对应多种偏好。其次，并非所有用户偏好在环境中都是实际可行的，因为存在几何约束。为了解决这些挑战，我们引入了APRICOT，这是一种新颖的方法，结合了基于LLM的贝叶斯主动偏好学习和考虑环境约束的任务规划。APRICOT通过主动查询用户来优化生成的偏好，并动态调整其计划以尊重环境限制。我们在多样化的组织任务数据集上评估了APRICOT，并展示了其在现实场景中的有效性，证明了其在偏好满意度和计划可行性方面的显著提升。该项目网站位于https://portal-cornell.github.io/apricot/
2024-10-25	Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina	Yuan Gao et.al.	2410.19599	null	近期研究表明，大型语言模型（LLMs）可以展现出类似人类的推理能力，在经济实验、调查和政治讨论中与人类行为一致。这促使许多人提出可以将LLMs作为人类在社会科学中的替代品。然而，LLMs与人类之间存在根本性的差异，它们依赖于概率模式，缺乏塑造人类认知的具身经验或生存目标。我们通过11-20金钱请求游戏来评估LLMs的推理深度。几乎所有先进的方法都无法在许多模型中复制人类的行为分布，除非在使用大量人类行为数据进行微调的情况下。失败的原因多种多样，涉及输入语言、角色和保护措施等因素。这些结果提醒我们不要将LLMs用于研究人类行为或将其作为人类的替代品。
2024-10-25	Diverse Sign Language Translation	Xin Shen et.al.	2410.19586	null	类似于口语，一个手语表达可能对应多个有效的文本解释。因此，对手语翻译（SLT）模型进行单一的映射学习可能是不充分的，尤其是在数据有限的情况下。在这项工作中，我们引入了多样化的手语翻译（DivSLT）任务，旨在为手语视频生成多样且准确的翻译。首先，我们利用大型语言模型（LLM）为广泛使用的CSL-Daily和PHOENIX14T SLT数据集生成多个参考。这里，仅邀请母语人士来润色不准确的参考，从而显著提高了注释效率。其次，我们提供了一个基准模型以推动该任务的研究。具体来说，我们研究了多参考训练策略，以使我们的DivSLT模型能够实现多样化的翻译。然后，为了提高翻译准确性，我们采用了最大化翻译结果奖励的强化学习目标。此外，我们使用多种指标来评估DivSLT任务的准确性、多样性和语义精度。在丰富后的数据集上的实验结果表明，我们的DivSLT方法不仅实现了更好的翻译性能，还获得了多样化的翻译结果。
2024-10-24	Unbounded: A Generative Infinite Game of Character Life Simulation	Jialu Li et.al.	2410.18975	null	我们介绍了生成无限游戏的概念，这是一种视频游戏，它超越了传统固定、硬编码系统的边界，通过使用生成模型来实现。受James P. Carse关于有限游戏和无限游戏区别的启发，我们利用最近在生成式人工智能方面的进展来创建《无界》——一款完全封装在生成模型中的角色生活模拟游戏。具体来说，《无界》受到沙盒生活模拟游戏的启发，允许你通过喂养、玩耍和引导等方式与你在虚拟世界中的自主虚拟角色互动，其中一些机制是开放式的，并且可以是突发性的。为了开发《无界》，我们在语言模型和视觉生成领域提出了技术上的创新。具体而言，我们提出了：(1)一种专门设计的、经过蒸馏的大规模语言模型（LLM），该模型能够实时动态生成游戏机制、叙事和角色互动，(2)一种新的动态区域图像提示适配器（IP-Adapter），用于视觉模型，确保角色在多个环境中的视觉生成既一致又灵活。我们通过定性和定量分析对我们的系统进行了评估，结果显示，在角色生活模拟、用户指令遵循、叙事连贯性和视觉一致性方面，与传统相关方法相比有显著改进。
2024-10-24	Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms	Zhangheng Li et.al.	2410.18967	null	构建一个通用的用户界面（UI）理解模型面临着诸多挑战，包括平台多样性、分辨率变化和数据限制等问题。本文介绍了一种名为Ferret-UI 2的新模型，这是一种多模态大语言模型（MLLM），旨在实现跨多种平台的通用UI理解，包括iPhone、Android、iPad、网页和Apple TV等平台。Ferret-UI 2在原有Ferret-UI的基础上引入了三项关键创新：支持多种平台类型、通过自适应缩放实现高分辨率感知，以及利用GPT-4o结合集合标记视觉提示生成高级任务训练数据。这些改进使Ferret-UI 2能够执行复杂的、以用户为中心的交互，使其在不断扩展的平台生态系统中具有高度的通用性和适应性。广泛的实验证明，在指向、定位、以用户为中心的高级任务（包含9个子任务×5个平台）、GUIDE下一步预测数据集和GUI-World多平台基准测试中，Ferret-UI 2显著优于Ferret-UI，并且展示了强大的跨平台迁移能力。
2024-10-24	Does Data Contamination Detection Work (Well) for LLMs? A Survey and Evaluation on Detection Assumptions	Yujuan Fu et.al.	2410.18966	null	大型语言模型（LLMs）在各种基准测试中表现出色，显示出作为通用任务解决者的潜力。然而，由于这些模型通常是在大量数据上进行训练的，因此对其评估的一个重要问题是数据污染问题，即训练数据和评估数据集之间的重叠会夸大性能评估。虽然已经开发了多种方法来识别数据污染，但这些方法依赖于特定的假设，而这些假设可能并不普遍适用于不同的设置。为了弥补这一差距，我们系统地回顾了47篇关于数据污染检测的论文，对其中的基础假设进行了分类，并评估了它们是否经过严格的验证。我们确定并分析了八类假设，并以三个假设作为案例研究。我们的分析表明，在对用于预训练LLMs的实例进行分类时，基于这三种假设的检测方法的表现接近于随机猜测，这表明当前的LLMs学习的是数据分布而不是记忆个别实例。总体而言，这项工作强调了方法明确陈述其基础假设并在各种场景下测试其有效性的重要性。
2024-10-24	OSCAR: Operating System Control via State-Aware Reasoning and Re-Planning	Xiaoqiang Wang et.al.	2410.18963	null	大型语言模型（LLMs）和大型多模态模型（LMMs）在自动化复杂任务如网页浏览和游戏方面展现出了巨大的潜力。然而，它们在跨多样化应用中的泛化能力仍然有限，这限制了其更广泛的应用。为了解决这一挑战，我们提出了OSCAR：通过状态感知推理和重规划的操作系统控制。OSCAR是一种通用代理，旨在通过标准化的控制方式（如鼠标和键盘输入）自主导航和与各种桌面和移动应用程序进行交互，同时处理屏幕图像以完成用户命令。OSCAR将人类指令转换为可执行的Python代码，从而实现对图形用户界面（GUI）的精确控制。为了增强稳定性和适应性，OSCAR作为一个状态机运行，并配备了错误处理机制和动态任务重规划功能，使其能够高效地实时调整以应对反馈和异常情况。我们通过广泛的实验在多样化的基准测试上展示了OSCAR的有效性，在这些测试中，它将复杂的操作流程简化为简单的自然语言命令，显著提高了用户的生产力。我们的代码将在发表后开源。
2024-10-24	Bridge-Coder: Unlocking LLMs' Potential to Overcome Language Gaps in Low-Resource Code	Jipeng Zhang et.al.	2410.18957	null	大型语言模型（LLMs）在生成高资源编程语言（HRPLs）如Python的代码方面表现出色，但在低资源编程语言（LRPLs）如Racket或D上的表现则显著逊色。这种性能差距加剧了数字鸿沟，阻碍了使用LRPLs的开发者从LLM的进步中受益，并在一定程度上强化了未充分代表的编程社区之间的创新差异。虽然为LRPLs生成额外训练数据是一个有前景的方法，但它面临着两个关键挑战：人工标注既费时又昂贵，而LLM生成的LRPL代码质量通常较差。这一问题的根本原因在于自然语言到编程语言的差距（NL-PL Gap），在LRPLs中尤其明显，因为对齐的数据有限。在这项工作中，我们介绍了一种名为Bridge-Coder的新方法，该方法利用LLMs的内在能力来增强其在LRPLs上的性能。我们的方法包括两个关键阶段。首先是桥接生成，通过利用LLMs对一般知识的理解、对HRPLs的熟练程度和上下文学习能力来创建高质量的数据集。然后是桥接对齐，逐步改善自然语言指令与LRPLs之间的对齐。实验结果在多种LRPLs中显示，Bridge-Coder显著提升了模型性能，证明了我们方法的有效性和泛化能力。此外，我们还详细分析了方法的关键组成部分，为未来解决与LRPLs相关挑战的研究提供了有价值的见解。
2024-10-24	BioMistral-NLU: Towards More Generalizable Medical Language Understanding through Instruction Tuning	Yujuan Velvin Fu et.al.	2410.18955	null	大型语言模型（LLMs）如ChatGPT通过在大规模和多样化的指令跟随语料库上进行微调，能够泛化到新的任务。然而，这些经过指令微调的LLMs在需要领域知识、细粒度文本理解和结构化数据提取的专业医学自然语言理解（NLU）任务中往往表现不佳。为了解决这一问题，我们：(1) 提出了一种统一的提示格式，适用于7个重要的NLU任务，通过跨度提取和多选题问答（QA）来实现；(2) 创建了一个指令微调数据集MNLU-Instruct，利用了多种现有的开源医学NLU语料库；(3) 通过在MNLU-Instruct上对BioMistral进行微调，开发了BioMistral-NLU，一个具有通用性的医学NLU模型。我们在零样本设置下评估了BioMistral-NLU，在两个广泛采用的医学NLU基准测试中，即生物医学语言理解评估（BLUE）和生物医学语言理解和推理基准（BLURB）中的6个重要NLU任务。实验结果表明，我们的BioMistral-NLU在性能上优于原始的BioMistral以及专有的LLMs——ChatGPT和GPT-4。我们与数据集无关的提示策略和在各种NLU任务上的指令微调步骤增强了LLMs在各种医学NLU任务中的泛化能力。消融实验显示，即使总的训练实例数量保持不变，指令微调的任务种类越广，下游零样本泛化能力也越强。
2024-10-24	Dynamic Vocabulary Pruning in Early-Exit LLMs	Jort Vincenti et.al.	2410.18952	link	增加大型语言模型（LLMs）的规模已被证明可以提高其性能。然而，这也带来了推理速度变慢和成本增加的问题。早期退出是一种有前景的方法，通过在中间层进行预测来提高LLM推理的效率。然而，现代LLMs中的大词汇量使得所需的置信度估计在计算上非常昂贵，从而降低了效率提升的效果。为了解决这个问题，我们提出在测试时动态剪枝词汇表。具体来说，词汇表在最初的某一层被剪枝，并在整个前向传递过程中使用较小的词汇表。我们的实验表明，这种后处理动态词汇表剪枝方法提高了早期退出LLM中置信度估计的效率，同时保持了具有竞争力的性能。
2024-10-24	SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models	Zonghao Ying et.al.	2410.18927	null	多模态大型语言模型（MLLMs）在用户生成有害输出方面表现出强烈的安全隐患，这促使了安全评估基准的发展。然而，我们观察到现有的MLLMs安全基准存在查询质量低和评估可靠性差的问题，这些问题限制了对MLLMs安全影响的检测，因为随着MLLMs的不断发展，这些基准已显得不足。在本文中，我们提出了一种名为\toolns的综合框架，用于对MLLMs进行安全评估。我们的框架包括一个全面的有害查询数据集和一种自动评估协议，分别旨在解决上述问题。我们首先设计了一个自动安全数据集生成管道，在这个管道中，我们使用一组LLM评判者来识别和分类对MLLMs最具危害性和多样性的风险场景；基于这种分类，我们进一步要求这些评判者相应地生成高质量的有害查询，从而产生了23种风险场景和2300个多模态有害查询对。在安全评估过程中，我们借鉴司法程序中的陪审团制度，开创了一种陪审团审议评估协议，该协议采用协作式LLM来评估目标模型是否表现出特定的有害行为，从而提供可靠且无偏见的内容安全风险评估。此外，我们的基准还可以扩展到音频模态，显示出高度的可扩展性和潜力。基于我们的框架，我们对15种广泛使用的开源MLLMs和6种商业MLLMs（如GPT-4o、Gemini）进行了大规模实验，揭示了现有MLLMs中存在的广泛安全问题，并实例化了关于MLLMs安全性能的一些见解，如图像质量和参数大小。
2024-10-24	From Blind Solvers to Logical Thinkers: Benchmarking LLMs' Logical Integrity on Faulty Mathematical Problems	A M Muntasir Rahman et.al.	2410.18921	null	考虑一个数学问题：“莉莉昨天从她最好的朋友那里收到了3块饼干，并在早餐时吃了5块。今天，她的朋友又给了她3块饼干。现在莉莉有多少块饼干？”许多大型语言模型（LLMs）在先前的研究中通过计算“3-5+3”的等式来得出答案“1”。然而，从人类的角度来看，我们认识到这个问题的内在缺陷：如果莉莉最初只有3块饼干，她不可能在早餐时吃掉5块。这种差异引发了一个关键问题：当前的LLMs是仅仅作为盲目的解题者，机械地应用数学运算而不进行更深层次的推理，还是能够作为一个逻辑思考者，识别逻辑上的不一致？为了探讨这个问题，我们提出了一套基准数据集FaultyMath，其中包括多样化的有缺陷的数学问题：i）涵盖多个数学类别，如代数、几何、数论等；ii）具有不同的难度级别；iii）不同类型的缺陷来源——包括常识违反、模糊陈述、数学矛盾等。我们使用FaultyMath对广泛的LLMs进行评估，包括开源、闭源和数学专业模型，从三个方面进行评估：(i) 在没有明确提示的情况下，这些模型能多准确地检测出有缺陷的数学问题？(ii) 当提供关于问题有效性的提示——无论是正确的还是误导性的——LLMs在多大程度上能够适应成为可靠的逻辑思考者？(iii) 当LLMs识别出一个数学问题是错误的时，它们生成的解释有多可靠？通过广泛的实验和详细的分析，我们的结果表明，现有的LLMs大多表现为盲目的解题者，未能具备成为逻辑思考者所需的推理能力。
2024-10-25	A Survey on Speech Large Language Models	Jing Peng et.al.	2410.18908	null	大型语言模型（LLMs）在上下文理解和多任务处理方面表现出�

Name		Name	Last commit message	Last commit date
Latest commit History 2,167 Commits
.github/workflows		.github/workflows
assets		assets
docs		docs
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
config.yaml		config.yaml
daily_arxiv.py		daily_arxiv.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Updated on 2024.11.07

agent

llm

About

Releases

Packages

Languages

License

limafang/agent-arxiv-daily

Folders and files

Latest commit

History

Repository files navigation

Updated on 2024.11.07

agent

llm

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages