谢 洪

Email:hongx87@ustc.edu.cn

个人主页:https://hongxie.github.io/  

主要研究方向:在线学习算法及其应用(bandits, reinforcement learning等)


 

谢洪,男,特任研究员,IEEE、ACM、CCF会员。本科毕业于中国科学技术大学,博士毕业于香港中文大学,师从John C.S. Lui教授。主要致力于在线学习算法研究,共发表论文80余篇,包括ICML、NeurIPS、KDD等。主持国家自然科学基金青年项目、重庆市自然科学基金项目、阿里巴巴创新研究计划项目等。获CCF-A类会议INFOCOM最佳论文提名、重庆科技进步一等奖,入选重庆英才-青年拔尖人才。


导师选题:

大模型智能体中隐性推理与显性推理的平衡机制研究Google今年发布的AgentQ智能体在复杂多轮推理任务上取得重要突破。该智能在架构范式上的革新在于融合大模型的隐性推理能力与强化学习的显性推理能力。该架构范式中的一个关键科学问题是如何平衡隐性推理与显性推理。本课题拟从大模型智能体训练的角度,探索隐性推理与显性推理平衡机制,为精准权衡建立理论与方法基础,从而进一步突破大模型智能体在多轮复杂任务上的推理瓶颈。
探究大型预训练模型的内在组合推理机制组合推理,也称为多步、多跳推理,指的是利用已学习单元知识和概念组合起来解决复杂问题。其作为通往强人工智能的关键路径技术,受到学术界的广泛关注。近年来相关的技术发展,如思维链提示,主要通过诱导大语言模型在回答时逐步地输出推理过程,来实现组合推理。然而,该类方法在应用过程中需要大量专家劳动力来针对具体任务构建专用提示、在推理过程中需要输出成百上千token,计算效率低下、同时这种提示技术仅通过更改模型的输出行为来提升推理能力,与模型的本身固有的内部机制无关。因此,在这个项目中,我们主要关注于探究大规模预训练模型在包括算术、事实推理、逻辑推理等各种任务上的内在组合推理能力,确定当前开源的SOTA模型的关键推理机制和现存缺陷,并试图提供有见地的解决方案,以实现稳健组合推理。
面向强化学习的生成式学习方法研究当前强化学习的学习组件主要采取判别式学习范式,比如利用显性/非线性回归方法从交互数据中学习值函数或策略等。以GPT为首的大模型,展示了生成式学习范式(扩散模型、GflowNet等)强大的能力。本课题拟研究生成式学习范式与强化学习的融合,解锁生成式学习范式在强化学习方面的潜力,有望为进一步融合大模型与强化学习奠定理论基础。
大模型智能体决策的理论框架研究大型语言模型展现出了令人印象深刻的推理能力,但将这些推理转化为现实世界中的决策仍然充满挑战。特别地,如何通过内部推理机制,在与外部环境交互的次数最少的情况下,有理论保证地完成给定任务尚不清楚。本课题拟针对这一空白,利用强化学习理论等技术,研究大模型智能体决策的理论框架,为大模型智能体决策奠定理论基础。