赵思蕊

姓名：赵思蕊

电子邮箱：siruit@ustc.edu.cn

个人主页：https://sirui-ustc.github.io/

办公地址：中国科学技术大学高新校区信智楼B703

主要研究方向：情感智能、多模态大模型、人机交互等

赵思蕊，博士，博士后，现为计算机学院特任副研究员，研究生导师。2023年获得中国科学技术大学计算机科学与技术专业博士学位，随后留校做博士后研究员。担任安徽省人工智能学会情感计算专委会秘书长，图像图形学会和中文信息学会的多个专委会委员。主要从事情感计算、多模态理解、人机交互等方面的研究。近年来，在相关领域的重要期刊(NSR，IEEE TAFFC/TMM等)和会议（ACM MM、ACM SIGKDD、CVPR等）上发表论文40余篇，其中一作和通讯作者论文30余篇，谷歌学术引用5500余次（H-index:20）。申请中国发明专利20余项（授权16项）、授权软件著作权2项。获得包括NSR 2025年度优秀论文、KDD2024 Best Student Paper、ACM MM2025多模态人格感知抑郁症检测挑战赛冠军等国内外相关学术论文/竞赛奖项10余项。目前，作为项目负责人主持国家自然科学基金青年基金C类、省自然科学基金项目、企业横向课题共4项；作为项目核心人员参与国家自然科学基金面上项目、重大科研仪器项目、科技部重点研发等多项。2025年获安徽省计算机学会优秀青年科学家奖。

招生信息：欢迎相关专业优秀、自驱力强的本科生/硕士生加入课题组，一起探索情感智能、大模型拟人化技术、多模态人机交互等前沿问题。

获奖情况：

1. 2026年，《国家科学评论》(NSR，IF=17.1)2025年度优秀论文

2. 2025年，安徽省计算机学会优秀青年科学家

3. 2025年，国际多媒体旗舰会议ACM MM2025@MPDD抑郁检测赛道冠军

4. 2025年，“高地慧眼”全国智能感知邀请赛二等奖

5. 2024年，国际数据挖掘顶会KDD2024唯一Best Student Paper

6. 2024年，中国科大“墨子杰出青年（特资津贴一等）”

7. 2024年，国际多媒体旗舰会议ACM MM2024@微表情挑战赛检测赛道亚军

8. 2023年，国际计算机视觉旗舰会议CVPR2023@长视频理解挑战赛亚军

9. 2023年，第四届“天马杯”全国高校科技创新大赛2D/3D数字人一/二等奖

代表性项目：

1. 基于多模态微反应感知与融合的隐藏情绪识别研究，2025-2028，国家自然科学基金青年科学基金（C类），主持;

2. 基于面舌部及眼微血管数据的多模态慢病预测，2026-2029，国家重点研发计划，子课题负责人；

3. 基于多模态微反应数据的情感分析研究，2023-2024, 四川省自然科学基金青年基金项目，主持；

4. 高效多模态大模型关键技术研发，2025-2026，企业横向，主持；

5. 下一代数字人大脑关键技术—多模态情感数字人，2022-2024，企业横向，技术负责人；

代表性著作：

情感智能（情绪感知与应用）：

1. Sirui Zhao, Huaying Tang, Xinglong Mao, Shifeng Liu, Hao Wang, Tong Xu, Enhong Chen*. DFME: A New Benchmark for Dynamic Facial Micro-expression Recognition[J]. IEEE Transactions on Affective Computing, doi: 10.1109/TAFFC.2023.3341918，2023. （中科院一区TOP）

2. Sirui Zhao, Huaying Tang, Shifeng Liu, Yangsong Zhang, Hao Wang, Tong Xu, Enhong Chen* , ME-PLAN: A Deep Prototypical Learning with Local Attention Network For Dynamic Micro-Expression Recognition[J]. Neural Networks, 2022, 153: 427-443.（中科院一区TOP）

3. Fangyuan Liu, Sirui Zhao*, Kang Yin, Tong Xu, Enhong Chen*. DepFormer: A Unified Framework with Bimodal Collaborative Transformer for Depression Detection, Proceedings of the 33rd ACM International Conference on Multimedia, 2025 Oct 27 (pp. 13930-13936). （CCF A类）

4. Kang Yin, Chunyu Qiang, Sirui Zhao*, Xiaopeng Wang, Yuzhe Liang, Pengfei Cai, Tong Xu, Chen Zhang, Enhong Chen, DMP-TTS: Disentangled Multi-modal Prompting for Controllable Text-to-Speech with Chained Guidance, Proceedings of the 2026 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP'26), Barcelona, Spain, 2026. （CCF B类）

人机交互（数字人生成与共情对话系统）：

5. Sirui Zhao, Hongyu Jiang, Hanqing Tao, Rui Zha, Kun Zhang, Tong Xu, Enhong Chen. PEDM: A Multi-task Learning Model for Persona-aware Emoji-embedded Dialogue Generation[J]. ACM Transactions on Multimedia Computing, Communications and Applications, 2023, 19(3s): 1-21. （CCF B类）

6. Yubo Huang, Weiqiang Wang, Sirui Zhao*, Tong Xu, Lin Liu, Enhong Chen* Bind-Your-Avatar: Multi-Character-Talking Video Generation with Dynamic 3D-mask-based Embedding Router, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2026（CVPR2026）: 4440-4449 （CV顶会，CCF A类）

7. Yubo Huang, Hailong Guo, Fangtai Wu, ..., Sirui Zhao*, Enhong Chen*, Jiaming Liu, Steven Hoi Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length, European conference on computer vision 2026（ECCV 2026）, Accepted.（CV顶会，CCF B类）

8. Yifan Xu, Sirui Zhao*, Shifeng Liu, Tong Xu, Enhong Chen*. Emotionally Controllable Audio-driven Talking Face Generation, ACM Transactions on Multimedia Computing, Communications, and Applications, 2025.（CCF B类）

多模态大模型：

9. Shukang Yin#, Chaoyou Fu#*, Sirui Zhao#*, Ke Li, Xing Sun, Tong Xu, Enhong Chen*. A Survey on Multimodal Large Language Models, National Science Review, 11.12 (2024): nwae403. （中科院一区TOP，领域首篇多模态大模型综述论文）

10. Shukang Yin, Chaoyou Fu, Sirui Zhao*, Tong Xu, Hao Wang, Dianbo Sui, Enhong Chen*. Woodpecker: Hallucination Correction for Multimodal Large Language Models, SCIENCE CHINA Information Sciences(SCIS), 67.12 (2024): 220105. （CCF A类）

11. Shukang Yin, Chaoyou Fu, Sirui Zhao*, Chuanjiang Ge, Yan Yang, Yuhan Dai, Yongdong Luo, Tong Xu, Caifeng Shan, Enhong Chen*. Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation, IEEE Transactions on Multimedia, 2025, Accepted. （CCF A类）

（更新于2026年7月）