【学术报告】大规模多模态模型的高效剪枝蒸馏

发布人：王辰发布时间：2024-07-25 浏览次数:10

报告题目: 大规模多模态模型的高效剪枝蒸馏

报告人: 王茂林博士香港城市大学&蚂蚁金服

报告时间: 2024年7月27日（星期六）下午15:00-15:30

报告地点: 文理楼290

报告摘要:在蚂蚁集团，大规模多模态模型（LMMs）的部署显著推动了支付、安全和广告等多模态任务的发展，特别是显著提升了支付宝中的广告审核任务。然而，这些大规模模型的部署带来了挑战，特别是在延迟增加和碳排放方面，这与绿色人工智能的理想相悖。本次报告，我会介绍一种新颖的多阶段压缩策略，针对蚂蚁金服和支付宝自主研发的LLM—AntGMM。我们的方法主要聚焦于三个方面：使用小样本训练集，通过多阶段剪枝处理多级冗余，以及引入先进的蒸馏损失设计。在我们的研究中，我们从支付宝的实际场景中构建了一个数据集—多模态广告审核数据集（MAAD），并进行了实验以验证我们提出策略的可靠性。此外，我们的策略在2023年9月起在支付宝的实际多模态广告审核中取得了成功，表现出显著的效果。我们的方案在减少延迟方面取得了显著进展，将延迟从700毫秒减少至90毫秒，同时在线性能几乎没有下降。此外，与直接部署AntGMM相比，该压缩模型预计每年可减少约7500万千瓦时的电力消耗。

报告人简介:王茂林于2018年获得电子科技大学计算机科学与技术学士学位，于2021年在电子科技大学获得计算机科学与技术硕士学位。自2021年起，他在香港城市大学攻读数据科学博士学位。自2024年6月起，王茂林在支付宝智能体构建团队担任科研实习生，专注于大模型压缩和高效应用的研究。他的研究兴趣涵盖机器学习、张量网络、模型压缩，大语言模型和特征融合等领域。他在AAAI、WWW、ICDM、RecSys、SDM、IJCNN、ICONIP等CCF知名会议上发表了多篇文章，并担任TNNLS、IEEE Transactions on Big Data、Neurocomputing、Neural Networks、NeurIPS、CIKM等知名期刊和会议的审稿人。同时，他还受曾邀担任CCF A类会议WWW 2024的智能推荐系统的Session主席。