【学术报告】大规模多模态模型的高效剪枝蒸馏
发布时间: 2024-07-25  作者:  浏览次数: 10

报告题目: 大规模多模态模型的高效剪枝蒸馏

报告人: 王茂林博士 香港城市大学&蚂蚁金服

报告时间: 2024727日(星期六)下午15:00-15:30

报告地点: 文理楼290


报告摘要:在蚂蚁集团,大规模多模态模型(LMMs)的部署显著推动了支付、安全和广告等多模态任务的发展,特别是显著提升了支付宝中的广告审核任务。然而,这些大规模模型的部署带来了挑战,特别是在延迟增加和碳排放方面,这与绿色人工智能的理想相悖。本次报告,我会介绍一种新颖的多阶段压缩策略,针对蚂蚁金服和支付宝自主研发的LLM—AntGMM。我们的方法主要聚焦于三个方面:使用小样本训练集,通过多阶段剪枝处理多级冗余,以及引入先进的蒸馏损失设计。在我们的研究中,我们从支付宝的实际场景中构建了一个数据集多模态广告审核数据集(MAAD),并进行了实验以验证我们提出策略的可靠性。此外,我们的策略在20239月起在支付宝的实际多模态广告审核中取得了成功,表现出显著的效果。我们的方案在减少延迟方面取得了显著进展,将延迟从700毫秒减少至90毫秒,同时在线性能几乎没有下降。此外,与直接部署AntGMM相比,该压缩模型预计每年可减少约7500万千瓦时的电力消耗。


报告人简介:王茂林于2018年获得电子科技大学计算机科学与技术学士学位,于2021年在电子科技大学获得计算机科学与技术硕士学位。自2021年起,他在香港城市大学攻读数据科学博士学位。自20246月起,王茂林在支付宝智能体构建团队担任科研实习生,专注于大模型压缩和高效应用的研究。他的研究兴趣涵盖机器学习、张量网络、模型压缩,大语言模型和特征融合等领域。他在AAAIWWWICDMRecSysSDMIJCNNICONIPCCF知名会议上发表了多篇文章,并担任TNNLSIEEE Transactions on Big DataNeurocomputingNeural NetworksNeurIPSCIKM等知名期刊和会议的审稿人。同时,他还受曾邀担任CCF A类会议WWW 2024的智能推荐系统的Session主席。