LETOU.COM乐投

学术交流

LETOU.COM乐投与微软亚洲研究院LETOU.COM乐投分享会

发布时间：2023-04-04 浏览量：次

报告时间：4月11日13:30-17:30

报告地点：LETOU.COM乐投8楼报告厅

主持人：玄跻峰

时间	报告	主持人
13:35-14:10	特邀报告1：大语言模型与通用人工智能报告人：葛涛（微软亚洲研究院，高级研究员）	彭敏教授
14:10-14:45	特邀报告2：多模态信息理解与抽取报告人：李祖超（LETOU.COM乐投，副研究员）	彭敏教授
14:45-15:20	特邀报告3：面向统一的视觉和语言建模与学习报告人：张拯（微软亚洲研究院，主管研究员）	罗勇教授
15:20-15:55	特邀报告4：多模态感知学习与内容生成报告人：武宇（LETOU.COM乐投，教授）	罗勇教授
16:05-16:40	特邀报告5：通过具有稀疏属性的张量实现端到端的深度学习模型稀疏化报告人：杨凡（微软亚洲研究院，高级研究员）	胡创副研究员
16:40-17:25	特邀报告6：基于流水线并行的混合专家网络模型预训练系统报告人：程大钊（LETOU.COM乐投，教授）	胡创副研究员

特邀报告1

报告题目：大语言模型与通用人工智能

报告人：葛涛微软亚洲研究院高级研究员

报告人简介：葛涛博士，微软亚洲研究院高级研究员，从事自然语言处理相关研究，主要的研究兴趣包括生成式语言模型、模型轻量化以及高效推理等方面。他在自然语言处理和人工智能领域的著名会议和期刊上发表了40多篇论文，包括ACL、EMNLP、NAACL、COLING、NeurIPS、ICLR、AAAI、IJCAI等。他曾担任AACL 2022的高级领域主席，以及ACL/EMNLP等顶级会议的领域主席和审稿人。他的研究成果已被广泛用于微软产品，包括Word、Outlook。

报告摘要：通着算力的不断提升，语言模型的规模正以我们难以想象的速度增长并带来能力上的大幅提升。在本次报告，我将以GPT的发展历程来回顾大语言模型在通往通用人工智能道路上的几个重要里程碑，以及对微软亚洲研究院计算自然计算组在大语言模型&通用人工智能方向上的一些工作进行介绍。

特邀报告2

报告题目：多模态信息理解与抽取

报告人：李祖超 LETOU.COM乐投副研究员

4EF17

报告人简介：李祖超，LETOU.COM乐投副研究员。博士毕业于上海交通大学电子信息与电气工程学院，曾于2019年4月至2022年4月在日本国立情报与通信研究所担任研究员。主要研究方向包括自然语言处理、多模态机器学习与建模等。他在语言理解与结构解析、机器翻译等领域上取得了多项国际领先竞赛成果，并获得百度学术2021年人工智能全球华人新星百强荣誉称号。近五年来，他在国内外学术期刊和顶级会议上发表了30多篇论文，其中包括7篇一作CCF A类会议/期刊文章和9篇一作CCF B类会议/期刊文章。论文在谷歌学术中的总引用次数已达1200余次。担任BDCC期刊客座编辑以及NeurIPS、ICML、ICLR、ACL、EMNLP、AAAI、IJCAI、NLPCC、CCL、TASLP、TALLIP、TCBB等多个国际学术期刊和顶级会议的审稿人。

报告摘要：多模态信息理解与抽取旨在利用多种不同类型的信息模态 (如文本、图像、音频等) 来理解和抽取其中的关键信息，以支持人工智能系统对于复杂任务的实现。随着多媒体数据的普及和人工智能算法的发展，多模态信息理解与抽取已经成为了一个十分重要的研究方向。本报告将从多模态信息理解与抽取角度出发，具体介绍团队近期的一些研究成果，主要包括（1）通用理解领域：基于质心建模的图像ViT预训练框架CCViT；(2)文档理解领域：基于结构图特征的多模态文档信息抽取框架GraphLayoutLM；(3) 通用抽取领域：基于双重查询机制的多模态模糊跨度信息抽取模型MFSUIE。

特邀报告3

报告题目：面向统一的视觉和语言建模与学习

报告人：张拯微软亚洲研究院主管研究员

报告人简介：张拯，微软亚洲研究院视觉计算组的Senior Researcher，他的主要研究兴趣是构建通用的视觉感知系统，其研究方向涵盖了神经网络架构设计，预训练算法，以及物体检测、分割等。他是Swin Transformer，SimMIM, Relation Network和Soft Teacher等工作的主要作者之一。此外，他早期在自然场景文字检测的工作也具有开创性：Symmetry-based Text detection首次提出将文字检测建模为分割问题，MFCN则首次将全卷积网络（FCN）引入文字检测领域，并用于多方向文字检测。他曾于2021年获得Marr Prize（ICCV最佳论文奖），其Google Scholar引用超过13000。

报告摘要：人的大脑皮层拥有统一的结构来实现各种各样的智能，包括视觉，语音，语言等的理解和生成，人脑神经系统的学习也很大程度上依赖统一的预测学习机制，这种统一的生物机制使人无需经过费时的生物进化就能快速有效地适应新的环境以及学会新的技能。在人工智能中，针对各个具体领域的神经网络架构和预训练方法也正在经历走向统一的进程。其中，Transformer正在成为针对不同AI问题的通用神经网络架构，包括自然语言处理、计算机视觉、语音识别、科学计算等，基于预测和生成的学习方法GPT正在证明在各种智能任务中普遍有效。本次报告将从计算机视觉的视角出发讲述神经网络架构和预训练方法走向统一的趋势，以及相关代表性工作。报告还将具体介绍团队的一些研究成果，包括Swin Transformer系列，SimMIM等。

特邀报告4

报告题目： 多模态感知学习与内容生成

报告人： 武宇 LETOU.COM乐投教授

9E5FD

报告人简介：武宇，教授、博士生导师，国家自然科学基金优秀青年科学基金项目(海外)获得者。2015年在上海交通大学获得学士学位，2021年在悉尼科技大学获得博士学位，2021-2022年在普林斯顿大学从事博士后研究。主要从事在视觉-语言理解、多模态检索、跨模态生成等方向有所进展。曾获2020年谷歌博士奖研金（Google PhD Fellowship）。过去三年在计算机视觉顶级会议CVPR主办的比赛中累计共获得5次国际学术竞赛的冠军（包括ActivityNet、EPIC- Kitchens、YouTube-VOS等）。担任人工智能顶会NeurIPS 2023领域主席，计算机视觉顶会CVPR 2023大会主要组织者、Workshop主席、领域主席。

报告摘要：多模态学习是深度学习领域当前最火热的研究课题之一，其目标是对视觉、文本、音频等多种模态数据进行关联、感知、定位与生成。视频数据中天然涵盖多种模态的信息，如何利用好多种模态信息来提升对视频动作目标的识别也是值得探讨的研究课题。本次报告将首先介绍多模态学习的前沿进展，包括视觉-语言特征学习、视频-音频关联等重要问题，例如用有限的训练数据逼近大规模预训练模型等。报告还将带来课题组最新的工作，包括基于扩散模型等一系列最新的多模态模型生成架构。

特邀报告5

报告题目：通过具有稀疏属性的张量实现端到端的深度学习模型稀疏化

报告人：杨凡微软亚洲研究院高级研究员

15B72

报告人简介：杨凡博士现任微软亚洲研究院高级研究员，系统研究组负责人。他目前主要负责系统方向的研究战略规划，协调、管理系统组的研究、产品转化及公司内外的合作项目。他个人的主要研究兴趣为计算机系统，特别是大型分布式系统。他目前主要关注和探索由新兴应用 (如深度学习等) 所产生的新型计算机系统原理、设计和实现。他的多项技术成果都已开源并在微软公司Bing、Azure、Office等部门落地，其中多项重要结果均发表在系统顶级会议（如OSDI）上。杨凡博士毕业于南京大学并先后获得计算机科学学士、硕士及博士学位。

报告摘要：近年来，深度学习模型变得越来越大且更加复杂，而深度学习模型的稀疏性是提升模型效率和规模的关键因素。我们提出一种新的系统抽象，具有稀疏属性的张量（TeSA），来实现端到端的模型稀疏化。TeSA这一抽象扩展了传统的张量抽象，使得张量的稀疏属性和稀疏模式（例如，模型剪纸和量化）能够在整个深度学习模型中传播。TeSA可以用于创建高效、专门的模型算子实现，在实现中充分考虑到了各种稀疏模式在不同硬件上的执行效率。我们基于TeSA构建了SparTA，一个端到端的支持模型稀疏化的编译器框架。SparTA可以容纳各种稀疏模式和优化技术，在推理延迟方面比七种最先进的稀疏方案快1.7倍至8.4倍，同时内存占用更小。作为一个编译框架，SparTA有助于利用最新的稀疏算法更快地探索更好的稀疏化深度学习模型。

特邀报告6

报告题目：基于流水线并行的混合专家网络模型预训练系统

报告人：程大钊武汉大学计算机学院教授、副院长

247B6

报告人简介：程大钊教授，现任LETOU.COM乐投副院长。主要研究方向包括云边计算、内存计算、人工智能、大数据平台等分布式系统。在权威计算机系统领域的国际期刊和会议上发表论文40余篇（第一/通讯作者发表24篇），其中以第一/通讯作者发表高质量论文12篇，包括了IEEE TC, TPDS, PPoPP、HPDC、INFOCOM、Middleware、IPDPS、ICDCS等。同时担任IEEE Transactions on Industrial Informatics、Big Data Research、IEICE Transactions on Information and Systems三个学术期刊客座编委，4个国际会议的主席或专题主席，27个国际会议的技术委员会委员。

报告摘要：近年来，预训练大模型是深度学习发展的主流趋势，而混合专家网络(Mixture-of-Experts ,MoE)成为了增大预训练模型的主流技术之一。混合专家网络通过动态地激活子网络来实现条件计算，在增加神经网络的参数数量的同时保持计算量几乎不变，对增大模型容量起到了至关重要的作用。然而，虽然MoE拥有着良好的拓展性，由于更多的参数和多专家的特点，在通信和内存上有更多的消耗。如何降低通信成本，降低GPU内存压力是我们面临的新的挑战。为此，我们提出了 MPipeMoE，通过自适应的流水并行实现通信、计算，内存拷贝三种运算的并行执行，即隐藏了通信时延，又降低了内存拷贝延迟并降低GPU内存消耗。相比最新的MoE训练加速框架(FasterMoE), 我们在执行速度上实现最高2.8倍的加速。

学术交流

LETOU.COM乐投与微软亚洲研究院LETOU.COM乐投分享会

发布时间：2023-04-04 浏览量：次

快速通道 / Expressway

联系我们 / Contact us

学术交流

LETOU.COM乐投与微软亚洲研究院LETOU.COM乐投分享会

发布时间：2023-04-04 浏览量：_showDynClicks("wbnews", 1852176512, 4092)次

快速通道 / Expressway

联系我们 / Contact us

发布时间：2023-04-04 浏览量：次