3D 测量

大模型范畴我国学者的原创奉献：在深度学习大门上按了18次门铃

发布时间：2023-10-14 16:00:43 人气：来源：下载雷火电竞亚洲先驱

案例介绍

·“2018年3位图灵奖取得者尤舒亚·本吉奥、杰弗里·辛顿和杨立昆打开了深度学习的大门，而敞开这扇大门的榜首声门铃，是辛顿和微软的我国学者邓力按下的。”

·“何恺明把神经网络做深了，谷歌把神经网络的进口拉大了，又深又大，才成为今日的大模型。”

7月6日，商汤科技创始人汤晓鸥在2023国际人工智能大会开幕式上宣布讲演。

7月6日，2023国际人工智能大会在上海开幕。AI科学家、香港中文大学教授、商汤科技创始人汤晓鸥在开幕式上宣布讲演。他的讲演主题《你好，上海》来自原创电影《你好，李焕英》，他说，我国电影人经过原创的电影内容发明了54亿票房奇观，而“我国的科技原创者也开端看到了曙光”。“我今日想简略回忆一下，在大模型范畴，我国学者究竟做了哪些原创的奉献？”

汤晓鸥介绍了他的3位学生王晓刚、何恺明、林达华的作业和成果。比方，王晓刚带领开发的DeepID系列初次让机器的人脸辨认超越了人的眼睛，何恺明有关残差网络（ResNet）的论文处理了深度网络的梯度传递问题，林达华的计算机视觉开源算法系统OpenMMLab成为国际上最具影响力的视觉算法开源系统。

汤晓鸥从几个历史事件开端回忆，他表明，2018年3位图灵奖取得者尤舒亚·本吉奥（Yoshua Bengio）、杰弗里·辛顿（Geoffrey Hinton）和杨立昆（Yann LeCun）打开了深度学习的大门，而敞开这扇大门的榜首声门铃，是辛顿和微软的我国学者邓力按下的，他们2011年取得了在深度学习语音辨认上跨年代的打破。

“那么，2011年到2013年深度学习范畴刚刚起步的时分，咱们做了什么？”汤晓鸥介绍了他的学生，商汤联合发起人、履行董事及首席科学家王晓刚博士，“2011年到2013年的国际计算机视觉与模式辨认会议（CVPR）和国际计算机视觉大会（ICCV）这两个计算机视觉最重要的会议上，全球共有29篇文章关于深度学习，其间有14篇出自咱们的实验室。咱们有18项作业在整个国际榜初次将深度学习用到视觉问题上，包含人脸辨认、人脸检测、人脸重建、物体检测、人体姿势、图画超分、三维形状辨认等计算机视觉最中心的问题。在深度学习的大门上，咱们按了18次门铃。”

汤晓鸥还表明，王晓刚带领的DeepID-Net团队开发的DeepID系列，初次让机器的人脸辨认超越了人的眼睛。尔后，王晓刚还取得了我国学者榜首个ImageNet大规模视觉辨认挑战赛的国际冠军，“在ImageNet比赛上，晓刚当年的对手是谷歌。”

此外，王晓刚带领的商汤联合团队在本年还取得了CVPR最佳论文，推出首个感知决议计划一体化无人驾驶通用大模型。两篇论文登上最佳论文候选名单（Award Candidate），其间无人驾驶研讨论文《Planning-oriented Autonomous Driving》（以途径规划为导向的无人驾驶）斩获本届CVPR最佳论文奖。

汤晓鸥介绍的第二个学生是何恺明，本科就读于清华大学，2003年广东高考状元，在香港中文大学多媒体实验室取得博士学位。“何恺明在我的实验室读硕士期间宣布了榜首篇文章，取得了2009年的CVPR最佳论文。这是CVPR整个25年历史上亚洲的榜首篇最佳论文。”

“他的榜首项作业是，在微软亚洲研讨院发布的有关残差网络（ResNet）的论文。”汤晓鸥表明，在2015年之前，深度学习最多只能练习20层，而CNN（卷积神经网络）模型ResNet在网络的每一层引入了一个直连通道，然后处理了深度网络的梯度传递问题，取得了2016年CVPR的最佳论文奖，是计算机视觉历史上被引证最多的论文。

“在ResNet之后就可以有效地练习超越百层的深度神经网络，把网络打得十分深。”汤晓鸥说，“在大模型年代，以Transformer（谷歌开发的一种深度学习模型，OpenAI在此基础上开发了GPT）为中心的大模型，包含GPT系列，也广泛采用了ResNet结构，以支撑上百层的Transformer的堆叠。何恺明把神经网络做深了，谷歌把神经网络的进口拉大了，又深又大，才成为今日的大模型。”

汤晓鸥表明，何恺明还有一项作业——Mask R-CNN算法，是上任于Facebook时开发的，是一个真实高性能的物体检测算法结构，取得了ICCV 2017年最佳论文。“恺明应该是国际上仅有一个在结业不到10年内3次以榜首作者身份取得CVPR和ICCV最佳论文的人。”汤晓鸥表明，Mask R-CNN初次把根据掩码的自编码思维用于视觉范畴的非监督学习，敞开了计算机视觉范畴自监督学习的大门，并被推行到3D范畴、音频范畴，乃至是AI for science（人工智能用于科研）范畴。

“第三个学生叫林达华，硕士就读于香港中文大学，他在2010年在MIT（麻省理工学院）读博士期间取得NIPS（神经信息处理系统大会）最佳学生论文，这是机器学习的最高奖。”汤晓鸥以一项尖端成果敞开林达华的介绍，“他的榜首项作业，是计算机视觉开源算法系统OpenMMLab。2018年从一个小团队开端，在没有推行投入的条件下，以口口相传的方式成为国际上最具影响力的视觉算法开源系统。在GitHub上累积了8万多个星标，现在用户广泛全球140多个国家和地区，60%用户来自海外。”

汤晓鸥表明，林达华的另一项作业是参加了墨客大模型系统的开发。汤晓鸥说，上海人工智能实验室、商汤科技联合香港中文大学、复旦大学及上海交通大学开发的千亿级参数大言语模型“墨客·浦语”，作为国内首个千亿参数语境长度8k的多语种大言语模型，详细评测细节将于7月6日发布。

此外，林达华参加的LandMark大模型也将于当天正式对外发布。据汤晓鸥介绍，该模型是全球首个城市级NeRF（Neural Radiance Fields，神经辐射场）实景三维大模型，有2000亿参数，可掩盖100平方公里，2021年12月林达华团队初次提出了City NeRF技能，早于谷歌把NeRF技能从物体级拓宽到城市级。

返回列表相关案例