视觉检测领先者
全国咨询热线:13812953225

大模型范畴我国学者的原创奉献:在深度学习大门上按了18次门铃

发布时间:2023-10-14 16:00:43 人气: 来源:下载雷火电竞亚洲先驱
案例介绍

  ·“2018年3位图灵奖取得者尤舒亚·本吉奥、杰弗里·辛顿和杨立昆打开了深度学习的大门,而敞开这扇大门的榜首声门铃,是辛顿和微软的我国学者邓力按下的。”

  ·“何恺明把神经网络做深了,谷歌把神经网络的进口拉大了,又深又大,才成为今日的大模型。”

  7月6日,商汤科技创始人汤晓鸥在2023国际人工智能大会开幕式上宣布讲演。

  7月6日,2023国际人工智能大会在上海开幕。AI科学家、香港中文大学教授、商汤科技创始人汤晓鸥在开幕式上宣布讲演。他的讲演主题《你好,上海》来自原创电影《你好,李焕英》,他说,我国电影人经过原创的电影内容发明了54亿票房奇观,而“我国的科技原创者也开端看到了曙光”。“我今日想简略回忆一下,在大模型范畴,我国学者究竟做了哪些原创的奉献?”

  汤晓鸥介绍了他的3位学生王晓刚、何恺明、林达华的作业和成果。比方,王晓刚带领开发的DeepID系列初次让机器的人脸辨认超越了人的眼睛,何恺明有关残差网络(ResNet)的论文处理了深度网络的梯度传递问题,林达华的计算机视觉开源算法系统OpenMMLab成为国际上最具影响力的视觉算法开源系统。

  汤晓鸥从几个历史事件开端回忆,他表明,2018年3位图灵奖取得者尤舒亚·本吉奥(Yoshua Bengio)、杰弗里·辛顿(Geoffrey Hinton)和杨立昆(Yann LeCun)打开了深度学习的大门,而敞开这扇大门的榜首声门铃,是辛顿和微软的我国学者邓力按下的,他们2011年取得了在深度学习语音辨认上跨年代的打破。

  “那么,2011年到2013年深度学习范畴刚刚起步的时分,咱们做了什么?”汤晓鸥介绍了他的学生,商汤联合发起人、履行董事及首席科学家王晓刚博士,“2011年到2013年的国际计算机视觉与模式辨认会议(CVPR)和国际计算机视觉大会(ICCV)这两个计算机视觉最重要的会议上,全球共有29篇文章关于深度学习,其间有14篇出自咱们的实验室。咱们有18项作业在整个国际榜初次将深度学习用到视觉问题上,包含人脸辨认、人脸检测、人脸重建、物体检测、人体姿势、图画超分、三维形状辨认等计算机视觉最中心的问题。在深度学习的大门上,咱们按了18次门铃。”

  汤晓鸥还表明,王晓刚带领的DeepID-Net团队开发的DeepID系列,初次让机器的人脸辨认超越了人的眼睛。尔后,王晓刚还取得了我国学者榜首个ImageNet大规模视觉辨认挑战赛的国际冠军,“在ImageNet比赛上,晓刚当年的对手是谷歌。”

  此外,王晓刚带领的商汤联合团队在本年还取得了CVPR最佳论文,推出首个感知决议计划一体化无人驾驶通用大模型。两篇论文登上最佳论文候选名单(Award Candidate),其间无人驾驶研讨论文《Planning-oriented Autonomous Driving》(以途径规划为导向的无人驾驶)斩获本届CVPR最佳论文奖。

  汤晓鸥介绍的第二个学生是何恺明,本科就读于清华大学,2003年广东高考状元,在香港中文大学多媒体实验室取得博士学位。“何恺明在我的实验室读硕士期间宣布了榜首篇文章,取得了2009年的CVPR最佳论文。这是CVPR整个25年历史上亚洲的榜首篇最佳论文。”

  “他的榜首项作业是,在微软亚洲研讨院发布的有关残差网络(ResNet)的论文。”汤晓鸥表明,在2015年之前,深度学习最多只能练习20层,而CNN(卷积神经网络)模型ResNet在网络的每一层引入了一个直连通道,然后处理了深度网络的梯度传递问题,取得了2016年CVPR的最佳论文奖,是计算机视觉历史上被引证最多的论文。

  “在ResNet之后就可以有效地练习超越百层的深度神经网络,把网络打得十分深。”汤晓鸥说,“在大模型年代,以Transformer(谷歌开发的一种深度学习模型,OpenAI在此基础上开发了GPT)为中心的大模型,包含GPT系列,也广泛采用了ResNet结构,以支撑上百层的Transformer的堆叠。何恺明把神经网络做深了,谷歌把神经网络的进口拉大了,又深又大,才成为今日的大模型。”

  汤晓鸥表明,何恺明还有一项作业——Mask R-CNN算法,是上任于Facebook时开发的,是一个真实高性能的物体检测算法结构,取得了ICCV 2017年最佳论文。“恺明应该是国际上仅有一个在结业不到10年内3次以榜首作者身份取得CVPR和ICCV最佳论文的人。”汤晓鸥表明,Mask R-CNN初次把根据掩码的自编码思维用于视觉范畴的非监督学习,敞开了计算机视觉范畴自监督学习的大门,并被推行到3D范畴、音频范畴,乃至是AI for science(人工智能用于科研)范畴。

  “第三个学生叫林达华,硕士就读于香港中文大学,他在2010年在MIT(麻省理工学院)读博士期间取得NIPS(神经信息处理系统大会)最佳学生论文,这是机器学习的最高奖。”汤晓鸥以一项尖端成果敞开林达华的介绍,“他的榜首项作业,是计算机视觉开源算法系统OpenMMLab。2018年从一个小团队开端,在没有推行投入的条件下,以口口相传的方式成为国际上最具影响力的视觉算法开源系统。在GitHub上累积了8万多个星标,现在用户广泛全球140多个国家和地区,60%用户来自海外。”

  汤晓鸥表明,林达华的另一项作业是参加了墨客大模型系统的开发。汤晓鸥说,上海人工智能实验室、商汤科技联合香港中文大学、复旦大学及上海交通大学开发的千亿级参数大言语模型“墨客·浦语”,作为国内首个千亿参数语境长度8k的多语种大言语模型,详细评测细节将于7月6日发布。

  此外,林达华参加的LandMark大模型也将于当天正式对外发布。据汤晓鸥介绍,该模型是全球首个城市级NeRF(Neural Radiance Fields,神经辐射场 )实景三维大模型,有2000亿参数,可掩盖100平方公里,2021年12月林达华团队初次提出了City NeRF技能,早于谷歌把NeRF技能从物体级拓宽到城市级。