何晓冬：做科研与其各拿十块“铜牌”，不如合力做一块“金牌”

喜欢

来源：互联网
|
2021-09-13
|
0 条评论
|
我要分享
|
T小字　 T大字

据斯坦福大学的一项研究显示，2020年，中国在学术期刊上有关AI的论文引用率占比为20.7%，美国为19.8%，这是中国首次超过美国。

而中国工程院院士李国杰前段时间发文认为，我国目前AI研究多数是技术驱动、论文导向，目标导向和问题导向的研究较少。

不可否认的是，我国学者发表的AI论文数量越来越多，在国际上也具有了明显的影响力，但只有论文，无疑是不够的。什么是好的AI研究？AI产业落地和科研又有什么区别？我们怎样才能做出GPT-3那样具有影响力的研究？近日，智源社区采访了京东人工智能研究院常务副院长、智源学者、IEEE/CAAI Fellow何晓冬，请他谈谈对AI科研和产业方面的经验和看法。

下文以「何」代表何晓冬。全文共4000字左右。

受访者：何晓冬

撰文：戴一鸣

责编：贾伟

感谢闫亚琼对本文做出的贡献。

一、科学研究的影响力，应该由研究成果的高度来定义

在采访开始，何晓冬首先对AI科研和评价方面的问题发表了个人的看法。他认为，评价一个学者的成就，不仅要看论文数量，更要看工作的质量。优秀学者的学术影响力更多是由其研究成果能达到的高度定义的。而作为对比，产业方面的评价与学术有所不同，比如能否低成本大规模复制与推广是个重要指标。

提问者：现在论文数量是评价一个学者的科研成就的主要标准，您怎样看待这样的现象？

何：学术界的评价体系不能仅仅是数论文数量。比如我们知道学术界的最高荣誉，如诺贝尔奖、图灵奖等，不是评价获奖者写了多少篇论文，而是评价获奖者做的一个或几个最重要的成就。

这是因为，基础研究看中的是开拓性的、探索性的、影响深远的科学发现和技术突破。所以作为一个研究者，其工作所达到的高度，而不是发表的论文的数量，定义了这位研究者的学术成就。

现在科研方面的一些评价方法在过去一段时间里取得了很多进步，一般不再简单的数论文的数量了，但仍然存在一些过度简单化的问题。比如说H-index是一个比较常用的综合型指标。但这个指标可能对有一定经验的研究人员比较适用。

对年轻的学术新人，因为他们刚刚进入学术界不久，可能发表的论文数量不多。对优秀的年轻学者而言，即便有一些重要的突破，但H-index可能受限于其论文总数不高，不能正确反映其工作的影响力。

而另一方面，对于资深的学者，人们其实更关注其最好的几个代表性工作是什么，这就像图灵奖、诺贝尔奖的评价标准一样，看研究成果所达到的高度。这时候，可以看看他最好的工作是哪几个，最有影响力的几篇论文大概什么样子。

所以国际上一般对不同阶段的研究者，评价的维度有不同。对学术新人，比如说刚刚毕业的博士，要准备进入学术界的，你可看他有多少篇论文，有没有特别突出的工作。对资深的研究者，除了看H-index和论文数量外，也要看看其最好的几个代表作的影响力。

图注：H-index的计算方法。来源：维基百科

提问者：您认为学术界和工业界在成果评价方面有哪些不同？

何：在科研领域，研究成果的影响力往往也与研究者的鉴赏力，或者称为研究的「品位」相关。比如会不会愿意挑一些足够基础，但往往也是很难的、很高风险的问题去做。

好的工作是能够给整个学术界带来新的灵感，或者是影响更多的追随者，带动更多人一起来做这个事情。

相比基础研究看重一个工作的性和影响力，工程或者商业化领域很看重技术能否低成本高可靠性的大规模复制与推广。比如说，SpaceX最大的贡献其实就是把航天发射的成本降下来了，他发火箭的成本比别人低一个数量级，这是一个巨大的工业贡献。

所以评价纯研究探索阶段的技术和大规模产业化的技术是两回事，前者我们希望看到有高度的突破，后者希望看到规模化的应用。

我觉得有时候我们对技术这个词搞混了，比如说用简单的数量指标去评价研究探索成果，或者用单点标杆项目的指标去评价产业化。如果评价标准错位了，就不能正确评价成果的价值。

提问者：我们看到像GPT-3这样的研究，有特别大规模的团队参与工作，也不太看重作者排序，怎样看待这一现象？

何：国外的学术界，特别是工业学术界，好像不如国内这么关注作者排序，而是更关注这个工作的影响力。

之前我在微软研究院NLP组的时候，我的Research Manager说过「a piece of gold is better than a brown」，就是说哪怕跟别人一起分享一块金牌，也好过一个人得一块铜牌。这句话是在我备战NIST MT 2008 （美国国家标准与技术研究院举办的机器翻译比赛）时对我说的，鼓励我去找更多的合作伙伴，包括比我更资深的学者，一起来干。

一块金牌往往意味着一个新的高度，比一块铜牌更有意义，所以说要鼓励大家合作，先不分谁的贡献大小，把一个有影响力的事情做成了最重要。

之前在微软研究院，我们很多工作也是这么展开的。比如2014年我们开展的第一个基于深度学习的多模态图像字幕生成的工作，跨了语言、视觉、信息检索、机器学习多个领域，论文发表在CVPR2015的时候，署名时几位实习生排前面，后面研究员指导老师就按姓名字母序排。

这篇论文现在被引用过千次，在深度学习经典教科书《Deep Learning》中也被列为图像描述生成方向的代表工作之一。

2015年我们的另一个工作也是如此，最初的idea起源于2012 年的夏天，Yoshua Bengio教授送了一位法裔学生Grégoire Mesnil到我这里来开展一个暑期研究项目，口语理解的深度学习模型。先是写了一篇4页的短文发表在Interspeech 2013上，后又与同时期其他几个研究兴趣小组一起比较全面的研究了这个问题，合作的长文2015年发表在IEEE TASLP期刊上，作者署名也基本按姓名字母序排列。

这篇论文去年还获得了IEEE 信号处理学会最佳论文奖（这个是从过去6年IEEE信号处理学会所有的论文里评选，类似于时间检验论文奖，顺便说一句，2012 年的时候，这些作者里还只有一位IEEE Fellow，去年时，作者群里已经有了7位Fellow加一个图灵奖）。

2012年，全世界会训练RNN模型的专家可能一双手就能数过来，今年，智源发布的超级模型已经超过了一万亿参数，而现在，大家最关心的是 what's the next big thing?

所以，作者顺序可能没那么重要，找到志同道合的伙伴，聚焦重要的问题，着眼未来，做出next big thing更重要。

最近也看到张宏江博士为 Yann LeCun 的自传《科学之路》所作的序 ----《所有努力都是为了提升概率》，深为认同。

研究就像是在茫茫丛林里狩猎，勇气、灵感、技巧、坚持、友谊都很重要，也很难事后分清楚哪个因素更重要，所以与其太计较作者排序，不如鼓励志同道合的伙伴合作起来，瞄准有高度的问题发起冲击，提升为研究领域带来下一个突破的概率。

还有一个流行的方式是在论文中大致注明每一位作者的具体贡献，这也是一个很好的做法，虽然很多时候也很难细分得清。

图注：GPT-3论文部分作者的具体贡献情况（有重复）

二、GPT-3通过工程化的方法解答科学问题，具有影响力

谈及GPT-3是工程还是科学，何晓冬表示，GPT-3用工程的方法尝试解答科学问题，具有影响力。研发GPT-3的机构在选择研究问题上有独到眼光，愿意冒风险，也产生了深远的影响。大家对GPT-3这样的工作的认可，也包含了对其选题的信念和对其承担了很大的机会风险的敬意。

提问者：您谈到说科研和工程是不一样的，像GPT-3这样的大项目，它是科研还是工程？

何：GPT-3有点介于工程和科学之间，它试图回答一个科学问题——当模型规模大到一定程度以后，机器智能会不会起一个本质的变化，比如从狭义AI走向广义AI？

换句话说，在基于当前深度学习的框架下，模型的潜力有多大？深度学习的边界在哪里？这样的探索，哪怕是empirical 的实验，也是很有意义的。GPT-3的研究就是一个科学实验，让大家看到超大规模深度学习模型可能的潜力和边界。

提问者：现在国际国内很多企业和科研机构在研发大模型，各方都在堆很大量的参数，这样做有价值吗？是否会造成算力资源浪费？

何：这事情不能一刀切，从科研角度来看，GPT-3去年是1000多亿参数，今年好几个模型到1万亿参数了，明年的规模会有多大？如果参数到了1000万亿，这将超过人类大脑的神经联接的数量，那时会有革命性的突破吗？我们会先碰到现在基于深度学习的AI框架的潜力的边界还是工程能力的边界？回答这个问题也是研发GPT-3等大模型的历史使命。

另外从应用价值角度来看，AI的发展目前可能正处在一个从Art & Science向Engineering过渡的过程，这其实是一个技术将要创造巨大的社会价值和商业价值的历史机遇。

在这期间，通过超大模型来尝试解决重大的、现在还没有解的技术问题，让它落地，将有可能产生具有巨大应用价值的产品。

提问者：您对青年学者有哪些建议？

何：对于初学者，如果愿意走研究道路的话，写论文是一个很好的方式，能够帮助学者进入学术界，也帮助大家认识你。

对年轻学者，我建议大家先聚焦一个领域做起，但是以后随着工作做的越来越深入，要花很多时间思考到底要做什么样的工作？什么样的工作是真正基础性的，什么样的工作会有深远的影响力？这是青年学者经常需要思考的。

如米开朗基罗的一句格言，最大的风险，不是我们的目标定得太高，以致达不到，而是目标定得太低，以致太容易达到了。

最近我们在京东AI研究院办了个如何做好研究的座谈会，我也以自己的一些工作为例与咱们青年研究员分享了一些经验，抛砖引玉：

1. 没有魔法，要有耐心 [1]

2. 有好奇心还要有行动 [5][9*][10]

3. 要有一个朋友圈：互相鼓励、互补技能、相互交流 [5][6][7]

4. 抓住新兴的研究前沿和研究资源 [4][5][8][10]

5. 直觉很重要，但你需要很好地表达它，猜想、分析、故事、灵感激发 ... 都很重要 [3][6][9*]