陈启峰：在适合自己的赛道上追求速度与突破

喜欢

来源：互联网
|
2021-06-05
|
0 条评论
|
我要分享
|
T小字　 T大字

作者 | 陈彩娴

整理 | 刘冰一

对于许多成长于世纪之交的中国青少年来说，远在美国西雅图的比尔盖茨与之赖以声名鹊起的Windows是一个传奇。在他们所阅读的名人传记中，比尔盖茨13岁在湖畔中学编写计算机程序、从哈佛辍学创业的故事，就像90后一代对于乔布斯辍学、在自家车库后院创立苹果公司一样熟悉。

出生于1989年的陈启峰也是其中一员。当时，他正在广东省中山市三乡镇读小学，从小展示出过人的数学天赋，小学五年级与六年级学生同台竞技，在全国奥数竞赛上获得一等奖。在一次阅读比尔盖茨传记的过程中，比尔盖茨创立微软的故事改变了他的竞赛轨迹：钻研信息学。

“我当时觉得，未来一定是信息时代。”陈启峰说道。这种力争走在前沿的思想，不仅一次影响了他的人生选择。2010年，他在密歇根大学安娜堡分校交换时，无意中选修了Silvio Savarese的一门计算机视觉课程，被视觉研究的魅力折服，直觉这个方向有很大的发展潜力，于是立志将其作为未来的研究目标。

2017年，陈启峰在ICCV上发表“Photographic Image Synthesis with Cascaded Refinement Networks”（《级联优化网络生成逼真图像》）一文，只用到一个端到端的神经网络，给出一个语义布局图，就能够生成对应的百万级像素图像，在计算机视觉领域掀起了一番风浪：

以往的图像生成主要是基于GAN形成，陈启峰的方法更为简单。康奈尔大学计算机系的副教授Noah Snavely感慨，陈启峰的系统生成了他见过的最大、最细致的人工场景。这项技术可以用在游戏、电影、VR与AR等领域， 他的合作者后来还通过改进，成功还原出《侠盗猎车5》里的情景。

计算机视觉的强大，不仅在于感知，还在于生成。从斯坦福博士毕业、加入港科大后，陈启峰继续从事AI成像技术与内容创作的研究。他一直憧憬，在“人人都可以成为主播”的时代，普通人只需要描述一段文字，就可以用人工智能技术生成他们脑海里的画面，“把梦境变成现实”。

1我更适合什么？

事实上，陈启峰的成名可以追溯到更早些时候：

2007年，当时正就读于中山纪念中学的陈启峰与其余3位中国队选手出征在克罗地亚举办的国际信息学奥林匹克竞赛（IOI），以全球第8名的成绩获得金牌，打破了广东省IOI零金牌的纪录，以中学生的身份入选“中山市十大杰出青年”，名躁一时。

谈起当年，陈启峰仍记忆犹新：“就很激动！感觉自己为国争光了。虽然我在中国队里的排名是最低的，但我们都是好朋友，在一起训练了很长时间，最后大家都拿到了金牌，所以很开心！”

图注：2007年IOI中国队，左二为陈启峰

他从初一暑假开始参加信息学训练与竞赛，2005年（还在读初三）就摘下NOI金牌、进入国家集训队，并获得清华大学的预录取资格。有了这块“通行令”，陈启峰在升上高中后就更加专注于信息学竞赛，又连续两年入选国家集训队，直至2007年参加IOI夺金。

作为土生土长的广东人，陈启峰对南北气候的差异十分敏感。中学时期，因为竞赛，他去过许多城市，在北京参加集训的时候，恰好都是冬天，干燥、下雪，让他的身体十分不适。

这时，他想到了距离中山不过两百公里的香港。香港毗邻广东，语言、饮食与气候相近，对于从小讲粤语比讲普通话流利、看成龙电影长大的陈启峰来说更亲切。往年，纪中也有一些学子去香港读大学。通过向前辈打听，陈启峰联系了香港科技大学的招生办，通过笔试、面试，在2008年拿到了港科大的offer。

“当然，主要还是因为我有IOI、NOI的竞赛获奖证明。”他介绍。

在北京奥运会与汶川地震募捐等事件的推动下，陈启峰在港科大读本科的四年，是香港与内地的关系非常紧密的几年。他回忆当年在香港读书的时光：“我觉得还是蛮开心的。除了上课，学校里也有很多课外活动，我大一时参加了魔术协会，里面有很多香港人，也都挺好的。”

港科大没有班级的概念，没有单一的课程表，学制短、每个学期大约有13周，一年两个学期，学生有很多时间可以自由安排。但陈启峰能感受到，周围的同学都很勤奋，“给我的印象就是经常在图书馆与实验室学习。”

港科大位于九龙清水湾，远离市区，单面环海，景色开阔。少年时期的陈启峰在学习之外，最喜欢做的事情就是在海边操场跑步、去海边游泳馆游泳。尽管香港的学费与物价高昂，但在入学时，他拿到了全额奖学金，生活的压力也就相对轻松。

在飞逝的大学时光里，陈启峰保持优异的学习成绩。他双修计算机与数学，22门专业课的成绩都是A+，这个记录至今无人打破。他的老师邓智强教授称，陈启峰是他在港科大任教十七年以来见过的最杰出的本科生。

陈启峰则解释，这主要是因为许多课程知识都已经在早年的竞赛生涯里学过。上大学后，竞赛不再是生活的主旋律，但他打比赛的热情不减当年，只要摸到鼠标与键盘，下一秒就能进入编程解题的世界，没有什么能挡住他在争分夺秒中收获的乐趣。

图注：2011年5月，陈启峰在美国佛罗里达参加ACM-ICPC World Finals

在高手如云的信息学竞赛圈，陈启峰绝对是排得上号的人物。他参加各种各样的编程竞赛，比如百度之星程序设计大赛、全港大学IBM数据库程式设计比赛、香港大学生编程比赛、全球谷歌编程挑战赛等等，均获得不错的成绩。

令他印象最深刻的是大三那年在美国密歇根大学安娜堡分校交流时参加ACM-ICPC，获得全球第二名的好成绩。那一年，全球第一名是浙江大学，第三名是清华大学。虽然屈居第二，但这次是他第一次与美国学生组队，尤其与队伍里的一位小伙伴配合极佳，在决赛的时候联手解决了8道题目，是很新鲜的体验。

图注：2011年ACM-ICPC战绩

图注：ACM-ICPC 2011 颁奖现场的陈启峰（右二）

“竞赛的话，临场发挥是蛮关键的。做过类似的题就会发挥得比较好，不熟悉的话，‘题感’就不是很好。”他觉得，解决竞赛问题有点像玩游戏通关的过程，过关一时爽，一直过关一直爽。在有限的时间内追求无限的速度，这种紧张感构成了陈启峰美好青春的一半画幅。

后来，他从斯坦福毕业、回港科大任教后，即使做科研、指导学生与照顾家庭已分身乏术，但他还是自告奋勇，提出担任港科大ACM-ICPC的竞赛教练，抽时间陪学生训练、做题，号召对编程竞赛有兴趣的学生加进他们。

“我也希望为他们提供一些资源，让他们提高自己的编程能力。”陈启峰说道。

2另一半画幅：做科研

回想本科的学习生活，陈启峰最直观的一个感受是：港科大有很多国际交流的机会，“基本上学生想去就能去”。

在香港这座每天有无数国际航班起飞与到达的城市，他每天与来自世界各地的人擦肩而过，如愿体验到了开放的美式校园文化，与来自不同国家的学生一起学习、了解他们的文化与习俗。

对世界的探索，最终也折射到对个人的思考上：“我要做什么？我要做成什么？”陈启峰认为，在大学不仅要搞好学习，最重要的还是寻找自己未来能从事的方向。

20岁的陈启峰有着充沛的精力。除了努力学习拿A+、竞赛，他还曾参加UCLA与港科大联合举办的校企合作研究项目，与几个来香港交换的美国本科生去深圳，与华为、华大基因等公司交流，也曾作为学生代表接待了许多来自美国、欧洲与加拿大的学生。

与越来越多跨越大洋、来到香港交流的外国学生打交道后，陈启峰也开始寻找“走出香港”的机会。大一暑假，他去了韩国成均馆大学进行文化交流；大二暑假，他飞去北京微软亚洲研究院（MSRA）实习；大三上学期，他去了美国密歇根大学安娜堡分校交换。

他提到，其实做选择就是取舍，他永远也不会知道如果当初去了清华会怎样，但他能确定，港科大为他在大学时做尝试、与外界交流提供了很好的条件。比如，在三次交换学习中，港科大都提供了非常多支持，他只需要负责生活费。

MSRA的暑期实习是陈启峰自己申请的。作为极少数能够在MSRA实习的本科生之一，陈启峰还分配到了门槛较高的机器学习组。但是，在这三个月的实习中，首次接触科研的他并没有取得研究成果。

尝试越多，选择越多，这是陈启峰的感悟。尽管他做过很多没有结果的探索，但在美国密歇根大学安娜堡分校交换时，他有幸上了一门由Silvio Savarese（后来去了斯坦福任教）讲授的计算机视觉课程，从此打开了新世界的大门。

“感觉计算机视觉可以做很多有趣的应用，不但能理解图像，还能创造一些新的图像。当时计算机视觉还不是很火，深度学习也没有兴起，但我觉得它的潜力会非常大，就想往这个方向继续深入研究。”

港科大有一个面向本科生的研究计划，叫做“Undergraduate Research Opportunities Program”，简称“UROP”。从密歇根回到香港后，陈启峰就参加了UROP，选择了港科大最早研究计算机视觉的邓智强教授当指导老师。

“我不知道清华的教授会花多少时间辅导本科生，因为清华有太多非常优秀的学生了，所以我觉得在科大也许能得到更多辅导。”陈启峰谈道。他从大三下学期开始做科研，邓智强教授每周都会对他的科研项目进行两到三次的指导，还给他分配了一个专门的实验室让他做研究。

他的第一个项目是做三维重建，做了半年，但成果最终没有被顶会接收。他没有泄气，大三暑假就与老师商量换了一个新的方向：“之前我在微软亚研实习时也没有取得成果。当初就已经体验到做科研不是一两天的事。”

这一次比较顺利：他将Alpha Matting推广至多图像层估算，推导出了一种封闭形式的解决方案——KNN Matting，成果发表在CVPR 2012，至今有约400次的引用。接着，他又以一作的身份在顶刊TPAMI上发表了KNN Matting的扩展版本。

在当时的技术条件下，能以一作身份发表两篇顶会/顶刊论文的本科生，在国内外都是凤毛棱角。翻阅港科大计算机系的历史，更是前无古人。2012年，凭借这些成果，陈启峰获得香港科技大学本科生科研冠军奖。

对于邓智强老师，陈启峰是很感激的，因为邓志强不仅在他做科研早期给予了重要指导，而且还鼓励他继续读博深造，往更高的学府、跟更厉害的人学习。

在早期的竞赛生涯里，他从竞赛教练宋新波那学到了“传帮带”的精神，后来回到港科大，他也非常乐意辅导本科生做科研。他之前辅导的本科生Xuanchi Ren就发表了一篇顶会一作，拿到了2021年香港科技大学本科生科研亚军奖。

图注：2012年，陈启峰（左二）从香港科技大学本科毕业

2012年，陈启峰获得斯坦福、MIT、UC Berkeley、哈佛等九所名校的全奖计算机博士offer，但他最终选择了斯坦福。那一年，斯坦福计算机系仅从全球录取不到40位博士生，从中国地区院校录取了4名学子，陈启峰就是其中的一位，其余2位来自清华大学、1位来自上海交通大学。

广府人普遍“重商”、“实干”，虽然陈启峰选择读博、做学术，但广府人的精神仍然在他的身上传承。比如，在做好研究的基础上，他喜欢思考研究的实用性，也热衷于技术创业。在这一点上，位于硅谷的斯坦福无疑最接近他的理想：创业氛围浓厚，IT企业数量多。

陈启峰谈硅谷的创业氛围：

在斯坦福，我们在跟企业交流合作中会了解到一些创业情况，还有很多风险投资人在斯坦福旁边举办各种各样的活动，邀请我们参加，有机会认识到一些投资者。只要有学术创业活动，我一般都会去参加。

在斯坦福，我们在跟企业交流合作中会了解到一些创业情况，还有很多风险投资人在斯坦福旁边举办各种各样的活动，邀请我们参加，有机会认识到一些投资者。只要有学术创业活动，我一般都会去参加。

当然，斯坦福的气候也是一个加分点：“不会太冷，我比较喜欢。”

3读博：深入图像研究

在斯坦福，陈启峰所取得的最重要成果是博士毕业那年在ICCV 2017上发表的机器生成图像工作——“Photographic Image Synthesis with Cascaded Refinement Networks”（《级联优化网络生成逼真图像》）。从那时候开始，他就树立了一个长期的研究目标：用人工智能进行艺术创作。

刚开始读博时，他就憧憬过这样一种看似天方夜谭的画面：过去，人们画一栋建筑，需要逐笔描绘门、窗、砖瓦等房屋细节；而在人工智能时代，人们只需要口头描述，AI 就能将这段文字描述转化为逼真的图像与视频，像魔法召唤一样。

围绕这个目标，他在图像感知、合成与处理等不同方向上做了许多努力。当他提出用 AI 合成大规模场景时，他最重要的合作者 Vladlen Koltun 认为难度极高，不容易实现，而这个方向的研究仍处于起步阶段，没有太多前人的结果可以借鉴。

“这个阶段（读博）已经不像在学校参加考试与竞赛那样了，只需要解答给出的题目就行。对我来说，更重要的是做一个有潜力、有影响力的课题，即使这个课题非常难，还没有人做出来。”陈启峰谈道，这有点像投资，因为要判断哪个研究课题更有价值。

虽然难度大，但他与 Koltun 均认为场景合成的应用潜力非常巨大。他们没有采取只能生成小尺寸图片的GAN技术，而是用语义布局的方法来进行图像合成。所谓语义布局，即如下图般在图片上标出各种物体的位置：

然后利用算法按照上图的“指示”进行渲染。比如，经过3000张德国街道照片的训练，遇到输入的布局上标注成“car”的部分，这个见过很多车的算法就会自己生成一辆车，填在那里。最终，算法会输出一张与现实场景相近的照片：

陈启峰与团队应用计算机视觉技术合成的大规模街景具有较高的分辨率，有望提高电影特效的真实性，降低电影制作成本。这项工作（“Photographic Image Synthesis”）最终发表于 ICCV 2017，一经面世则引起广泛关注，被评为“颠覆电影特效的技术”。凭借这项成就，陈启峰入选2018年麻省理工科技评论“35岁以下科技创新35人”中国区榜单。

一战成名之后，陈启峰顺利拿到香港科技大学的教职offer，决定回国发展。问及为什么不留在硅谷，他的回答是：

我觉得如果是长期发展的话，在中国的发展潜力非常大。总体来说，华人在欧美容易有一些天花板，skill set（能力组合）会限制我们的发展。据我观察，我身边的一些朋友最开始是在美国创业，然后慢慢回到国内，有这样的一个趋势。所以我觉得在国内，无论是做科研还是创业，都有很多机会。

我觉得如果是长期发展的话，在中国的发展潜力非常大。总体来说，华人在欧美容易有一些天花板，skill set（能力组合）会限制我们的发展。据我观察，我身边的一些朋友最开始是在美国创业，然后慢慢回到国内，有这样的一个趋势。所以我觉得在国内，无论是做科研还是创业，都有很多机会。

在做科研上，陈启峰更希望当一个“leader”（领导者），而不是一个“follower”（跟随者）。比如，他在读博期间所发表的论文中，90%的工作都是由他担任一作，合作者往往只有Vladlen Koltun。

Vladlen Koltun是陈启峰在博士一年级的导师。后来，Koltun从斯坦福离职，去了英特尔发展，现在已经是英特尔智能系统组的首席科学家。

除了科研指导，陈启峰认为，Koltun对他最大的影响体现在做科研的态度。他很认同Koltun的一个观点：“发表论文是一份责任，而不仅仅是一份荣耀。”对于这个观点，陈启峰的解释如下：

发表论文，其实就是在告诉大家：我们所采取的方法是对的，我们的目标是好的。但如果论文的结论是错的，那就会误导很多人，产生消极的影响。而且，每一个工作都应该尽量做到优秀，而不是满足于平庸，不要浪费大家研读论文的时间。

发表论文，其实就是在告诉大家：我们所采取的方法是对的，我们的目标是好的。但如果论文的结论是错的，那就会误导很多人，产生消极的影响。而且，每一个工作都应该尽量做到优秀，而不是满足于平庸，不要浪费大家研读论文的时间。

所以，在发表论文上，陈启峰与Koltun都是重“质”不重“量”。有些工作虽然已经完成，但所取得的研究成果没有达到他与Koltun的要求，便放弃投稿。读博5年，他发表了6篇一作顶会论文，有3篇被选为oral paper（入选率低于4%）。他在图像处理与合成上的两篇一作论文（“Photographic Image Synthesis with Cascaded Refinement Networks”与“Fast Image Processing with Fully-Convolutional Networks”）被Koltun列为“最喜欢的工作”之一。

图注：2017年博士毕业时，陈启峰与Vladlen Koltun合影

博士毕业后，拿到教职的陈启峰没有立即回到香港，而是“Gap”了一年。

在这一年里，他继续与Koltun合作，期间发表了“Learning to See in the Dark”（CVPR 2018）等多项代表性工作。这项工作主要研究黑夜成像，是他在图像感知研究上所取得的最出色的成果，在Github上获得5100个star。

此外，他还与来自UC Berkeley的朋友魏杰全等人一起创立了基于区块链技术的视频平台Lino公司。Lino的寓意是“livestream now”（直播在当下），希望利用去中心化的区块链技术打破集中式直播平台对内容创作者的“差价剥削”问题。他们打造的产品DLive在2019年被 BitTorrent收购。

图注：LINO创始团队，最左为陈启峰

从读博开始，技术创业就一直在陈启峰的规划之内。

4AI降低内容创作成本，有可能吗？

陈启峰在做什么？陈启峰想做什么？

从2008年到2018年，陈启峰在香港科技大学的身份也经历了从学生到教师的转变。外部的环境从未停止变化，但对他来说，添好运的茶点还是一样，九龙城寨公园的空气还是一样。

2018年，陈启峰正式入职香港科技大学，成立了“视觉智能实验室”（Visual Intelligence Lab）。该实验室成立不到3年，目前已经有20多位博士生与研究型硕士生（Mphil），其中包括提出新型神经网络算子“内卷”（Involution）的李铎等杰出青年：

李铎的那篇论文（“Involution: Inverting the Inherence of Convolution for Visual Recognition”）在Github上获得了1000个星，是蛮不错的。他之前是研究型硕士生（Mphil），现在申请到了香港政府的博士生奖学金，准备读博了。

李铎的那篇论文（“Involution: Inverting the Inherence of Convolution for Visual Recognition”）在Github上获得了1000个星，是蛮不错的。他之前是研究型硕士生（Mphil），现在申请到了香港政府的博士生奖学金，准备读博了。

他的学生大部分来自内地，也有三位香港本地学生和三位韩国学生。问及学生之间的关系，他说：“我看他们都蛮好的。2019年那会，他们也经常一起吃饭、讨论。”

陈启峰从博士阶段开始从事图像感知与内容合成研究，在担任教职后，他的研究话题产生了较大的变化，但主要方向还是集中在两个方面：一是图像处理，尤其是AI成像；二是内容创作，如图像与视频合成。

继《级联优化网络生成逼真图像》后，陈启峰的团队在图像与视频合成上继续努力，并取得了一些不错的成果。比如，他们的工作“Fully Automatic Video Colorization with Self-Regularization and Diversity”（CVPR）研究视频自动上色，性能较其他方法更出色：

与腾讯优图实验室合作的“3D Motion Decomposition for RGBD Future Dynamic Scene Synthesis”（CVPR 2019）通过3D运动分解来预测视频中未来帧的变化。类似工作还有发表在 CVPR 2020 的“Future Video Synthesis with Object Motion Prediction”（如下图）。

“其实利用 AI 进行艺术创作的趋势已经在发生。”陈启峰谈道。AI可以做很多事情，比如DeepFake换脸、“蚂蚁呀嘿”让人脸唱歌、做电影特效。除了图像，AI还可以自动合成音乐视频，比如他们发表在ACM MM 2020上的工作“Self-supervised Dance Video Synthesis Conditioned on Music”：

他相信，在未来，人工智能不仅会在科技领域产生影响，还可能改变人们的艺术创作方式：