您的位置 油气能源天然气

斯隆奖获得者李婧翌：AI+X并非总是有效，生物数据量小、噪音大，可解释性是关键

喜欢

来源：互联网
|
2021-04-10
|
0 条评论
|
我要分享
|
T小字　 T大字

导读：在过去20年中，由于实验技术的发展，生物领域数据出现爆发式增长，同时推动了生物学科的定量化研究。因此，如何从数据中挖掘出有意义的生物学发现，已经成为生物学领域重要问题之一。

加州大学洛杉矶分校（UCLA）统计系的李婧翌教授的研究目标正是为解决这一问题，即针对前沿生物学问题，开发新的统计学方法。

随着深度学习技术的普及，李婧翌的研究团队也高度关注这一研究领域的发展。但正如她所说，当前的AI模型往往需要样本量大、噪音小的数据，并且其模型的可解释性也往往不及简单的统计模型。

因此，尽管AI+X在人工智能社区呼声很高，但似乎并非所有X领域的研究都非AI不可。

撰文 | 李婧翌, 蒋若尘, 席楠, 闫冠傲

李婧翌，加州大学洛杉矶分校（UCLA）统计系终身副教授，2018年斯隆奖获得者，入选《麻省理工科技评论》“35 岁以下科技创新 35 人”（Innovators Under 35）2020 年中国区榜单。

“对我而言，回答了心中的问题或者做出了新的发现，这种成就感要远高于生活中的其他快乐。”

——李婧翌

1基本研究思路

在过去的20年中，新的生物学实验技术促使生物学在定性的、观察性的研究之外，还能定量地、更精确地研究生物体在细胞和分子层面的变化。通过这些实验技术手段得到的定量信息，我们称之为高通量生物数据，譬如由第二至三代测序技术产生的基因组、表观遗传学和转录组数据。

高通量生物数据的分析充满着挑战，而且不断更新迭代的实验技术会产生新的数据类型，从而往往需要新的计算方法。

然而，在目前的AI前沿研究中，大家的重点在于使用复杂模型比如深度神经网络来提高预测精度，但目前复杂模型在生物数据中的成功应用仍具有局限性：

首先，复杂模型的训练通常需要样本量大、噪音小的数据，比如使用核酸序列来预测蛋白质结合位点，以及使用氨基酸序列来预测蛋白质结构等；

其次，同简单模型比，复杂模型在可解释性方面并无明显优势。

由于生物学数据存在样本量小、噪音大的问题，因此李婧翌团队目前的研究仍着重于使用可解释性较好的统计学模型来开发计算方法。

原因在于，解释性好的模型能让我们容易分析模型和数据吻合的程度，以及不吻合的原因（究竟是数据噪音还是生物学信号）。

2研究方向 1：提高数据分析可靠性

现阶段在生物数据计算中主要存在的一个问题是，很多新提出的计算方法缺乏统计学意义上的严谨性，使用这样的方法会阻碍科学发现的可重复性和可靠性，从而影响科学和医疗的进步。

而统计学的重要目标之一就是提高数据分析的严谨性和可靠性。

譬如，为了控制在多次假设检验中的假发现率（false discovery rate，即被检测检验判断为阳性的结果中真实条件为的阴性的比例），统计学家提出了基于假设检验 p 值的计算方法，比如著名的 Benjamini-Hochberg 算法和 Storey q-value 算法。

尽管此类计算方法在生物学数据的分析中已经被广泛使用，但一个常见的问题是，很多针对新数据类型开发的计算方法无法或者很难给出正确的p值（即真实结果应为阴性条件下的p值并不服从在0到1之间均匀分布的理论要求），其重要原因在于生物数据往往样本量过小（通常不大于3），从而使得计算p值需要的概率模型假设很难被验证。而采用不正确的p值会造成假阳性率过高或检验效力（power）过低，从而严重影响分析结果的可靠性。

针对这一普遍性的问题，李婧翌研究团队提出了一种新的计算方法(Clipper[1])，使用户能在无需计算p值的情况下直接控制高通量数据分析中的假阳性率（该工作由博士生戈心舟和陈怡翎主导完成）。

图注：Clipper和三种常用的FDR控制方法的说明

Clipper的优势在于无需对数据分布进行参数化的假设，从而适用于样本量小的情况，避免了p值计算的难点，并节省了p值计算的时间。

除了假设检验，李婧翌还和南加州大学的童欣教授、纽约大学的冯阳教授合作开发了对机器学习二元分类算

33lian导航 http://www.cityruyi.com/lm-4/lm-1/465.html

免责声明：本站所有信息均搜集自互联网，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻处理。联系QQ：1640731186