您的位置  油气能源  非常规气

人类如何信任AI?朱松纯团队提出基于心智理论的可解释AI模型CX-ToM

  • 来源:互联网
  • |
  • 2022-02-24
  • |
  • 0 条评论
  • |
  • |
  • T小字 T大字

人类如何信任AI?朱松纯团队提出基于心智理论的可解释AI模型CX-ToM

信任(trust)是人类在社会协作中的一种重要的心理状态,人与人之间只有达成了信任才能更好地展开合作,完成一人无法单独完成的任务。

在人与AI共处的时代,AI同样要与人类建立信任才能更好地帮助人类。这就要求AI在两个层次上获取人的信任: 1、能力与性能:AI要让人类清晰地知道在什么条件下,可以完成哪些任务,达到什么样的性能。 2、情感与价值:AI要与人类产生情感共鸣,保持相近的价值观,把人类的利益放在首要位置,与人类形成利益共同体。

想象一下,在一个川流不息的十字路口,你乘坐在一辆自动驾驶汽车上,其实是把自己的性命交给了它。当在行驶过程中,它突然要向左转,但是不告诉你为何要向左转,而不是直行或者右转,除非你100%信任它,否则你很难轻易地接受这个决定。令人遗憾的是,当今的自动驾驶连“能力与性能”的信任层次都达不到,更不用提“情感与价值”的信任层次。这是因为当前基于神经网络的AI算法是有偏见的,可解释性很差,本质上仍是个“黑盒子”,无法向人类解释为何做出特定的决策。这一缺陷是致命的,尤其是在自动驾驶、金融保险、医疗健康等AI决策能够产生重大影响、风险极高的领域。因此研究可解释人工智能(XAI)已经势在必行,其目的正是搭建人类和AI之间的信任桥梁。

近日,朱松纯教授团队在Cell子刊《iScience》上发表了题为 《Counterfactual explanations with theory of-mind for enhancing human trust in image recognition models》的论文。

当前可解释AI框架倾向于在单轮对话中生成“解释”,是一锤子买卖,而本文的一大亮点则是将“解释”视为一种基于人机交互对话的多轮次通信过程。

图1 CX-ToM论文被Cell子刊《iScience》录用

论文作者:Arjun R. Akula, Keze Wang, Changsong Liu, Sari Saba-Sadiya, Hongjing Lu, Sinisa Todorovic, Joyce Chai, Song-Chun Zhu

朱松纯团队曾于2019年发表论文《X-ToM: Explaining with Theory-of-Mind for Gaining Justified Human Trust》。X-ToM模型使用心智理论(ToM)增加了人类对AI的信任,CX-ToM模型是在X-ToM模型的基础上最新融合运用了反事实解释(Counterfactual explanations)的概念,进一步增加了人类对AI的信任。

X-ToM论文地址:https://arxiv.org/abs/1909.06907

反事实解释

反事实解释是按以下形式描述了一种因果关系: “如果没有发生X,那么Y就不会发生。”例如:“如果我早上没有赖床,我上班就不会迟到了。”这里事件Y是上班迟到,原因之一是早上赖床。反事实就是想象一种与事实相矛盾的假设情况,然后再进行推理判断。

心智理论

心智理论是指理解自己和他人心理状态(包括情绪、信仰、意图、欲望、假装与知识等)的能力,最早在心理学和认知科学中被研究,现已泛化到人工智能领域。

心智理论在多智能体和人机交互环境中尤为重要,

因为每个智能体都要理解其他智能体(包括人)的状态和意图才能更好地执行任务,其行为又会影响到其他智能体做出行为判断。

心智理论恰恰可以明确地建模人类的意图,在人机交互的对话中生成一系列解释,从而帮助机器揣摩人类的心智,减少机器和人类之间的认知思维差异,增加人类对机器的信任。

如下图所示,在使用心智理论推动人机交流的多轮次对话中,要考虑三个重要方面: (a)人类的意图,(b)人类对机器的理解,(c)机器对人类用户的理解。在一般环境下,机器和人分别知道一些独特的知识,和一些共有的知识;机器有自己的见解,人也有自己的见解,这个时候机器与人之间需要协作和交流,需要知己知彼,达成“共识”(下图蓝色椭圆和橙色椭圆的交集),即 “你知道我是知道你知道的”

图3 CX-ToM:基于心智理论的交互式和协作XAI框架是通过对话进行交互的。

这就像老师上课的时候需要一个摸底测试,他需要知道学生们哪些知识掌握了,哪些没有掌握;这样才能规划后面哪些知识需要讲,哪些知识不需要讲。机器对人有一个预判,人对机器也有一个预判,当这两个预判不准的时候,这个沟通就是无效的,是“鸡同鸭讲”,这时机器就无法获取人类的信任。

CX-ToM:反事实解释和心智理论的结合

人类具有强大的想象和思考能力,可以运用反事实解释将一张图像从类别A转换到类别B,但是这对机器而言却非常困难。因此人类要想办法通过一次次的互相沟通,教会机器学会这个反事实解释的过程,心智理论在这里就派上了用场。

图4 基于心智理论的断层线选择过程示例图

给定一个输入图像和两个输出类别,断层线能够显示出影响图像分类结果的最重要特征或属性。而当存在数千个输出类别时,人类用户无法在所有可能的输出“类别对”之间构建断层线,来验证模型的推理。因此,对于模型来说,自动选择出最重要的“类别对”来构建断层线解释非常重要,这样人类用户才能快速了解模型的优缺点。

CX-ToM模型通过结合有助于明确跟踪人类用户意图的心智理论框架解决了这个问题。尽管最近也有一些关于生成像素级反事实和对比解释的工作,但本文是第一个提出同时具有多轮次生成、反事实和概念解释方法的工作。

过往的研究表明,信任与可理解性(人类用户对AI系统的理解程度)和可预测性(在特定任务上预测系统性能的准确程度),密切且正相关。因此,人类在开发可解释AI系统时,要通过向人类用户提供有关系统预测的解释来提高可理解性和可预测性。当前有很多基于注意力机制的可解释AI工作,但是它们都不足以提高可理解性和可预测性,获取不了人类的信任。而本文提出的CX-ToM模型在这方面做的很好,这两点在本文的实验中得到了验证。

在实验环节中,研究人员招募了60名计算机视觉背景(具有丰富的使用CNN训练图像分类模型的经验)的专家用户,以及150名没有计算机视觉背景(且没有其他AI领域背景)的非专家用户。

以上实验结果都表明,CX-ToM模型增加了人类对机器的信任,且明显优于基线模型。这为神经网络获取人类的信任迈进了一大步。

引用

[1]Agarwal, S., Aggarwal, V., Akula, A.R.,Dasgupta, G.B., and Sridhara, G. (2017). Automatic problem extraction and analysisfrom unstructured text in it tickets. IBM J. Res. Dev. 61, 4–41.

[2]Agarwal, S., Akula, A.R., Dasgupta,G.B., Nadgowda, S.J., Nayak, T.K., 2018. Structured representation andclassification of noisy and unstructured tickets in service delivery. US Patent10,095,779.

[3]Akula, A.R. (2015). A Novel Approachtowards Building a Generic, Portable and Contextual NLIDB System (InternationalInstitute of Information Technology Hyderabad).

[4]Akula, A.R., and Zhu, S.C. (2019).Visual discourse parsing. arXiv, preprint abs/1903.02252. https://arxiv.org/abs/1903.02252.

[5]Akula, A., Sangal, R., and Mamidi, R.(2013). A novel approach towards incorporating context processing capabilitiesin NLIDB system. In Proceedings of the Sixth International Joint Conference onNatural Language Processing, pp. 1216–1222.

[6]Akula, A.R., Dasgupta, G.B., Nayak,T.K., 2018. Analyzing tickets using discourse cues in communication logs. USPatent 10,067,983.

[7]Akula, A.R., Liu, C., Saba-Sadiya, S.,Lu, H., Todorovic, S., Chai, J.Y., and Zhu, S.C. (2019a). X[1]tom:explaining with theory-of-mind for gaining justified human trust. arXiv,preprint arXiv:1909.06907.

[8]Akula, A.R., Liu, C., Todorovic, S.,Chai, J.Y., and Zhu, S.C. (2019b). Explainable AI as collaborative tasksolving. In CVPR Workshops, pp. 91–94.

[9]Akula, A.R., Todorovic, S., Chai, J.Y.,and Zhu, S.C. (2019c). Natural language interaction with explainable AI models.In Proceedings of the IEEE Conference on Computer Vision and PatternRecognition Workshops, pp. 87–90.

[10]Akula, A.R., Gella, S., Al-Onaizan, Y.,Zhu, S.C., and Reddy, S. (2020a). Words aren’t enough, their order matters: onthe robustness of grounding visual referring expressions. arXiv, preprintarXiv:2005.01655.

[11]Akula, A.R., Wang, S., and Zhu, S.(2020b). Cocox: generating conceptual and counterfactual explanations viafault-lines. In The Thirty-Fourth AAAI Conference on Artificial Intelligence,AAAI 2020, the Thirty-Second Innovative Applications of Artificial IntelligenceConference, IAAI 2020, the Tenth AAAI Symposium on Educational Advances inArtificial Intelligence, EAAI 2020 (AAAI Press), pp. 2594–2601.https://aaai.org/ojs/ index.php/AAAI/article/view/5643.

[12]Akula, A., Gella, S., Wang, K., Zhu,S.C., and Reddy, S. (2021a). Mind the context: the impact of contextualizationin neural module networks for grounding visual referring expressions. InProceedings of the 2021 Conference on Empirical Methods in Natural LanguageProcessing, pp. 6398–6416.

[13]Akula, A., Jampani, V., Changpinyo, S.,and Zhu, S.C. (2021b). Robust visual reasoning via language guided neuralmodule networks. Adv. Neural Inf. Process. Syst. 34.

[14]Akula, A.R., Changpinyo, B., Gong, B.,Sharma, P., Zhu, S.C., Soricut, R., 2021c. CrossVQA: scalably generatingbenchmarks for systematically testing VQA generalization.

[15]Akula, A.R., Dasgupta, G.B., Ekambaram,V., Narayanam, R., 2021d. Measuring effective utilization of a servicepractitioner for ticket resolution via a wearable device. US Patent 10,929,264.

[16]Alang, N., 2017. Turns out algorithmsare racist.[online] the new republic.

[17]Alvarez-Melis, D., and Jaakkola, T.S.(2018). On the robustness of interpretability methods. arXiv, preprintarXiv:1806.08049.

[18]Augasta, M.G., and Kathirvalavakumar,T. (2012). Reverse engineering the neural networks for rule extraction inclassification problems. Neural Process. Lett. 35, 131–150.

[20]Bara, Christian-Paul, Wang, CH-Wang,and Chai, Joyce (2021). Mindcraft: Theory of Mind Modeling for SituatedDialogue in Collaborative Tasks. In Conference on Empirical Methods in NaturalLanguage Processing (EMNLP), 2021 (EMNLP).

[21]Beck, A., and Teboulle, M. (2009). Afast iterative shrinkage-thresholding algorithm for linear inverse problems.SIAM J. Imaging Sci. 2, 183–202.

[22]Berry, D.C., and Broadbent, D.E.(1987). Explanation and verbalization in a computer[1]assisted search task. Q. J.Exp. Psychol. 39, 585–609.

[23]Biran, O., and Cotton, C. (2017).Explanation and justification in machine learning: a survey. In IJCAI-17Workshop on Explainable AI (XAI), p. 1.

[24]Bivens, A., Ramasamy, H., Herger, L.,Rippon, W., Fonseca, C., Pointer, W., Belgodere, B., Cornejo, W., Frissora, M.,Ramakrishna, V. et al., 2017.

[25]Cognitive and contextual analytics for itservices. Bornstein, A.M. (2016). Is artificial intelligence permanentlyinscrutable? Nautilus. Byrne, R.M. (2002).

[26]Mental models and counterfactual thoughtsabout what might have been. Trends Cogn. Sci. 6, 426–431. Byrne, R.M. (2017).

[27]Counterfactual thinking: from logic tomorality. Curr. Dir. Psychol. Sci. 26, 314–322. Champlin, C., Bell, D., andSchocken, C. (2017).

[28]AI medicine comes to Africa’s ruralclinics. IEEE Spectr. 54, 42–48. Chancey, E.T., Bliss, J.P., Proaps, A.B., andMadhavan, P. (2015).

[29]The role of trust as a mediator betweensystem characteristics and response behaviors. Hum. Factors 57, 947–958. Clark,H.H., and Schaefer, E.F. (1989). Contributing to discourse. Cogn. Sci. 13,259–294.

[30]Clark, K., Khandelwal, U., Levy, O.,and Manning, C.D. (2019). What does Bert look at? An analysis of Bert’sattention. arXiv, preprint arXiv:1906.04341.

美人请留步 http://www.cityruyi.com/lm-4/lm-1/14370.html
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186