经济学原理

微软亚研院首席研究员独家撰文让人工智能拥


白癜风应该怎样治疗 https://baijiahao.baidu.com/s?id=1713751139294638105&wfr=spider&for=pc

“博弈机器学习”是微软亚洲研究院首席研究员、国际机器学习和信息检索领域的知名学者刘铁岩所提出的技术理念,这种技术把博弈论和机器学习这两个差异巨大的体系融合在了一起,可以对人的动态策略进行建模,从而解决很多实际问题。

《环球科学》邀请刘铁岩博士撰文,为我们讲述他是怎样把博弈论的思想引入到机器学习中的,“博弈机器学习”这一新的技术理念又将会为人工智能领域带来怎样的改变。

撰文刘铁岩(微软亚洲研究院首席研究员)

人工智能早就不是一个新词了。早在六十年前,在达特茅斯学院举行的一次会议就正式确立了人工智能(ArtificialIntllignc)的名称,以及研究领域和任务。在那之后,人工智能几经沉浮,走过黄金时代,也走过人工智能的寒冬。如今,人工智能又迎来了新的春天,不管是SkypTranslator实时的语音翻译技术,超过人类准确度的图像识别技术,像微软小娜、小冰一样琳琅满目的聊天机器人,还是不久前的人机围棋大战,都让我们目睹了人工智能技术的一个又一个突破。身处人工智能时代,一方面,我们对人工智能的未来充满信心,另一方面我们也需要深刻反思现在的人工智能技术是否存在局限性,而未来的人工智能之旅又该去向何方?

从个体智能到社会智能

作为人工智能领域的研究人员,我认为“人工智能即将取代人类”的想法未免太过“乐观”了。事实上,目前人类对人工智能的研究还停留在相当初级的个体智能阶段,即计算机仍只能完成某些单一任务,例如识别出图像中的内容、听懂一段语音、打赢某个电子游戏,或者在某次考试中取得一定成绩……虽然计算机在某些特定领域或某些特定任务上的表现已经逐渐逼近人类,甚至超越人类,但这些任务通常目标单一,且缺乏与其他智能个体(人类)或群体的互动。

从智商到情商,从个体智能到群体智能,是实现人工智能的一道重要门槛。不夸张地讲,如果我们人类只有个体智能,而不知道如何和其他同类打交道,不能通过群体和社会来不断放大我们的智能的话,那么我们将无法像今天一样成为万物之灵。在日常生活中,有很多例子都能充分表明拥有社会智能,并充分利用社会智能的重要性。比如商业领域的互联网广告竞价、股票交易;公共服务领域的城市交通、教育;甚至到各项政策的推行、法律法规的制定等等。在这些例子中,每一次规则与政策的变化,参与其中的人(局中人,playr)也会根据策略相应地调整自己的行为。

人类做出每一项决策,其实都是与其他若干拥有同样智能的人类相互博弈的过程。本着趋利避害的本能,人类倾向于在相互博弈的过程中做出最有利于自己的决策。相比之下,人工智能技术的行为原理,大多假设世界是客观存在(或者一成不变、或者具有稳定的统计属性),很少考虑到它要处理的数据可能是另外一个智能体在与自己博弈的过程中产生的。这种简单的假设会使得人工智能的算法只具备个体智能,而缺乏社会智能,从而很难在与聪明的人类交往的过程中真正逼近或者超越人类。

具体来讲,绝大部分人工智能和机器学习方法都是基于这样的一个假设——用于研究的数据(或产生数据的环境)是预先存在的,而且它的统计规律不因学习过程本身而改变。机器学习过程就是对这些数据进行分析和学习,理清其潜在的数据分布,从而找到合适的分类器、回归器,实现对未来事件的预测。这种假设在某些情况下是合理的,例如用于图像识别的大量图像及标签数据,用于语音识别的声音数据,用于机器翻译的语言数据等。这类数据都十分可靠、稳定,不会持续地发生变化,我们也易于用一些概率分布去描述这些数据。

与这类稳定的天然数据不同,在互联网时代我们所说的大数据却并不是一成不变的。例如应用商店的下载排名发生变化时,用户的下载行为也会产生相应的变化;例如搜索引擎给出不同的查询结果页时,用户的点击行为也会因为排序的变化而改变;又例如在社交媒体中,回复、跟帖、转发等大量数据产生都是由人类这一智能体产生的,并且会根据系统的推荐算法、其他用户的互动行为而发生变化。在这些例子中,如果我们依据收集好的历史数据学到一个模型(比如排序模型或推荐模型)并把它应用到实际中,一旦用户的行为随之发生了变化(从而导致数据分布的变化),原来学到的模型将不再最优,其性能可能远远低于我们的预期。但人们的行为变化迅速,即便我们再根据变化之后的数据更新模型,也总会比人们行为的改变慢上一拍,在这个由博弈导致的变化环境中永远与“最优”隔岸相望。

此前,我的团队在与微软在线广告部门合作时,就发现了这样的问题。我们团队首先依据此前累积的数据,帮微软广告部门离线训练了一个效果极佳的机器学习模型用于必应广告搜索中的竞价排名。上线之初模型立刻带来了很大的效益,但随着时间的推移,广告效益却大打折扣。我们很快地找到了这个现象的根源:广告竞价排名过程常常涉及到人(广告主)的因素,广告主会敏锐地发现因为广告竞价算法的改变所带来的自己广告投放成本和收益的变化,从而相应地调整自己的广告投放策略,这是一个动态的变化过程。如果不考虑经济规律和人的动态策略,离线地进行机器学习模型的训练,结果自然会产生很大的偏差。

广告竞价的过程包含广告平台与广告主之间的互动,以及广告主之间的相互博弈,想要对其进行精准建模,仅靠机器学习的知识背景是显然不够的。因此我们团队把博弈论的思想引入机器学习,并于年在国际人工智能大会(IJCAI)上首次提出了“博弈机器学习”的概念,将博弈论的思想引入机器学习中,即以博弈论的思想对人的动态策略进行显式建模,利用行为模型和决策模型相结合的方式来解决这一类难题。有了博弈机器学习,我们的算法就可以比人多想一步、甚至多想很多步,提前预料对方会做出什么样的反应,从而在与博弈的时候占得先机。

行为经济学和增强学习

此前,学术界还有多种方法用于解决个体和个体之间的博弈问题,例如行为经济学、增强学习等等,博弈机器学习与这些学科既有联系又有区别。

首先是行为经济学,这是一个经济学概念,研究人员主要是经济学家。我们知道,传统经济学的基本假设是人是完全理性的,但这种假设在很多实际情况下是不合理的。例如,情况一:你扔一枚硬币,正面就给你块钱,反面就一分钱也不给你;情况二:直接给你块钱。这两种情况从理性角度并无区别(期望的收益都是块钱),但在现实生活中,人可能因为对风险的恐惧,更倾向于选择直接拿块钱。为了更好地解释人类的这种行为,学者们又提出了有限理性的概念,对传统经济学进行了修正,从而衍生出了行为经济学这个学术分支。行为经济学虽然比传统经济学更加合理,但是其主要研究目的仍然和传统经济学一脉相承——对经济数据进行解释,而在计算机领域我们则是希望通过构建算法模型对将要发生的事情进行计算和预测。

增强学习,大家都知道此前的围棋机器人所采用的主要算法之一叫做增强学习。增强学习主要


转载请注明:http://www.deudeguo.com/jyzz/24393.html


当前时间: