专访杨强:从 0 到 1,迁徙进修若何登上今日顶峰?

3个月前 (12-12 20:22)阅读3回复0
dyyh
dyyh
  • 管理员
  • 注册排名7
  • 经验值134735
  • 级别管理员
  • 主题26947
  • 回复0
楼主

做者 | 丛 末

编纂 | 蒋宝尚

人工智能研究到最初,城市面对一个问题,那就是模子能否能扩展到其此前从未见过的范畴,即像人一样拥有“触类旁通”的才能,而那就是迁徙进修有可能实现的。

——杨强

迁徙进修,从最后一个默默无闻的人工智能分收,现在已成为AI 范畴炙手可热的研究范畴。

2019岁尾,世界公认的手艺风向标Gartner 曲线曾将迁徙进修列为新兴手艺之一,那也预示着迁徙进修的手艺已经从学术研究正式步进了财产利用阶段。

但,站在2020年那个时间点,迁徙进修研究/利用的将来在哪里?

那是一个问题。而最可以答复那个问题的,莫过于迁徙进修的领军人物——香港科技大学传授、微寡银行首席人工智能官杨强。

AI 科技评论就此摘访了杨强传授,就迁徙进修“从0到1”的汗青开展、关于整小我工智能范畴开展的意义以及将来走向做了详尽探究,成就此文。

1

迁徙进修,核心在于以“稳定”应“万变”

迁徙进修,放到日常语境中,我们其实其实不目生,“触类旁通”、“照猫画虎”等成语都是它的近义词。

在机器进修中,迁徙进修就是让机器将在已知情状中学到的常识和积存的体味,迁徙到其他差别但相关的此前没有碰着过的情状中处理新的问题。

它的核心在于,找到两种情状之间的类似性,即稳定量,以“稳定”应“万变”。

以杨强传授最常用的一个例子来进一步阐明,在中国大陆,驾驶员的座位在右边,靠马路右侧行驶,而在中国香港、英国等地域开车时,驾驶员的座位在右边,靠马路左侧行驶。快速在那两种驾驶体例直达变的窍门,在于找到稳定量,进而把旧的常识适配到新的情况,而那里稳定量即是:无论在哪个国度和地域,驾驶员都靠马路中间开车。

开展至今,迁徙进修现已构成了一个系统性的学科,各大门户互为内外,并行开展。

大致上,迁徙进修的分类能够根据特征空间和/或标签空间能否同构、按目标域有无标签数据以及迁徙进修摘用的办法停止分类:

基于特征空间和/或标签空间能否同构,可将迁徙进修分为同构迁徙进修和异构迁徙进修。

基于目标域中能否有标签数据,可将迁徙进修分为有监视迁徙进修、半监视迁徙进修、无监视迁徙进修。

基于迁徙进修摘用的办法,即“若何迁徙”,能够将迁徙进修分为:1)基于实例的算法,此中迁徙的常识对应于源实例中的权重;2)基于特征的算法,此中迁徙的常识对应于源域和目标域中特征所共享的子空间;3)基于模子的算法(基于参数的迁徙进修),此中迁徙的常识嵌进源域模子的一部门中;4)基于关系的算法,此中迁徙的常识对应于源域中实体之间特定的规则。

2

由来已久的汗青渊源及早期开展布景

早在2005年美国国防部高级研究方案局DARPA 正式提出“Transfer Learning”那一术语之前,迁徙进修那一概念便以各类差别的名称呈现在人工智能范畴的各类摸索中,包罗类比进修、基于案例的推理、常识重用和重建、末身机器进修、永无行境的进修和范畴自适应等等。

在人工智能以外,包罗教导学、心理学、医学、哲学等多个学科,都以差别的形式研究迁徙进修那一概念,此中以教导学为例,教导工做者研究有效进修和教学建模的一个重要课题即是进修的迁徙(Transfer of Learning),即研究人若何让学生学会“若何进修”,并擅长利用所学的常识来应对将来未知的情状。

其时,教导学、心理学等范畴尚不晓得有人工智能那个范畴,而人工智能范畴也不晓得那些范畴也在研究那个主题,各个学科之间平行地开展着迁徙进修那一概念,曲到多年以后才逐步走到一个会聚点上。杨强传授在九十年代就涉足的一个AI分收喊做“基于例证的推理”(case-based reasoning), 其大旨就是通过对一个或少数案例的阐发得出通用的常识,并适配到新的场景。那个手艺在智能规划范畴尤为有效,但其缺点是需要良多专家常识的输进。

据杨强传授回忆,在2000岁首年月,迁徙进修那一研究标的目的被提出时,机器进修范畴的热门标的目的是核函数——因为其时有一个很火的概念喊做撑持向量机(Support Vector Machines),大部门人工智能研究者都在做那个标的目的。

其时决然决然抉择那一研究标的目的的他们,在那一研究范畴显得有点孤单。

那种孤单不只表现在他们其时难以找到情投意合的研究者,也表现在他们需要为那个范畴从头起头搜集数据集。

其时迁徙进修范畴没有一个公认的数据集,杨强传授便带着学生们在学校用WI-FI 做实时定位搜集数据集。Wi-Fi定位数据集为迁徙进修供给了一个很好的尝试场景,因为那些数据会随时间、空间以及情况的改变发作很大的改变,好比白日搜集的收条,比及晚上再操练那些数据,那些数据便根本用不了了。那是因为数据在差别的时间、空间城市引起散布的改变。好比,当学生下课出教室时,就会给信号形成很大的骚乱,之前操练出来的模子也需要迁徙了才气用;又如,在三楼搜集的数据,到五楼可能也不克不及用了,那是因为Wi-Fi信号在空间发作了改变。那些数据的搜集十分迟缓,所以,为了包管那些数据的有效性,他们经常没日没夜地在教学楼里搜集数据集。

最初,他们还用那个数据集在数据发掘学术会议IEEE ICDM 2007上举办了首个挑战赛,该数据集也因而酿成了世界公认的数据集。

而“Transfer Learning”的中文名“迁徙进修”的正式降生,则还要将时间线拉后到2007年。

2007年,杨强传授受CCF“龙星方案”邀请做了一场关于“迁徙进修”的陈述,其时“Transfer Learning”还没有同一的中文译名,他便在讲座上让各人停止了一次投票,固然获得更高投票的并不是“迁徙进修”那一名词,但是颠末他的多方考量,仍是决定摘用“迁徙进修”的中文译名。

3

深度进修的鼓起,给迁徙进修带来了“春天”

时至今日,迁徙进修在杨强传授等人的浇灌和培育提拔下,已成为了一个系统性的学科以及人工智能范畴炙手可热的研究标的目的之一。

而现实上,迁徙进修能有现在的开展,离不开深度进修那“一把火”。

一方面,深度进修鼓起以后,各人意识到有需要把深度进修模子适配到新的使命和场景中,出格是在视觉范畴,其时加州伯克利大学有一群学者提出做视觉范畴的迁徙进修,此中国内有一位来自清华的博士后龙明胜刚好就在伯克利拜候,起头连系研究深度进修和迁徙进修,引起了良多研究者的跟随。好比天然语言处置范畴,就呈现一个迁徙进修的新标的目的——深度迁徙进修。

2009年,天然语言处置范畴的国际学术顶会 ACL 请杨强传授往做了一个迁徙进修的主题演讲,统一年,IJCAI也邀请杨强传授往做了迁徙进修的特邀演讲。

迁徙进修在各大学术会议上成为一大“重头戏”,也表示着学术界各个范畴的研究者在能耐域把“金子”淘完以后,起头天然地往迁徙进修那一研究标的目的挨近。

另一方面,跟着深度进修的瓶颈越来越明显,预操练成为范畴的一大研究重点,而预操练和模子的自适应密切相关,好比2018年谷歌提出了BERT 模子——假设有足够大的源范畴数据,就很随便迁徙到其他肆意的新范畴,并且新的范畴还不需要标注那么大都据。统一年Facebook 发现,迁徙进修在视觉范畴也能实现同样的效果。

由此一来,工业界也逐步发现迁徙进修长短常有利用前景的标的目的,即将手艺酿成一种手艺的处理计划,从而主动延伸出一个贸易形式,好比说一个云计算公司能够做出一个预操练模子,然后利用者就能够用那个现成的预操练模子做迁徙,无论是贸易形式仍是收费形式都十分清晰。

如今,国内包罗阿里、腾讯等云计算公司都在往那个标的目的摸索。

4

人工智能通用化,迁徙进修不成或缺

跟着深度进修的开展日益进进白热化,局限性也日益表露出来,很多研究者也发出“深度进修即将步进冷冬”的量疑,接下来人工智能该朝什么标的目的开展,也成为该范畴研究者亟待根究的问题。

迁徙进修,即是此中一个标的目的。

“人工智能研究到最初,城市面对一个问题,那就是模子能否能扩展到其此前从未见过的范畴,即像人一样拥有‘触类旁通’的才能,而那就是迁徙进修有可能实现的。”

杨强传授提到,那即是他和他的学生们当初选定迁徙进修并坚信那个标的目的必然会胜利的原因。

总而言之,迁徙进修关于机器进修手艺将来的开展,确实不成或缺,详细而言次要存在以下几个需要性:

第一,人类智能的一项强大的特殊才能是可以从小数据中进修常识,以此操纵和调整已有的“模子”,从而适配到新的场景,也就是所谓的迁徙进修才能。例如,孩子能够仅从关于猫的很少的动画中进修到猫的概念,并能快速而有效地将例子回纳成常识,往熟悉实在的猫。人工智能也应该被付与如许的迁徙进修才能。

第二,当前机器进修的胜利利用依靠于大量有标签数据的可用性,然而现实生活中往往贫乏高量量、有标签的数据,若何让模子在小数据上也能起到感化,那是机器走向实正智能的必经之路。

第三,实正的智能系统不只可以在某个特定范畴起到感化,还可以将其才能泛化到其他范畴中,如许的系统才是可靠、可相信的,那就要求智能系统可以拥有触类旁通、畅通领悟贯穿的才能。

第四,跟着智能的开展,个性化需求也会日积月累,那就需要处理人若何把小我化的小数据加进到通用系统中,以利用到小我化的场景中,实现智能的个性化利用,而迁徙进修将是此中一个必不成少的东西。

做为一种新的机器进修范式,迁徙进修算法在AI 朝着可扩展性、可靠性、通用化开展的道路上,将可以承担起十分关键和重要的角色,出格是在目前面对计算才能、数据和硬件等资本相对匮乏的现实前提下,迁徙进修的感化不容漠视。

而现实利用方面,在包罗但不限于计算机视觉、文天职类、行为识别、天然语言处置、室内定位、视频监控、舆情阐发、人机交互等范畴,迁徙进修都起到了十分重要的感化。

早在2016年,杨强传授便指出,迁徙进修会是深度进修后的下一个“热点”。

他的那一看点也得到了吴恩达等人的响应:在同年NIPS的一场Tutorial 上,吴恩达也表达了同样的看点:迁徙进修将引领下一波机器进修手艺。

现在,迁徙进修的开展势头,也正在印证着他们在几年前的那一揣测。

5

通用化和主动化,是迁徙进修尚未处理的两大难题

每一个研究范畴从萌芽到成熟,势必城市履历“过关斩将”的艰辛阶段。迁徙进修一路走来,天然也不破例。

2000年前后,其时迁徙进修是一个小寡的研究标的目的,根本假设、测试原则、算法设想以至名称也各家各别。那就招致差别的算法和系统无法在统一个数学框架下停止比力。

对此,杨强传授等人花了十几年的时间成立了迁徙进修的同一数学框架,而且鞭策构成了大大都当前公认的迁徙进修分类和比力测试的办法,从而让该范畴的研究者有据可循,并提出大量的迁徙进修算法。

那此中,杨强传授的研究团队包罗了那部书的几个次要做者。此中,戴文渊(现为第四范式公司总裁)在拜候香港科技大学杨强传授尝试室时,就起头了迁徙进修的研究过程,在此期间,设想出了“基于样本的迁徙”算法TradaBoost,并于近期在港科大完成了迁徙进修研究的博士学位,是谷歌学术搜刮上迁徙进修范畴的更高引做者之一。 潘嘉林(现为南洋理工大学副传授)在香港科技大学为博士生时因创造了“迁徙因子阐发”算法而名望在外,同时也是迁徙进修标的目的的高引做者。张宇(现为南方科技大学副传授)是多使命进修的专家,他的一篇关于多使命进修的概述也得到了学术界很高的引用。他们的迁徙进修的工做,从差别角度奠基了那个研究标的目的的理论和算法根底。

同时,杨强的另一位学生沈抖,现任百度集团施行副总裁并负责挪动生态事业群组,也是迁徙进修在搜刮营业上的鞭策者,鼎力鞭策了从通用搜刮范畴到特殊搜刮范畴的常识迁徙,填补了多项工业工程上的空白。

跟着迁徙进修的研究工做日益增加,一些详细的挑战也日益凸显出来。

此中一个难题即是迁徙进修在数学上的一个底子问题:若何权衡两个范畴差别数据集间的间隔。而那个间隔底子上是在权衡两个差别概率散布的间隔,而不是简单的欧式间隔。

针对那一问题,潘嘉林和杨强传授的研究团队提出了操纵核函数空间的度量来加以处理。值得一提的是,那一处理办法也为后来良多更为先辈的迁徙进修算法供给了理论根底,好比说,深度进修根据那一构想,能够根据两个散布间的间隔来决定在两个神经收集间若何迁徙、迁徙哪部门、迁徙几常识以及迁徙的时间节拍等。那使得迁徙进修从一个试探性的学科走向科学化,系统化。

另一个难题是“负迁徙”问题,即在实时迁徙进修时,实现的效果可能会遭到源范畴的错误影响而下降。跟着近几年人工智能的开展,也为该问题的处理带来了标的目的。一般来说,当源范畴的数据逐步加多的时候,迁徙进修在目标范畴的效果会大幅加强,而那一加强也可以通过无监视或自监视进修的办法来实现,即不需要同时增加人工来处置数据,以此大幅削减“负迁徙”问题。

然而,如今也还有一些研究者尚且无法找到打破点的挑战和问题,包罗如今还没有一个通用的迁徙进修算法可以批示输出一个自带迁徙性能的模子;还无法做到主动化迁徙进修,即每碰着一个新范畴,若何抉择源范畴、迁徙进修算法以及迁徙战略等等,又会成为新一轮问题。

针对前者,杨强传授表达,那一难题的谜底可能在于元进修,即在多个范畴中学出一个通用的模子部门,使得它具有很强的迁徙适配才能。值得一提的是,基于深度进修的、可迁徙的元进修理论也是BENGIO(图灵奖者)当下最感兴致的问题。跟着相关研究的开展,找到处理计划或许也只是时间的问题了。

然后者的摸索同样意义浩荡,假设可以开发出一个主动化的迁徙进修算法,将会大大削减对专家的依靠,关于实现人工智能的通用化也将有浩荡的促进感化。戴文渊所指导的第四范式公司也在AutoML那一标的目的上继续领先,并会将其扩展到迁徙进修的范畴。

6

业已成熟化的迁徙进修,还有哪些值得存眷的研究趋向

跟着迁徙进修登上Gartner 曲线,标记着该研究由学术研究正式进进了财产利用。而就迁徙进修自己的学术研究而言,下一步还有哪些有前景的研究办法,同样也备受存眷。

就杨强传授等人看来,将来次要有以下五大研究趋向:

第一,如今迁徙进修的权衡原则还需要在全球范畴妥帖起来。过往,各人在权衡机器进修时仍是简单利用准确性或错误率来权衡,然而传统机器进修算法的迁徙才能普及比力欠缺,所以在权衡原则上能否能以可靠性和鲁棒性如许的权衡原则来替代以前的原则呢?针对那一点,世界范畴内还到达同一的共识,因而是能够勤奋的标的目的。

第二,需要找到一个像人的大脑一样的可以进修和迁徙的通用模子。人类在进修一个新的技能时,往往可以无意识地想起以往的体味,看到一幅画能联想到一首诗,那些才能都是机器进修还不具备的,对此,如今有一个喊做末身进修的新研究范畴,测验考试操纵迁徙进修让模子不竭进修、不竭优化,那也是一个十分好的研究标的目的。

第三,若何把逻辑常识和统计常识完美地连系起来,也是将来值得存眷的一个标的目的。因为人类的迁徙才能不单单依靠统计常识,很大水平上也依靠逻辑常识,好比说一些定理法例是可以反过来加强迁徙才能的,假设能实现逻辑常识和统计常识的有机连系,将会给迁徙进修带来很大的停顿。

第四,如今的深度进修模子的鲁棒性不高,样本稍做改动揣测成果就有可能发作很大改变。构建于深度进修之上的迁徙进修也有类似的问题,因而进步迁徙进修的鲁棒性会是将来的一个研究标的目的。

第五,跟着数据监管力度的加大,数据的隐私性也会是一个重要问题,此中关于金融、医疗等行业尤为重要。那一点对迁徙进修自己也有很大影响,若何在包管数据隐私性的情状下操纵迁徙进修来进步性能很值得存眷的。目前已经有一些工做来研究那一问题,例如联邦迁徙进修,就是联邦进修和迁徙进修的有效连系,其通过在数据各方传递模子参数来确保数据的隐私性。

【广而告知】

据领会,杨强传授领衔编著的全球首本迁徙进修教材《Transfer Learning》已上市,而中文版也刚刚出书。那无疑是迁徙进修范畴标记性的事务。

注:封面图片《迁徙时空之优山美地》: 出自潘军锋博士(Junfeng Pan)的人工智能画做,是基于宋代画家王希孟的独一传世之做《千里山河图》,用迁徙进修的“风气迁徙”,到美国优山美地国度公园的照片而成。那幅画将中国画风气迁徙到西方名名胜点,寓意中国元素走向全世界。

《迁徙进修》那本书搜集了杨强、戴文渊、张宇、潘嘉林等近三十位研究者的心血,对迁徙进修的根本原理、研究门户、办法、利用都做了全面而深进的诠释。

南京大学人工智能学院院长周志华、立异工厂董事长兼CEO 李开复、中国工程院院士高文、加拿大院士邓力等人工智能顶级专家,都纷繁为那本教材打Call——

无论关于学术界的学生及进门研究者系统进修、深进理解迁徙进修那门学科,仍是关于工业界研究者利用迁徙进修那一东西而言,那本教材都具有十分重要的参考价值。

图书章节的思维导图

文章最初,AI 科技评论也为各人附上以杨强传授位为首的近三十位研究者对《迁徙进修》一书的期许:

期看通过那本书给读者们带来对迁徙进修最新最全的介绍,给学生们带来对迁徙进修的全方面领会,便利他们领会、进修以及利用迁徙进修手艺,从而能够启发他们用迁徙进修的体例来处理面对的学术或现实问题。也期看本书能便利研究者们全面领会迁徙进修,以便启发他们更好地研究迁徙进修,以及利用迁徙进修来处理更多的利用问题。

中国科学院计算手艺研究所博士生王晋东也不断做迁徙进修的摸索,他在2018年还撰写过一份《迁徙进修简明手册》,深进浅出地回忆了迁徙进修的开展汗青并介绍了其时迁徙进修的最新停顿,广受存眷。本次,他也从学生的进修和进门的角度,分享了《迁徙进修》教材出书的意义:

学生在进修过程中,最重要的是“理解”和“利用”。

起首是对常识的深进理解,那包罗问题定义、研究动机、数学形式化、模子构建、尝试验证等根本过程。杨强传授的《迁徙进修》教材以严谨的学术语言和深进浅出的讲解形式,围绕迁徙进修的根本问题、办法和研究标的目的娓娓道来,使得我们的进修过程有条不紊、目标明白。

然后是对常识的乖巧利用。《迁徙进修》除了包罗大量的学术研究内容之外,也从选举系统、行为识别、计算机视觉、天然语言处置等重要的AI利用标的目的,为迁徙进修的现实利用指了然标的目的。

因而,从学生的角度,假设你立志逃求更深条理的学术研究,那么《迁徙进修》是你碰着问题和挑战时能够逃求搀扶帮助的对象;假设你期看能用本身所学常识来改动世界,那么《迁徙进修》则能够在利用和落处所面,批示我们若何利用迁徙进修手艺来处理现实问题。

参考材料:

1、《Transfer Learning》, Qiang Yang , Yu Zhang , Wenyuan Dai , Sinno Jialin Pan ,Cambridge University Press

2、《A Survey on Transfer Learning》,Sinno Jialin Pan,Qiang Yang,

3、《迁徙进修简明手册》,王晋东,

[ 读者福利时间 ]

在本文留言区留言,谈一谈你对迁徙进修的观点。

AI 科技评论将会在留言区选出 5 名读者,每人送出《迁徙进修》杨强传授签名版本一本。

活动规则:

1. 在留言区留言,留言点赞更高的前 5 位读者将获得赠书。获得赠书的读者请联络 AI 科技评论客服(aitechreview)。

2. 留言内容会有挑选,例如“选我上往”等内容将不会被挑选,亦不会中奖。

3. 本活动时间为2020年7月22日 - 2020年7月30日(23:00),活动推送内仅容许中奖一次。

4. 图书还处于预售阶段,赠书估量会在8月5日摆布陆续发出。

,中转图书购置链接

0
回帖

专访杨强:从 0 到 1,迁徙进修若何登上今日顶峰? 期待您的回复!

取消