2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

2014年,我还是一个在英国伦敦大学学院计算机系的留学生,有一天突然有一个叫做Demis Hassabis的人到我们学校做演讲,展示了如何用深度强化学习训练出超越人类玩家水平的Atari 2600游戏智能。在我们都惊讶于打砖块游戏中AI是如何每次都把球打到砖块层上面去完成很多次反弹时,Demis无比帅气地提出了一个概念Artificial General Intelligence,即通用人工智能。通用人工智能主要有两个特点,一是端对端(end-to-end)的学习,二是任务自适应, 无需人类调参而胜任不同的任务。从那时起,Deepmind给无数学者、工程师以及吃瓜群众植入了一个观点,即深度强化学习是打开通用人工智能大门的钥匙。

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

从那以后到现在的四年时间里,深度强化学习得到了迅猛的发展,被视为机器学习领域的明星方向。Deepmind开发的AlphaGo围棋智能打败了李世石、柯洁。Facebook在DOTA2游戏中打败了顶级职业选手。CMU团队研发的德州扑克AI冷扑大师轻松击败顶级玩家。Deepmind运用深度强化学习优化了数据中心的耗能。谷歌则利用深度强化学习完成深度神经网络的自动架构搜索,提出了酷炫无比的AutoML服务,借此将机器学习作为一种服务推广到千家万户。

 

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

中国的技术公司并不示弱,其实,他们做得更加激进,用深度强化学习做直接跟钱挂钩的业务落地。阿里、腾讯、百度、滴滴和天壤等国内团队将深度强化学习应用到搜索、推荐、营销、派单和路径规划等实际问题的决策任务中。并且有公司宣称自己使用了深度强化学习在无人驾驶产品中。

 

一切看起来都是如此华丽而美妙,利用深度强化学习我们已经无限接近通用人工智能,不是么?当然不是!

 

深度强化学习,顾名思义,将深度神经网络整合到强化学习框架当中。两者恰恰是机器学习领域中最难调试成功的两个子类。正如谷歌大脑团队研究员Alex Irpan所说,深度强化学习是个大坑,别着急进坑!它的成功案例其实不算很多,但每个都太有名了,导致不了解的人对它产生了很大的错觉,高估能力从而低估了难度。

 

没错,从学术论文到PR软文,人们只会展示华丽的成功案例,没有人会仅仅展示失败的案例。然而做过深度强化学习的科学家和工程师其实都深知,这是一个连随机种子都会大大影响学习效果的模型框架。同样的模型,训练10次可能7次是失败的,3次是成功的。以至于在深度强化学习圈子里面有“随时种子工程”的自嘲概念。其次,深度强化学习及其容易过拟合到智能体当前交互的环境中,所以环境稍有改变,之前看起来表现出色的智能体很可能变成一个犯低级错误的傻子。另外,深度强化学习需要超级超级多的数据和超级超级强大的算力支持,而如果将场景扩展到多智能体的深度强化学习,那么需要的数据和算力是呈指数级上升的,这是一个极其烧钱的行业。

 

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

 

有了深度强化学习,我们离通用人工智能还远吗?

我们是站在智能奇点面前,还是离它仍然遥不可盼?

如果深度强化学习最终能实习通用人工智能,世界的格局是什么样子,至少,在普及通用人工智能的过程中,世界将会如何变化?

 

面对这一系列犹如科幻小说构思般的问题,每个人都有自己的见解。而我们通过问自己这些问题,能否对当前我们在实现通用人工智能道路上做出新的改变?

 

2050,世界的有志年青人相聚在一起。我们聚集了在深度强化领域的11位国内外顶级年青学者和产业界大牛来畅谈他们在关心的场景中和深度强化学习的恩怨情仇,在通向通用人工智能的路上的酸甜苦辣。

 

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

2050新生论坛之

有了深度强化学习,我们离通用人工智能还远吗?

2018年5月27号 09:00-17:00 | B区华云厅

“如何建成天壤围棋智能的罗马城?”

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

围棋自我学习中的若干问题探讨

 

张雷,天壤智能CTO,负责公司深度强化学习技术的研发和应用。在加入天壤智能之前,张雷在百度搜索广告部门任主任架构师。在此之前,张雷在IBM中国研究院任高级研究员,领导了IBM DeepQA开放问答系统中国团队的技术工作。该问答系统在2011年战胜了人类冠军选手,并演化为如今的IBM   Watson系统。

“随着机器智能的提升,人类如何与机器协作,利用其提升人类自身的能力?”

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

 人机协作技术与挑战

 

袁泉,启元世界(inspir.ai)创始人兼CEO,前阿里认知计算实验室资深总监,淘宝推荐算法创始人,曾获双11 CEO特别贡献奖。加入阿里之前,袁泉是IBM中国研究院的研究员。

“我们是如何借助深度强化学习迎战双十一?”

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

 强化学习在展示广告实时竞价中的应用

 

靳骏奇,来自阿里妈妈精准展示技术算法团队,从事机器学习在互联网广告系统应用方面的研究工作。靳骏奇在清华大学自动化系获得工学学士、工学博士学位,在清华大学经济管理学院获得经济学学士学位。

“如何用强化学习支撑阿里搜索排序?”

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

 游戏之外:电商场景下强化学习建模与应用

 

曾安祥,阿里巴巴资深算法专家.于2009年加入阿里巴巴,作为淘宝搜索的创始人之一,先后参与组建了Query分析团队和排序团队等算法团队,在工作中追求卓越,和伙伴们一起创造了在全球范围内领先的商品搜索技术。专注于大规模机器学习,在线学习等技术,近两年来,他的团队主要研究深度学习与强化学习等技术在电商环境中的大规模实际应用。

“强化学习如何赋能阿里广告主?”

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

 强化学习在搜索营销客户优化中的实践与思考

 

仇光博士: 阿里巴巴集团阿里妈妈事业部高级算法专家,负责搜索营销客户优化方向的算法工作。2005年本科毕业于浙江大学,获得计算机科学与技术专业学士学位,同年保送直接攻读博士学位,师从陈纯院士,于2010年获得博士学位。2008-2009年在美国芝加哥大学Bing Liu教授访问学者。

“如何自动设计有趣的游戏?”

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

用强化学习自动设计游戏

 

张海峰:本科毕业于北京大学计算机系,目前是北京大学计算机系人工智能方向博士候选人,研究方向包括强化学习、游戏智能和计算广告博弈等。研究成果发表在IJCAI、WSDM、CIKM、软件学报等会议和刊物。2017年访问作为联合培养博士生英国伦敦大学学院。

“如何将虚拟环境迁移到物理环境、以及物理环境虚拟化?”

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

 强化学习:从虚拟走向现实

 

 俞扬博士: 南京大学副教授。主要研究领域为机器学习、强化学习,目前研究集中于提升强化学习样本利用效率。分别于2004年和2011年获得南京大学计算机科学与技术系学士学位和博士学位,获2013年全国优秀博士学位论文奖、2011年CCF优秀博士学位论文奖。2011年8月加入南京大学计算机科学与技术系、机器学习与数据挖掘研究所(LAMDA)从事教学与科研工作。发表论文40余篇,包括多篇Artificial Intelligence、IJCAI、AAAI、NIPS等,获得5项国际论文和竞赛奖。

“语言学习如何支持通用人工智能?” 

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

Language grounding with human hindsight   advice

 

吴宇怀:多伦多大学的博士三年级学习,师从Roger Grosse。之前,他曾是Geoffrey Hinton, Yoshua Bengio, 和Ruslan Salakhutdinov的学生。他于2017年获得谷歌博士奖学金,于2017年在OpenAI作为实习生和Pieter Abbeel一起工作,并将于2018年暑期前往英国论文Deepmind从事科研实习。他的主要研究方向为强化学习和优化。

“智能体之间如何有效通讯?”

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

多智体强化学习中的通讯机制

 

温颖:英国伦敦大学学院的博士生,主要从事强化学习、深度学习在实际场景中的落地研究,包括计算广告和多智体系统,研究成果发表于AAMAS, IJCAI, ICDM等会议。他曾在MediaGamma,亚马逊和百度从事科研实习。

“如何寻找通往无间断强化学习之路?”

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

面向机器人的深度强化学习:前沿和未来

 

顾世翔:剑桥大学和Max Planck研究所(MPI)的联合博士生,师从Richard E. Turner, Zoubin Ghahramani, and Bernhard Schoelkopf。他本科毕业于多伦多大学,师从Geoffrey Hinton完成毕业论文。他的研究兴趣包括深度强化学习、深度学习、机器人学、近似推理和因果分析,研究成果被MIT Technique Review和Google Research Blog报道。他将于2018年在Google Brain从事科研实习。

“如何用强化学习来完成学习本身?”

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

Learning how to Active Learn: A Deep Reinforcement Learning Approach

 

刘晗:腾讯AI Lab强化学习中心负责人,博士毕业于CMU,师从John Lafferty;

方蒙:腾讯AI Lab的资深研究科学家,从事深度强化学习前沿模型的探索和研发,他曾在墨尔本大学从事博士后科研工作,和CMU合作DARPA LORELEI项目。

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?

2050论坛-有了深度强化学习,我们离通用人工智能还远吗?