【 2017年 5 月 27 日,北京】本报讯,由机器之心主办的全球机器智能峰会( GMIS 2017 )在北京正式启幕。第四范式创始人、首席执行官戴文渊, LSTM 之父 Jurgen Schmidhuber ,前微软人工智能首席科学家邓力,今日头条副总裁马维英等人工智能领袖受邀出席了开幕当天的主论坛、并发表主题演讲。作为人工智能工业应用的代表,戴文渊在此次大会上针对人工智能如何在工业界应用进行了关键性说明。
戴文渊认为,尽管组织核心的竞争模式已经从流量为王的互联网模式升级到了生产、运营效率贡献模式,舆论集体投奔人工智能,但人工智能目前尚未在工业界全面落地。这是因为企业构建商用人工智能须五大核心要素,即Big data(大数据)、Response(持续的反馈)、 Algorithm (算法)、 Infrastructure (计算资源)和 Needs (明确的需求),他将其概括为 “BRAIN” 。戴文渊建议企业采取 “ 专业化分工 + 专注核心环节 ” 的方式,充分借力人工智能平台,关注数据本身及业务需求,更加高效通过智能决策引擎让数据发挥价值。
Big Data ——有意义的过程数据
大数据是人工智能存在的基石。多来源、多类型的大数据可以从不同角度进行逼近真实的描述,而利用算法可以挖掘数据之间的多层次关联关系。针对数据,戴文渊提出真正能够产生人工智能的是过程数据(同“用户行为数据”)。
戴文渊提到,过去的互联网红利期虽然行业中有海量数据涌入,但大量的数据没有标和明确的定义,数据清洗及标签化难度相当高。他举例到,“统计局公布的各地区 PM2.5 统计数据并不能让我们产生预测 PM2.5 的能力,人工智能需要基于具体行为来掌握情况、学会技能。例如近期较受关注的智能投顾( Robo-Advisor ),就是让机器先学习投资经理们是如何进行投顾的行为数据,才能利用机器进行智能投顾。”
立足于行业应用视角,戴文渊指出,按照当下技术发展,一个优秀的人工智能模型需要一千万以上的数据样本。因此,在数据方面,企业需加强对用户每一个行为及其结果的记录意识。以在线广告为例,用户的搜索行为、广告内容及用户是否有点击行为等,都需要加以记录,最终形成渗透至每一个场景、每一台设备和每一种服务里的数据采集机制。
Response ——数字化的持续反馈
用户行为数据是机器学习的基础,如果想让机器学到最新的、即时的用户行为,戴文渊认为,能够形成持续的反馈闭环的人工智能系统是机器智能提升的前提。机器需要通过正、负反馈来不断学习、不断进步。以 AlphaGo 为例, AlphaGo 的自我博弈就是不断收集落棋结果的反馈,然后不断地更新自己的策略,经过无数次博弈与反馈,输出一个最优的行为策略。戴文渊表示,当下越来越多的新闻聚合平台开始转型为基于人工智能技术的个性化推荐平台,这在过去数据不足的情况下是很难实现的,本质上是因为当前各新闻平台都开始记录并积累用户日志,让机器能够不断地学习如点击、阅读时长、转发、收藏、投诉等反馈数据。
此外,机器能够容易理解的反馈数据需要符合被标记标签的性质,Facebook上的“ like ”和“ dislike ”就是一种数字化的标记反馈。对此,戴文渊建议企业应该建立数字化、不间断的反馈数据闭环,将实时数据进行反馈,使模型具备自我进化能力。以第四范式“银行交易实时反欺诈解决方案”为例,新的数据、新的欺诈场景实时反馈给系统,与此同时,对数据进行“欺诈交易”或是“正常交易”的标注,再用标注过的数据继续模型的训练,让机器具备“火眼金睛”。
Algorithm ——高维度的算法能力
算法是人工智能决定效率提升的关键因素。戴文渊指出,人工智能技术的优势包含超越人类想象的特征变量组合方式,能够做到“千人千面”甚至“千人万面”,大量无法统计的规则会被机器自主发现和抓取,从而充分挖掘“长尾用户”的行为规律,提高机器学习模型预测的精准度。这就需要超高维度的算法。
超高维度的算法,首先须要原始数据的绝对值很大,这对于大数据的分布式存储、处理技术具有较高要求。其次,利用万亿级的海量特征进行机器学习特征处理、模型训练以及线上服务,需要成千上万个节点进行协同工作,这对算法及系统的要求是全方位的 —— 从异步分布式的计算模式,到高性能的网络,再到海量的内存存储等都有极高的要求。对此,戴文渊提到去年 7 月,第四范式发布了新一代机器学习模型—— DSN ( Deep Sparse Network ,同 “ 深度稀疏网络 ” ),该算法底层是上千亿大小的宽度网络,其基本理念是随着数据量增大,模型的维度会随之升高大,从而保证“机器的智力”保持高水准。
Infrastructure ——高性能的计算能力
高性能、大规模的计算资源是人工智能技术在实际应用中的必备条件。在人工智能实际的业务场景中,动辄数十亿级别的数据,会给计算框架带来严峻的考验。 “ 企业搭建人工智能系统,首先遇到的瓶颈几乎都是数据处理能力的不足。因为对于一般的机器学习团队来说,具备处理几十万规模数据量的运算能力。如果数据规模超过十亿,那么即便运行简单的逻辑回归模型,也会变成一个非常困难的问题。 ” 戴文渊举例道。
以往,计算框架随着数据量的增长,运算时长也会成几何级数地增加,更新模型时间受限、根本无法应对大数据的计算要求。为了迁就不足的计算能力,企业不得不减少数据样本和特征数量,机器学习的效果也会随之下降,最终整个系统的能力就会遇到瓶颈。为此,戴文渊表示,第四范式研发了万亿级高维度机器学习框架 GDBT ( General Distributed Brilliant
Technology ),把分布式计算、流式计算、高性能计算(超算)等能力都封装于产品中,确保在大数据的场景下,计算能力随数据量增加呈线性增长,实现系统时间成本与计算成本的可控。
Needs ——边界清晰的问题定义
必须引起重视的是,一切的技术的应用都是为了完成企业的业务目标,目前机器还不具备主动、自发定义任务的能力,因此,清晰、明确的任务目标就是人工智能得以有效应用最为关键的先决条件。以往,企业在探讨人工智能应用时往往容易将其想象成 “ 万能钥匙 ” ,对此,戴文渊解释道,“人工智能解决的问题是能被客观评价的场景,需要定义为单一目标、有边界的业务问题”。以第四范式服务的某银行信用卡业务领域为例,如果业务目标是宽泛地提出发展更多新客户、不给出具体的运营策略,那么机器对此是难以理解的。如果让机器更好地理解“任务”,这个目标须进一步拆解、聚焦成:做某个卡友的营销活动,赋予机器预测给哪些存量客户的营销成功率更高,这样问题的边界就逐渐清晰了。
戴文渊指出,优化、明确业务问题需要企业业务专家的深度参与。一方面从业务出发,需要在业务专家和技术专家相互理解的阶段就让大家共同对企业资源进行评估与组织,最终将商业目标转化为机器可理解的数据挖掘目标;二是从技术出发,机器学习有较为通用的预测指标,例如流失率、点击率、停留时长等,不妨从这个角度,将公司的运营指标和人工智能适用的指标进行结合。
人工智能并不是一项单纯的技术,而是一个各方面因素有机结合的体系。在戴文渊看来,成功利用人工智能技术创造价值的公司,都具备了以上五个核心因素。同时具备“ BRAIN ”的门槛是很高的,高门槛成为了众多行业与企业无法应用人工智能的原因,第四范式希望努力改变这样的现实。据了解,第四范式已经将先进的算法、计算资源、反馈闭环都封装到了“第四范式·先知”平台中,解决 “BRAIN” 中三个门槛最高的问题。企业不再需要花重金去寻觅供不应求的 AI 人才、建设一套 AI 开发系统,只要拥有数据与明确的业务目标,就能拥有人工智能的能力。
关于戴文渊
戴文渊,第四范式创始人、首席执行官。人工智能研究领域 “ 迁移学习 ” 全球领军学者,机器学习全球商业领军人物,国际大学生程序设计竞赛( ACM-ICPC )世界冠军,新华社产品研究院五大顶尖专家之一。曾帮助百度建立了中国最大、最成功的机器学习系统,获“百度最高奖”,在短短三年内就晋升为当时凤毛麟角、也是最年轻的百度高级科学家。曾任华为诺亚方舟实验室主任科学家并获得华为“总裁奖”。
其学术论文多次被 NIPS 、 ICML 、 AAAI 、 KDD 等国际顶级学术会议收录, 2007 年发表的论文 Boosting for Transfer Learning 在迁移学习领域论文引用数至今仍排名世界第三。作为主要负责人完成的“基于迁移学习的下一代机器学习平台”获得中国智能科技最高奖——吴文俊人工智能技术奖创新奖一等奖。