• 项目
首页>>文章列表 >>行业研究
行业研究

金准数据 柔性机器人在医疗、工业场景应用报告 2018-03-19 17:59:36

前言:

柔性机器人是机器人研究的一个全新领域,目的是为了创造一个能够与人类实现完美互动的灵活机器人。新型机器人的出现往往都是受到自然界的启发,让机械变得更加有机化,而立体打印技术的出现,让这些机器人向更加灵活的方向发展。

近几年来,机器人制造技术越来越成熟,工业、医疗等场景用例越来越多,商业化进程加速。

金准数据显示,2015年到2021年,机器人市场规模将从270亿美元增长到460亿美元,年均复合增长率9.4%。而在所有类型的机器人中,应用于国防、工业、消费领域的机器人种类最多,相应领域营收占比也是最高的三项。

金准数据从仿生和机器视觉等技术原理出发,解读柔性机器人在医疗和工业两大场景的应用。


一、国产机器人的两大掣肘

我国工业机器人产业化起步较晚,与工业机器人“四大家族”(库卡、ABB、安川、发那科)技术代差明显 。

目前,“四大家族”在中国市场占有率总共达到八成以上,前三家在全球的机器人销量都突破了 20 万台,且在我国申请大量本土专利,工业机器人国产化进程缓慢。

▲工业机器人零部件核心技术企业分为上中下游

工业机器人核心零部件关键技术主要分为以下三类:控制器(控制技术),减速机,机器人专用伺服电机及其控制技术。

受限于无法掌握三大零部件核心技术,国内的机器人的产品以下游系统集成为主,对应的就是国内过去两年的服务机器人热潮,毛利率低订单分散 。核心零部件方面,目前国内八成以上依赖进口(且采购的成本要比外企自用高三五倍以上),进口替代空间巨大。

▲国内437家工业机器人企业业务分类

▲订单非标准化限制了ROE的提升

核心技术的缺失和订单的非标准化导致了国内传统工业机器人企业的 ROE 难以提升。从发展的角度来看,国内工业机器人产业主要受两大掣肘:

1、采购方对精度的高要求,导致投入期昂贵且持续时间长。

以工业机器人最为主要的汽车业应用为例:由于汽车工业对焊接的精度要求极高,采购后出于稳定生产的考量不会轻易更换生产线,新进入者投入期花费昂贵且研发时间漫长。

2、需求分散,无法促成国内工业机器人规模化优势, 盈亏平衡点不断提高。

国产工业机器人主要会集中使用到非汽车行业的新兴领域,六轴工业机器人年出货量2000~3000台的公司已经是目前国产自主品牌中出货量较大的企业。但是,随着外资、合资品牌工业机器人逐渐降价,国产自主品牌工业机器人的盈亏平衡点被不断抬高。

▲生产无法规模化的产业容易丧失研发投入的动力


二、两类柔性机器人原理

随着仿生学和机器视觉的进展,柔性机器人这一新兴的弹性柔软、多功能和生物激发的分支出现了。柔性机器人主要由易变形的物质组成,如液体、凝胶和弹性体,与生物组织和器官的弹性和流变特性相匹配。

▲柔性机器人理论、制造及应用市场示意

▲柔性机器人的特点

其中,模拟生物的柔性与灵活性创造的仿生柔性机器人偏向于医疗,另一类则是运用机器视觉的六轴以上的工业级柔性机器人。

从原理来看,机器感知、机器行动与人机交互是柔性机器人的三大组成部分 。

▲柔性机械三维结构图

基于仿生学的柔性机器人,因其设计初衷在于能在各种复杂环境中代替甚至做到人类所不能,它们需要与软材料、生物或人工复制的生物功能进行交互,因此机器感知层的材料,一般杨氏模量大于10^9 Pa(参考皮肤、肌肉等结缔组织的杨氏模量为10^2 ~10^6 Pa)。

柔性机器人的操控是难点,机器行动依靠的则是每一个活动关节处装有的驱动器(actuator)。目前应用于柔性机器人的执行机构类型,包括电活性聚合物、绳驱动器、形状记忆合金以及流体驱动器等;控制方案更难,有待研发。

人机交互功能往往需要依靠深度学习和自然语言处理(NLP)完成,但不是所有柔性机器人都需要。

▲机器视觉机器人工作流程

而基于机器视觉的工业机器人,则多由图像采集(即图像摄取装置,分CMOS和CCD两种)、图形处理、运动控制三大部分组成。

这类工业机器人的硬件一般包含:相机、光源、图像采集卡,软件则一般会安装在PC端,或者集成在触摸屏中。

一般的工作流程是首先选取被跟踪物体的局部图像,该步骤相当于离线学习的过程,在图像中建立坐标系以及训练系统寻找跟踪物。学习结束后,图像卡不停地采集图像,提取跟踪特征,进行数据识别和计算,通过逆运动学求解得到机器人各关节位置给定值,最后控制高精度的末端执行机构,调整机器人的位姿。

▲不同类型机器人性能对比

柔性机器人具有一定的分布变形,在理论上可以具有无穷多的分支,也就导致了一个超冗余的配置空间:在这个空间中,机器人的尖端可以达到三维工作空间中的每一点,而机器人的形状或配置是无限的。

由于柔性机器人更好的伸缩性,可以与障碍物保持一致。因此,它们可以携带柔软而易碎的有效载荷而不会造成伤害;利用应变变形,它们可以通过小于其名义尺寸的开口进行挤压。

这使它们成为了适用于类人机器人的理想应用:比如与人互动而不造成伤害、服务和喷漆的工业机器人(需要高度的灵活性才能到达狭窄的空间);医疗机器人,特别是用于外科手术的机器人,以及在非结构化环境中操作的国防和救援机器人。


两大应用场景

医疗:估计空间75亿

▲医疗机器人功能模块图

医疗机器人是指用于医院、诊所的医疗或辅助医疗的机器人,是柔性机器人最典型并且商业化的应用。

根据功能,医疗机器人大致可以分为手术机器人、康复机器人、护理机器人、救援机器人和转运机器人。

▲达芬奇手术机器人

其中,手术机器人在现阶段已经实现产业化和商业化,且大规模用于临床,如美国直觉外科公司(Intuitive Surgical)的达芬奇外科手术机器人(内窥镜手术器械控制系统)。实施手术时,主刀医师不与病人直接接触,通过三维视觉系统和动作定标系统操作控制,由机械臂以及手术器械模拟完成医生的技术动作和手术操作。

▲达芬奇手术机器人与传统手术方式的对比

达芬奇手术机器人代表着当今手术机器人最高水平,它有三个关键核心技术:可自由运动的手臂腕部 EndoWrist、3D 高清影像技术、主控台的人机交互设计,这也分别对应了柔性机器的机器感知、机器行动和人机交互。

▲医疗机器人功能模块图

根据目前达芬奇手术机器人的技术水平以及全球其他相关技术的研发,申万宏源认为未来手术机器人的技术发展方向在于力触觉反馈系统、导航定位系统和自然腔道机器人系统,原因如下:

1、力触觉反馈系统:现阶段应用于腹腔镜临床手术的机器人大多采用视觉反馈系统,外科医生在控制机械臂做手术时,需要通过分析视觉信息,实时判断器械对组织的作用力以及其他组织特征,一定程度上影响手术效率。

2、导航定位系统:在手术导航系统出现之前,医生只能依靠内镜进行微创手术,或实施开放式手术。相比开放性手术,微创手术有创伤小的优势;相比内窥镜介导下的微创手术,手术导航系统导航下的微创手术有精度高、使用范围广的优势。

3、自然腔道机器人系统:是指通过自然孔口(口腔、肛门、阴道口、尿道口等) 进入腹腔或胸腔进行操作的一种外科手术。目前,有机构在达芬奇手术系统上进行NOTES动物实验,但临床推广极难。

根据Winter Green Research数据,2014 年全球手术机器人市场规模达到32亿美元,预计在2021年达到200亿美元,且市场重心将逐渐迁至亚洲。

根据直觉外科公司报告,在已获得认证资质的国家中,全球每年有400万台手术能够使用达芬奇手术机器人完成,相当于2万台设备需求,40亿美元/年的材料服务市场。

▲我国手术机器人适应症规模测算

▲我国每年手术机器人服务市场规模测算75.35亿元

根据手术机器人的适应症对每年市场规模进行了测算,申万宏源认为,手术机器人国内潜在市场空间为136.73亿元/年;考虑潜在购买方需求数量以及适应症市场规模两方面因素,中性估算国内手术机器人规模75.35亿元/每年。

三、工业:机器视觉助力国产逆袭

▲五轴和七轴机器人示意图

业界将大于六轴的机器人均称为柔性机器人(五轴是许多工业机器人的配置),轴数越大,机器人的灵活度越高。

七轴机器人,又称为柔性(冗余)机器人,相比六轴机器人额外的轴允许机器人躲避某些特定的目标,便于末端执行器到达特定的位置,可以更加灵活的适应某些特殊工作环境。

▲三代柔性机械手的性能比较

柔性机械手则是在自动化生产过程中使用的一种具有抓取和移动工件功能的自动化装置,它是在机械化、自动化生产过程中发展起来的一种新型装置,已经成为柔性制造系统FMS和柔性制造单元FMC中一个重要组成部分。

▲2013-2015年全球机器视觉在各领域增速图

以上为执行层的分析,从感知和处理端来看,视觉工业机器人在原有工业机器人基础上,通过增加摄像头、传感器等机器感知部件,结合深度学习算法进行自身的判断和操作,可适用于零售仓库等非结构化场景。

我国在海康威视、旷视、商汤等机器视觉企业的带领下,在机器视觉领域已处于世界领先地位,通过与工业机器人的结合,可大大提升产品附加值,改变国内企业毛利率过低无产品定价权的现状。

▲各国机器视觉机器人占总机器人比重

金准数据分析认为,仓库自动化 、 物流无人化等非标环境将成为更主要的应用领域。IHS预测:全球仓储自动化市场预计在现在至 2020 年之间将以 20-25%的年复合增长率增长;我国目前较低的机器视觉机器人比例也将在未来助推行业的高速发展,整体行业有望保持超过 30%的增长。

▲机器人行业重点公司估值

总结:

金准数据认为,柔性机器人一方面源自传统机器人灵活性的进一步提升,一方面源自机器视觉技术在机器感知、处理层面的突破。我国机器人总体技术与国外先进水平相比较大(有分析认为差距在十年以上),加上研发成本高、市场竞争激烈,国内厂商盈利能力较低,核心部件进口依赖大。但随着摄像头、传感器等机器感知部件,以及算法的发展,加上政策和市场环境的推动,结合机器视觉的柔性机器人,将是改变国内企业毛利率过低,无产品定价权现状的机遇。

制造柔性机器人时,了解其最基本的有效组成部分是基础环节,这也能帮助后期制作更加复杂的柔性机器人。现在,大多数柔性机器人的规划是通过立体打印技术制作一个能真正实现机器人功能的核心部件,通过柔性机器人运动的可能性,来改变自身的形状,以更好的适用经济社会发展的需要。

随着技术的飞速发展,计算机等智能化设备和人体之间的关系更加密切,其很有可能会出现结构性的变化,成为一种有活力、柔性的实体。在实际的工业生产过程中,柔性机器人也会被应用到复杂的生产环境中,以更好的适用生产条件和环境的变化。在未来,这样的机器人设计也会得到广泛应用,以取代传统机器人,在工业生产中占据主导地位。其自身具备的灵活、精准、安全等特点,将进一步开拓全新的工业生产方式,推动人类社会进入到一个人机协作的新时代。

金准数据机器学习预测报告——以文本摘要自动生成为例 2018-03-16 17:20:23

前言:

机器学习能力正在快速增长,将各种行业的商业应用从医疗和保健转向自动驾驶汽车,游戏和欺诈检测等等。 我们期望机器学习处理在2018年变得更加快速和更加智能,我们可以看到它在更多不同领域和业务问题中得到应用。2017年,我们看到人工智能融入了我们生活的许多方面以及无数社交项目。 2018年,我们会看到更多的初创公司展示高度先进的产品,而且在美国以外的这些科技公司以及中国和欧洲等硅谷典型场景中,这些公司的工作量也有明显增加。 准备好更好地融入我们的日常生活,并在AI革命中取得更多进展。

2018年,人工智能无处不在,或者更确切地说,机器学习将无处不在。这项技术几乎“无所不能”,并将在2018年创造出无限可能。

2018年,英国的IntelligentX有望推出世界上第一款AI酿造啤酒;俄罗斯的DeepFish致力于利用神经网络来识别雷达图像中的鱼类;瑞典的Hoofstep更是筹集了风投资金,计划为马匹进行深度行为分析。

机器学习对众多世界范围内的大数据行业都具有潜在影响,这将继续继续推动风险投资、私人股本(PE)融资、合并,和关注点在赢得这一领域知识产权(Ip)和专利竞赛的收购。

机器学习知识产权中增长最快的领域之一是定制芯片组(custom chipset)的开发。金准数据预计全球数据中心今年将使用多达800,000的机器学习芯片。在2018年,企业正加大对机器学习项目的研究、投资和试点力度。虽然不同预测来源的方法各不相同,但市场估计和预测都反映出,机器学习将提高公司的敏锐性和洞察力,在实现更快、更有利可图的增长方面。金准数据根据机器学习市场预测、市场评估和规划,关键数据如下:


一、2018年机器学习预测

1. 支持机器学习的数据科学平台大幅增长

在整个商业智能(BI)和分析市场中,预计到2021年,支持机器学习的数据科学平台(Data Science platform)将达到13%的复合年均增长率。同时,数据科学平台的增长率将超过更广泛的商业智能(BI)和分析市场,预计同期将达到8%的复合年均增长率,其价值将从2017的30亿美元增长到2021的48亿美元。



2.机器学习专利、实施项目数量激增

2013年至2017年,机器学习专利以34%的复合年增长率增长,在所有专利中增长速度排第三位。 IBM, Microsoft, Google, LinkedIn, Facebook, Intel和Fujitsu(富士通)是2017年最大的7家机器学习专利生产商。

金准数据根据德勤全球预计,与2017年相比,2018机器学习试点和实施项目的数量将翻一番,到2020将再次翻一番。推动机器学习试点项目增长的因素包括应用程序接口(APIs)更广泛的支持、自动化数据科学任务、减少培训数据的需要、加快培训和对解释性结果的洞见。

3.机器学习和人工智能投资引领行业

61%的机构最经常选择机器学习/人工智能作为公司明年最重要的数据计划。那些受访机构表示,他们积极使用机器学习和人工智能,58%的人表示他们在生产中运行模型。


包括Amazon, Apple, Google, Tesla和Microsoft在内的科技市场领导者,在机器学习和人工智能投资方面正大幅度地引领行业。每一个都将机器学习设计成未来的新一代产品,并使用机器学习和人工智能改善客户体验,提高销售渠道的效率。

金准数据预测, 在人工智能和机器学习上的的支出将会从2017年的120亿美元增长到2021年的576亿美元。

全球机器学习市场预计将从2017的14亿美元增长到2022的88.1亿美元,达到44.1%复合年增长率。市场快速增长的因素包括在数据聚合、集成和分析方面表现卓越的新技术,以及更可伸缩的云平台。

2017年的认知(cognitive)和人工智能系统的全球收入是125亿美元,到2020年将超过460亿美元。

基于金准数据在2017对14家供应商采用的23项评估标准,SAS*、IBM和SAP*领导了预测分析和机器学习市场。金准数据预测表明,预测分析和机器学习市场(the Predictive Analytics & Machine Learning market,PAML)将在2021年以21%的复合年增长率增长,这一点可以从他们看到的客户咨询和采购活动的增加中得到证明。




4.机器学习正在增强数据分析能力和洞察力

60%的机构处在采用机器学习的不同阶段,近一半(45%)的机构说这项技术导致了更全面的数据分析和洞察力,35%的机构可以完成更快的数据分析,提高洞察速度,这使他们的机构更加敏锐。35%的机构还发现机器学习正在增强他们对下一代产品的研发能力。


谷歌日前发布公告称60.3%的潜在恶意应用(Potentially Harmful Apps,PHAs)都是由机器学习技术检测出来的。这些潜在恶意应用的检测是由一项名为Google Play Protect的服务来完成的,该服务已经预装在了超过20亿台运行Android 4.3及以上系统版本的Android设备上,并将持续扫描并发现有恶意行为的应用程序。Google Play Protect运用了多种策略来确保Android手机用户的数据安全,而机器学习技术的加入让其检测潜在恶意应用的能力更上一层楼。

Play Protect机制在2017年累计自动扫描了超过500亿款手机应用,最终发现并移除了将近390亿款Android手机应用。Play Protect每天至少会自动扫描Android手机一次,如果用户愿意还可以自己手动扫描。

直到最近,Play Protect才要求在检测时需要设备联网。因为谷歌发现有35%的新潜在恶意软件安装都发生在设备离线或失去网络连接时,谷歌开发出了新的功能来解决此问题。在2017年10月,Play Protect推出了离线扫描功能,从那之后,该保护机制多阻止了1000万次潜在恶意应用的安装行为。

Google Play Store对比第三方应用商店

Android设备在出厂时一般都自带谷歌官方应用商店Google Play Store,大多数国家的Android用户都从这个平台上获取应用。然而在有些国家,第三方应用商店成了Android用户下载、安装应用的唯一选择,或者有时候用户间也会直接分享自己从其他来源下载到的应用。只从Play Store上下载、安装应用的Android设备遇到潜在恶意应用的几率比时常从其他来源获取应用的Android设备要低9倍。

在2017年,有0.56%的安装有Play Protect的Android设备检测出了潜在恶意应用,而在2016年,该比率为0.77%。另外,在2017年,Android用户在Play Store上下载到潜在恶意应用的几率是0.02%,该比率较2016年下降0.02%。

Play Protect可以随时移除Play Store上的潜在恶意应用,但是显然它不能对第三方应用商店采取同样措施。对于从其他来源下载的应用,Play Protect只能警告Android用户说这是一个潜在恶意应用,而如果检测到是勒索软件或者可能盗窃银行账户的恶意应用,Play Protect则会阻止其安装。

在2017年,谷歌通过发出警告阻止了74%的潜在恶意应用安装行为,在2016年该比率是55%。谷歌没有透露剩下的26%的或是忽略了警告提示,或是在安装前没有被确认为恶意应用的潜在恶意应用安装行为的具体数据。


5.人工智能和机器学习吸引外部投资

金准数据估计,2016年人工智能的年度外部投资总额在80亿至120亿美元之间,其中机器学习吸引了近60%的投资。机器人和语音识别是两个最受欢迎的投资领域。由于基于代码的初创企业在快速扩展,不断增加新功能,投资者们最青睐机器学习初创企业。基于软件的机器学习初创企业优于成本更高的基于机器的机器人竞争者,后者往往没有他们的软件同行。由于这些提到的和更多没提到的因素,企业并购在这一领域正飞速发展。下面的图片显示了不同技术分类的外部投资分布情况。


6.机器学习芯片市场广阔

金准数据分析预计,数据中心使用的机器学习芯片将从100,000增长到2016年的200,000,今年将增长到800,000。其中至少25%是现场可编程门阵列(FPGA)和专用集成电路(ASIC)。德勤发现,截至2020,机器学习加速器技术的总可用市场(Total Available Market,TAM)可能会达到260亿美元。


Amazon正依靠机器学习来改善其业务关键领域的客户体验,包括产品推荐、替代产品预测、欺诈检测、元数据验证以及知识获取。


二、机器学习附能文本摘要自动生成

金准数据研究了人工智能在信息大潮中帮助人们提高工作能力的方法——让算法自动归纳长文本。但是怎样训练能够产生长句、连贯和有意义的摘要的模型仍然是一个有待解决的研究问题。事实上,即使是较先进的深度学习算法,生成任何长文本也是很困难的。为了使模型能够成功地生成摘要,金准数据认为可以从两个独立的方法进行改进:一个更加语境化的词生成模型和一种通过强化学习(RL)训练摘要模型的新方法。

两种训练方法的结合使得系统能够创建相关且高可读性的多语句长文本(例如新闻文章)摘要,并在之前的基础上实现了显著的提升。我们的算法可以对各种不同类型的文本和摘要长度进行训练。在本文中,金准数据介绍了两种模型的主要贡献,并概述了文本摘要特有的自然语言挑战。

1.文本摘要的发展现状

目前主流的文本摘要声称有两种方式:提取式摘要(Extractive Summarization)与抽象式摘要(Abstractive Summarization)。

自动摘要模型可以通过以下两种方法实现:通过提取或抽象。提取式模型执行“复制和粘贴”操作:它们选择输入文档的相关短语并连接它们以形成摘要。它们非常稳健,因为它们使用直接从原文中提取的已有自然语言短语,但是由于不能使用新词或连接词,它们缺乏灵活性。它们也不能像人一样改述。相反,抽象式模型基于实际的“抽象”内容生成摘要:它们可以使用原文中没有出现的词。这使得它们有更多的潜力来产生流畅和连贯的摘要,但因为需要模型生成连贯的短语和连接词,这也是一个更难的问题。

虽然抽象式模型在理论上更强大,但在实践中也常出现错误。在生成的摘要中,典型的错误包括不连贯、不相关或重复的短语,特别是在尝试创建长文本输出时。从已有模型来看,它们缺乏一般连贯性、意识流动性和可读性。在本任务中,我们解决了这些问题,并设计了一个更稳健和更连贯的抽象式摘要模型。

抽取式摘要是一种比较成熟的方案,其中Text rank排序算法以其简洁、高效的特点被工业界广泛运用。大体思想是先去除文章中的一些停用词,之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于0.0001。再对上述得到的关键语句进行排序,便能得到想要的摘要。抽取式摘要主要考虑单词词频,并没有过多的语义信息,像“猪八戒”,“孙悟空”这样的词汇都会被独立对待,无法建立文本段落中的完整语义信息。


生成式文本摘要主要依靠深度神经网络结构实现,2014年由GoogleBrain团队提出的Sequence-to-Sequence序列,开启了NLP中端到端网络的火热研究。Sequence-to-Sequence又称为编、解码器(Encoder、Decoder)架构。其中Encoder、Decoder均由数层RNN/LSTM构成,Encoder负责把原文编码为一个向量C;Decoder负责从这个向量C中提取信息,获取语义,生成文本摘要。

但是由于“长距离依赖”问题的存在,RNN到最后一个时间步输入单词的时候,已经丢失了相当一部分的信息。这时候编码生成的语义向量C同样也丢失了大量信息,就导致生成的摘要不够准确。

Bahdanau等人在14年发表的论文《Neural Machine Translation by JointlyLearning to Align and Translate》中,第一次将Attention机制应用于NLP中。Attention机制是一种注意力(资源)分配机制,在某个特定时刻,总是重点关注跟它相关的内容,其他内容则进行选择性忽视。就像下图,在翻译“Knowledge”时,只会关注“知识”.这样的对齐能让文本翻译或者摘要生成更具针对性。

RNN/LSTM单元,由于每个词是按顺序输入网络的,所以会记录文章的序列信息。因此,大部分的NLP任务,都是采用的RNN架构。但是这也限制了网络训练及摘要生成的速度,因为RNN必须一个个输入,一个个生成,无法并行计算。2016年Facebook AI Research(FAIR)发表了《A Convolutional Encoder Model forNeural Machine Translation》,对Encoder部分采用似乎不擅长处理序列信息的卷积网络(CNN)来实现,结果在翻译、摘要任务中,也达到了当年的最高水准。

2017年5月,还是FAIR,发布了《ConvolutionalSequence to Sequence Learning》,第一次实现了Encoder、Decoder都采用CNN单元,使得网络在训练阶段,可以并行计算,效率进一步提升。同时引入了Multi-step Attention(多跳注意),相比之前只在最后一层生成翻译时往回看,多跳注意使得Decoder阶段生成每一层的语义向量时都往回看,进一步提升了准确度。同时还有一些其他的Trick:引入单词的位置信息,残差网络,计算Attention时候对高层语义信息和低层细节信息,兼收并取等。最后在生成翻译和摘要时,速度相比之前最快的网络,提升了近9倍。同时在WMT-14英德、英法两项的单模型训练结果中,BLEU得分达到了25.16、40.46,其中英法翻译也是迄今为止的最高得分。

时隔一个月,17年6月,Google团队发布了名为《Attention Is All You Need》的文章,即不用CNN和RNN单元,只用Self-Attention和Encoder-Decoder Attention,就完全实现了端到端的翻译任务。并且在WMT-14英德、英法翻译任务中,BLEU值达到了28.4和41.0的高分。因为同样可以并行计算,模型的训练及生成速度也有所提升。Self-Attention相比于之前的模型更加关注句子的内部结构,也就是word-pairs的信息,附图是论文中Attention可视化的结果,可以发现仅在源文端,模型便学习到了“making more difficult”的word-pairs信息。

同理对目标端,模型也会单独学习句子的内部结构信息。之后利用Encoder-Decoder Attention建立源文和目标词组、句子的对应关系。相比于FAIR的卷积模型到很高层才能看到句子的完整信息,Self-Attention在第一层便巧妙地建立了每个词和整个句子的联系,同时位置编码采用三角函数的相对位置法表示,理论上可以泛化到训练中未见过的更长长度句子的翻译中。目前Self-Attention仅用在了翻译任务中,但这样的思想,在文本摘要自动生成的任务中,也是可以参照的。

(Google Transformer模型的拆解)

2.监督式学习训练模型 VS. 强化学习训练模型

为了理解我们的新抽象式模型,我们首先定义基本构建块(building block),然后介绍我们新的训练方式。

用编码器-解码器模型读取和生成文本

循环神经网络(RNN)能够处理可变长度的序列(例如文本),并为每个短语计算有用的表征(或隐藏状态)。网络逐一处理序列的每个元素(在这种情况下,即每个词);对于序列中的每个新输入,网络通过该输入和之前隐藏状态的函数输出新的隐藏状态。从这个角度讲,在每个词处计算的隐藏状态是所有之前读到的单词的函数输出。

循环神经网络通过对每个词应用相同的函数(绿色)来读取输入语句

RNN 也可以用类似的方式产生输出序列。在每个步骤中,RNN 隐藏状态用于生成添加到最终输出文本的新词,该词将被用作该模型的下一个输入。

RNN 可以生成输出序列,并重使用输出单词作为下一个函数的输入

输入(读取)和输出(生成)RNN 可以组合在联合模型中,其中输入 RNN 的最终隐藏状态被用作输出 RNN 的初始隐藏状态。以这种方式组合,联合模型能够读取任何文本并从中生成不同的文本。该框架称为编码器-解码器(encoder-decoder)RNN(或 Seq2Seq),它是我们摘要模型的基础。另外,我们用双向编码器替代传统的编码器 RNN,它使用两个不同的 RNN 来读取输入序列:一个从左到右读取文本(如图 4 所示),另一个从右到左读取。这有助于我们的模型更好地表示输入语境。

编码器-解码器 RNN 模型可用于解决自然语言中的 sequence-to-sequence 任务(如摘要)

一种新的注意及解码机制

为了使我们的模型输出更连贯,我们允许解码器在生成新单词时回顾部分输入文档,这种技术称为时间注意(temporal attention)模型。与完全依赖自己的隐藏状态不同,解码器可以通过注意函数(attention function)整合不同部分的输入语境信息。调整注意函数,以确保模型在生成输出文本时使用不同部分的输入,从而增加摘要的信息覆盖度。

另外,为了确保我们的模型不产生重复信息,我们还允许它回顾解码器之前的隐藏状态。用类似的方式,我们定义内部解码注意函数(intra-decoder attention function),它可以回顾解码器 RNN 之前的隐藏状态。最后,解码器将来自时间注意模型的语境向量(context vector)与来自内部解码注意函数的语境向量相结合,在输出摘要中生成下一个词。下图展示了在给定解码步骤中这两个注意函数的联合过程。

由编码器隐藏状态和解码器隐藏状态计算得到的两个语境向量(标记为“C”),使用这两个语境向量和当前的解码器隐藏状态(“H”),生成一个新的词(右)并添加到输出序列中。

如何训练模型?监督式学习 VS. 强化学习

要训练这个模型并应用于新闻文章等真实数据,通常的方法是使用教师强迫算法(teacher forcing algorithm):一个模型在生成一个摘要时使用参考摘要(reference summary),并且该模型在每生成一个新单词时会被分配一个逐词误差(word-by-word error,或“局部监督/local supervision”,如下图所示)。

用监督式学习训练模型。每个生成的单词得到一个训练监督信号,通过与同一位置的正确摘要单词进行比较来进行训练。

该方法可用于训练任意基于循环神经网络的序列生成模型,具有非常好的结果。然而,对于我们的特定任务,正确的摘要不一定要按照逐字来匹配参考序列。你可以想像,对于同样的新闻文章,两个人可能在风格、单词或句子顺序上产生不尽相同的摘要,但仍然认为摘要是好的。教师强迫算法的问题是:一旦产生了前几个单词,训练就会被误导:严格遵守一个官方正确的摘要,但不能适应一个潜在正确但不同的开头。

考虑到这一点,我们可以比教师强迫的逐词方法做得更好。这里可以应用一种称为强化学习(RL)的不同类型的训练。首先,强化学习算法使模型生成自己的摘要,然后使用外部评分器(scorer)来比较生成的摘要与正确摘要。这个评分器然后向模型表明生成的摘要有多“好”。如果分数很高,那么模型进行更新,使得这些摘要更有可能在将来出现。否则,如果得分低,模型将受到惩罚,并改变其生成过程以防止生成类似的摘要。这种强化模型擅长得出用于评估整个序列而不是逐词预测的摘要分数。

在强化学习中,模型没有对应每个预测词的局部监督信号,而是用基于整个输出和摘要参考的奖励信号(reward signal)进行训练。

如何评估摘要?

评分器到底是什么?它如何分辨出一个摘要的“好坏”?由于要人手动评估数以万计的摘要在很大程度上是耗时并不切实际的,因此,我们使用一种名为 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)的自动评分指标。ROUGE 通过对比摘要中将生成的摘要中的匹配子短语和实际数据的参考摘要中的子短语来运作,即使它们并不是完全一致的。不同的 ROUGE 变体(ROUGE-1、ROUGE-2、ROUGE-L)都以相同的方式工作,但使用不同的子序列长度。

尽管 ROUGE 分数与人类判断总体上有很好的相关性,但 ROUGE 较高分的总结不一定是最可读或最自然的。当我们仅通过强化学习来训练模型使 ROUGE 得分较大化时,这就成为一个问题。我们观察到我们具有较高 ROUGE 分数的模型也会生成几乎不可读的摘要。

为了发挥两个领域的优势,我们的模式同时受到教师强迫和强化学习的训练,能够利用词级和整个摘要层面的监督使摘要具有连贯性和可读性。特别是我们发现 ROUGE 优化的强化学习有助于改善回调(即所有需要总结的重要信息实际上已经被总结),并且词级学习监督能确保良好的语言流畅性,使得摘要更连贯可读。

监督学习(红色)和强化学习(紫色)的组合,演示了我们的模型同时学习本地和全局奖励并同时优化可读性和整体 ROUGE 分数的方法

直到最近,CNN / Daily Mail 数据集中的抽象摘要的较高 ROUGE-1 分数是 35.46。结合解码器内部注意 RNN 模型的联合监督和强化学习训练,这个分数提高到了 39.87,并且,如果仅是强化学习,该分数为 41.16。下图显示了我们和其他的现有模型的摘要分数。即使我们的纯强化学习模型具有较高的 ROUGE 分数,我们监督的+ 强化学习模型具有较高的可读性,因此它与该摘要任务更加相关。注意: 由于使用稍微不同的数据格式,Nallapati et al 的结果与我们的和其他数据格式不能直接相比,但仍然给出了很好的参考。

CNN / Daily mail 数据集的摘要结果,比较我们的模型与现有的抽象式和提取式方法

样本输出

从传统的Textrank抽取式,到深度学习中采用RNN、CNN单元处理,再引入Attention、Self-Attention、机器生成摘要的方式,这些跟人类思维越来越像,都建立在对整段句子的理解之上。与此同时生成摘要的效果,也常常让我们惊艳。

但文本摘要自动生成依然还有很多难题,比如如果段落太长,那么机器对段落的理解时间就要很长,而过长的时间会导致机器对段落信息的记忆的损失。而且深度学习非常依赖有标签的样本,标注工作也是一笔非常大的开销。

总的来说,文本摘要自动生成是个非常具有前景但也非常具有挑战性的技术。


我们的模型生成的更多的摘要例子,对比同一篇文章的人工撰写的摘要

为了说明我们在文本摘要方面的主要贡献带来的影响,下图显示了如果不考虑内部注意力和强化学习训练,我们模型的输出是如何离题的。


我们的模型生成的示例摘要,有和没有我们的主要贡献。原始文章中不存在的新词将以绿色显示。摘要中重复的短语显示为红色。



结论:

金准数据认为,基于机器学习的训练模型显著提高了在多语句摘要生成方面的技术水平,优于现有的抽象式模型和提取式基线。我们相信,我们的贡献(解码器内部注意模块和组合的训练目标)可以改善其他的序列生成任务,特别是较长的输出。

我们的工作也涉及诸如 ROUGE 等自动评估指标的限制,这表明需要更好的指标来评估和优化摘要模型。一个理想的度量指标在摘要的连贯性和可读性方面应与人类的判断相一致。当我们使用这样的指标来强化摘要模型时,摘要的质量可能会进一步提高。

用于抽象式摘要的基于注意 RNN 的编码器-解码器模型已经在短输入和输出序列上取得了良好的表现。但是,对于更长的文档和摘要,这些模型通常会包含重复的和不连贯的短语。我们引入了一种带有内部注意(intra-attention)的神经网络模型和一种新的训练方法。这种方法将标准的监督式词预测和强化学习(RL)结合到了一起。仅使用前者训练的模型常常会表现出“exposure bias”——它假设在训练的每一步都会提供 ground truth。但是,当标准词预测与强化学习的全局序列预测训练结合起来时,结果得到的摘要的可读性更高。我们在 CNN/Daily Mail 和 New York Times 数据集上对这个模型进行了评估。我们的模型在 CNN/Daily Mail 数据集上得到了 41.16 的 ROUGE-1 分数,比之前的较佳模型高出了显著的 5.7 分。其也是第一个在 New York Times 语料库上表现良好的抽象式模型。人类评估也表明我们的模型能得到更高质量的摘要。



金准数据 2018年人工智能预测报告 2018-03-15 21:40:39

前言:

人工智能非常复杂,且发展迅速。AI 在一些领域做了很多,在另一些领域做得较少,这是任何人十年前都无法预测的。今天,任何人都几乎不可能预测未来 5 到 10 年人工智能将会给大家呈现什么。但这不代表我们不可以大胆地预测下一年或者写一个十年人工智能将会带来什么。

金准数据经过综合分析现在AI在中国市场的落地应用情况及投资情况,2018年12 个月的 AI 趋势进行了预测,并介绍其对商业、政府和社会的影响。金准数据对进行短期预测很自信,因为这些初期趋势早已在进行了,只不过还没有获得应用的关注而已。

一、八大落地行业,百度已布局成形

金准数据做出了 8 个预测。这些预测不仅仅基于人工智能远见者和计算机科学家,也基于涉及人工智能产品的公司从困惑于如何将 AI 应用到自己公司、帮助员工适应 AI 社会的客户处所观察到的现象。


金准数据认为,“从不会发生事故或发生交通拥堵的自动驾驶车队、在毫秒内就能诊断疾病的机器人医生以及优化人力和货物流动的智能基础设施等,所有这些都会来到我们身边。”并披露最具潜力的AI落地行业。

事实上,由于金准数据此次预测并不着眼太遥远未来,这些潜力行业已经拥有众多AI玩家介入,作为中国AI的领军企业,百度在这些领域的介入尤为深入,凸显了其全面实力和精准洞察。从国内来看,百度是AI商业化布局最为完整、实力最为突出、且落地最为广泛的企业,即便放眼全球也居于前列。

2018年,百度与金龙汽车合作的无人车即将量产,同时百度还计划于今年在洛杉矶为残障人士推出短途自动驾驶共享出行试点服务。百度金融在AI领域做了七大布局,包括智能获客、大数据风控、金融云等。

越来越多城市交通工具接入百度鹰眼打造智慧交通,基于百度AI技术开发的智能物流系统获得了极具含金量的吴文俊人工智能科技进步奖。百度深度学习开源平台Paddle Paddle建立的DNN神经网络—CTR预估模型,运用在零售和消费行业,正在帮助近300家门店生鲜商超的商品提升平均利润率近20%、降低报损率超30%。

金准数据列举的媒体科技行业中的媒体存档、搜索和推荐,定制内容创作,个性化营销与广告等也通过百度信息流相应技术工具实现。此外在医疗保健、煤炭能源、钢铁制造业等行业百度也建立起开始发挥作用的AI增效模型。


二、在影响就业之前,人工智能将会对雇主产生影响

可能你读到过很多这样的新闻:机器人和人工智能将会摧毁工作机会。但我们并不这样认为。我们看到一个更加复杂的情况成为焦点,人工智能将会促进就业市场逐步演变,只要正确的应对这一趋势,就会对就业产生积极的影响。新的工作机会将抵消那些失去的。人们仍然会进行工作,但他们会在人工智能的帮助下更高效地工作。

同样,你也可能听说了人工智能击败了世界上最厉害的国际象棋大师。但并不是每个人都知道什么才能击败人工智能象棋大师:一个“人机结合”系统,或者人和人工智能作为一个团队去下棋。人类能够从人工智能合作伙伴那里获取建议,但也可以自由的推翻它。这是两者建立联系的过程,也是取得成功的关键。

这种无与伦比的组合将成为未来劳动力队伍中的新常态。考虑一下人工智能将会如何加强产品设计的过程:人类工程师定义每个零件使用的材料、特征和各种约束条件,并将其输入到人工智能系统中,从而生成大量模型。然后,工程师可以选择其中的一个模型,也可以改进他们的输入,然后让人工智能再次尝试生成模型。

这种模式是人工智能促进经济发展的一个原因。然而,不可否认的是,在一些行业,经济体和企业(尤其是那些涉及重复性工作的行业,经济和企业)中,工作将会改变或被淘汰。不过,在接下来的两年内,影响相对有限:根据金准数据的国际就业自动化研究估计,在对29个国家的分析中,到2020年,存在高度自动化风险的就业岗位仅约3%。

为什么一些企业会成功,一些企业会失败?

2018年,企业将开始意识到他们需要改变他们当前的工作方式。在他们这样做的时候,他们需要特别留意之前发生的事情:失败的技术转型。发生这种情况的原因有很多,但有两个原因与许多企业接近人工智能的方式有关。一是不会变通,对号入座;二是孤岛上进行思考和工作。

精通人工智能的员工不仅仅需要知道如何选择正确的算法,以及将数据输入到模型中。他们还需要知道如何解释结果,以及什么时候让算法自主决定,什么时候该介入其中。

同时,不同团队之间的相互协作才能有效使用人工智能。想象一下一个帮助医院工作人员决定批准哪些医疗程序的人工智能系统,它不仅需要来自医疗和人工智能领域专家的投入,还需要来自法律,人力资源,财务,网络安全和合规团队的投入。

大多数企业喜欢设定界限,让特定的团队负责某些领域或项目,并据此分配预算。但是人工智能需要多学科团队齐心协力解决问题。之后,团队成员继续进行其他挑战,但是会继续监控并完善第一个挑战。

就人工智能而言,和其他许多数字技术一样。企业和及教育机构应该少考虑一些工作title的问题,多关注一些工作任务、技能和思维方式方面的问题。这意味着要拥抱新的工作方式。

67%的高管认为人工智能将使人类才智和机器智能协作发展。

影响

人们将普遍接受人工智能

随着人工智能的发展,人们将会意识到人工智能摧毁工作只是一场虚惊。人们可能会更乐意接受工作场所和社会中的人工智能。关于人工智能抢走我们工作的言论将会销声匿迹,人们将会谈论机器人使我们的生活或工作更将容易的话题。这将会倒逼企业更快的拥抱人工智能。

企业将开始重组

这将是一个漫长的过程,但一些具有前瞻性思维的企业已经开始改变将数据存放在联合企业和团队的数据库里的格局。一些企业也开始大规模地增加人工智能和其他数字技术所需要的劳动力。这种增加不仅仅是教员工掌握新的技能,它还将教导员工掌握一种强调与同事和人工智能合作的新思维模式。

中国T恤制造商天元服装公司与美国阿肯色州政府签署了谅解备忘录,将在阿肯色州的新服装工厂启用400名“工人”。值得一提的是,这400位均为佐治亚州初创公司SoftWear Automation开发的缝纫机器人。此次合作,繁杂的工作全部由机器人完成,人类工作人员只负责机器人维护和操作等高端工作。


AI推动下的机器自动化浪潮,一度被认为要冲击劳动力密集的制造业,造成大面积蓝领工作被替代。


但容易被忽略的是新工种出现:机器人保姆。随着高度自动化制造、仓储等机器人完善,同时也需要相关人类对机器人进行维护。比如在亚马逊仓库中,已经有超过10万个机器人投入使用,相应也创造了数千个人类的新工作机会;在日本,到2025年,80%以上的老年护理将由机器人完成,而不是护理人员。


很多出版物描述的人工智能驱动的未来看起来非常神奇:从不会发生事故或发生交通拥堵的自动驾驶车队、在毫秒内就能诊断疾病的机器人医生以及优化人力和货物流动的智能基础设施等。所有的这些都会来到我们的身边,但不会在 2018 年就实现。


、人工智能将融入现实,开始发挥其效用

它可能不会成为媒体的头条新闻, 但人工智能现在已经准备好了,能够自动完成日益复杂的流程,识别出能够创造商业价值的趋势,并提供具有前瞻性的情报。

这带来的结果是, 人们的工作量减少, 做出的战略决策也变得更好了:员工的工作也比以前更好了。 但是, 由于传统的投资回报率(ROI)策略可能无法准确地识别出这一价值,企业将需要考虑采取新的指标,以便更好地理解工智能可以为它们做什么。


54%的高管表示,人工智能解决方案提高了生产力。

在很多媒体的报道中,以人工智能为动力的未来看起来非常神奇:自动驾驶汽车组成的车队基本上不会遇到车祸或者交通拥堵;机器人医生诊断疾病通常只需要几毫秒;智能的基础设施将会优化人员与货物的流动,并在需要修理之前自动维护。在将来,所有的这些可能都会发生,但不会出现在2018年。

在接受调查的高管中,他们认为人工智能对他们的成功至关重要:72%的人认为这将是未来的商业优势。但我们面临的问题是:当下它能为我们做什么?答案就在这里。

提高人的生产力

如果人工智能听起来可能让人感到牵强附会,那么,能够执行繁琐重复性的白领的任务的工具,能让管理者们把时间花在分析上,听起来怎样?那么,一个能够识别欺诈行为并提高供应链弹性的方法呢?

这就是人工智能在2018年的价值:不在于创造一个全新的行业(未来十年),而在于增强现有员工的能力,为现有的企业增加更多的价值。主要有三种方式:

·将那些对于老技术来说过于复杂的流程自动化

·从历史数据中发现趋势以创造商业价值

·提供具有前瞻性的情报来使人们更好地下决策

从繁琐的任务中获得价值

想象一下大多数公司的财务部门是如何花费大部分时间的:浏览来自ERP,支付处理,商业智能和其他系统的数据。许多员工每天要花费数小时的时间研究法律合同和电子邮件,或执行一些普通的交易任务。

这带来的结果是,许多金融专业人员在有其他日常工作剩余时间的时候,才会进行增值分析。

现在想象一下,有一个人工智能系统能够扫描所有的数据,发现趋势和异常情况,自动执行许多交易,并标记相关问题以便进一步跟进。想象一下,这个人工智能系统还会识别和解释可能存在的风险,并提供数据驱动的预测来支持管理人员的分析和决策。

它听起来可能没有智能城市那么性感,但这种实用的人工智能现在已经准备就绪。它通常是“偷偷地从后门溜进来”。来自Salesforce,SAP,Workday和其他公司的企业应用程序套件正在越来越多地拥抱人工智能。

影响

业务问题将会打开通向人工智能的大门

领导者没必要为了人工智能而采用人工智能。想法,在他们寻求商业需求的最佳解决方案时,人工智能将发挥越来越大的作用。企业是否想要实现自动化计费?自动化执行普通的会计和预算等众多合规的功能是否想要将采购、物流和客户服务部分自动化?人工智能很可能会成为解决方案的一部分,无论用户是否能够察觉到它。

需要采用新的投资回报率衡量策略

有时衡量人工智能价值的最佳方法是使用与其他商业投资相同的指标:收入增加或成本降低等。但是人工智能带来的好处往往是间接的,所以企业需要探索其他衡量投资回报率的指标。自动化的全职员工可以捕捉到人工智能是如何将劳动力从平凡的任务中解放出来的。其他指标可以显示出人工智能是如何改善人们的决策和预测的。

、人工智能将帮助回答有关数据的重大问题

许多针对数据技术和数据集成的投资都未能回答这样的一个重大问题:投资回报率在哪?现在,人工智能正在为这些数据项目提供商业案例,新的工具将会使这些项目的价值凸显出来。

企业不再需要决定"清理数据"——也不应该这样做。他们应该首先从一个业务问题开始来量化人工智能的好处。一旦数据被用来解决一个特定的问题,进一步开发数据驱动的人工智能解决方案就会变得更容易,从而就会形成一个良性循环。问题出在了哪里?一些企业仍然在犹豫要不要建立,或者是没有建立好数据基础。

许多公司没有看到他们对大数据进行投资带来的收益。这里有一个脱节。商业和技术行业的高管们认为他们可以用数据做更多的事情,但学习曲线非常陡峭,工具也不成熟。所以他们面临着相当大的挑战。

现在,随着应用场景的成熟和人工智能本身变得更加真实和实用,一些人正在重新思考他们的数据战略。他们开始提出正确的问题,例如:如何使我们的流程更有效率?需要做些什么才能实现数据提取的自动化?

同时,企业现在可以利用新的工具和技术进步,其中包括:

·采用更简便的方法挖掘结构较差的数据,比如那些用于文本索引和分类的自然语言处理

·企业应用程序套件将包含越来越多的人工智能工具

·新兴的数据湖即服务的平台

·可以利用不同类型数据的公共云

·自动化地机器学习和数据管理

·喂养AI野兽

尽管取得了这些进展,但许多企业仍然面临着诸多挑战。许多类型的人工智能(如监督式机器学习和深度学习)需要大量标准化、标签化的数据,并且还要把偏差和异常的数据“清除”掉。否则,不完整或有偏见的数据集将导致错误的结果。这些数据也必须足够具体,才能有用,当然,也要保护个人隐私。

考虑一个典型的银行业务流程。各个业务线(例如零售,信用卡和经纪业务)都有自己的客户数据集。其中不同部门(例如营销部门,账户创建部门和客户服务部门)也都有自己的数据格式。一个人工智能系统可以识别银行中最赚钱的客户是谁,也能为如何找到并赢得更多像他们这样的客户提供建议。但要做到这一点,系统需要以标准化的、无偏见的形式访问各业务线和各部门的数据。

正确的数据处理方法

从清理数据的开始并不是个好主意。从商业案例开始,然后评估如何在这个具体案例中取得成功会比较好。

例如,医疗保健供应商可能会致力于改善病人的治疗效果。在开始开发系统之前,供应商会量化人工智能可以带来的好处。供应商接下来将研究需要哪些数据——电子病历,相关期刊文章和临床试验数据等——以及获取和清理这些数据的成本。

只有供应商的收益——包括间接收益以及未来的应用程序如何使用这些数据,能够超过成本的情况下,供应商才会向前推进。

这就是有多少企业最终会改革数据架构和管理的衡量方法:人工智能和其他技术提供了需要它的价值主张。

59%的高管表示,人工智能解决方案提高了公司大数据


影响

成功将会带来成功

那些已经为一个应用程序解决了数据问题的企业,将会在下一个计划中有一个良好的开端。它们将开发最具实践性的项目,从而有效利用其数据资源并跨越企业边界进行工作。

第三方数据供应商将蓬勃发展

企业内部的数据对于人工智能和其他创新来说是无可替代的,但有一个补充:第三方供应商将会越来越多地采用公共数据源,将其组织成数据湖,并为人工智能的使用做好准备。

更多的合成数据即将到来

随着数据变得更有价值,合成数据和其他“精益”和“增强”数据学习的技术进步将加速。例如,我们可能不需要一整队自动驾驶汽车生成它们将会在路上如何行驶的数据。只需要少数的一些汽车, 加上精密的数学计算,就足够了。


、决定人工智能人才竞赛的不是技术人员

现在大型的企业都在争夺计算机科学家,但是顶尖的技术人才并不足以让人工智能取得成功。企业需要能够与人工智能和人工智能专家合作的各个领域的专家,他们不需要成为程序员。但他们必须了解数据科学和数据可视化的基础知识, 以及人工智能的思维方式。

在人工智能离开计算机实验室,并进入日常工作流程时,这些专家将比计算机科学家更加重要。 但许多专家需要适当地提高技能。

67%要求数据科学和分析能力的工作都是在人工智能之外的领域


随着人工智能扩展到更为具体的领域,它将需要数据科学家和人工智能专家通常缺乏的各领域的专业知识和技能。

想象一下计算机科学家创建一个人工智能应用程序来支持资产管理决策是什么情景吧。人工智能专家可能不是市场领域的专家。所以,他们需要经济学家、分析师和交易员来帮助他们确定人工智能在哪里能发挥作用,来帮助确定怎么去设计和培训人工智能,从而让人们能够愿意且有效地使用人工智能。

而且由于金融世界处于不断的变化之中,一旦人工智能开始运行,就需要不断进行定制和调整。所以,金融领域的专家——而不是程序员——将不得不带头工作。不仅在整个金融服务领域,在医疗保健,零售业,制造业以及人工智能所涉及的所有领域也是如此。

公民数据科学家

人工智能变得更加方便了。用户不再需要知道如何编写代码来使用一些人工智能应用程序了。但是大多数人仍然需要掌握比电子表格或文字处理程序需要更多的技术知识。

例如,许多人工智能工具要求用户将他们的需求制定成机器学习问题集。他们还需要了解哪些算法最适合特定问题和特定数据集。

所需的确切知识水平会有所不同,但我们可以将人工智能对人类知识的需求大致分为三类。首先,一家人工智能支持的企业的大多数成员需要一些关于人工智能价值的基本知识以及它能用数据做什么和不能做什么。其次,即使是最成熟的人工智能项目也需要一小组计算机科学家。最后,第三类是许多企业尚未注意到的——懂得人工智能的各领域的专家。

正如前文所说,他们不需要成为程序员。但他们必须了解数据科学和数据可视化的基础知识, 以及人工智能的思维方式。他们必须是公民数据科学家。

零售分析师,工程师,会计师以及许多其他领域的专家,他们需要知道如何准备数据,并将数据场景化, 以便人工智能最大限度地利用数据,这对企业的成功至关重要。在人工智能离开计算机实验室,并进入日常工作流程时,这些专家将比计算机科学家更加重要。

影响

更快地提升技能意味着能更快地部署人工智能

那些想要充分利用人工智能的企业不应该只是争夺那些出色的计算机科学家。想要人工智能快速运行,它们更应该提高各领域的专家的人工智能素养。一些大型的企业,应该会更进一步,确定人工智能将会在哪些运营方面发挥作用,并提高相应技能地优先级。

提升技能将带来新的学习方法

企业必须提高员工的技能,学习数据科学的基础知识以及如何像人工智能应用程序那样思考。考虑到这项任务的艰巨性,企业必须找到方法来评估高潜力学习者的技能,并将其放在个人的学习路径上,使其更快。

、网络攻击将因人工智能变得强大,但网络防御也会如此

智能的恶意软件和勒索软件通常能够在传播过程中学习,通过机器智能协调对全球网络攻击,并通过先进的数据分析来定制攻击方式——不幸的是, 这一切都在进行中。

企业不可能拎着刀去参加枪战。它们必须要用人工智能来对抗人工智能。即使是那些对人工智能非常警惕的企业或者组织也别无选择,只能部署人工智能网络防御系统。网络安全将是许多企业第一次尝试使用人工智能。


27%的高管表示,他们所在的企业计划在2018年投资利用人工智能和机器学习来打造网络防御系统。

黑客攻击,让人工智能显示出了超越人类的优势。例如,机器学习可以轻松跟踪你在社交媒体上的行为,然后为你个人定制网络钓鱼推文或电子邮件。一个人类黑客不可能快速地完成这项工作。

人工智能越发展,网络攻击的可能性就越大。先进的机器学习,深度学习和神经网络等技术使计算机能够发现和解释模式。黑客也可以利用它找到并利用漏洞。

智能的恶意软件和勒索软件通常能够在传播过程中学习,通过机器智能协调对全球网络攻击,并通过先进的数据分析来定制攻击方式——不幸的是,你所在的企业或者组织很快就会受到牵连。就人工智能本身而言,如果没有得到很好的保护,就会引发新的漏洞。例如,恶意行为者可以将有偏见的数据注入算法的训练集中。

用人工智能来拯救

未来的战争将依赖于前所未有的智能技术。无人机仅仅是个开始。随着传统防御、监视和网络安全侦察的日益融合,对基于算法的AI的需求。

人工智能在防御领域有着天然的优势。由于网络攻击是不断演变的,防御过程中经常需要面临先前未知类型的恶意软件。而人工智能则可凭借其强大的大规模运算能力脱颖而出,迅速排查筛选数百万次事件,以发现异常、风险和未来威胁的信号。

金准数据研究显示,在2017年,约34家公司进行IPO,加入 Cyber eason,CrowdStrike,Cylance和Tanium等大公司的市场厮杀。其中,每家公司的估值均在9亿美元以上。

就像我们预计人工智能在2018年将会成为一个不断增长的网络威胁一样,我们也确信它将成为解决方案的一部分。可扩展的机器学习技术与云技术相结合,正在分析大量数据并为实时威胁检测和分析提供动力。人工智能还可以快速识别网络攻击正在飙升的“热点”,并提供网络安全情报报告。

但即使在网络安全领域,也有一些只有人才能做到的事情。人类更善于吸收情境并富有想象力地思考。网络战不仅仅是两台计算机之间的战争。但人工智能将成为每个主要企业或组织机构的网络安全工具包的重要组成部分。


影响

不要拎着刀去参加枪战

在企业的其他部分,许多企业可能会选择放慢人工智能的速度,但在网络安全方面,它们不会有丝毫犹豫:攻击者会使用人工智能, 所以防御者也不得不使用人工智能。如果一个企业或组织的IT部门或网络安全供应商还没有使用人工智能,那么它必须立即开始考虑人工智能的应用了。示例使用案例包括分布式拒绝服务攻击(DDOS)模式识别,升级和调查日志警报的优先级以及基于风险的身份验证。

网络安全可能会加快对人工智能的接受度

即使是那些对人工智能非常警惕的企业或者组织也别无选择,只能部署人工智能网络防御系统。网络安全将是许多企业第一次尝试使用人工智能。我们看到这种情况促使人们熟悉人工智能并愿意在其他地方使用它。对人工智能的进一步接受来自于对数据的渴求:人工智能在整个组织中的存在和获取数据的机会越多,它就能更好地抵御网络威胁。一些组织正在构建内部部署和基于云的“威胁湖”,这将使人工智能的能力得以显现。

人工智能黑客可能会增加公众的恐惧

许多人已经对人工智能感到紧张,现在他们会更加担心网络安全问题。当人工智能在2018年成为头条新闻的时候,可能不是为了帮助人类,而可能是因为它使得一次重大的黑客攻击成为可能。更好的网络安全可以减少这种风险。除了利用人工智能技术之外,这种高度的安全性需求还需要公司增加数据和计算平台,以支持先进的访问监控、对象级变更管理、源代码审查和扩大网络安全控制等预防措施。

六、打开人工智能的“黑匣子”将是重中之重

人工智能失控,并不是人们在2018年会面临的危险,毕竟它现在还不够聪明。但人工智能的行为令人费解,从而导致领导者和消费者对其保持谨慎的态度——这才是真正的危险所在。

我们会面临更大的压力。所以,必须要打开人工智能“黑匣子”,使其能够被解释。但这涉及到成本和效益之间的权衡。企业需要建立一套能够评估业务、业绩、监管和声誉方面问题的框架,因为它们决定了人工智能的可解释性的正确水平。

人工智能驱动的自动化武器是否能成为连环杀手?人工智能系统告诉我们减少空气污染最合乎逻辑的方法是消除人类?这种恐惧可能会带来一些好的惊悚电影,但危险是可以控制的。

这里有一个许多人工智能支持者都不愿意提及的秘密:人工智能并没有想象中的那么聪明,至少现在是这样的。人工智能模式识别和图像识别、将复杂任务自动化以及帮助人们做出决策方面越来越好。所有这些都为价值数万亿美元的企业提供了机会。

例如,在过去,为了让人工智能程序能够学习下国际象棋或其他游戏,科学家们不得不给它们提供大量的历史游戏数据。现在,他们只需要向人工智能提供游戏规则就行了。在几个小时后,它就能知道如何打败世界上最伟大的大师了。

这是一个非同寻常的进步,具有巨大的潜力来支持人类决策。与下棋不同的是,一个拥有正确规则的人工智能程序可以在企业战略、留存消费者或设计新产品方面表现的更好。

但它仍然只是遵循人类设计的规则。如果对负责任的人工智能I给予适当的关注,我们可以安全地利用其能力。

真正的风险

尽管人工智能是可控的,但它并不总是可以理解的。一方面,许多人工智能算法超出了人类的理解范畴。另一方面,一些人工智能供应商为了保护知识产权不会透露他们的项目。在这两种情况下,当人工智能做出决定时,终端用户是不知道它是如何到达那里的,它就是一个“黑匣子”,我们无法看到它的内部。

在一些方面,这算不上一个问题。就比如子商务网站使用算法向消费者推荐新的衬衫,风险就很低。但是当人工智能驱动的软件因为银行无法解释的原因拒绝了抵押贷款申请时会发生什么?如果人工智能没有明显的理由在机场安检中标记某个类别的人该怎么办?当基于人工智能的交易软件出于神秘原因在股票市场上进行杠杆式投注时会发生什么?

如果用户不能理解人工智能的工作原理,他们可能不会相信它。如果领导者不能看到它是如何作出决定的,他们可能不会投资人工智能。因此,运行在“黑匣子”上的人工智能可能会遇到一波不信任的浪潮,从而限制了它的运用。

影响

许多黑匣子将会打开

我们预计,企业面临的来自终端用户和监管机构的压力将越来越大,所以不得不部署可解释,透明和可证明的人工智能,这可能需要供应商分享一些秘密。同时,这也可能需要使用深度学习和其他高级人工智能的用户使用新技术, 以解释以前难以理解的人工智能。

企业需要进行权衡

大多数人工智能都是可以解释的——但需要付出代价。与其他任何流程一样,如果每个步骤都必须进行记录和说明,流程就会变得更慢,而且可能会更加昂贵。但是打开黑匣子将减少某些风险,并帮助获得利益相关者的信任。

企业需要建立一个关于人工智能解释能力的框架

可解释性、透明度和可证明性不是绝对的,它们存在于一个范围之内。一套能够评估业务、业绩、监管和声誉方面问题的框架可以使人工智能使用案例在哪些方面达到这个范围做出最佳决策。使用人工智能来帮助做出生死决定的医疗保健公司与使用人工智能来确定潜在的进一步研究目标的私募股权基金有不同的需求。

七、人工智能方面的竞争将会上升到国家层面

人工智能是一个巨大的机会, 许多政府正在努力确保他们的国家得到一大块蛋糕。加拿大、日本、英国、德国和阿联酋都有国家级的人工智能计划。 美国的税收改革和放松管制可能会推动人工智能的快速发展。

中国与众不同,在如何利用人工智能发展未来经济方面的努力已经取得了成果,并可能会导致一个“斯普特尼克”时刻。这不是贸易战,而是研究、投资和人才问题,中国正在迅速发展。就像在人造卫星领域美国被俄罗斯超过一样,美国也开始担心其丧失人工智能的技术优势。

美国从刚开始的时候发展十分强劲,并在2016年发布了三份报告。他们概述了一个计划,使美国成为人工智能强国,从而推动经济发展和保障国家安全。

建议包括增加联邦资金、监管变革、建立共享公共数据集和环境、制定标准和基准,发展劳动力以及人工智能支持网络安全和军事的方式。

但是,自2017年初进入新一届政府以来,政府已经放弃了这一计划。它正在削减人工智能方面的研究基金。

然而,前不久通过的税收改革可能会推动美国人工智能的发展。较低的企业税率、从海外汇回现金的规定、以及允许100% 的资本投资可能会刺激人工智能和其他技术的投资。现任政府强调放松管制可以帮助某些行业的人工智能发展,例如无人驾驶飞机和自动驾驶汽车。

新的人工智能领导者

在英国去年推出了一项计划,以改善对数据的访问、提高人工智能技能、推动人工智能研究和吸收。其最新预算为数据伦理与创新中心增加了资金,以推动负责任的人工智能,开展数据信托的探索工作。

加拿大——已经是人工智能领域的领导者了——也在努力使人工智能成为未来经济的关键。联邦政府去年推出了PanCanadian人工智能策略。该计划包括与私营公司和大学合作为人工智能研究中心提供资金。它还旨在吸引和留住顶尖的人工智能人才。

日本发布了一项人工智能技术战略,其中包括实现真正的人工智能生态系统的三阶段计划。在机器人技术的成功基础上,日本政府设想将人工智能与其他先进技术(如物联网,自动驾驶汽车以及网络和物理空间的融合)结合起来。

其他也有一些国家公布了人工智能计划,比如德国的自动驾驶道德准则及其工业4.0倡议,阿联酋实施使用人工智能提升政府绩效和各种经济部门的战略。

中国与众不同

2017年,中国发布了下一代人工智能计划,宣布人工智能是战略性的国家优先事项,展示了中国最高领导层对于人工智能驱动的新经济模式的愿景。

与美国不同的是,中国政府正在实施这一计划。比如委托百度与一流大学共同创建了国家“深度学习实验室”,并且在这项工作中投入了一笔未披露的资金。

中国在人工智能领域已经很强大了。百度、阿里巴巴和腾讯是全球人工智能领导者。来自中国的程序员赢得了ImageNet 人工智能竞赛。其领先的电子商务公司正在它们的仓库和业务中使用高度复杂的人工智能。

金准数据研究显示,人工智能将成为一个巨大的市场:到2030年将达到15.7万亿美元的规模。人工智能蛋糕是如此之大,以至于除了个别公司之外,各个国家也正在制定策略,争取从中获得最大的份额。

AI领域,中国正努力超越美国和其他西方国家,政府已经投入了大量精力和资金。2017年中国人工智能初创公司投入在全球占比48%,并首次超越美国占据榜首。据金准数据预测,2018年就人工智能创业公司和总股本交易数量而言,美国在全球仍将领先,但其正在逐渐失去全球交易主导地位。

中国的AI领域取得的成就,主要得益于在面部识别和智能芯片两大领域的大力发展,前者得益于政府的大力支持近年发展最为迅猛,而后者则是对一向强势的美国芯片的直接挑战。

面部识别方面,独角兽Megvii成绩斐然。该公司的投资方阿里巴巴集团(通过蚂蚁金融)和富士康于2016年在中国杭州市合作开展了“城市大脑”项目,利用人工智能分析监控摄像头数据。

智能芯片方面,2017年7月,中国政府表示,将于2020年与美国达成合作,并于2030年前成为世界领导者。中国企业Cambricon承诺,将在未来三年内生产10亿个处理单元,并正在开发专门用于深度学习的芯片。

此外,除了本国研发,中国主要科技巨头如腾讯、百度和京东加大海外投资力度。据悉,近期,百度和京东已投资ZestFinance,腾讯已投资ObEN。在2018年,这也将成为中国芯片之争胜出的有力筹码。

其他国家也有创新的工程师、大学和公司。但不同的是,中国政府优先考虑人工智能上表现的非常突出。我们的研究表明,未来十年中国将从人工智能中获得最大的收益:由于生产力和消费的增长,到2030年,中国将获得7万亿美元的GDP收益。

影响

中国的投资可能唤醒西方

如果中国开始引领人工智能的发展,西方国家可能会作出回应。无论是“斯普特尼克”时刻,还是逐渐认识到它们正在失去领导地位,政策制定者可能会感到压力,来改变法规并为人工智能提供资金。

更多的国家和地区将会出台人工智能战略

更多的国家会发布人工智能战略,这会对企业产生影响。我们不会感到惊讶的是,欧洲已经开始通过其“ 通用数据保护条例”(GDPR)保护个人数据 ,并出台政策来促进该地区的人工智能发展。

相互合作也会到来

国家之间对人工智能的竞争将永远不会停止——这里有太多的资金处于危险之中。但是,我们确实期望在联合国、世界经济论坛和其他多边组织的推动下,促进各国在国际关注的领域开展人工智能的合作研究,推动增长。

八、不会只靠科技公司来承担开发负责任的人工智能的压力

侵犯隐私、算法偏差、环境破坏,以及品牌和收入面临威胁——对人工智能的担忧比比皆是。幸运的是,围绕开发负责任的人工智能的原则正在形成全球共识。 这些原则可以保护企业,使它们能够获得经济利益。

由于监管机构难以追上最新的技术发展步伐,自我监管组织可能会成为一种越来越重要的解决方案, 来负责弥补监管滞后的缺口。

不管是否合理,或者是不是阴谋论,新技术往往会带来新的威胁。金准数据2017年的调查显示,77%的首席执行官表示,人工智能和自动化将增加他们开展业务的风险。在政府官员那里,我们得到了相似的答案。

很快,领导者将不得不面对与人工智能有关的难题。可能是社区团体和选民担心的算法偏见;客户可能会担心人工智能的可靠性;关注风险管理、投资回报率和品牌的董事会也会抛出难题。

在所有情况下,利益相关者都希望知道企业正在负责任地使用人工智能,从而使人工智能能够推动企业和社会向好的方向发展。

我们相信,这会推动负责任的人工智能原则出现。

全球运动开始了

并不是只有我们相信这一点。世界经济论坛的第四次工业革命中心、 IEEE、 AI Now、 The Partnership on AI 、Future of Life、AI for Good和DeepMind,以及其他的组织,都发布了一系列的原则:如何最大限度地提高人工智能对人类的好处并限制其风险。

我们支持的一些原则如下:

·将社会影响作为设计人工智能的重要依据

·人工智能发布前需要进行广泛的测试

·透明地使用人工智能

·人工智能发布后需要严格监控

·推动劳动力培训和再培训

·保护数据隐私

·为数据集的出处、使用和保护设定标准

·建立审计算法的工具和标准

对于新技术来说,我们应该遵循的黄金法则不仅仅是法规要求。监管机构和法律往往滞后于创新。那些不依赖于政治制定者颁布法规、主动负责任地使用新技术的企业,将会降低风险,提高投资回报率并提高品牌的美誉度。

影响

负责任的人工智能的新企业结构

当组织面临设计、构建和部署值得信任的人工智能系统的压力时,许多组织将建立团队和流程来寻找数据和模型的偏见,并密切监控恶意行为者可能“欺骗”算法的方式。人工智能管理委员会也可能适用于许多企业。

公私合作和公民与公民的合作

负责任地使用人工智能的最佳方式之一是让公共和私营部门机构进行合作,特别是在人工智能对社会的影响方面。同样,随着越来越多的政府探索使用人工智能来有效地分配服务, 他们正在让公民参与到这个过程中。

自我监管组织促进负责任的人工智能创新

由于监管机构难以追上最新的技术发展步伐,自我监管组织可能会成为一种越来越重要的解决方案, 来负责弥补监管滞后的缺口。其将围绕某些原则将人工智能的使用者聚集在一起,然后监督并制定使用规范,根据需要征收罚款,并将违规行为提交给监管机构。这是一个在其他行业有效的模式。对于人工智能和其他技术来说, 它可能也是如此。

总结:

在这场人工智能的全球浪潮中,AI技术的领先可以代表一家的实力,却绝非发展的终点。技术是基础、布局是中段、商业落地则是AI竞赛的收官阶段,值得注意的是,AI技术研发本身即是基于人类对智慧和效率的追求,而这正是商业问题的根本,通过领先且开放的AI技术和落地众多行业,2018年人工智能将为人们带来不一样的生活体验

金准数据 Retail Tech打造“新零售”研究报告 2018-03-14 15:22:35

前言:


    新零售通过运用数字经济、互联网、人工智能等手段,对传统商业运营模式当中,人、货、场关系的重塑。

    2017年对于中国零售行业是意义非凡的一年,实体零售逐步回暖,互联网巨头带着资本和资金投资线下,新零售如浪潮潮般袭来。


一、全球零售市场
    最新报告显示,2016财年(截至2017年6月的财政年度),全球250强零售商共创收4.4万亿美元,复合增长4.1%。

     排名前十强的零售商收入占250强总收入的30.7%(去年该比例为30.4%)。其中,排名前五强的零售商仍稳据领先优势,而排名第六至十强的零售商则经历了洗牌,这归因于有机增长、企业收购以及汇率波动等诸多因素的影响。
    就服装及饰品零售商而言,虽然其收入增长四年来首次被其他品类超越,但是依然保持最高盈利水平。
    截至目前,快速消费品1零售商数量达135家,占250强总数的54%,平均零售收入近217亿美元,在250强中规模最大、数量最多,总收入占250强总收入的三分之二。
    250强中欧洲零售商占比再度下跌,减少至82家(2015财年为85家,2014财年为93家),与北美零售商之间的差距进一步扩大。
    据金准数据统计的250家零售企业中,美国有80家,日本32家,德国17家,法国和英国各12家。中国(含香港、台湾)共有14家零售企业上榜,排名最高的是电商巨头京东,名列第28位。
    其中,中国零售商分别为:京东、苏宁、屈臣氏、华润万家、国美、牛奶国际、唯品会、百联股份(600827)、永辉超市(601933)、周大福、统一超市、百丽国际、大商股份(600694)、农工商超市。
    全球零售市场增速将放缓。全球零售总额在2015年达到22.5万亿美元,比2014年增长5.6%。据金准数据预测,到2019年,全球零售总额将达到28万亿美元,但在接下来的几年中,每年的增长速度回放缓,平均增长率为5.6%。


二、中国零售市场
    社会消费品零售增长速度虽逐渐放缓,但增长率仍然乐观。全年社会消费品零售总额366262亿元,比上年增长10.2%,增速比上年回落0.2个百分点。其中,限额以上单位消费品零售额160613亿元,增长8.1%。


    全年全国网上零售额71751亿元,比上年增长32.2%,增速比上年加快6.0个百分点。其中,实物商品网上零售额54806亿元,增长28.0%,占社会消费品零售总额的比重为15.0%,比上年提高2.4个百分点;非实物商品网上零售额16945亿元,增长48.1%。




三、零售回归本源,Retail Tech打造“新零售”
    在线上零售增速放缓、线下冲击仍未消除的背景下,竞争回归零售的本质:更高效地服务消费者。伴随互联网的发展和移动智能终端的普及,消费者消费习惯产生明显的变化。
金准数据分析认为,我国消费者行为特征已转变为:需求个性化,购买社交化、口碑化、娱乐化,购买多品牌化、一体化,对商品质量、服务、性价比的要求不断提高,购买多渠道化、移动化、碎片化,以及购买及消费过程简单化、透明化、快速化。
    消费者行为产生明显变化,零售商如今必须提供非凡的客户体验,将重点从4P营销(产品、价格、促销、地点)转向4C营销(一致性、内容、便携性、贴切性),才能令自己脱颖而出。
    而根据去年的IBM消费者体验指数(CEI)调研表明,根据客户期望的标准,零售商的整体平均表现得分仅40%:
    一致性:一致性得分最高,消费者满意度达到49%。然而,对于所有零售商而言,4C的各个指标均有提升空间。52%的零售商通过三个或更多渠道在线提供产品。
    内容:内容方面的全球平均得分为42%,尤其在通过移动方式传达内容方面,零售商表现不佳。55%的零售商没有通过店内数字设备提供更多的产品信息。
    便携性:便携性是繁忙消费者的关键选择因素,而零售商在该指标上的全球平均得分仅为32%。74%的零售商不支持POS、智能手机付款等现代支付方式。
    贴切性:总体而言,零售商在内容这方面的标准上得分最低,全球平均得分仅为30%。17%的零售商至少通过一种数字渠道提供个性化的名称、产品内容和营销信息。

    云计算、大数据、物联网、人工智能、VR等Retail Tech的应用是提高零售商表现的关键。Retail Tech的发展已对零售行业变革轨迹正发生明显变化。旧轨迹为技术变革-生产变革-零售变革-顾客变化,而新的轨迹已经形成:技术变革-顾客变化-零售变革-生产变革。
    在新零售时代,零售商需要适应变化,拥抱新技术,实现数据销售、线上线下全渠道销售,为消费者提供极致的体验。
    云计算、大数据、物联网、人工智能、VR等新一代信息技术已经成为引领各领域创新不可或缺的重要动力和支撑,新一轮信息化浪潮已经显现出重塑产业生态链的巨大影响力。
    Retail Tech对传统零售行业生态重构,传统零售行业将通过线下与线上的融合,配合大数据的采集与应用,对客户进行个性、高效地服务,不再局限于强调产品的功能性,而更多的重视消费者体验。

新零售解决方案图解


1.零售云计算、大数据
    云计算帮助零售商打破各个网点之间的数据孤岛,实现线上、线下数据统一汇集,形成统一的数据平台,并且提供较为廉价的计算能力,为大数据应用提供环境。2015年,我国云服务产值规模达到8381.1亿元,中国云计算产业仍以基础设施层为主。



云计算为零售业大数据分析提供计算基础

    大数据是新零售的核心。新零售模式下,大数据平台是整个新零售生态的大脑,是服务决策的关键所在。
    大数据应用涵盖销售分析、库存分析、消费者行为分析、精准营销等内容,可有效提高零售企业运营活动的效率, 如利用客流量、点击量等数据,研究消费习惯,实现精准营销。
金准数据统计,2016年,全球大数据产业市场规模为1403亿美元,预计到2020年将达到10270亿美元,2014-2020年间CAGR高达49%;2016年中国大数据市场规模达到168亿元,增长速度达到45.0%。


2014-2020年我国大数据产业市场规模预测

2.机器学习
    随着整个零售行业转向实时、即时的商业模型,机器学习通过利用正确的基础分析模型和采用强大的描述性分析提供显著的优势。
    零售定价优化
    零售定价优化是一项复杂的任务,需要在细粒度水平上对每个客户、产品和交易进行分析。价格敏感的日常产品更是如此。机器学习可以结合统计和计量经济学方法,并结合历史数据、购买历史、竞争对手、产品偏好和需求等,创造一个精妙的定价方法。
    个性化营销优化
    超级个性化体验对零售商在当前市场取得成功至关重要,而这个任务只能通过动态学习来完成。在这方面有竞争力的品牌不再面向广泛的客户群营销,或是设计月度广告,而是面向每一个单独的客户。机器学习能一次分析一个客户并提供超级个性化体验。
    B2B定价优化
    通过机器学习优化B2B定价的过程与零售定价优化类似,但在决策过程中增加了个性化营销的优化流程。


3.零售物联网
    物联网则是整个新零售产业闭环的最后的关键点。物联网作为一种感知层的物理实现,能够以极低的成本将商品信息数据化,从而将整个线下零售的所有商业行为都搬到互联网上,从而才可以用大数据和人工智能进行处理和分析,形成一个线上线下商业行为的全图景。如果没有物联网的发展,线上线下融合将不可能完成。
    货品、商品方面,对每件产品实行唯一编码,编码技术主要分为以下四种:

编码技术分类及特点
    目前产品编码主要以二维码和射频识别方式为主,通过产品编码,可以打通从生产、物流、仓储到销售环节的产品管理和追踪。
    该模式下,对于零售商而言,实时的数据追踪可实现对产品脱销、滞销、不合格等情况的快速响应,同时可采集消费者行为数据,主动监测造假区域以及通过对全流程的监控来挖掘最大化的利润空间;
    对于消费者而言,可以自助验证产品真伪、快速获得成为会员获取积分、获取更多产品推广信息等,获得的服务更加高效便捷。
    线下实体店方面,借助传感器融合、人脸识别、语音识别等技术,可实现智能导购、采集消费者行为数据、跟踪商品状态等应用。新技术帮助零售商提供更高效、优质的线下服务,增强客户粘性。
    零售物联网作为线下数据采集的主体,与线上渠道一起构建完整的商品和消费者数据库,共同为零售大数据提供数据源。同时,零售物联网也是数据决策的重要实施者,是线下与消费者完成智能互动的重要载体。
    物联网设备的安装基数方面,IHS预测全球物联网设备的安装基数将从2015年的154亿增长到2020年的307亿。2025年,这一数字将达到754亿。
    市场规模方面,据ZINNOV数据,2016年全球企业在物联网技术的产品和服务上的支出预计将达1200亿美元,2021年这个数字将增长到2530亿美元,达到16%的年复合增长率。
物联网技术服务单独支出预计在未来五年将以17%的年复合增长率增长,到2021年达到1430亿美元。以20%的年复合增长率预计,亚洲将以最高的速度增长,到2021年将占总支出的35%左右。

4.区块链
     就在区块链还未展现革命性颠覆互联网(Web)的能量之前,有关区块链技术应用在零售领域,已经有所涉及。而在区块链范畴向零售业的投入应用,也在类似阿里巴巴这些互联网巨头公司,有目的有计划的开展了。
    1、物流端应用。
    最明显的落地应用,发生于物流领域。目前,全球已经成立一个“全球区块链货运联盟(BiTA)”,一家全球化的区块链教育和标准开发行业组织。目前已经吸引了包括通用电气运输集团、京东物流在内的230多家全球公司的加盟。
    就在3月初,沃尔玛向美国专利局成功申请一项专利,一个名叫“智能包裹(smart package)”的区块链技术,利用区块链技术完善更智能的包裹交付追踪系统。这个专利技术,还有一个记录包裹信息(比如包裹内容,环境条件,位置信息等)的设备。沃尔玛的这个技术,甚至还有一个基于区块链技术的无人机包裹寄送追踪系统。能实现包括卖家私人密钥地址,快递员私人密钥地址和买家私人密钥地址等,一系列用于监管配送地址的加密技术。
    金准数据调查发现,2月底,菜鸟网络与天猫国际(天猫跨境电商平台)联合发布基于区块链的防篡改的物流追踪数据。
    消费者在手机淘宝的物流详情页面,可通过底端的“查看商品物流溯源信息”按钮,进入商品溯源页面。即可查看购买商品的全部溯源信息,确保商品来源真实可靠。
    金准数据认为,区块链的最大特性就在于上传数据的不可篡改,通过商家、海关等各方上传的物流数据,消费者可以交叉认证自己购买商品的各项信息,想要在区块链上进行数据造假掺入假货几乎是不可能的。
    2、供应链端应用。
   利用区块链技术构建“数字化供应链”,也是发生于零售业的一项延伸性技术创新,尤其是发生在全球跨境的供应链管理和流通。就像上文反复提到的那样,区块链技术有分布式记账功能,且不可篡改。这就从根本上杜绝供应链过程中,因为多环节的信息孤岛带来的不确定风险。比如各种贪腐风险。
    这在跨境供应链管理上,还有更精妙的应用。利用区块链技术,商品的全球链路可追踪技术,会更加精准无误。分布式纪录让商品的全链路过程,从汇集生产、运输、通关、报检、第三方检验等信息,全部得到加密确证,不仅不可更改,每个流程还能清晰可追踪、可监控。
    金准数据认为,区块链在纸张作业数字化之余,还能解决不同系统之间信息孤岛的不对称屏障,大大简化供应来环节的数据交换和作业流程。金准数据预测,区块链对发生在国际贸易中的承兑汇票数字化,解决人工操作,数据交换速度和加密性,都具有革命性的影响。
    3、交易端应用。
    因为是去中心化分布式数据库,区块链的点对点交易和私密性,可能对现有零售业的整个业务体系,存在颠覆性冲击。
    也就是说,从现有的“商品原产地(品牌商)——交易平台(零售商)——终端消费者”固有结构,直接跨过零售平台,达成从产地到终端的点对点交易。
    一种S2B2C交易模式。既然区块链能查询到商品从源头、制作、出厂、上架销售所经历的所有历程。那么品牌商也能看到每件商品的流向,以及终端消费者的分布情况。
    从这个技术角度来说,品牌商是不是完全可以直接触达每一个精准又私密的终端消费者?理论上,完全可行。
    所谓产消直通(非产销),就是缩减消费者和生产者之间的信息距离。还让个性化定制、针对性服务变成可能。围绕在区块链这个自由、公开、安全加密的交易平台,传统零售平台中心连接消费者,完成商品最后交付的功能,很可能会被品牌商直接接管。
    当然,这肯定是没法预估时间的遥远未来。全球顶级投行高盛,在2016年5月发表了首份《区块链——从理论走向实践》研究报告,详细分析了区块链在未来经济中所产生的价值。报告提到区块链最为适宜的市场有物联网、安     全验证与多方交易的场景。将在共享经济、分布式电力、产权保险、现金结算、反洗钱等领域得到广泛应用。

区块链作为一种互联网底层技术,将深刻影响互联网的变革过程。而互联网在已经大幅度接管零售业变革的当下,区块链改变零售业的时间和程度,会比我们的常识想象的更快。


总结:
     在过去不久的2017年,零售行业波诡云谲:线上巨头急于突破流量瓶颈,疯狂地布局版图;线下卖场,试图通过创新转型和站队合作跟上节奏;创业公司在细分赛道和碎片化场景中带起了无人零售的风口。2018年则是零售的定局之年,市场已经由线上线下之争进入到派系之争;同时,2018年也是变数之年,金准数据预测,AI、区块链等创新技术又将给零售行业带来新的机遇和爆发。

金准数据 2018工业互联网发展趋势报告 2018-03-13 22:10:12

前言:

工业互联网,作为新一代信息技术与制造业深度融合的产物,已经成为2018年最大趋势之一。IDC数据显示,2020年的中国工业互联网市场规模可达1275亿美元,2015-2020年均复合增速约14.7%。

金准数据认为工业互联网是新工业革命的关键支撑和智能制造的重要基石。工业互联网通过实现人、机、物的全面互联,促进制造资源泛在连接、弹性供给和高效配置,正在推动制造业创新模式、生产方式、组织形式和商业范式的深刻变革,推动全球工业生态体系的重构迭代和全面升级。金准大数据从政策、技术、产业三个维度出发,理清工业互联网2018年大势的逻辑,盘点国内主要参与者。

 

1.政策:2018成开局之年

工业互联网是互联网从消费领域向生产领域、从虚拟经济向实体经济拓展的核心载体,连接了工业全系统、全产业链、全价值链,支撑工业智能化发展的关键基础设施。

大力发展工业互联网,对推动互联网和实体经济深度融合,促进大众创业万众创新和一二三产业、大中小企业融通发展,建设制造强国、网络强国都具有重大而深远的意义。金准数据提出要把握新工业革命战略机遇,充分认识加快发展我国工业互联网的重要意义。各地、各部门和有关企事业单位,要深入学习贯彻党的十九大精神,充分发挥我国体制优势和市场优势,科学谋划、统筹推进,多方协同、有序展开,以企业为主体,以市场为导向,遵循规律,勇于创新,着力构建网络、平台、安全三大功能体系,完善创新生态、产业生态、应用生态,打造高素质、专业化人才队伍,促进互联网、大数据、人工智能和实体经济深度融合,推动工业质量变革、效率变革、动力变革,加快制造强国和网络强国建设进程,为实现经济高质量发展作出积极贡献。

1历年工业互联网核心政策

为此,我国先后出台“中国制造 2025”、“互联网+”行动计划、深化制造业和互联网融合发展等系列政策文件,以充分发挥我国制造大国和互联网大国的叠加、聚合、倍增效应。

其中,2017年国务院发布的《深化“互联网+先进制造业”发展工业互联网的指导意见》与《中国制造 2025》一脉相承,明确了我国工业物联网三阶段的战略部署。

 

2:国工业互联网三步走战略

《深化“互联网+先进制造业”发展工业互联网的指导意见》提出了三大体系(网络、平台、安全),两类应用(大型企业集成创新和中小企业应用普及),三类支撑(产业、生态、国际化)的建设,即“323”行动。

2018年是全面贯彻落实党的十九大精神的开局之年,工业和信息化部将坚持高质量发展的根本要求,坚持新发展理念,深入实施工业互联网创新发展战略,开展工业互联网发展“323”行动,打造网络、平台、安全三大体系,推进大型企业集成创新和中小企业应用普及两类应用,构筑产业、生态、国际化三大支撑,推动工业互联网发展再上新台阶。



3:“323”行动示意

二、十大工业互联网关键技术

金准数据认为,工业互联网将是18年最大趋势,相当于17年的人工智能和半导体,而覆盖面更大。工业互联网的建设,需要从供需两端发力,致力于培养工业互联网平台,验证工业互联网平台试验,鼓励中小企业业务系统向云端迁移(百万家企业上云),支持产研合作培育百万工业APP。

金准数据将简单介绍数字双胞胎(建模仿真技术)、信息物理系统(CPS)、边缘计算、OT+IT网络、TSN(时标网状图)、5G与IPV6(网络层技术)、标识解析技术、雾计算、测试床、PON网络(无源光网络)十大工业互联网关键技术。

1. 字化双胞胎

4:字化双胞胎图解

数字化双胞胎是指基于现实世界,利用数字化技术营造的与现实世界(物理模型)对称的数字化镜像(虚拟模型),是建模仿真技术发展的现代化产物。

数字化双胞胎模型具有模块化、自治性和连接性的特点。利用数字化双胞胎模型,可以从测试、开发、工艺及运维等角度,打破现实与虚拟之间的藩篱,实现产品全生命周期内生产、管理、连接的高度数字化及模块化。

2. 信息物理系统

信息物理系统(CPS )由NASA于1992年提出,正成为引领全球新一轮产业变革的核心技术体系。


5:息物理系统的核心技术要素

CPS本质上是在信息空间和物理空间之间构建的基于数据自动流动的状态感知、实时分析、科学决策、精准执行的闭环赋能体系。《中国制造 2025》中明确强调:“基于信息物理系统的智能装备、智能工厂等智能制造正在引领制造方式变革”,CPS 已经成为支撑工业互联网、物联网业 、工业 4.0/智能制造和两化融合的核心技术。


3. TSN设定工业优先权

 

6TSN 应用图示


TSN(时标网状图/Gantt图)脱胎自AVB(以太网音视频桥接技术),目的是解决数据在以太网传输中的时序性、低延时和流量整形问题,其价值源自两个方面:简化收敛以及增加连接性。

TSN增加了各子任务之间的逻辑依赖关系,克服了甘特图的缺点,利用带时标的网状图表示各子任务的进度情况,以反映各子任务在进度上的依赖关系,成为工业控制网络面向千兆接口的解决方案。

4. OTIT网络的融合

OT即操作技术,是工厂内的自动化控制系统操作专员为自动化控制系统提供支持,确保生产正常进行的专业技术,包括可编程逻辑控制器、数控机床、远程终端单元、PLC编程、DCS组态等一系列软硬件。IT即信息技术,是主要用于管理和处理信息所采用的各种技术总称。

过去,OT系统相互独立,形成信息孤岛。OT系统与IT系统融合,可以简化操作获得更大的生产率,提高安全性与预测性维护以避免危险的环境,减少所需人力成本,提高经营决策精度和速度,提高客户需求的响应速度和服务能力。但两者融合后带来的安全挑战不能忽视。

5. 边缘计算

边缘计算是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务。

边缘计算利用靠近数据源的边缘地带来完成运算,是在高带宽、时间敏感型、物联网集成这个背景下发展起来的技术,是云计算在实际运用中的拓展。在工业领域,边缘计算应用场景包括能源分析、物流规划、工艺优化分析等。2016年11月30日,边缘计算产业联盟(ECC)成立


6. 无源光网络

 

7PON 网络服务路径示意图

PON(无源光网络),是指ODN(光分配网)全部由光分路器等无源器件组成,不需租用机房和配备电源,是在所谓的“最后一公里”中缺少带宽时的解决方案。PON的突出优点是消除了户外的有源设备,所有的信号处理功能均在交换机和用户宅内设备完成。

7. 5GIPV6

85G技术的应用

9IPv4与IPv6的头部数据包对比

5G(高速率、大容量和低时延的的第五代通信技术)与IPV6(即插即用、空间更大、传输更快、更安全的地址配置协议)为工业互联网提供网络层技术支撑。

8. 测试床

 

10测试床设备图

我国离散制造业正逐步从批量化生产阶段向个性化定制生产阶段转变。为此,一种面向个性化定制的测试床即软件定义可重构智能制造验证示范平台被提出。

由此,生产制造系统能够通过软件定义的方式,针对产品设计和订单的变化,自动调整加工、装配环节的任务、工艺流程、路径规划与控制参数以及生产系统的结构和控制程序,大幅缩短生产系统软硬件调整以及产品的交付周期,使其快速响应高度定制化产品规模化生产的需求,实现小批量甚至单件化定制产品的规模化、经济型生产。

9. 工业标识解析技术

 

 

11标识解析技术分类

标识解析技术本身并不是一个新技术,其最初的应用主要是解决生产者对所生产产品的管理;随着物联网、工业互联网的发展, 工业标识及标识解析技术实现“数据互通互联”和“互相操作”方面发挥着至关重要的作用。

10. 雾计算

 

12雾计算示意图(一种分布式计算)

2016年谷歌搜索引擎大会首次提出云计算的概念,从此云计算的发展进入了井喷时代。

随着移动设备、嵌入式设备和传感设备等智能设备的不断创新和普及,移动数据呈现出疯狂式的增长。将数据传输至远程中心的云计算开始显露出传播时延、移动场景支持不足、无法满足地理位置分布相关的感知环境的实时要求、数据传输对网络带宽提出更高要求、安全性和隐私性等问题。

为此,雾计算的概念被提出。这是一种依托于现今无处不在的IoT应用产生的一种新型计算模式,是一种分布式的计算模型,提供计算、网络和存储设备,让基于云的服务可以离物联网设备和传感器更近,协助云计算解决部分其无法解决的数据计算需求,更具扩展性和可持续性。

三、国内主要参与者

金准数据认为以下16家国内工业互联网主要参与者值得关注,对其业务进行简单介绍。

1. 阿里云ET工业大脑

 

13阿里云ET工业大脑架构图

2017 年 3 月 29 日云栖大会深圳峰会上,阿里云正式发布ET工业大脑,希望通过数据、算法对传统的工业生产线进行智能化改造。

阿里云ET覆盖智能供应链、智能研发、智能生产、智能营销四大环节,其工业大脑平台包含数据舱、应用舱和指挥舱3大模块,分别实现数据知识图谱的构建、业务智能算法平台的构建以及生产可视化平台的构建。据称,阿里云ET工业大脑已经参与新能源、化工、环保、汽车、轻工业、重工业等不同制造领域。

2. 三一重工树根互联

 

14根云工业互联网平台大数据结构图

树根互联孵化于三一集团,工业基因深厚,推出中国第一个工业互联网赋能平台(根云),向全行业提供工业互联网平台服务。

据称,通过与腾讯云的云计算能力相结合,根云目前已经接入高价值设备超过30万台,接入资产规模超过千亿元,参与了农业机械、节能环保、特种车辆、保险、租赁、纺织缝纫、新能源、食品加工等多类行业,逐步形成工业物联网生态效应。

3. 海尔COSMOPlat

15海尔COSMOPlat平台打通7大业务环节

海尔COSMOPlat于2017年2月正式对外提供社会化服务,是首个国家级工业互联网示范平台。COSMOPlat强调用户、企业、资源三位一体,以期打造开放共赢的有机全生态。

COSMOPlat平台能够帮助其他不同领域的企业用最短周期完成大规模制造向大规模定制的转型,为全球企业提供了可复制模板,其起草的大规模定制国际标准已被IEEE通过。目前,COSMOPlat 已成果复制到12个行业、11个区域和20个国家,服务全球3万多家企业。

4. 航天云网INDICS

 

16航天云网 INDICS 平台组成

航天云网 INDICS 隶属于航天科工集团,是以工业大数据为驱动,以云计算、大数据、物联网技术为核心的工业互联网开放平台,可以实现产品、机器、数据、人的全面互联互通和综合集成。

航天云网逐步形成了以智能制造、工业大数据等为核心的20种业务和产品,目前平台用户已经达128万,基于平台发布金额接近3500亿元,整体成交额超过1400亿元,已经完成了在贵州、四川、浙江、江苏、广东等10个国内区域落地。

5. 明匠智能

17明匠智能解决方案

明匠智能工厂系统是工业4.0时代中国智能制造服务平台,平台由自主研发的 SCADA 数据采集板、工厂级 MES 系统以及智能手持终端三大模块构成,将设备端智能联网、数据采集与分析以及实时信息监控三位一体,实现智能化生产过程。

6. 东方国信Cloudiip

18东方国信云计算平台

2017年,首届中国工业互联网“双创”开发者大赛启动仪式上,东方国信正式发布工业互联网平台Cloudiip。目前,Cloudiip 已经服务全球 35 个国家近万家企业,覆盖行业年产值超万亿元,每年帮助企业创效上百亿元,减排千万吨级。

7. 中控工业supOS

19supOS 如何挖掘工业数据价值

2017年南京第二届世界智能制造大会上,中控工业发布了面向未来的工业操作系统——supOS。

supOS集工业大数据全集成平台、工业智能 APP 组态开发平台、工业大数据分析平台、工业人工智能引擎服务、工业智能 APPs 等五位一体的工业操作系统,可实现云(云互联网平台)、企(工厂互联网平台)、端(边缘计算节点)三层统一架构,可实现管控一体化交互。

8. 红领模式与酷特智能

20服装生产传统模式与酷特智能对比

山东红领集团是国内领先的定制服装公司。红领花费十多年的时间,以3000人工厂作为试验室,对传统服装制造业升级进行了艰苦的探索与实践,成果探索出了以3D打印模式产业链为代表的“互联网工业”的新模式,结合C2M(Customer to Manufacturer)与智能工厂实现产业链协同。

9. 富士康BEACON

21富士康 BEACON 平台架构图

2017年,富士康集团开发了 工业互联网平台BEACON,探索将数字技术与其 3C 设备、零件、通路等领域的专业优势结合,向行业领先的工业互联网公司转型。

富士康工业互联网结合感测技术及分析决策系统,已实现智能机器间及人机连接的互联互通。同时,依托全球最大的电子专业制造商富士康,BEACON已成为全球最大的工业互联网大数据平台,并透过数据分析、预测演算法等,实现了系统维护优化、机器自主学习、智能决策等应用,可有效帮助工业部门降低成本、节省能源,最终提升生产率。

10. 浪潮 M81

22浪潮工业互联网平台平台架构

浪潮集团是以服务器、软件为核心产品的解决方案服务商,于2017年正式推出M81工业互联网平台,采用双模 IT 架构,以实现海量异构工业数据集成与数字化业务的融合创新。

目前,浪潮可向化工、钢结构、煤炭、机械加工、粮食仓储、医药等行业提供完整的工业互联网解决方案,已经成功进行煤炭、粮库等多项基于工业互联网的数字化业务智能创新系统的实践。

11. 宝信工业互联网平台

23宝信工业互联网三级架构

宝信工业互联网平台是将宝信公司数字技术与宝钢集团在冶金、石化、电力等领域的专业优势结合,可实现企业内部信息流、资金流和物流的集成和融合。

目前,宝钢集团已经基于宝信工业互联网平台,通过现场设备数 据的采集和协议转换,实现了企业OT层与IT层的打通,使数据得以在整个制造系统和IT系统之间高效流通。

12. 汉得 SRM 云平台

24汉得 SRM 云平台特点

汉得 SRM 云平台聚焦工业企业的供应链管理(SRM),可以为行业企业提供高效率、低成本的采购全生命周期协同管理服务,为核心企业提供从询报价管理到订单管理,从库存管理到账务管理,从供应商档案管理到供应商考评管理,形成物流、信息流、单证流、上流和资金流五流合一的全面解决方案,让核心企业与供应商真正实现互联互通。

13. 紫光UNIPower

 

25紫光 UNIPower 四大平台

2017年,紫光工业互联网平台UNIPower正式上线并提供服务,包括工业物联网平台、工业大数据平台、工业应用使能平台以及云基础服务四大平台。

UNIPower 基于自主开发,具备提供电子信息、注塑、钣金、纺织、钢铁、化工等9大行业端到端系统解决方案能力,深入工业生产现场,进行调研、咨询、设计、开发和集成交付等统一服务,以公有云服务、私有云服务和混合云方式交付。

14. 徐工Xrea

26徐工 Xrea 实现多行业赋能

Xrea 工业互联网平台是徐工自主研发的工业互联网平台,上接应用、下接数据,支持多种协议和广泛的终端接入,同时通过 SDK\API 为开发者提供更加开放的开发环境,将产品的研发、制造、营销全过程连接一体。

目前Xrea累计接入设备数量超45万台,覆盖全球 20 多个国家,赋能装备制造、新能源、军工、农牧业、风电、光缆、核心零部件制造等多个行业领域。

15. 华为 OceanConnect IoT

27华为 OceanConnect IoT 平台

OceanConnect 是华为公司基于物联网、云计算和大数据等技术打造的开放生态环境,围绕着华为IoT联接管理平台提供了170多种开放 API 和系列化 Agent 帮助伙伴加速应用上线,简化终端接入,保障网络联接,实现与上下游伙伴产品的无缝联接,同时提供面向合作伙伴的一站式服务,包括各类技术支持、营销支持和商业合作。

16. 中国移动 OneNET

28南京1001号自动化科技有限公司基于OneNET平台向“制造+ 服务”转型升级

OneNET 平台是由中国移动打造的 PaaS 物联网开放平台。平台能够帮助开发者轻松实现设备接入与设备连接,快速完成产品开发部署,为智能硬件、智能家居产品提供完善的物联网解决方案。

总结:

金准数据认为,工业互联网作为信息技术向实体产业深度渗透的产物,其基础建设相对完善,关键技术路径清晰,利润空间庞大(根据阿里云的测算,中国制造业如果提升1%的良品率,每年可增加上万亿利润)。而2018年,作为工业化联网“323”计划的开局之年,预计将是政策红利频出,平台快速圈地,传统厂商依托自家核心业务加速转型的一年。

 

金准数据 2018智能金融研究报告 2018-03-12 17:25:52

前言

中国金融服务业数字化转型的速度,金融科技发展的规模和前景在全球范围内不可小觑。在经历了“互联网金融”的快速发展后,通过人工智能、区块链、云计算、大数据等新兴技术的崛起,金融行业跨入科技与金融结合的新阶段――智能金融。围绕“以用户为中心”的理念,智能金融将提供更加丰富、便捷、个性的服务。

智能技术的应用可以创造新的金融产品和服务,如智能投顾,智能合约,智能手环(用于健康保险)等;服务边界也重构,不同的金融服务与其他非金融服务相融合,在融合中形成的数据闭环和不同维度的交叉分析,能产生新的洞察,进一步优化提供给客户的服务。这将会是对金融服务的重新想象和重新构造。

金准大数据研究中心从以下4个方面深度解析与建议

一、智能金融的兴起与发展

智能金融是以人工智能为代表的新技术与金融服务深度融合的产物,它依托于无处不在的数据信息和不断增强的计算模型,提前洞察并实时满足客户各类金融需求,真正做到以客户为中心,重塑金融价值链和金融生态。

1. 智能金融与科技融合的过程

智能金融是金融科技发展的新阶段,也是科技与金融融合的第三个阶段。不同于早期电子金融时代的由“点”到“线”发展和线上金融时代的由“线”到“面”变革,智能金融拓展了金融服务的广度和深度,践行了普惠金融梦想,实现了金融服务由“面”向“立体”的跨越。

1:金融发展历程

2. 智能金融的四大特征

在新的阶段,智能金融呈现出四大特征,真正实现了“随人、随时、随地、随需”的以客户为中心:

图2:智能金融四大特征

自我学习的智能技术:人工智能将实现“感知—认知—自主决策—自我学习”的实时正循环;数据传输速度实现质的飞跃,云端将无缝融合;介入式芯片等新的硬件形式将出现,甚至实现人机共融。

§

数据闭环的生态合作:智能金融企业的战略重点从互联网时代的业务闭环转向实现数据闭环,不再局限于满足当前用户需求的联手,更加注重企业间数据结果回传对于合作各方未来能够可持续满足用户需求的能力的提升。

技术驱动的商业创新:智能技术将不仅仅在“效率”上发挥价值,而是通过与产业链的深度结合,在“效能”上有所作为。在金融领域,移动互联网时代更多体现的是“渠道”迁移;人工智能时代则使得技术在金融的核心,即风险定价上发挥更大的想象力。

单客专享的产品服务:基于海量的客户信息数据、精细的产品模型和实时反馈的决策引擎,每一个客户的个性数据将被全面捕获,并一一反映到产品配参和定价中。

金准数据认为在金融既有的价值链条上,智能金融正促成四方面的重构:1)重构用户连接和服务的价值链,实现触达无缝化、交互人性化、经营立体化、设计灵活化;2)重构风险评估和管理体系,打造更为实时、主动、全面的风险管理;3)重构服务的边界;4)重构基础设施的建设标准和运行逻辑。

3智能金融重构服务边界

二、智能金融市场蓬勃兴起

在政策、经济、社会、技术等诸多利好的支持和驱动下,智能金融正飞速发展,并带动了新型商业模式,促成了大批创业企业的涌现。

1. 中国金融科技企业创投涌向金融领域

据金准数据统计,过往两年成立的金融科技创业公司达1753家,BAT等互联网巨头也纷纷抢滩智能金融领域。创新方向从金融服务的互联网化逐步深入到金融服务的技术重构、流程变革、服务升级、模式创新等,从通用技术应用的语音识别、活体识别、区块链、云等到细分场景应用的信贷、理财、保险、资管等,几乎渗透到了金融业务的方方面面。

4:国内智能金融创新创业公司涉及金融服务的各个领域

传统金融机构同样不甘示弱。以四大行为代表,金融机构争先与科技公司达成战略合作,如农行与百度合作成立金融科技联合实验室并共建金融大脑,中行与腾讯合作成立科技联合实验室等;而工行近期更在未借助外界技术团队的情况下自主研发上线了“AI投”,效果不俗。

2016年,全球金融科技公司拿到了1177亿美元投资,其中,中国金融科技公司以约918亿美元的融资额占全球融资总额的78%,首次超越美国,位列全球第一,是同年全球金融科技融资额唯一有所增长的地区。中国金融科技的投资额更是自2012年起实现了高达119%复合增长率。

5:2012-2016年中国金融科技投资金额与次数


2017 年《全球金融科技100强》报告中,排名前十的企业中,中国公司有5 家,占据半壁江山。特别是排名前3 的公司都是中国企业。其中,蚂蚁金服依靠出色的技术优势以及金融销售服务模式,成为全球金融科技企业的典型代表;众安保险凭借出众的保险科技生态系统以及高速的业务发展位居次席;趣店则依托海量在线借贷业务,在排行榜中位居第三。以上三家企业体现了中国金融科技行业在全球范围内的领先发展态势。


图6:2017 年全球金融科技企业Top 10


2017年中国企业在人工智能领域的投资额高达582亿元,投资事件数353次。包括百度和谷歌在内的科技巨头在AI上的花费在 200 亿至 300 亿美元之间,其中 90%用于研发和部署,10%用于AI 收购。机器人和语音识别是两个最受欢迎的投资领域。计算机视觉是获投资最多的子领域。金准数据分析认为从各大企业的采纳和投资角度来说,人工智能现在只处在“温热”时期,高科技、通信和金融服务将成为未来三年内采用人工智能的主导行业。

同时,金准数据研究统计,2016 年全球金融科技独角兽企业数量为27 家,中国公司有8 家,仅次于美国,排名第二。2016 年全球金融科技独角兽企业估值规模为1389 亿美元,中国企业为964 亿美元,占比约70%,全球排名第一,领先优势十分突出。

图7:2016 年中国金融科技独角兽表现


2. 中国金融科技用户渗透率快速提升

金准数据研究统计,中国金融科技市场总体发展居全球第二位。从用户渗透率来看,从2013-2016 年,网络信贷、网络资管和电子支付的用户渗透率均处于显著上升趋势,预计2020 年,以上三个细分领域的用户渗透率将分别上升至28.4%、77.9%和83.1%。尤其是电子支付领域,以支付宝和微信支付为代表的移动支付工具快速发展,截止2017年底,微信支付用户已达到8 亿。

图8:2013-2020 年中国金融科技主要板块用户渗透率

三、合作共进,构建智能金融生态体系

金准数据认为智能金融时代的到来,不仅催生了新的商业模式,也在重塑金融界的生态圈——出于优势互补与资源整合的需要,生态各方合作愈加紧密,呈现出利润共享化、风险共担化和合作伙伴化的变化趋势,共同构建未来智能金融生态体系。这一生态体系包含三大特征:

1. 市场垂直细分,构成局部垄断

金融科技的出现使部分原本处在金融机构内部的服务链条节点得以释放,并推动金融服务链条走向细化,比如触达和转化作为链条上不同节点,在未来将由两个机构分别提供服务,并在各自领域经过充分竞争,最终由效率更高的公司承担相应角色。智能金融同样如此。

9:智能金融市场从细分到垄断过程

网络资管领域,2016 年网络资管市场规模增速超过50%。中国网络资管规模超过2.7 万亿元,预计2020 年,中国网络资管将超过6万亿元。

图10:2013-2020 年中国网络资管市场规模

第三方支付领域,2016 年我国支付机构的网络支付金额达到99.27 万亿元,交易笔数达到1639.02 亿笔。相比2015 年,在交易笔数和交易金额上均达到近100%的增长。

在网络借贷规模上,2016 年我国网络借贷规模达到19544 亿元。相比2015年,市场规模增长达到99%。

图11:2014-2016 年中国细分金融科技市场规模


2. 务能力升级,参与角色蜕变

面对科技与金融结合愈来愈紧密的趋势,生态中的各方都将经历服务能力升级和参与角色蜕变的过程。在未来金融智能化浪潮的推动下,以用户为服务的目标和中心,智能金融生态将会出现五类参与者。

金准数据指出,部分企业并不一定只限于扮演其中一种角色,而可能出于战略发展规划需要同时兼备两种甚至多种角色,这些企业占比虽小,却是智能金融闭环的构建者、生态构建的推动者。

12:各方参与角色蜕变


零售企业率先转型进入金融科技市场,传统行业中,以具有ToC 服务经验的零售企业为代表,它们往往拥有大规模的用户信息和消费行为数据,在客户服务方面的经验丰富,对客户需求理解较深刻。借助金融科技的应用趋势,大量传统零售企业将金融服务与自身原有服务进行融合,通过捆绑式服务,大力发展基于原有服务的金融服务,以消费金融、智能风控、智能营销等应用场景为突破口,转型进入金融科技市场。



传统金融企业将科技能力对外转化服务,成立独立化运营的科技公司,传统金融机构成立的科技子公司拥有云、大数据和人工智能平台搭建能力、行业应用搭建能力和海量金融数据积累。向科技公司转型的金融企业对行业理解深入,并拥有切实的新兴科技应用实践,较易获得传统金融企业的信任。


3. 生态全面开放,多维深度合作

传统机构如银行与科技公司在智能化的大势之下皆不甘人后。他们拥有自身独特的属性和优势,但也有发展的短板。因此,通过合作共同打造未来的智能金融生态圈成为不少机构企业的重要选择。未来,双方将会有融合、共建和开放输出三种合作模式。

13智能金融的三种合作模式

在上述行业趋势的共同作用下,数据将引领金融发展新动能,智能化将改写金融世界新逻辑,而跨界竞争则将塑造金融领域新格局。

四、智能金融胜在应用

金准大数据研究中心深度解析,智能金融将不仅仅是一个前瞻的概念,而是可以应用到各个金融细分领域的大趋势,是金融与科技融合发展的必然结果。随着算法和数据的突破,智能金融应用率先在通用领域中发力,解决效率提升的问题;随着数据在细分领域中的积累和整合,智能金融的应用不断向拓展各细分场景、提升业务效能的方向进步,从而展现出多样化的金融应用布局。

14智能金融应用点分布

在各领域中,支付、个人信贷、企业信贷、财富管理、资产管理,以及保险六大板块,将是智能金融未来发展的重中之重。

支付——智能创新最前沿:作为与消费者连接最紧密的环节,智能金融对于广大用户的支付需求影响得最早、最广、最深。而随着智能技术的进一步成熟,支付将进入“万物皆载体”的新阶段,智能手环、手表、汽车、空气净化器、冰箱、空调、电视等都可以成为支付的“账户载体”和“受理终端”。

企业信贷――新技术应用初显成效:通过近年来的探索,智能金融将为包括贸易融资、供应链金融、企业信用贷款等对公信贷业务起到完善企业信用体系、补充企业经营状况信息和降低放贷机构单据确权难度的作用。

个人信贷――全链条智能化:消费金融需求已不再局限于房贷、车贷等大额消费,而逐步深入家电、食品、旅游、教育等商品消费及服务场景中,信贷模式多样化;也有越来越多的客户愿意为好的产品付费。针对不同类型的客户开发适合他们的信贷产品,提升客户体验将是金融业未来努力的方向。

资产管理――穿透资产底层试水期:资管市场产品多样,结构复杂,资产方、资金方具有较多痛点。智能金融时代,智能技术逐步突破应用到资管领域,解决跨期资源配置中的信息不对称问题,全面提升资金和资产流通效率。

财富管理――智能匹配初具雏形:智能技术在投资偏好洞察和投资资产匹配环节能够极大地降本提效,使财富管理逐渐走出高费率、高门槛,走向中低净值人群,呈现高效、低费、覆盖更广泛的特点。

保险――行业变革的开启:互联网为存量保险产品带来了新的渠道入口,成为保险科技的开端。如今,智能技术在保险业的应用不断深化,逐渐涉足核心的产品设计和精算定价领域,真正开启保险业的全面变革。

影响智能金融应用在推广上的速度、规模和潜力的因素很多。从技术角度看,包括技术的成熟度、数据可获取性等;从金融的角度看,包括金融机构变革的意愿、以及对于新技术替代旧技术产生新增加值的认可程度;从用户需求的角度看,切换成本的高低、新人群是否已经形成、新习惯是否已经被培育以及新的金融行为在多大程度上符合刚需,都是影响应用普及的重要因素。

那么需要思考的问题是,什么才是决定智能金融应用之争能否胜出的关键因素呢?金准数据认为,规模、标准、独特资源、行业理解,以及生态合作的深度与广度,这六大要素至关重要。

15智能金融应用关键制胜因素分析

在此基础上,金准数据提出了十二大建言,覆盖行业监督、生态合作、科技安全和社会责任四个方面。

16:十二大建言

金准大数据研究中心指出,智能金融为金融创新开创了一个新时代,智能技术突破发展、场景应用加快落地、业界机构深化合作将为智能金融发展带来新动能,取得新突破,塑造新格局。而今天的金融机构必须在文化、组织架构和激励措施等各方面着手,使得习惯于传统运作模式的组织转型成能不断推陈出新的创新引擎。



金准数据 关于张量方法加速深度神经网络模型的研究报告 2018-03-09 17:02:42

前言

现代的机器学习涵盖了大量的数据以及变量,构成了高维数据问题。张量方法在处理这种高维数据的机器学习方法中十分有效,而且已经应用到诸如社交网络分析、文档分类、基因学的诸多领域中,未来还会涉猎对人脑神经元行为理解这一问题。

用张量进行概率隐含变量的机器学习训练

当多个设备或者传感器在收集数据的时候,我们能不能设计出有效率的通信和路由机制,使得在“网络内部”已经开始数据整合,减少传输的数据量,同时又能为处理特定问题(比如工作状态异常)提供信息?金准数据从统计角度进行了该类问题的调研,整合了一些概率图模型,设计了一些显著减少数据通信需求的算法。

现代的机器学习问题经常发生于高维世界,在时间轴上产生了大量的多元数据,这其中也包含了很多数据噪声。从噪声里发现有用的信息有时就像大海捞针,是极具挑战性的。

工作的第一个步骤就是对隐藏信息和观测数据之间的关系进行建模。在一个推荐系统中,隐藏的信息就是用户对于商品的潜在兴趣,而观测数据包含了他们已经购买的商品。如果某个用户近期购买了自行车,说明她对骑车/户外运动感兴趣,而且很可能会在近期购买自行车配件。我们能够通过她的购买模式推断出隐含变量,从而对她的兴趣进行建模。然而问题在于,我们需要从大量用户的行为中获得大量购物模式的观测数据,于是这就变成了一个大数据问题。


图1:亚马逊推荐系统会告诉你推荐原因


现在的工作着力于如何高效地在大数据集上有效训练这种隐含变量模型。在这种无监督学习的方法中,算法能够自动发现潜在的、对解释观测数据有意义的变量。大体上而言,机器学习研究者们都同意这种算法能够解决本领域中一类悬而未决的挑战。

金准数据认为,一种新颖的算法能够去处理这个挑战性的难题,并展示了在没有监督数据的情况下,张量代数如何能够发现隐藏的结构性规律。张量是矩阵的高维推广。就像矩阵能够展示事物的两两关系一样,张量能够表现更高阶的关系(后面关于这一点会详述)。金准数据研究发现,对高阶张量进行操作可以有效地进行一大类概率隐含变量的机器学习训练。


图2:张量方法是矩阵方法的扩展

张量算法如何真正帮助我们解决机器学习问题呢?第一眼看过去,我们可能会认为张量跟这些机器学习任务没什么关系。把这二者联系起来需要一个额外的概念,就是高阶关系(或者高阶矩)。正如之前提到的,我们能够用张量表征变量之间的高阶矩关系。通过考察这些关系,我们对隐含变量模型就能进行更有效的训练。


张量算法应用场景

我们把算法应用于很多场景上。比如,在不知道主题先验分布的情况下,对文本文档进行分类。在这个场景下,主题本身就构成了一组隐含变量,必须把它们从观测数据中提炼出来。一种可能的解决方式可能会是从词频里训练出主题,但这种简单的处理方式无法合理解决在不同上下文中出现同一个单词的问题(注:语义消除歧义问题)。

考虑一下,如果我们不考虑单个词的词频而考虑二元词组的出现频率,将会导致一个更稳健的结果。但是我们为什么要止步于二元词组?我们为什么不检查一下三元词组乃至多元词组这种高维问题呢?这些高维关系又能揭示出哪些有意义的信息呢?金准数据认为,使用流行的潜变量狄利克雷分配(Latent Dirichlet Allocation,LDA)算法需要三元关系,仅有二元关系是不够的。

图3:社交网络

我们可以更进一步的扩展隐含变量模型的概念。这种方法更适合应用于一类问题,包括对种族进化树的建模,或者理解人类疾病产生的层级结构。在这里的例子中,我们的目标是通过给定的数据,学习出隐含变量的层级结构,训练出能够量化隐含变量影响的一组参数。

最终学习出来的的结构,揭示了位于叶子节点上的观测变量的层次聚类结果,以及量化的聚类强度参数。然后我们把问题简化为找到某种层级性的张量分解,针对这个问题我们已经构造出有效的算法了。


场景应用中张量的重要性

金准数据认为,这些张量算法绝不仅仅是理论上的研究兴趣,而是具有可信的证据,它们不仅能够对算法进行加速,还能提高计算结果的精度。Rutgers大学的Kevin Chen在最近的NIPS工坊中进行了一次非常有说服力的演讲,其内容是关于在基因组学中张量算法的优越性:这种算法能够提供更好的生物学解释,相对于传统的期望-最大化算法(Expectation-Maximization,EM算法)而言,产生了100倍的计算加速。张量方法是如此有效,就是因为他们的算法利用已经高度优化过的线性代数计算库,跑在了时下流行的大规模计算集群上。总而言之,张量方法现在具备出人意料的可并行性,因此易于在异构硬件平台上进行大规模训练。

 

图4:Spark是一种基于内存的分布式机器学习工具



 

图5:LDA是一种自然语言处理(NLP)常见的算法


以上的直觉能够应用在更广泛的领域。就拿网络来说吧。你可能希望通过观察个体之间的互动来发现潜在的群体,像社交网络中的朋友关系推荐系统中的购买行为,以及大脑内神经元之间的彼此连接都是一些直接的例子。金准数据相关研究揭示了研究朋友的朋友或者类似的高阶关系对于社群发现的必要性。尽管这些函数之前已经被广泛地研究过了,但是我们开创性地展现了这种关系所蕴含的信息量,以及如何提高计算这些指标的效率。

张量对一类更丰富的数据进行建模,使我们能够掌控多元关系的数据。这些数据同时具有空间特性和时间特性。张量中的不同方向表示着不同类型的数据。

 

图6:张量类似矩阵,是可分解的


张量能够用比矩阵更丰富的代数结构来对信息进行编码,这就是它的核心所在。如前文所述,考虑一个通过行和列来表达的矩阵——或者叫二维数组。张量把这个概念延拓到了高维数组。

一个矩阵的意义远比仅仅是行和列要多。你可以通过线性操作对矩阵进行重塑,这就是我们常说的线性代数张量建立在一种更具有延展性的形式上,因此操作它们的学问也被扩展了,术语上叫做多线性代数

在拥有这种有效的数学结构之后,我们如何压缩它们以获取信息?我们能够对张量操作算法进行设计和分析吗?为了解决这些问题,我们需要一组关于解决非凸优化问题的证明技巧。


基于低秩张量分解方法

基于低秩张量分解方法,用于在现有的深度学习模型中进行分层并使其更紧凑。加上裁剪(pruning),张量分解是加快现有深度神经网络的实用工具

裁剪(pruning)技术能够减少模型中的参数数量。在一个数据集上正向传递(有时是反向传递)裁剪(pruning),然后根据网络中激活的一些标准对神经元进行排序。

完全不同的是,张量分解的办法只用到层的权重,假设网络层是参数化的,它的权重能够用一个矩阵或者是一个低秩的张量来表示。这意味这个它们在参数化的网络下效果最佳。像VGG神经网络设计为完全参数化的。另外一个关于参数化模型的例子是使用更少的类别对网络进行微调以实现更简单的任务。和裁剪(pruning)相似,分解之后通过模型需要微调来恢复准确性。

在我们会深入讨论细节之前,最后一件要说明的事是,虽然这些方法是实用的,并给出了很好的结果,但它们有一些缺点:

它们能够在一个线性权重上执行(比如一个卷积或者一个全连接的层),忽略了任何非线性的内容它们是贪婪,自认为聪明地分解层,忽略了不同层之间的相互作用目前还要试图解决这些问题,而且它仍然是一个活跃的研究领域。


1. 截断SVD用于分解完全连接的层

SVD概况

奇异值分解使我们能够分解任何具有n行和m列的矩阵AS是一个对角矩阵,其对角线上有非负值(奇异值),并且通常被构造成奇异值按降序排列的U和V是正交矩阵如果我们取最大的奇异值并将其余的归零,我们得到A的近似值具有作为Frobenius范数最接近于A的秩t矩阵的性质,所以如果t足够大,是A的良好近似。

在全连接层上的SVD

一个全连接层通常是做了矩阵乘法,输入一个矩阵A然后增加一个偏差b我们可以取A的SVD,只保留第一个奇异值这不是一个完全连接的层,而是指导我们如何实现它作为两个较小的第一个将有一个mxt的形状,将没有偏差,其权重将取自第二个将有一个txn的形状,将有一个等于b的偏差,其权重将取自。权重总数从nxm下降到t(n + m)。

在卷积层上张量分解

二维卷积层是一个多维矩阵(后面用-张量),有四个维度:

cols x rows x input_channels x output_channels.

遵循SVD的例子,我们想要以某种方式将张量分解成几个更小的张量。卷积层转换为几个较小近似的卷积层。为此,我们将使用两种流行的(至少在Tensor算法的世界中)张量分解:CP分解和Tucker分解(也称为高阶SVD或其他名称)。

2. 1412.6553 使用微调CP分解加速卷积神经网络

如果CP分解能够用于卷积层的加速,正如我们会看到的,这将卷积层纳入类似移动网络的东西。他们使用它来加速网络的速度,而不会明显降低精度。在实验中,这个在基于VGG16的网络上获得x2加速,而不会降低准确度。使用这种方法需要非常仔细地选择学习率,微调以使其工作,学习率通常应该非常小(大约)。

一个秩R矩阵可以被视为R秩和1矩阵的和,每个秩1矩阵是一个列向量乘以一个行向量SVD为我们提供了使用SVD中的U和V列来写矩阵和的方法如果我们选择一个小于矩阵满秩的R,那么这个和就是一个近似值,就像截断SVD的情况一样。CP分解让我们推广了张量。使用CP分解,我们的卷积核,一个四维张量公式,可以近似为一个选定的R我们希望R对于有效的分解是小的,但是对保持近似高精度是足够大的。

CP分解的卷积正向传递

为了传递图层,我们使用输入进行卷积这给了我们一个办法来解决这个问题:

首先做一个wise(1x1xS)与卷积。这减少了从S到R输入通道的数量。下一步将在较少数量的通道上完成卷积,使其更快。

其次,用在空间维度上执行分离的卷积。就像在移动网络中一样,卷积是深度可分的,分别在每个通道中完成。与mobilenets不同,卷积在空间维度上也是可分的

再次,做另一个逐点卷积来改变从R到T的通道数量如果原始卷积层有一个偏差,在这一点上加上它。

注意像在移动网中的逐点和深度卷积的组合。在使用mobilenets的时候,你必须从头开始训练一个网络来获得这个结构,在这里我们可以把现有的图层分解成这种形式。与移动网络一样,为了获得最快的速度,需要一个有效实现深度可分离卷积的平台。

PyTorch和Tensorly卷积层CP分解

图7:用PyTorch和Tensorly卷积层CP分解

3. 1511.06530 用于快速和低功率移动应用的深度卷积神经网络的压缩

Tucker分解也称为高阶奇异值分解(HOSVD)或者其他名称,是对张量进行奇异值分解的一种推广。

它认为SVD的推广的原因是

的分量通常是正交的,但这对于我们的目的并不重要

被称为核心矩阵,并定义不同的轴如何相互作用

在上面描述的CP分解中,沿着空间维度

的分解导致空间上可分离的卷积。无论如何,过滤器是非常小的,通常是3x3或5x5,所以可分离的卷积并不节省我们大量的计算,而且是一个积极的近似。

Trucker分解有用的性质是,它不必沿着所有的轴(模式)分解。我们可以沿着输入和输出通道进行分解(模式2分解):

卷积正向传递与Tucker分解

CP分解一样,写一下卷积公式并插入内核分解:

图8:卷积公式内核分解

这给了我们以下用Tucker分解进行卷积的配方:

1.与进行点对点卷积,信道从S减少到的数量。

2.用进行正则(不可分)卷积。这个卷积代替了原始层的S输入通道和T输出通道,具有输入通道和输出通道。如果这些等级小于S和T,这就是减少的原因。

3.用进行点对点卷积以回到原始卷积的T个输出通道。由于这是最后一次卷积,所以在这一点上,如果有偏差就加上偏差。

我们如何选择分解行列

一种方法是尝试不同的值并检查准确性。尝试后的启发是,效果很好。

理想情况下,选择行列应该是自动的。

使用变分贝叶斯矩阵分解(VBMF)(Nakajima等,2013)作为估计等级的方法。

VBMF很复杂,不在本文的讨论范围内,但是在一个非常高层次的总结中,他们所做的是将矩阵近似为低秩矩阵和高斯噪声之和。在找到A和B之后,H是等级的上限。为了将其用于Tucker分解,我们可以展开原始权重张量的s和t分量来创建矩阵。然后我们可以使用VBMF估计和作为矩阵的秩。我用这个在Python上实现的VBMF,相信它可以工作。VBMF通常返回的秩,非常接近我之前,仔细和乏味的手动调整得到的结果。这也可以用于估计完全连接层的截断SVD加速的等级。

PyTorch和Tensorly卷积层Tucker分解


 

图9:用PyTorch和Tensorly卷积层Tucker分解

总结

本文中,我们讨论了几个张量分解的方法来加速深度神经网络。截断的SVD可用于加速完全连接的层。CP分解将卷积层分解成类似移动网络的东西,尽管它更具侵略性,因为它在空间维度上也是可分的。Tucker分解减少了二维卷积层操作的输入和输出通道的数量,并且使用逐点卷积来切换2D卷积之前和之后的通道数量。

同时,也明确了我们能够用张量方法训练相当一大批隐含变量模型,比如文档的主题模型,网络中的社群模型,高斯混合模型,混合排序模型等等。这些模型表面上看起来毫无联系,然而他们通过把类似于条件无关这种统计学属性转化为张量上的代数约束之后,就达到了形式上的统一。在所有这些模型中,分解合适的高阶矩张量(往往是三阶或四阶的统计相关性)就能够稳定地估计模型参数。我们更进一步地证明了,这种算法只需要很小的样本量以及计算量就能工作得很好了。(这里很小的样本量,精确来说,是和样本点特征数量的低阶多项式同阶)