• 项目
首页>>文章列表 >>行业研究
行业研究

金准数据中国在线旅游度假行业研究报告 2017-06-06 10:45:04

一、中国在线旅游市场发展态势总论

中国在线旅游市场规模

在线旅游持续渗透,市场规模稳定增长。

数据显示,2016年中国在线旅游市场交易规模达5903.6亿元,增长率为33.3%,线上渗透率为12.0%,较去年相比提升1.3个百分比。

分析认为,尽管当前在线旅游行业进入稳定发展阶段,行业增长速度开始放慢,但在线旅游行业整体增长速度仍高于中国旅游业总收入增长速度,线上渗透率将保持增长,预计2019年线上渗透率接近15%。



中国在线旅游行业市场结构

机票占据半壁江山,度假占比逐步提升

.在线度假市场占比持续上升

中国在线旅游市场当中,度假交易额占比持续上升,2016年交易规模为974.4亿元,占比为16.5%,较2015年上升0.9个百分点。随着出境游、定制游的持续火热,在线度假占比将持续上涨。

机票市场仍占据半壁江山,但整体呈下降趋势

 2016年机票占比58.5%,其占在线旅游行业的比重较为稳定。机票是在线旅游市场中发展最为成熟的板块,随着在线度假及其他品类业务的上升,机票增速将相对放缓,比例出现下降趋势。

 .住宿市场占比较为稳定,中高端酒店及民宿产品受青睐

 2016年中国在线住宿占比为20.1%,较2015年下降0.2个百分点。在消费升级和中产阶级崛起的背景下,人们对出游的品质逐步提高,对住宿的需求也呈现个性化,因而未来中高端酒店及民宿等产品将逐渐受到用户的青睐。



中国在线旅游PC端流量数据分析

PC端流量呈现下滑态势

监测数据显示,2016年在线旅游行业PC端月度覆盖人数整体稳定在1.2亿人上下,各月同比增长率均为负值,整体流量呈现下降趋势。艾瑞分析认为,随着人口红利的消退,以及用户行为全面移动化,PC端流量未来仍将持续下降。



中国在线旅游移动端流量数据分析

红利消退,移动端流量趋向稳定

监测数据显示, 2016年在线旅游行业移动端月度覆盖设备数整体稳定在1.6亿台上下。其中,前11个月波度较小,12月受春运影响,月度覆盖设备数迅速增长至2.2亿台,增长率达25.8%。艾瑞分析认为,移动互联网目前已进入成熟阶段,易转化人群规模已经很小,因此在线旅游行业移动端流量趋向稳定。


中国在线旅游移动端流量数据分析

移动端访问次数占比六成,优势突显

监测数据显示,旅游用户在移动端的访问次数远高于PC端,移动端具有明显优势。2016年中国在线旅游移动端平均月度访次占比达60.4%,其中2月和12月移动端占比较高,均超过66%。艾瑞分析认为,移动端相较于PC端具有便携性,能够随时随地满足用户需求,因而能快速在用户人群中普及。


二、中国在线旅游度假市场分析

中国在线旅游度假市场定义

在线旅游度假定义及分类

.在线旅游

在线旅游是通过互联网、移动互联网及电话呼叫中心等方式为消费者提供旅游相关信息、产品和服务的行业。其包括在线机票预订、在线酒店预订、在线度假预订和其他旅游产品和服务(如商旅、保险、WiFi等)。

.在线旅游度假

在线旅游度假是指通过互联网、移动互联网及电话呼叫中心等方式为消费者提供旅游度假组合产品、单品门票及其他旅游出行相关产品和服务的行业。其按照旅游方式可分为在线跟团游和在线自助游两种形式。



中国在线旅游度假市场发展环境

2016年传统旅行社达2.8万家

公开数据显示,截止2016年底,中国传统旅行社共计28097家,增长率为1.7%,传统旅行社仍然保持缓慢增长状态。艾瑞分析认为,在旅游业中,线上渗透率还比较低,线下仍有非常广阔的空间,因此旅行社数量仍保持较为稳定的增长状态。同时,各大OTA为拓展三四线城市用户,纷纷尝试开设线下门店和体验店,征战线下市场,未来OTA和传统旅行社之间竞争将加剧。







中国在线旅游度假市场规模

2016年在线度假市场规模达962.9亿元

数据显示,2016年中国在线旅游度假市场交易规模为962.9亿元,较去年增长37.4%,占整体在线旅游市场的比重达16.3%,比2015 年提升0.1个百分点。分析认为,在线旅游市场中,在线度假市场发展最为迅速,其占在线旅游行业比重从2009年的5.8%,增长至2016年的16.3%。整体而言,在线度假市场前景广阔,预计未来几年增长率将保持在25%以上。



中国在线度假市场竞争格局

在线旅游度假市场格局稳定,途牛、携程双雄并立

数据显示,2016年中国在线旅游度假市场格局稳定,其中途牛、携程、同程依旧保持前三位置,市场份额分别为19.4%、19.2%和10.0%。分析认为,2016年在线旅游度假行业投资并购事件频出,市场竞争加剧,规模较小的企业份额被压缩。此外,飞猪、美团等平台发展也较为快速,推动平台模式市场交易规模占比提升。







三、中国在线旅游度假市场运营指标分析

中国在线旅游度假流量数据分析

携程月度覆盖人数领先,“双11”带动飞猪流量大增

监测数据显示,2016年中国在线旅游度假PC端主要网站月度覆盖人数整体较去年有所回落。除飞猪外的各主要网站月度覆盖人数变化基本趋势相似,在上半年波动增长,在Q3达到全年峰值,Q4流量呈下降趋势。飞猪流量波动较大,2月跌至全年最低值,11月份受“双11”影响,流量达到全年最高值。



中国在线旅游度假市场流量分析

飞猪访问次数领先,途牛缩小同去哪儿流量差距

监测数据显示,2016年飞猪流量波动较大,2月跌至全年最低值,11月份受“双11”影响,流量达到全年最高值。除飞猪外的各主要网站月度访问次数在上半年波动增长,在Q3达到全年峰值,Q4流量呈下降趋势。其中飞猪、携程及去哪儿流量领先,且同其他企业存在一定差距,为第一梯队。途牛月度访问次数呈逐月上升趋势,逐步缩小同第一梯队中去哪儿的流量差距。





四、中国在线旅游度假市场案例分析




五、中国在线旅游度假市场趋势分析













2017中国企业网盘行业发展白皮书 2017-06-05 17:17:16

金准数据报告:通过“范例卷积神经网络”实现信息最大化 2017-06-05 16:56:19

“范例卷积神经网络”概述


从一个未经标记的数据库中取出适量有趣的图像,把这些图像称为“种子图像”或者是“范例”。你需要对每一个图像进行各种各样的转换,你可以更改“种子图像”的颜色,或者把它旋转至不同的方向。而这些转换后的图像集合就是一个“代理图像集”。下图就是对一只鹿的“种子图像”进行各种转换之后得到的图像集:

“范例卷积神经网络”和信息最大化

每一张范例图像都需要经过转换,形成一个“代理图像集”。所以,你有多少张“种子图像”,就会有多少个“代理图像集”。完成以后,你就可以开始一个卷积网络的训练了。你需要让它通过一张转换后的图像,推测其“种子图像”的各项指数。所以,如果你有8000个“种子图像”,你就需要解决8000个图像分类的问题。那么相应地,你的卷积网络也就具备了8000维度的分类功能。


当然了,“种子图像”数量越多,网络训练的难度就越大,到最后网络掌握的分类功能的维度也就越高。论文的作者们表示,8000个“种子图像”尚在网络分类功能可处理的范围之内,而且这8000个图像的训练就已足够让我们达到比较理想的效果了。

下面我想补充的是——我们在“范例卷积神经网络”中建立的“马尔科夫链”的图像模型视图。


变分信息最大化的视图


“信息最大化”能够根据信息测量变量的不同,采取不同的方式来进行表征学习。为了进一步了解“范例卷积神经网络”,我们来看下图的“马尔科夫链”:

“范例卷积神经网络”和信息最大化

上图中的X表示“种子图像”,Tαx表示转换后的图像(随机抽样变换参数α),Z=g(Tαx;Θ)表示采用了随机图像并计算了其表征的一个映射。所以,从Tαx到的Z箭头事实上是一个确定性映射。

如果我们把z看作是x的表征,那么实现“互信息”║[X,Z]的最大化就是有意义的。这个“互信息”有一个下界,这个下界就是标准的“变分下限”。

“范例卷积神经网络”和信息最大化


如果我们的变分集Q涵盖了真实情境Px∣z,那么这一下界就是确定的。


“范例卷积神经网络”的特别之处就在于,它利用了“分布Px实际上是N观测值的一个经验分布”这一事实。这是当我们推导一个损失函数时,通常被我们否定的一种情况,只有在最后才能代替经验分布,构造一个无偏估计值。这里,我们很大程度上是依靠这样一个事实——我们只有N观测值,而且N与数据维度D相比较小。用N来模拟离散分布,比模拟图像分布要简单得多。


如果我们有N的“种子图像”Xn,那么我们就可以勉强用X来表示下面的经验分布:

“范例卷积神经网络”和信息最大化


假如Z的分布被稍稍地离散了,那么赋予Z的情境也会被离散,只是离散的比例不同。

“范例卷积神经网络”和信息最大化


因此,在这种情况下,一个仅根据不同比例离散分布的变分集合Q就变得非常必要了:

“范例卷积神经网络”和信息最大化

上面公式中,W代表的是q的参数,πn(Z,W)表示形成了一个有效的离散概率分布。这样才会使得“范例卷积神经网络”和信息最大化。如果我们让离散比例πn(Z,W)灵活地任意变化,变分集合Q就能意识到其后部内容,而我们对“互信息”的限制就会比较严格。使用上面对qΘ的定义,我们可以把下界表达为:

“范例卷积神经网络”和信息最大化

从x可以得到其表征z,使用其中的原理,我们可以依据转换参数α的期望值,写出以下表达式:

“范例卷积神经网络”和信息最大化

表达式左边的部分看上去很像是“范例卷积神经网络”学习的“N式”分类问题:我们可以把其中的πn看作是“N式”的分类器,这个分类器需要一张任意转换过的图像,然后估测出“代理集合”n。上面的方程式事实上是这个分类器的“损失函数”。


为获得真正的“范例卷积神经网络”方程式,我们需要做的最后一件事是进一步限制Q。因此,我们只能让离散比例π符合以下的逻辑回归式:

“范例卷积神经网络”和信息最大化

如果我们把这些值重新代入之前得出的方程式,那么我们就会得到论文中提到的“多项损失函数”(与论文中的方程式5相对比):

“范例卷积神经网络”和信息最大化

因此,我们已经证明了“范例卷积神经网络”进行优化的目标函数,实际上是限制“种子图像”和转换后图像的表征g(Tαx)间的“互信息”的一个下界。


这个“互信息”下界的限制有多严格?


“互信息”的下界限制其实可能并不是那么的严格,因为π(z,Θ)仅受限于线性分类器。但是如果我们决心严格限制互信息,那么这个下界是完全可能更加严格的。确实,如果我们不考虑最后一层g,而是把一些中间的隐藏层视作表征,把上面的一些层视作是q的一部分,那么这个所谓的下界限制就仍然是有效的,而且中间层的限制就会更严格。


那些非宽松的界限并不一定就是故障所在,相反,它可能还是一个特色。仅考虑q的逻辑回归模型,实际上是一个比信息优化更严格的目标函数。就像我之前经常提到的,“互信息”本身对表征的可逆再参量化并不敏感,因此它不能够自己找到已还原了的表征。所以,仅考虑下界的问题可能更适用于这个案例。你不仅需要用z来保留关于x的信息,还需要一个线性可辨性的格式,如果你之后想要把表征用于线性分类器的话,那么这个线性可辨性就是一个相当有用的属性。


到底什么东西才能被用作表征?


最后,一个这样的问题出现了——到底什么样的函数或映射应该被用作表征呢?关于这个问题,你有三个选项:

作者是把g(x,Θ)的层用作表征本身的。这在我看来是有些难以理解的,因为这个函数从未经过一个真实图像补丁的训练,它只受过转换过的图像补丁Tαx的训练。我认为作者这一做法的原因是,尽管受到种子补丁的训练较少,但是这个函数已经经过大量转换过的图像的训练,所以它是完全有能力成为表征的。作者还提出,最后一层最终将会被训练得越来越不容易受转换图像的影响。
你可以使用一个随机表征g(Tαx,Θ),但是过不久这个表征就会显得很累赘,不好处理。因为你必须每次都抽样检查α,对它进行评估,并且整合α上面建立的所有表征。
你可以使用“范例卷积神经网络”和信息最大化的方法。如果g是转换图像的不变量,那么它就能表示成“范例卷积神经网络”和信息最大化。实际上,如果g不是转换图像的不变量,那“范例卷积神经网络”和信息最大化可能更有可能是不变的。


最后,就像我在前面说的,你可以把g的中间层当作表征,而不是最后一层。你还是可以训练那些中间层,让他们实现信息最大化,事实上那些中间层的界限还更严格一些。其实作者也是这样做的:他们集合了各个层的特征,然后考虑了所有中间层之上的一个线性SVM。


总结


“范例卷积神经网络”是“自监督学习”的一个绝佳例子。采用一个未经标记的数据库,并在此之上建立一个代理的监督式学习任务来帮助表征学习。像我在本文中说的,“范例卷积神经网络”还能被理解为——寻找一个信息最大化的表征。


相对简单的用于变分界限的变分分布可能是个非常有益的东西,而设立严格的界限可能反而会让事情变得更糟。谁知道呢?但是在这个框架内建立“范例卷积神经网络”,确实让我们更好地理解了其工作原理。

金准数据AI如何实现人机交流 2017-06-05 16:26:29

自然语言处理系列之人机之间的巴别塔之谜【一】

人机交互的本质是什么?AI能否真正理解人类的语言,甚至感情?

根据《圣经·旧约》的记载,在很久以前,人类是使用相同的语言的。而当人类逐渐壮大,在虚荣心的趋使下,他们想建造一座通天的巨塔,耸入云霄,并欲借此达到至神的领域。可上帝对人类的行为非常不满,故令世人的语言互不相通,人类因此陷入无休止的争端和混乱中,计划也就此失败。这就是有名的“巴别塔之谜”。


语言是人类社会合作的基石、知识传承的载体,但语言又似乎是人类自身的优点和局限的一面镜子:既可以创造新世界、通达人心,却又不总是那么可靠、时常会引起误解;有时优美纯净,有时又粗俗不堪。

对人工智能而言,征服语言似乎是通往终极智慧路上一个无法被忽视的目标。可是什么是语言,语言背后承载了怎样的智慧和秘密?冰冷的机器、缜密的逻辑是否可以穿透语言的表象,触摸到人类的灵魂呢?在AlphaGo令所有围棋大师俯首称臣的今天,深度学习是否也能够在语言领域展现同样的能力?


在该系列文章里,竹间智能NLP及语言学专家组,将带大家回顾人类对语言认识的不断演进,讨论自然语言处理的重难点、最新的进展,以及未来发展的方向。也许在不久的将来,人类语言本身也会随着AI的进步而进步吧!


第一道难题

让我们把思绪从宏大的历史中抽离出来。如果我们希望人工智能可以“征服语言”,那么也许我们应该从征服小学课本开始。

对于计算机来说,相比于其他所有的学科,它最擅长的也许就是最抽象、最理性的数学了。

数学的语言,相较于别的科目,更强调精确。数学建立在毫不含糊的逻辑之上,那么用于描述数学的语言,当然也就必须精准无误。事实上,对于用单纯数字和符号表示的数学,计算机是可以辨认和理解的,这当然也是计算机被创造出来的初衷。


可是如果我们对于计算的过程稍做修饰,将它用自然语言描述出来的时候,似乎计算机就很难去理解了。所以今天我们小试牛刀,看看人工智能在自己擅长的科目能考多少分。

让我们来算一道简单的数学题目,“小明上学期期末考试,语文、数学、自然、社会、英语的成绩分别是88分、96分、94分、90分、82分。小明五科的平均成绩是多少?”

当然,很多程序员心中已经开始纳闷,这道题目真的很简单,一行代码就可以搞定了。

自然语言处理系列之人机之间的巴别塔之谜【一】

我们暂时先不讨论python解释器如何将上面的代码转换为机器指令,以及底层的硬件如何运作(虽然电脑能够理解“高级”编程语言已经是一个奇迹)——只要在自己的电脑上验证一遍,应该就足以令人信服了:

自然语言处理系列之人机之间的巴别塔之谜【一】

我们想知道的是,人类的语言,和“给计算机看”的语言到底有什么差别,为什么计算机读得懂计算机语言,却读不懂人类语言呢?最新的人工智能的技术到底能不能够弥补这样的差异?


语言的秘密

为了解释清楚这个对程序员来说似乎不成问题的问题(他们每天都在充当人类和机器之间的翻译官),我们需要先认识一位对人工智能和语言学来说都举足轻重的学术巨擎:乔姆斯基

自然语言处理系列之人机之间的巴别塔之谜【一】

严格说来,乔姆斯基是站在AI的对立面的。在人工智能“大跃进”的60年代,乔姆斯基更多的是在给人工智能泼冷水。他认为简单的电脑程序永远无法理解语言,因为人类自己还尚未理解语言产生的机制。

乔姆斯基坚信人类的语言可以被一种与生俱来的“普遍语法”所描述——在今天,乔姆斯基的大部分语言学理论已经不再被奉为圭臬,但他在对语法的研究中所规划出来的“乔姆斯基谱系”,依然是人们在研究语言的复杂度之时所遵循的原理。

自然语言处理系列之人机之间的巴别塔之谜【一】

(上图:乔姆斯基谱系;越靠近中心的语言越简单,越外层的语言越复杂)

语言具有表达形式所描述的内在逻辑两种属性。所以,我们在讨论语言的复杂度的时候,一方面是在研究为了表达一定的语义,我们需要多么复杂的表达形式;而另一方面,我们想知道这种语言所能表达的概念,能够达到怎样的复杂度——形式非常复杂的语言也许只能表达非常简单的语义,而非简单的符号根据一定规则,就可以表达极其丰富的内容。


在上面这道应用题的例子当中,计算机语言和自然语言所表达的意思是一样的,可是表达的复杂程度差别很大。这样的差异,在乔姆斯基谱系当中,就表现为语言复杂度的不同。这也造成了计算机看得懂“计算机语言”,却看不懂人类语言的现象。在图上圆心最中间的,也就是最简单的语言,我们称之为正则语言(regularlanguages)。


正如字面上的意思,正则语言相对比较“规范”。它可以由一定的“生成语法”来生成,并且,可以被一个“有限状态机”接受。


让我们用下面这个例子来解释。我们考虑一个正则表达式a(bb)+a,它的意思是匹配任意由a开始,由a结束,而其中有至少两个,至多任意偶数个b的字符串(在这里不考虑开始和结束的约束符号)。

所谓的“有限状态机”,就是如下图的一个“机器”,它有一个起始状态(a),有一个结束状态(最后的a后面的那个双线的圈),当输入的字符串根据其状态转移规则能够走到结束状态时,即说明“接受”了这个字符串。在下图中,当输入为abbbba的时候,这个“机器”会依次根据状态转移的规则,一步一步走到最后的结束状态:

自然语言处理系列之人机之间的巴别塔之谜【一】

所以我们认为abbbba是符合这个规则的字符串,实际上也符合正则语言的要求。所有符合“正则”规范的字符串的合集,就是“正则语言”。


编程语言,通常是符合乔姆斯基谱系中“正则语言”或是“上下文无关语言”的规范的,因而我们有办法制造出一种规范的方法来处理它们(即下图中的“Non-deterministicpushdown automaton”——不用担心这样看起来很吓人的术语,我们在这个系列中会慢慢介绍的),这就是计算机能够理解编程语言的秘密。

自然语言处理系列之人机之间的巴别塔之谜【一】

(上表:不同类型的语言及其生成的语法规范)

如果将人类语言看成是一连串的字符串,那它符合这样的规范吗?我们是否可以制造出这样一个“状态机”?并“接受”所有的人类语言(例如:汉语)呢?


很不幸,人类语言的复杂度是高于程序语言的;自然语言是属于Type-0,也就是最复杂的那一种语言。


以我们所举的这道应用题的例子来说,如果我们把“平均成绩”换成“总分”,这就涉及到语义理解的问题。平均成绩的意思是求平均数,总分的意思是求和。电脑必须要具有这样的常识,才能够正确地工作。


60年代第一次“AI寒冬”就是由于所谓commonsense knowledge problem引起的:人们发现如果要采用暴力方法一个一个去定义所谓的常识,这样的工作量过于巨大,超出了人类工作的能力。


或者,如果我们把最后一句话中的小明改成“他”,那么计算机需要通过查询上下文才能正确理解“他”是指谁,这是一个指代消解的问题,而计算机暂时还不具备这个能力。


最后,如果改为问“请问小明最需要给哪一门补课?”,这就是一个有常识推理的问题,计算机需要理解一个常识,即一般而言都会补习最差的那门课,并且进行推理才能得到答案。


所以,我们在这里理清了这样一个概念:虽然现代的计算机聪明到可以理解“编程语言”,但是同样的技巧还不足以让它去理解更加复杂的人类语言。这正是为什么在今天我们还需要成千上万的程序员辛勤地工作的原因了。


上述这种通过严格的逻辑规则来解决AI问题的方法,就是“符号主义”。符号主义正是AI的联合创始人之一、Lisp语言的发明者McCarthy所坚持的学派,这个学派主张:人类智能的问题,归根结底,是可以用符号逻辑的方式解决的,而人类的语言,可以映射到一些抽象的逻辑规则上去。

根据这些规则可以进行推理,然后能够帮助人类解决一些问题。当然我们在上面也看到了,符号主义一个非常大的弊端就在于:在解决实际问题的时候,总是需要一些人类手工编写的规则,而穷尽世间所有的规则的复杂度非常高——这导致了符号主义暂时性的失败。


而与“符号主义”相对的是“连接主义”。连接主义认为解决复杂性的办法就是学习人脑的结构,用“神经元”以及神经元之间的连接来表征世间万物,而深度学习正是这种理念的代表。如果传统的符号主义还不能够解决我们的问题,那么近期取得了巨大进展的连接主义是不是有望在这个问题上取得突破呢?


神奇的深度神经网络,以及不那么神奇的结果

首先让我们来看一个好消息,这篇论文提出了:“神经网络可以模拟通用图灵机”的论点。

自然语言处理系列之人机之间的巴别塔之谜【一】

(“图灵机”的概念我们会在下一篇文章中具体介绍。)

现在我们只需要对照上面的“乔姆斯基谱系”,看到“图灵机”是可以解析最复杂的“Type-0”语言的,就可以知道,如果神经网络可以模拟“图灵机”,那么一定也可以用于处理非常复杂的语言,譬如说人类的自然语言。


但是落实到实际的应用当中,如果我们希望利用监督式的机器学习方式,也就是说通过构建一个足够庞大、包罗万象的训练数据集来让机器学习到“自动编程”的方法,恐怕不太现实——我们怎么可能得到这么充分的训练数据呢?


所以,也许我们可以将问题稍作简化,先解决一个复杂度相对可控的问题,然后再去考虑通用性。特别地,如果小明的各科成绩都已经储存在一个数据库里了,我们只需要针对这个表来回答一些问题呢?

这样的话,我们的神经网络在给定一个输入的问题的时候(比如说,小明的所有科目的平均分是多少?),会输出以下的内容:

1)列选择。需要知道我们想要操作的列(是“分数”那一列)

2)操作符选择。这里我们想选一个“AVERAGE”的操作。

3)行选择。这里我们想要选择所有行。

只要这三个选项都选对了,我们的神经网络就可以输出正确的答案了。

这正是ICLR2017上面Google发表的一篇文章Learninga Natural Language Interface with Neural Programmer吧(暂时可以译为“神经程序员”)所采取的思路。

自然语言处理系列之人机之间的巴别塔之谜【一】

这样一个神经网络,要怎样来训练呢?我们是要针对每一个问题,给他标上这三个选项所应该对应的内容吗?这样所需要的标注数量,依然太过庞大了。


所以现实一点,我们希望这个网络能够利用弱监督的方式来进行学习,换句话说,只要对这个问题进行正确答案的标注,这个网络就会自动去学习写程序(而不是死记硬背答案)了。这样的话我们只需要针对一些有针对性的问题来标注少量的答案,就可以训练出这样的一个神经网络了。

但经过这样层层的简化,谷歌的研究人员也还是只取得了以下的成果。

自然语言处理系列之人机之间的巴别塔之谜【一】

就算用15个这样的模型进行Ensemble,在测试集上也只有37.7%的正确率——这已经是state-of-the-art的结果了。

从这样的结果看来,在第一回合的较量中,人工智能落了下风。

虽然看上去程序员们还不会面临立刻失业的危机,可是别忘了,在AlphaGo征服围棋界之前,人们还一度以为电脑至少还需要10年才能在围棋项目中击败顶尖的人类选手呢。


这其中的奥秘在于,AlphaGo能够根据围棋规则进行左右互搏式的“自学习”。但在自然语言理解的问题中,如果只是像上面介绍的这样进行有监督的学习,是不太可能取得最终的成功的——这也是“连接主义”所面临的一个巨大问题,即使在拥有巨大计算力和海量数据的今天,取得优质的人工标注好的数据集也是很困难的一件事情。

中国微商行业研究报告 2017-06-05 16:22:10

金准数据 人工智能深度学习系列报告 2017-06-05 15:48:55

人工智能,深度学习,机器学习……不管你在从事什么工作,都需要了解这些概念。否则的话,三年之内你就会变成一只恐龙。 —— 马克·库班

库班的这句话,乍听起来有些偏激,但是“话糙理不糙”,我们现在正处于一场由大数据和超算引发的改革洪流之中。

首先,我们设想一下,如果一个人生活在20世纪早期却不知电为何物,是怎样一种体验。在过去的岁月里,他已经习惯于用特定的方法来解决相应的问题,霎时间周围所有的事物都发生了剧变。以前需要耗费大量人力物力的工作,现在只需要一个人和电就能完成了。

而在现在的背景下,机器学习、深度学习就是新的“电力”。

所以呢,如果你还不了解深度学习有多么强大,不妨就从这篇文章开始。在这篇文章中,作者Dishashree Gupta为想了解深度学习的人,罗列并解释了25个这一领域最常用的术语。

这25个术语被分成三组:

  • 神经网络中的基础概念(包含常用的一些激活函数)

  • 卷积神经网络

  • 递归神经网络

基础概念:

(1) 神经元(Neuron)

正如我们大脑中的基本组成单元,神经元是组成神经网络的基础结构。设想一下当接触到新的信息时,我们的身体会对其进行处理,最后产生一些特定的反应。

相似地,在神经网络中,在收到输入的信号之后,神经元通过处理,然后把结果输出给其它的神经元或者直接作为最终的输出。

深度学习入门指南:25个初学者需要知道的概念

(2) 加权/权重(Weights)

当输入信号进入到神经元后,会被乘以相应的权重因子。举例来说,假设一个神经元有两个输入信号,那么每个输入将会存在着一个与之相应的权重因子。在初始化网络的时候,这些权重会被随机设置,然后在训练模型的过程中再不断地发生更改。

在经过训练后的神经网络中,一个输入具有的权重因子越高,往往意味着它的重要性更高,对输出的影响越大。另一方面,当权重因子为0时意味着这个输入是无价值的。

如下图所示,假设输入为a,相应的权重为W1。那么通过赋权节点后相应的输入应变为a*W1。

深度学习入门指南:25个初学者需要知道的概念

(3) 偏置/偏倚(Bias)

除了权重之外,输入还需要经过另外一种线性处理,叫做偏置。通过把偏置b与加权后的输入信号a*W1直接相加,以此作为激活函数的输入信号。

(4) 激活函数

之前线性处理之后的输入信号通过激活函数进行非线性变换,从而得到输出信号。即最后输出的信号具有f(a*W1+b)的形式,其中f()为激活函数。

在下面的示意图中, 设X1…Xn等n个输入分别对应着权重因子Wk1…Wkn以及相应的偏置b1…bn。我们把输入Xi乘以对应的权重因子Wki再加上bi的结果称为u。

u=∑w*x+b

这个激活函数f是作用在u上的,也就是说这个神经元最终的输出结果为yk = f(u)

深度学习入门指南:25个初学者需要知道的概念

接下来我们讲一讲常用的一些激活函数:Sigmoid函数, 线性整流函数(ReLU) 和 softmax函数

(a) Sigmoid函数

作为最常用的激活函数之一,它的定义如下:

深度学习入门指南:25个初学者需要知道的概念

深度学习入门指南:25个初学者需要知道的概念

来源:维基百科

sigmoid函数为值域在0到1之间的光滑函数,当需要观察输入信号数值上微小的变化时,与阶梯函数相比,平滑函数(比如Sigmoid函数)的表现更好。

(b) 线性整流函数(ReLU-Rectified Linear Units)

近来的神经网络倾向于使用ReLU替代掉sigmoid函数作为隐层的激活函数,它的定义如下:

f(x) = max(x,0).

当x大于0时,函数输出x,其余的情况输出为0。函数的图像是:

深度学习入门指南:25个初学者需要知道的概念

来源:cs231n

使用ReLU函数的好处是,对于所有大于0的输入,导数是恒定的,这能够加快训练网络的速度。

(c) softmax函数

softmax激活函数通常应用在分类问题的输出层上。

它与Sigmoid函数相似,唯一的不同是softmax函数输出结果是归一化的。sigmoid函数能够在双输出的时候奏效,但当面对多种类分类问题的时候,softmax函数可以方便地直接将各个分类出现的概率算出。

(5) 神经网络

神经网络是构成深度学习系统的框架。神经网络的任务是找到一个未知函数的近似表达方式,它是由彼此相连的神经元所组成,这些神经元会在训练网络的过程中根据误差来更改它们的权重和偏置。激活函数将非线性变化用线性变化的组合来表示,最终产生输出。

关于神经网络最好的定义是由Matthew Mayo给出的:

神经网络是由大量彼此相连、概念化的人造神经元组成的,这些神经元彼此之间传递着数据,相应的权重也会随着神经网络的经历而进行调整。神经元们有着激活的阈值,当它们遇到相应的数据以及权重时会被激活,这些被激活的神经元组合起来导致了“学习”行为的产生。

(6) 输入层/输出层/隐藏层

从名字中就能看出,输入层代表接受输入数据的一层,基本上是网络的第一层;输出层是产生输出的一层,或者是网络的最后一层,而网络中间的处理层叫做隐藏层。

这些隐藏层对输入的数据进行特定的处理,再将其输入到下一层。输入层和输出层是可见的,而中间层通常是被隐藏起来的。

深度学习入门指南:25个初学者需要知道的概念

来源:cs231n

(7) 多层感知器(MLP-Multi Layer Perceptron)

一个单一的神经元不能够完成复杂的任务,因此需要将它们堆叠起来工作进而产生有用的输出。

最简单的神经网络包括一个输入层、一个隐藏层和一个输出层。每一层都由多个神经元组成,每一层的每个神经元都与下一层中的所有神经元相连。这样的网络可以被称为是全连接网络

深度学习入门指南:25个初学者需要知道的概念

(8) 正向传播(forward propagation)

正向传播是指信号从输入层经过隐藏层到输出层的传输过程。在正向传播中,信号是沿着单一方向进行传播,即输入层给隐藏层提供输入,进而最终产生相应的输出。

(9) 成本函数(cost function)

在神经网络的建造过程中,建造者们希望输出的结果能够尽可能地接近实际值,因此使用成本函数来描述网络的这种准确性。

神经网络的目标是增加预测的准确性从而减少误差,即最小化成本函数。通常情况下,最优化的输出结果往往对应着成本函数的最小值。

如果采用均方误差作为成本误差,即表示为C= 1/m ∑(y – a)2,其中m是训练过程中输入数据的个数,a是相应的预测值,y代表实际值。

模型学习的过程就是围绕着最小化成本而进行的。

(10) 梯度下降(gradient descent)

梯度下降是一种最小化成本函数的优化算法。

在梯度下降中,从起始点x开始,一次移动一点,比如说移动delta h,然后将位置信息更换为x-delta h,如此重复下去,直到达到局部的极小值,此时认为极小值就是成本最小的地方。

深度学习入门指南:25个初学者需要知道的概念

数学上说,沿着函数的负梯度运动就能得到函数的局域最小值。

(11) 学习速率(learning rate)

学习速率定义为在每次迭代过程中对成本函数的最小化次数。简单来说,学习速率就是指朝着成本函数最小值的下降速率。选择学习速率需要很谨慎,过大会导致可能越过最优解,过小会导致收敛花费太多的时间。

深度学习入门指南:25个初学者需要知道的概念

(12) 反向传播(back propagation)

在定义一个神经网络的过程中, 每个节点会被随机地分配权重和偏置。一次迭代后,我们可以根据产生的结果计算出整个网络的偏差,然后用偏差结合成本函数的梯度,对权重因子进行相应的调整,使得下次迭代的过程中偏差变小。这样一个结合成本函数的梯度来调整权重因子的过程就叫做反向传播。

在反向传播中,信号的传递方向是朝后的,误差连同成本函数的梯度从输出层沿着隐藏层传播,同时伴随着对权重因子的调整。

(13) 分批(Batches)

当在训练一个神经网络的时候,相对于一次性将所有的数据全输入进去,有一个更好的方法:先将数据随机地分为几个大小一致的数据块,再分批次输入。跟一次性训练出来的模型相比,分批训练能够使模型的适用性更好 。

(14) 周期(epochs)

一个周期表示对所有的数据批次都进行了一次迭代,包括一次正向传播和一次反向传播,所以一个周期/纪元就意味着对所有的输入数据分别进行一次正向传播和反向传播。

训练网络周期的次数是可以选择的,往往周期数越高,模型的准确性就越高,但是,耗时往往就越长。同样你还需要考虑如果周期/纪元的次数过高,那么可能会出现过拟合的情况。

(15) Dropout方法

Dropout是一个可以阻止网络过拟合的规则化方法。就像它的名字那样,在训练过程中隐藏的某些特定神经元会被忽略掉(drop)。这意味着网络的训练是在几个不同的结构上完成的。

这种dropout的方式就像是一场合奏,多个不同结构网络的输出组合产生最终的输出结果。

深度学习入门指南:25个初学者需要知道的概念

来源:Hinton论文《Improving neural networks by preventing co-adaptation of feature detectors》

地址:https://arxiv.org/pdf/1207.0580.pdf

(16) 分批标准化(Batch Normalization)

分批标准化就像是人们在河流中用以监测水位的监察站一样。这是为了保证下一层网络得到的数据拥有合适的分布。在训练神经网络的过程中,每一次梯度下降后权重因子都会得到改变,从而会改变相应的数据结构。

深度学习入门指南:25个初学者需要知道的概念

但是下一层网络希望能够得到与之前分布相似的数据,因此在每一次数据传递前都需要对数据进行一次正则化处理。

深度学习入门指南:25个初学者需要知道的概念

卷积神经网络

(17) 过滤器/滤波器(Filter)

CNN中的滤波器,具体是指将一个权重矩阵,我们用它乘以输入图像的一部分,产生相应的卷积输出。

比方说,对于一个28×28的图片,将一个3×3的滤波器与图片中3×3的矩阵依次相乘,从而得到相应的卷积输出。滤波器的尺寸通常比原始图片要小,与权重相似,在最小化成本的反向传播中,滤波器也会被更新。

就像下面这张图片一样,通过一个过滤器,依次乘以图片中每个3×3的分块,从而产生卷积的结果。

深度学习入门指南:25个初学者需要知道的概念

(18) CNN(卷积神经网络)

卷积神经网络通常用来处理图像数据,假设输入数据的形状为28×28×3(28pixels×28pixels×RGB Value),那么对于传统的神经网络来说就会有2352(28×28×3)个变量。随着图像尺寸的增加,那么变量的数量就会急剧增加。

因此,通过对图片进行卷积,可以减少变量的数目。随着过滤器沿着图像上宽和高的两个方向滑动,就会产生一个相应的2维激活映射,最后再沿纵向将所有的激活映射堆叠在一起,就产生了最后的输出。

可以参照下面这个示意图。

深度学习入门指南:25个初学者需要知道的概念

来源:cs231n

(19) 池化(pooling)

为了进一步减少变量的数目同时防止过拟合,一种常见的做法是在卷积层中引入池化层(pooling layer)。如下图所示,最常用的池化层的操作是将原始图片中每个4×4分块取最大值形成一个新的矩阵,这叫做最大值池化(max pooling)。

深度学习入门指南:25个初学者需要知道的概念

来源:cs231n

当然也有人尝试诸如平均池化(average pooling)之类的方式,但在实际情况中最大化池化拥有更好的效果。

(20) 补白(padding)

如下图所示,补白(padding)通常是指给图像的边缘增加额外的空白,从而使得卷积后输出的图像跟输入图像在尺寸上一致,这也被称作相同补白(Same Padding)。

深度学习入门指南:25个初学者需要知道的概念

有效补白(Valid Padding)指的是保持图片上每个真实的像素点,不增加空白,因此在经历卷积后数据的尺寸会不断变小。(译者注:具体是指有效补白每次会丢弃最后不满足于一次卷积的像素点,比如说filter是3*3的,那么对于一行有32个pixel的数据,经历一次卷积后就会丢掉最后2个pixel;而通过相同补白,增加一个空白位,使每行有33个pixel,卷积后数据的尺寸不会变小。

(21) 数据增强(Data Augmentation)

数据增强(Data Augmentation)指的是从已有数据中创造出新的数据,通过增加训练量以期望能够提高预测的准确率。

比如在说数字识别中,我们遇到的数字可能是倾斜或旋转的,因此如果将训练的图片进行适度的旋转,增大训练量,那么模型的准确性就可能会得到提高。通过“旋转”的操作,训练数据的品质得到了提升,这种过程被称作数据增强。

深度学习入门指南:25个初学者需要知道的概念

递归神经网络

(22) 递归神经元(Recurrent Neural Network)

对于递归神经元来说,经由它自己处理过的数据会变成自身下一次的输入,这个过程总共会进行t次。如下图所示,将递归神经元展开就相当于t个不同的神经元串联起来,这种神经元的长处是能够产生一个更全面的输出结果。

深度学习入门指南:25个初学者需要知道的概念

来源:cs231n

(23) 递归神经网络(RNN-Recurrent Neural Network)

递归神经网络通常被用于处理序列化的数据,即前一项的输出是用来预测下一项的 。

递归神经网络中存在环的结构,这些神经元上的环状结构使得它们能够存储之前的数据一段时间,从而使得能够预测输出。

与递归神经元相似,在RNN中隐藏层的输出会作为下一次的输入,如此往复经历t次,再将输出的结果传递到下一层网络中。这样,最终输出的结果会更全面,而且之前训练的信息被保持的时间会更久。

(24) 梯度消失问题

当激活函数的梯度很小时就会发生梯度消失问题。在反向传播的过程中,权重因子会被多次乘以这些小的梯度,因此会越变越小,随着递归的深入趋于“消失”, 使得神经网络失去了长程可靠性。这在递归神经网络中是一个较普遍的问题。

(25) 梯度爆炸问题

与梯度消失问题对应,当激活函数的梯度较大时,就会发生梯度爆炸问题。在反向传播的过程中,部分节点的大梯度使得他们的权重变得非常大,从而削弱了其他节点对于结果的影响,这个问题可以通过截断(即设置一个梯度允许的最大值)的方式来有效避免。

中国人工智能行业分析 2017-06-05 15:12:37

一、智能语音技术取得重大突破,商业化落地成为可能


◈ 智能语音技术是人工智能产业链上的关键一环


人工智能产业链主要分为三个层次。


底层是基础设施,包括芯片、模组、传感器,以及以大数据平台、云计算服务和网络运营商。这部分参与者以芯片厂商、科技巨头、运营商为主。


中间层主要是一些基础技术研究和服务提供商。包括深度学习/机器学习、计算机视觉、语音技术和自然语言处理以及机器人等领域。这一模块需要有海量的数据,强大的算法,以及高性能运算平台支撑。代表性企业主要有BAT、科大讯飞、微软、亚马逊、苹果、facebook等互联网巨头和国内一些具有较强科技实力的人工智能初创公司。


最上层是行业应用。大致分为2B和2C两个方向。2B的代表领域包括安防、金融、医疗、教育、呼叫中心等。2C的代表领域包括智能家居、可穿戴设备、无人驾驶、虚拟助理、家庭机器人等。相关代表性企业既包括互联网科技巨头,也包括一些初创厂商。



中国人工智能市场规模持续增长,智能语音将居于重要地位


智能语音技术成熟,商业化应用成为可能


深度学习、高性能运算平台和大数据是人工智能技术取得突破的核心助推力。深度学习端到端解决了特征表示与序列影射的问题,使得人工智能的性能得到了快速提升;而互联网时代海量的数据又不断为算法模型提供了训练材料,同时,云计算的兴起和高性能的运算平台为智能化提供了强大的运算能力和服务能力。


在语音识别率方面,百度、谷歌,科大讯飞等主流平台识别准确率均在96%以上,稳定的识别能力为语音技术的落地提供了可能。



商业场景落地的重要环节语音交互有了重大突破


与此同时,语音交互的核心环节也取得重大突破。语音识别环节突破了单点能力,从远场识别,到语音分析和语义理解有了重大突破,呈现一种整体的交互方案。



二、智能车载、智能家居及可穿戴设备风潮的兴起加速语音技术落地


智能语音市场整体处于启动期,智能车载,智能家居,智能可穿戴等垂直领域处于爆发前夜


智能车载市场前景广阔,预计五年内车联网渗透率超过50%,语音将成为车载系统标配


我国是全球最大的汽车产销市场,未来车载信息系统市场将有广阔的发展空间。Analysys易观分析预测,到2018年,中国智能车载市场规模将接近400亿元,年均增长率超过70%,将保持高速发展状态。


与此同时,车联网进程加快,2015年,车载有屏设备出货量约1300万台,其中具备联网功能的设备渗透率仅为5%左右,预计伴随着相关软硬件适配性能的提升,以及车联网产品服务逐渐完备,用户用语音控制车载系统习惯逐渐形成,有屏联网的车载终端产业将迎来爆发增长,未来5年内车载设备渗透率将超过50%。



智能家电渗透率提高,智能家居市场蕴涵千亿市场规模,语音作为家居交互入口将大有所为


语音交互正在改变家居生活习惯。2018年,中国智能家居市场规模将达到1680亿元。智能电视是仅次于智能手机渗透率最高的智能家电单品,而智能电视居于客厅位置的核心。也有越来越多的消费者习惯在沙发上使用语音换台,语音作为智能家居入口将有广阔的想象空间。




可穿戴设备市场规模潜力巨大,VR/AR、智能手表等兴起,语音将成为天然交互入口

Analysys易观估算,2018年可穿戴设备市场规模将接近400亿元,其中品类最大的是智能手表。近两年,VR,AR的概念开始深入大众,未来几年相关硬件将呈现爆发式增长。而可穿戴设备由于其特性所限,很难通过单一触摸实现流畅交互,因此语音交互成为刚需。



三、科技巨头,初创公司纷纷从不同维度布局相关产业链

国外科技巨头:通过并购等手段,夯实核心技术,开放应用平台,在既有的产品和业务中实现AI first,扩展以AI为核心的生态系统


在技术层,科技巨头多推出算法平台吸引开发者,实现产品快速迭代,打造开发者生态链,形成行业标准。例如,谷歌通过一系列并购、开放平台的建立,软件硬件一体化来打造这个生态系统。


苹果在自身生态系统中相继推出面向可穿戴、家居、车载等领域的产品。亚马逊则基于自身电商生态业务,推出智能音箱,成功敲开了智能家居的大门。

谷歌:延续既有开放模式,打造开发者生态链,推出Google Home,试图建立物联网时代安卓系统


在谷歌的AI first战略中,一方面,推出人工智能学习系统平台TensorFlow,以吸引开发者,实现产品快速迭代,打造开发者生态链,形成行业标准;另一方面,推出谷歌家庭,试图建立物联网时代安卓系统。同时,将AI技术应用于其原有的产品中,比如Google输入法、Google 翻译、Google Now等,不断提升产品性能,优化用户体验。

苹果:基于智能硬件定标准、做平台、获数据 ,重视物联网时代生态控制权


与谷歌的开放生态不同,苹果依旧延续了其既有的封闭系统,瞄准物联网时代的生态控制权。同时,以硬件擅长的苹果这次仍从布局硬件起步,打造软硬件生态系统,依靠其广泛的OS系统用户,再基于已推广的OS系统拓展至物联网产业链。


比如移动设备方面,苹果基于iPhone推广到车载领域的CarPlay;可穿戴设备方面,基于AppleWatch推广HealthKit,以获取用户运动健康数据。


此外,还基于硬件定标准做平台,比如在家居方面,苹果搭建HomeKit平台,吸引霍尼韦尔、飞利浦、海尔等各厂商的智能家居硬件接入。苹果希望打造物联网时代完整的生态系统,并通过源源不断的用户数据,优化自身生态系统,提升用户体验。


国内互联网巨头:开放语音生态系统,以产业内合作的方式,将语音技术植入产品和或应用于相关业务场景,构建全产业生态链


在中国,以BAT等为代表的众多互联网巨头也纷纷开发智能语音市场。在语音生态系统方面,百度宣布语音识别技术及能力全面开放。腾讯、搜狗语音开放平台相继上线。


在语音技术应用方面,各大厂商对家居、车载、可穿戴等环节的关注明显升温。智能家居领域,百度发布了Baidu ihome,阿里联合智能家电厂商推出天猫魔盒,搜狗联手魅族,发布魅族电视盒子。


智能车载领域,百度分别推出了手机车机智能互联的产品Carlife,车的私有云服务平台MyCar,和智能语音人机交互方式的智能行车助手CoDriver。


阿里云和上汽合作推出车载操作系统,腾讯发布了路宝APP+路宝盒子,可与腾讯云连接,以实现车辆诊断、油耗分析、车友社交等功能。


搜狗则和四维图新合作,推出飞歌导航。可穿戴领域,百度采取扶持外部产品,内置百度服务,形成开放生态思路:分别推出了Inside智能硬件平台,基于健康云的Dulife智能健康平台,以及百度手表应用,以吸引硬件厂商加入。

百度:瞄准人工智能战场,对外开放语音生态系统,对内在自身产品业务中实现AI First


百度是国内较早开放语音云平台的巨头之一。对外主要采取开放自身语音生态系统的方式将语音技术输出。


主要分为三个层次:第一,开放最底层的语音识别技术应用程序编程接口,开发者可以调用API实现语音识别功能。第二,向开发者提供开发工具包SDK,对语音识别标准化服务进行封装,以便于最终对接服务和应用。第三,与硬件厂商合作,将语音技术植入硬件。百度希望通过这种产业内合作的方式逐步渗透到家居、车载等领域。


对内,基于百度大脑,将百度在语音、图像、自然语言处理和深度学习等方面的能力渗入到产品线中,并贯穿百度各项业务部署。比如手机百度依托深度学习算法根据不同用户的搜索偏好进行用户画像,进行精准推荐。


在地图和输入法中也植入百度语音助手,将度秘机器人植入各类硬件,进一步提升用户体验。同时,百度的无人驾驶技术也处于领先地位。



国内智能语音公司:依托原有优势,从单一智能语音技术商转型全方位人工智能技术服务商


在国内专注智能语音技术的公司中,有两家厂商值得关注。一家是科大讯飞,另一家是捷通华声。这两家企业在前期业务以运营商,金融等行业客户和政府为主。后期开始发力智能家居,智能车载等领域。从单一的智能语音技术商全面转型人工智能技术服务商。


但在商业化路径上,有别于前述互联网公司。他们仍采取的是传统的“平台嵌入”服务,即将自身语音技术植入相关合作伙伴的产品中,以推动智能语音和人工智能技术在家居、车载、可穿戴等领域的落地。

科大讯飞:传统优势明显,未来将更注重通用人工智能技术和平台级业务的拓展

科大讯飞长期在教育领域拥有绝对优势。除教育外,政府便民工程、呼叫中心和客服也是讯飞长期深耕的领域。


近两年讯飞的重点关注的领域开始向移动互联网和物联网转移。从业务布局层面看,先后发布讯飞云平台和人工智能交互平台AIUI,利用通用的人工智能技术和平台级业务,将语音识别、自然语言处理能力授权给第三方,或者与其他公司进行合作,并且开始向垂直领域拓展。


比如在智能家居领域,讯飞联合京东发布叮咚音箱,2016年推出讯飞电视助理,打造智能家居领域的入口级应用。在智能车载领域,讯飞重点推出了飞鱼汽车助理,将和奇瑞等汽车制造商合作,推进车联网进程。通过源源不断的垂直场景的数据,训练“讯飞超脑”,推进人工智能发展。

初创厂商:以垂直领域和细分场景为突破口,重点布局家居,车载和可穿戴设备


初创厂商在AI商业化上主要分为两种路径。第一种,开放API接口给第三方,软硬一体化,走2B或2B2C路线。比如与家居厂商合作,将语音技术植入家电,以此切入智能家居场景。或者从后装车载市场切入,开发带有智能语音系统的后视镜等。


这类代表厂商包括图灵机器人、思必驰、云知声等。第二种,走软硬一体化,走2C路线。从智能手表切入,逐渐扩展到车载,家居等场景,代表厂商有出门问问。


图灵机器人:定位于语义和认知计算的平台服务提供商,提供聊天机器人平台和机器人操作系统


图灵机器人是国内一款从中文语义起家的人工智能技术服务提供商。目前的产品主要包括聊天机器人开放平台—图灵机器人平台和人工智能级机器人操作系统—Turing OS。


Turing OS能够支持上下文对话、问答,以及Saas服务。在人工智能技术落地方面,图灵通过提供不同技术实施方案,为开发者提供多种场景化内容及AI能力,助力合作伙伴更快打造软硬件智能产品。


思必驰:专注垂直领域智能硬件的语音交互解决方案


思必驰是国内一家专注于垂直领域智能硬件的语音交互解决方案服务商。聚焦于2B领域的车载、家居和机器人等业务。推出了AIOS的智能人机对话系统,并应用于家居和车载场景。此外,在此基础上开放生态合作,共同推进智能语音技术在垂直领域的落地。


云知声:聚焦物联网,构建“云端芯”产品战略


云知声是一家专注物联网人工智能技术的服务商。商业化路径是典型2B2C模式。通过与美的,格力等家电巨头合作,将语音技术及AI芯片融入到相关产品中,借助巨头的渠道资源触达终端消费者,并将数据源源不断地汇集到自身云平台中,迭代优化产品,提升用户体验。同时发力车载后装市场,未来可能基于声纹等特征将车和家居的用户ID打通,以此挖掘更大的数据价值,提供个性化增值服务。

出门问问:以可穿戴设备为切入点,走以AI为中心的软硬结合路线


与多数初创厂商不同的是,出门问问走了一条2C路线。以可穿戴设备为切入点,走以AI为中心的软硬结合路线。从一家纯算法公司,发展为全栈式创业团队。


先后发布了一二代智能手表,并进军后装车载领域,推出车载后视镜。未来将会将场景拓展到家居领域,进一步打造移动终端、可穿戴设备、车和家居的物联网多屏联动生态。




四、 面向物联网的智能语音产业链的形成将引起商业模式的变化

未来趋势:以语音为入口,建立以物联网为基础的商业模式


Analysys易观分析认为,智能语音的未来价值点在于用户数据挖掘,以及背后内容,服务的打通。以语音作为入口的物联网时代将会产生新的商业模式。


不同商业模式对硬件有不同的需求,广告效果与屏幕尺寸有很大关系,因此在家居中,尤其是智能电视为核心的场景下,广告仍是一个主要收入来源。而可穿戴设备、智能车载等硬件获取的大量数据在健康、保险等行业有巨大的价值,因而产生全新的商业模式 。

智能家居:以合适的入口级应用为载体,基于万物互联的标准,将技术与硬件结合,实现内容和服务的拓展


Analysys易观分析认为,找到合适的语音入口是挖掘智能家居背后用户价值的关键。硬件本身具有入口价值,智能音箱、智能电视、家庭机器人等都有可能成为合适的入口。通过前端语音交互提供入口,后端互联网提供服务的方式完成物联网时代家居场景下的商业模式转换。

智能车载:车联网向纵深方向发展,硬件基础功能免费,基于用户数据的挖掘和增值服务将成为未来主要赢利点