4月19日,清华大学《人工智能前沿与产业趋势》系列课程第三讲开课,本讲主题是“自然语言处理技术的发展和行业应用”。自然语言处理(NLP)被认为是人工智能研究中最为困难,也是最重要的问题之一,不仅基础研究难,技术落地和应用场景也很复杂。本课由百度度秘事业部总经理景鲲主讲。
特邀讲者
景鲲
百度度秘事业部总经理
景鲲年加入百度,就职于大搜索任总产品架构师,负责百度大搜索整体产品规划、创新与落地推进。带领团队大刀阔斧的创新整体搜索体验,为数以亿计的用户提供平等便捷的搜索服务。同时与团队一起开创式的引入了语音搜索、图像搜索、对话式搜索等创新搜索交互方式。构思和推动了人工智能机器人助理度秘整体业务从想法、落地,到取得国际领先的优势,推动了整个业界对智能对话领域的认知。年10月,全面接手度秘团队的管理工作。促成度秘与国安广视、小鱼在家等多个厂商的战略合作,开拓了软硬结合的新产品形态。并在17年,带领团队在美国拉斯维加斯CES上正式推出了对话式人工智能操作系统DuerOS。
景鲲加入百度之前,曾任微软公司首席研发总监并负责微软必应搜索在亚洲市场的研发工作,也是微软小冰的创造者。
景鲲:语音是第三次交互革命
景鲲:大家好,我叫景鲲,我来自百度,百度度秘事业部。我加入百度大概四年时间,负责对话式人工智能的产品的落地。加入百度之前我在微软工作了八年时间,负责必应搜索引擎和微软小冰项目。所以直接跟NLP以及NLP的业务落地有一段时间的经验了。然后也给大家介绍一下百度度秘。
整个百度的业务主要分成两块,一块是我们在移动市场上做的一些业务,比如搜索,爱奇艺,手机百度的feed流等;另一块就是我们面向人工智能时代兴起,用人工智能来驱动的新的业务,这个业务包括无人车。第二个就是人机交互,我们做了百度度秘。我们在AI时代落地的两大主要业务平台,一个是无人车的阿波罗,一个是度秘。
百度为什么把度秘作为这么重要的一个战略业务来做?其实它是一个非常大的业务。回望我刚开始学计算机的时候,那个时候还是用鼠标和键盘,键盘是用五笔输入法。然后那个时候用五笔输入法还要去花钱上培训班学习五笔输入法。后来可以用拼音输入法了,一下门槛就降低了。用拼音输入法之后,很多人就可以跟计算机进行交互,进行交流了。随着这种输入的门槛的降低,用户跟计算机之间的交互更方便了,更多的用户得以接触到计算机。所以鼠标和键盘的交互就推动了整个计算机的普及。
第二个阶段也是由交互推动整个科技的进展,这次的交互是用手指触屏的交互。通过手指触摸手机,让更多的用户能够跟计算机进行交流,所以在这个时候基本上已经摆脱了语言的障碍。所以我们可以看到在中国市场,移动的互联网用户是远远大于PC时代的互联网用户的。
我们觉得在新的人工智能时代,新的交户应该是用更加自然的,用人类的交互方式与计算机进行交流,我们认为这种沟通方式就是用语音、用对话。因为我们每个人可能两岁的时候就开始学说话,我们80岁的时候还是可以用语音交流。为什么语音交互可以成真?因为计算机通过人工智能能力的赋能,通过深度学习等各种机器学习的方法,语音识别、图像识别等能力开始慢慢变得成熟,NLP的能力在某些领域也逐渐可以落地。所以在人和机器交互过程中,机器开始能够尝试听懂我们所说的话,语音交互开始变得越来越popular。
大概在Siri出现、在iPhone4的时候,就有一大批公司在做语音交互方面的产品。那时候是高峰期,很多公司都在做,但迅速就到一个下降期。用户对语音助手开始失望。但最近这两年随着Echo的出现,大家发现语音助手找到了它的使用场景,它跟硬件结合之后,通过远场交互的语音能够让我们跟机器进行交流,所以这个市场又蓬勃而起。
为什么百度这么重视这件事情?因为每一次的科技的进步,大的进步,基本上都是由交互来驱动的。从最开始在鼠标键盘时代,世界上最大的公司是微软。微软当时基本上只做了一个体验,就是鼠标和键盘的体验,把它做到了最优。移动时代又出现另外一家伟大的公司,就是现在市值最高的一家公司苹果,把这种交互做对了。所以它推动了整个移动智能社会的前进,开拓了难以想象的巨大的科技市场。
我们觉得在新的时代通过自然语言对话,我们有机会跟每一个计算机、每个手机、每个桌子甚至每个椅子去对话,在我们需要的时候我们就跟它对话,在新的场景里面去对话,这样的市场将会比原来市场大得多。每个人与搜索引擎去互动,或者跟互联网去交流,获取信息服务,都是一种更加便捷的交互。所以第三次交互的革命将会引发非常多创新。
我们看一下一些研究机构做的市场分析。这是IDC做的中国市场对话式人工智能的市场分析。报告显示,到年,27%的智能家居产品都会变成语音可以互动的。从现在的市场来看,基本上语音交互的产品已经逐渐变成标准配置,所以到年的时候,大概有27%的家具可以互动,不只是电视,冰箱、空调、洗衣机,甚至连豆浆机,我们的合作伙伴都希望用户能它说话。所以智能家具的市场还是很大。
第二个市场就是车载市场。因为车本身就是双手被固定在方向盘上的一个场景,用户的一个很自然的需求,就是通过跟车的交互去获取车上的信息和服务。这个时候最自然的一种交互就是语音交互。所以从今年开始大家也可以看到在一些新车上,尤其是以互联网汽车为标签的新车上,语音交互已经成为了标准配置。
还有就是手机和可穿戴设备。我们平台上现在最活跃的一个设备是手表,比如儿童手表。每年在中国能卖大概上千万的智能手表,但是在中国这种手表主要是消费给了儿童群体,在这个群体里面用语音交互就是最自然的一种交互。预期到年,手机和可穿戴设备大概能达到68%。
回顾一下原来的手机市场,当IOS推出之后,大家都发现手指触摸这种体验太好了。但是在安卓系统开放之前,一个厂商大概要花几千万美金,可能才能研发一款手机。但是有了安卓之前,这些厂商投入的资本可能是1/10的原来的投入,所以迅速让智能设备、智能手机变得满地开花,数量和接触人群都在指数级的增长。语音交互也一样,并不是每家公司都能够从头做语音识别、语音合成、语义理解,甚至资源的检索。这个时候百度其实非常有意愿提供语音交互时代的一个底层的操作系统,能够赋能这样的智能设备,让它变成语音交互。
要把语音交互做对的话,有三点要做对:第一是听得清,第二是听得懂,第三是满足得好。
听得清,就是把语音识别成文字的过程。第二,听得懂是真正能够理解文字,能够消化,知道用户的意图。第三,满足。知道用户的意图之后,还能把合适的内容和服务传递给用户。所以这三步缺一不可。
第一步很多的公司都在解决,而且听清的问题已经逐渐被解决。虽然中国还存在着一些地方的口音,但是语音识别的能力基本上是逐渐增强,可以预见,在未来的一两年内,语音识别,听清的这部分可以做得很好。但是在有些固定场景里面,还需要特定的优化。
第二方面是最难的,就是听的懂。听懂其实是很高的要求,不只要知道它的字面意思,比如我们在百度搜索上我们经常看到用户查询北京天气,可能就有一百种以上的说法,用户会说“北京天气”,也会说“北京明天下雨吗”,也会说“北京明天刮风吗”,“北京明天有雾霾吗”,这些都是跟天气相关的需求。怎么样做到听懂是人工智能交互中最核心的能力,谁能把听得懂做好,就能真正攻克人工智能的难关。
第三方面就是满足。用户在与一个设备语音对话的时候,往往会有非常多样的需求,真正能够把需求理解好,并且把资源索引到,这也是百度可以做的优势,并且可以为我们的用户和合作伙伴去提供的能力。
在Echo出现之前,大家其实比较聚焦的听清的能力是在手机上的近场语音交互。比如说我们按一个按钮,比如像
转载请注明地址:http://www.1xbbk.net/jwbls/467.html