AICreateMeeting-遇见未来

声明:

作为度厂民工,也是一名开发者,还是带着很激动的心情参加完了整整一天的大会,觉得这篇文章是软文,扯淡,吹牛逼的可以点关闭了

非AI专业开发者,只是应用层的开发者,对里面很多AI的技术可能解读的有误区,但从应用层的开发者角度来讲,这些我们接触不到难以理解的深层技术,以开放的形式提供给应用层广大开发者,将会给我们打来巨大的机会和挑战,非常非常期待

PS:这其实是一片流水账

现场体验区


大会10点开始,因为会场有很多现场体验区,有很多智能设备和技术的现场讲解,因此早上8:30就开放检票入场,一层大厅除了检票入口,最吸引人的当属无人车停放区了,整个区域大概有7-8量无人车,分别来自不同的汽车厂商,有专门的资料介绍各大厂商的合作进展,无人车可以进入车内参观,但不能发动试驾╮(╯_╰)╭。排队的人太多,我只是在外面匆匆瞄了一眼,就离开去别的展区了,印象最深的就是车里好大一块电子屏幕。

从照片里那个电梯上了三楼就看到了小度机器人,眼前的这个小度机器人的唤醒方式还是通过麦克风上面的按键,说话前按下麦克风的按键来交流,现场开放给所有访客可以自由的跟小度FreeStyle对话,有一种程序员祖师爷定义的图灵测试即视感,每个人都可以当场和小度机器人正常的自然聊天,看看小度通过没。

我前面一些人问今天天气咋样?别的城市天气咋样你是男的女的?你喜欢吃啥?之类的话,我接到麦克风张嘴问给爷笑一个,小度第一次听成了香港,balabala介绍了一堆香港这个城市,放慢点速度又说了一遍,然后机器人没说话,放比较欢快的音乐,眼睛的显示屏一会出现桃心,一会出现眯眼,我估计这就是笑的表情吧?我在那里停留了大概10分钟左右,先后几个人和小度对话,虽然没有涉及太复杂的沟通,小度的识别率和答案还算凑合,还是有bad case的,但也不多。

预告:

这里面有一些关键的技术词,会在后面的体验和大会论坛上多次提及

  • Unit 自然语言处理NLP下的多轮语音上下文交流技术
  • 唤醒词技术 语音识别,自然对话的唤醒词技术

在经过一个转角又上了一层楼,就来到了最集中的现场体验区,主要有2块

  • DuerOS 唤醒万物为主题的,生活智能家居,智能设备体验区
  • AI 开放平台为主题的,开放技术,开放API,讲解展示区

DuerOS 唤醒万物体验区

DuerOS是一套涵盖了专属的硬件芯片,专门的软件系统,可以让任何搭载DuerOS的硬件设备实现语音对话,智能控制的的一整套软硬件体系,我理解唤醒万物这个词的意思就是,你可以用对话的方式和任何硬件设备进行交流,不在依赖遥控器,面板,按钮,开关。

这么大一个冰箱还是挺显眼的,海尔的冰箱,搭载了DuerOS系统

  • 语控冰箱系统功能:如语音控制冰箱温度、食材管理、菜谱查询等
  • 语音搜索:通过语音交互实现音乐、视频、相声、日常各类信息搜索,并理解记忆用户指令,实现一次搜索过程的多轮交互
  • 语控生活管理功能:通过语音交互实现如天气查询、预约提醒、网上购物等

冰箱旁边有有个大电视,因为现在电视已经挺智能了,各种软件又多又全,游戏,购物,看电视,啥都能干没什么稀奇的,所以这个展区最大的吸引力还是,唤醒万物的语音控制,扔掉遥控器,用自然地方式,控制智能电视里强大的能力,这电视好像是和TCL合作的

在电视墙的背后不太被人关注的角落,放着这么五个盒子,这五个盒子就厉害了,这就是DuerOS芯片开发套件,后面还会多次提及这个开发者套件,用这个套件,你就可以将语音控制的能力/语音对话/语音助手的能力,Diy进入自己的设备里面了,广告宣传语是,你可以Diy一个专属于自己的大白,而且这还不只是宣传,停留在嘴炮上的ppt宣讲,真正主会场的时候,真的就迎来了惊喜,先卖个关子。

这个会场还有2个DuerOS已经投入生产投入市场,有合作方已经制作出产品的很优秀的落地的例子,我没拍照片,但后面的大会上多次提及

  • 智能音箱,搭载DuerOS的从而可以进行语音对话,实现语音助手的音箱
  • 手机语音助手,和HTC合作,已经在HTC一款手机上搭载了DuerOS语音对话,语音助手的能力,并且内部运用了Unit这项多轮语义对话分析的NLP技术

有一点感受是,DuerOS打出来的宣传概念,每一项都已经有具体的落地,并且有具体的合作厂商已经投入生产和市场了,而且合作厂商很多不止一家,个人感觉这个还是挺干货的,不是在炒概念,这段是不是有点像广告软文╮(╯_╰)╭

AI开放平台 展示区

这里就是开发者最关注的,各种开放API的展示区了,港真,还真是挺带感的!技术涵盖

  • 语音合成/语音识别
  • SLAM/真实空间,计算机模拟/机器人视觉
  • 裸眼3D
  • AR开放平台
  • 知识图谱开放平台
  • Unit多轮对话/自然语言处理
  • 开放云

语音合成/语音识别

语音合成和语音识别这个来自IDL语音组的开放API,都可以申请开通使用

语音合成主要用在听书,播报文字,会场上的展示手机上就安装着我们的百度阅读App,在年初百度阅读的发布会上就展示过这样技术,并非是像喜马拉雅那样纯人工录音,也并非是像高德导航那样纯人工录音然后组合,而是通过录音采集特定人的声纹样本,然后拟合出任意的对话,case就是韩乔生版真人音色的声音合成,听着还真的挺有韩乔生的味道!有一段宣传视频,目的是让在异乡打工的家长,能够定制自己的独特声纹语音,然后让孩子在家乡听到妈妈的声音讲故事,还是挺感人的。

语音识别主要用在语音输入场景,语音录入各种声音,我们的百度文库App其实也接入了语音录入文档资料,当时开发接入的时候,尝试用音乐/广播/普通话/四川话/陕西话,整体识别效果在我们App当初接入的时候就感觉已经非常不错了,识别率还是相当准的,并且还能识别语气从而产生标点符号,问号,逗号,叹号。而这次大会语音组又开放了更多语音识别方面的黑科技,进场耳语识别,远场识别等。

SLAM/机器人视觉

SLAM (simultaneous localization and mapping),也称为CML (Concurrent Mapping and Localization), 即时定位与地图构建,或并发建图与定位。 SLAM最早由Smith、Self和Cheeseman于1988年提出。 由于其重要的理论与应用价值,被很多学者认为是实现真正全自主移动机器人的关键。

简单的说就是将摄像头拍摄出来的画面,通过AI进行分析和识别,识别出其中的物体,以及所占的空间位置,识别出空间区域,在计算机的数据中对真实空间区域进行3D建模,从而能让机器知道,摄像头中的这个画面,哪里是障碍物,哪里是可通行区域,障碍物都是一些什么东西,整个空间的全方位真实信息,会重新在机器人的虚拟数据中重新3D完全还原。

与这块的工作人员聊天,工作人员说目前这块主要运用在机器人或者AR上,图中就是一个人拿着采集器在超市里走来走去,然后建模成整个超时的3D场景的示例。但除了AR这块也可以运用在无人驾驶上,但现在百度的无人驾驶Apollo系统用的还是激光探测,硬件成本还是有不小的。

SLAM也是AR种最重要的一环,AR不仅仅是在手机APP的摄像头中扔一个3D游戏,AR需要识别现实空间中的区域和物体属性,从而进行匹配的3D交互,因此有SLAM能力的AR才是真·AR

说道SLAM,不得不提微软

  • 微软的kinect体感技术就是利用摄像头拍摄,从摄像头中提取出空间物体/人的信息,从而实现的游戏交互,杀手级应用算是水果忍者体感/运动会体感,人只需要站在摄像头前,挥舞双臂切切切,就能精准的切到屏幕上的水果,这背后就是SLAM技术
  • 微软的hololens AR技术,背后也是依托于对整个真实空间的摄像头采集,通过强大的AI,重新在电脑里重建3D模型,然后在3D模型上开发有趣的AR游戏,并且hololens有自己的眼镜式头盔,借助这个头盔,用户可以身临其境的在现实生活中玩AR游戏

视频截图


视频链接 : 使用hololens在现实生活中玩超级玛丽

裸眼3D

这个显示屏其实展示的就是裸眼3D,照片拍不出来,但现场亲临的感觉3D效果还是有的,能感觉出来,但也并不是特别真,有一点点晃眼

AR开放平台

这是一个AR宣传片的截图,现场是可以用手机百度扫Marker来体验的,但由于排的人特别多,我也没使劲往里面挤,高考期间我们事业部和AR部门合作做的高考校验项目,磁感线右手定则也在现场可体验的内容里,还有手机扫变形金刚大黄蜂的游戏

贴个当初高考活动时候的图吧~

下午的开放平台分论坛会专门介绍AR

知识图谱 开放API

厂里的搜索用到的知识图谱,现在初步框架也在本次开放的API之内,不过目前开放的不是已经构建好的那部分泛生活类知识图谱,而是开放一套搭建自有知识图谱的开放工具,以及数据协议准则,是一套构建图谱的schema,以及录入schema制作自己图谱数据的工具,以及根据已有图谱数据,从任意文章中抽取图谱相关信息的抽取工具。

简单的说目前开放的是一套,搭建自己专属图谱数据的协议设计+开发工具,开发者可以使用这套工具,自建自己的知识图谱,知识图谱的数据保存在自己的手里。

所以,知识图谱开放的API,并不是直接将百度搜索现在使用的那套图谱数据以API的方式提供,而是提供的可以让开发者自建自有知识图谱的工具。尤其是垂类领域,金融/教育,可以根据这个工具,去运用自己掌握的内容搭建自有图谱,厂里现在的搜索用的那套图谱,偏生活,偏广泛,在细分垂泪领域,和工作人员交流,效果并不是很好。

Unit多轮对话

前面提到的小度机器人/HTC手机/DuerOS内部,都有Unit这个强大的自然语言处理系统的工具,他最大的特点能够识别上下文多条对话之间的关联,之间的指代关系,之间的先后顺序和逻辑,这和传统的只局限在一问一答的语音助手领先很多很多。

Unit在主论坛/开放平台分论坛的大会演讲上也有多次提及

开放云

这块我没咋细看细听解说╮(╯_╰)╭

主大会正式开始

主大会相信各大媒体,以及各方干货总结文章都报道了不少,可以看看这个网页

没去百度Create2017现场?最干货PPT已经流出

QI的演讲非常的有激情,非常的有感染力,尤其是一些具体的成果展示,经常激起在场的一阵阵高潮,上午的主大会主要讲了3个东西

  • 介绍DuerOS,开放出来的唤醒万物技术
  • 介绍Apollo,开放出来的自动驾驶技术
  • 介绍AI开放生态
    • 百度大脑,把AI技术开放给全体开发者的AI开放平台
    • 智能云,ABC - Ai Bigdata Cloud

我相信大家都看了很多官方资料,看了很多官方提炼的干货信息,但有些现场的展示环节,真刀真枪的现场实干写代码环节,还是非常厉害的,干货提炼里不见得有,我这边就多啰嗦啰嗦

DuerOS唤醒万物 系统

DuerOS前文提到过,是专为各种智能硬件设备提供的一站式开发套件,让任意设备具备巨有语音交互/自然语言处理能力,涵盖软件系统,硬件芯片的全方位开发者套件。从上文的ppt里也能看到,DuerOS已经对接了几十家合作伙伴了,都有具体的硬件产品落地了,就像我上面说的,有这么多落地产品,这么多干货,还是很令人惊讶的。

HTC手机搭载的DuerOS度秘 – 强大的Unit

一个视频展示了现在就已经搭载在HTC某款手机上的语音助手,全程语音与度秘交谈(记得大概剧情,记得不是很清楚了)

  • 问:北京比较好吃的某菜参观都哪里有?
  • 答:(展示出了3加餐馆介绍,其中有一家在雍和宫)
  • 问:雍和宫那家好停车么?
  • 答:附近有N家停车场,距离最近的xxx
  • 问:帮我订一下他们家晚上6点的餐

上下文对话中对于各种不同句子之间的指代识别的很精准。

DuerOS芯片开发套件,意外的开发者,意外的合作商

现场展示了一封百度收到的一封嵌入式工程师发来的邮件(忘了叫啥了),是一个小故事

开发者有个小侄子很喜欢乐高,并且希望能有一个会说话的乐高玩具陪着他,开发者答应了小侄子的请求

这个开发者看到了DuerOS的早期宣传,发来一封邮件,希望能参与内测,用DuerOS芯片给小侄子的乐高玩具做成可以聊天对话的机器人,他不希望小侄子失望

DuerOS的工程师们,将一个芯片套件以及相关开发文档邮寄给了他

这个开发者成功的将小侄子的乐高玩具,加以改造,变成了能聊天讲笑话的玩具机器人

故事的主人公和小侄子都来到了现场,同时来到现场的还有乐高的高层,作为DuerOS的合作伙伴,乐高会和百度一起在这个领域探索出新的世界。

会场DuerOS的经理主讲人,还现场从兜里掏出了四个芯片详细介绍了这个开放给开发者的DuerOS开发者解决套件,就是前边我在展区拍到过的那几个芯片

Talk Is Cheap Show Me Your Code

QI在现场介绍,百度将在美国成立人工智能部门,并且收购被Amazon Alexer点评的国外最优秀的AI创业公司之一 KITT.AI,创始人陈果果,他曾在Google实习,参与制作了“OK Google”热词检测雏形,在语音唤醒词上,有着非常庞大和丰富的积累。

KITT.AI公司新闻资料

陈果果还现场演示了一段唤醒词训练,通过简单的重复语聊录制,现场控制将一台笔记本生命名为景鲲(主讲人),可以名字呼唤控制这台笔记本。

不止如此,现场的DuerOS工程师,还将一款在国外售卖的搭载Amazon Alexa系统的智能硬件(好像是个音箱,记不得了),现场编程,用很快很少很简洁的代码,当场将音箱接入了DuerOS。

虽然说这些现场训练模型现场编写代码都肯定是预先排练过很多次的,但程序员有句俗话Talk Is Cheap Show Me Your Code,这一点还是很令人兴奋的

Apollo自动驾驶 开放平台

AI大会就不得不提自动驾驶,11点左右的时候,厂长Robin坐在自动驾驶车的副坐,从五环发来贺电。厂长在五环远程连线的视频(然后五环堵车堵的12点还没到国家会议中心╮(╯_╰)╭,后来还有啥交管部门接入调查的新闻,各种讨论技术倒逼法律前进等,深刻感觉这次pr的效果有点意思)

Apollo是一个开放给开发者的自动驾驶开放平台,不止是百度与合作汽车厂商,任何开发者都可以借助apollo的能力,从0到1,拥有自己的智能汽车。(有点做广告嫌疑╮(╯_╰)╭)

Apollo会逐渐开放以下能力给所有开发者。

  • 封闭场地循环自动驾驶
  • 固定车道自动驾驶
  • 简单城市道路自动驾驶
  • 特定区域/高速/城市道路自动驾驶
  • 高速/城市自动驾驶

这里不得不说一个插曲,Robin在12点多的时候终于从五环赶到了现场,整个过程中Robin乘坐了2辆自动驾驶汽车,一辆是视频中的那辆,快到现场Robin又换了一辆黑色的车,经过后来Robin到场后的解说,这两黑色的自动驾驶汽车,来自一位美国的小哥,用3天时间,将一辆车打造成Apollo自动驾驶汽车,Robin就是坐着这辆车来到了会场,并且这位小哥也来到了现场。

Apollo就是这样开放给所有开发者的,并且现在有几十家合作方已经投入生产。

AI开放生态

DuerOS和Apollo之后,QI重点介绍了百度的AI开放生态,将会全面开放百度大脑的全方位能力,打造AI开放平台,深度学习平台,并且与NVIDIA和Intel深度合作,并且建立Apollo基金,DuerOS基金,扶植开发者,建立AIStar计划赋值开发者。

身为开发者当然会关注与具体开放了哪些内容。很多内容都在上面发的ppt里面,这里就简单罗列一下

开放60项核心AI能力

  • 百度大脑
    • 平台层
      • AI开放平台
    • 认知层
      • 自然语言处理
      • 知识图谱
      • 用户画像
    • 感知层
      • 语音
      • 图像
      • 视频
      • AR/VR
    • 算法层
      • 机器学习平台
      • 深度学习平台
  • 智能云
    • 大数据
      • 大数据分析
      • 数据标注
      • 数据采集
      • 计算服务 CPU/GPU/FPGA
      • 存储服务
      • 网络服务

下午专门有一个分会场,会进一步讨论AI技术与开放平台,我下午就参加的这一场

厂长讲话

厂长终于在上午会场的尾声赶来了现场,用了一个在场所有开发者,所有程序员都非常熟悉的一个梗来开场,造轮子,会场很多人看到这个图的时候都会心的笑了。

今天的大会是给开发者的,所以Robin说:开发者是推动进步的伟大力量,天下开发者是一家,分享与合作是这个时代的聚宝盆

厂长讲笑话:

在收购KITT.AI的时候,层和投资部门聊天,投资部门问,如果竞争对手想出高价收购咋办,Robin说,我们的竞争对手从不收购纯技术公司,只收购成熟产品形态,变现产品形态

AI开放平台分会场

上午的大会就结束了,短暂的休息后,下午将会同时开启很多分会场

  • AI技术与开放平台
  • 对话式人工智能
  • 智能驾驶
  • 智能云计算
  • Web生态
  • 数据中心

我参加的AI技术与开放平台专场,深入的讲了很多上文提到的 开放60项核心AI能力

这个分会场就是专为开发者量身定做了,全程都在讲解相关AI技术现在优势,开放的程度,每一个都配备了比较丰富的业务应用场景,开放平台交到开发者手里,剩下的就是比拼创造力的时候了,这个会场主要讲了

语音识别开放平台

  • 近场轻音识别/唤醒

现场展示了工作人员,小声轻声说话,还有唱歌歌词识别,近场指嘴对着麦克风说话

  • 远场语音识别
    • 近场训练数据适配
    • 麦克风阵列适配
    • 中国家庭适配
  • 开放远场唤醒
    • 海量唤醒词数据
    • 唤醒/误唤醒打磨
    • 厂商定制
    • 用户可配置

远场识别是现在语音识别技术里很有挑战的领域,而在DuerOS的各大智能家电使用场景中,所有的对话,都不是直接对着麦克风的,而是在房间中空间中直接发声,这类识别技术,现场展示的视频中,已经实现了10米以上的远场声音识别,并且适配了中国家庭,户型偏小,狭窄的特点

  • 开放定制化语音合成
    • 开放真人音色拟合
    • 开放定制化合成方案

一方面就是前文提到的,在声音合成方面,追求极致的自然音色,通过对真人/明星的声纹采样,训练学习后,直接用AI拟合发生出采样人的定制化音色语音。现场展示了韩乔生语音包。

一方面可以在文字语音朗读的时候,针对中文,定制化中文语音朗读的节奏和语气,定制化TTS,通过国际通用的SSML标签语言可以定制朗读节奏,断词断句规则,也扩展了百度定制中文标签,可以支持纯中文的诸如古诗词,古文的朗读规则。

看到合作伙伴的时候展示了十几家,其中居然看到了特斯拉的身影

自然语言处理开放平台

自然语言处理是自从搜索引擎诞生之初就存在的AI技术,涵盖的场景领域非常多。

  • 应用场景:机器翻译/深度问答/对话系统
  • 自然语言理解:需求理解/篇章理解/情感分析/词法句法分析
  • 自然语言生成:文本生成/自动文摘
  • 背靠基础:大数据/知识图谱/机器学习

为此NLP开放了多个场景的开放API

  • 词法分析
  • 情感分析
  • 机器翻译
  • 语义表示
  • 语义模型
  • 语义相似度

NPL开放的基础API还不是最大的亮点,Unit才是NLP部门本次展示的重头戏,Unit-理解与交互技术平台,可以被广泛运用在车载/客服/家居等应用场景,现场又是一个更为厉害的多轮语音交流案例

展示录像处于开车中:(看着像巨堵的马连洼这边的路╮(╯_╰)╭)(记得也是有点不太清楚了,对话是个大概)

  • 问:前方路段堵么?
  • 答:前方xxx,很堵
  • 问:那怎么绕开?
  • 答:可以选择1路线balabala 2路线balabala 3路线balabla?
  • 问:那走2路线那条,大概多久到

这全套Unit多轮对话技术都是对外开放可以接入任意语音对话场景。

最牛逼的还是训练师系统

训练师是一个自然语言模型训练工具,这套工具不需要使用代码进行开发,任何人可以不写一行代码,通过可视化的界面,填填网页,谢谢表格,配配需求,从而直接生成自己专属的定制化的AI对话助手,并且提供可视化的训练调优工具,可以亲自与配置生成的助手进行对话,看助手的回答是否正确,标记助手的不正确回答,从而反复训练自然语言模型,最终训练出一个自定义需求的语音助手

训练师的可视化工具可以让任何非编程人员参与进来,很多客服人员已经从亲自人工接线,转变成了客服语音AI训练师了。

在大会现场就展示了一个视频,视频是一个利用训练师系统,从0构建了一个为女朋友准备的,生活电影语音小助手,全程没写一行代码,就一直是在填填,写写,配配,改改,调教,校正,对话,训练。



视频开放平台

对于视频技术,这个环节讲了更多酷炫的东西

  • 开放已有分析数据

  • 视频封面选摘
  • 视频的分类/标签
  • 视频的索引/检索

视频不同于文字信息,在摘要节选,结构化,从而方便进行数据处理的时候,有很大的困难,所以开放平台提供了一系列挖掘识别视频内容,从而结构化视频数据的功能,分析挖掘视频中的有关键意义的帧,从而找到最恰当表达视频意图的一帧,可以方便的用于视频缩略图介绍,挖掘视频的信息,对视频进行分类和打Tag,这对后续大数据运算甚至知识图谱都有很重要的意义,而视频内容的索引和检索,可以支持从海量视频里,查找具有相同画面的视频

  • 视频细粒度识别物体
  • 视频审核/色情识别
  • 视频结构化分析

这就都是图形识别了,识别视频中的物体内容,甚至关联大数据后,可以直接定位细粒度的物品信息,如下图所示,不在只识别一个车,而是识别出车牌,车型号。

而且还可以对视频进行结构化分析,如下图对于一个电视节目,可以直接识别出字幕/台标/语音/人脸,最后产出结构化数据

  • 人脸识别
    • 已经运用在泰康人寿的一款App客户征信认证上
    • 运用在百度有钱花贷款秒批
    • 运用在机场(忘了哪个城市了,有个城市已经刷脸登机了)
    • 运用在某风景景区刷脸闸机(是凤凰古城?还是啥?还有个啥山景区?我都记不得了)
    • 运用在百度公司内部门禁闸机
    • 运用在百度公司刷脸贩卖机/食堂

人脸识别的快速准确度已经提高的非常大,因此这项技术已经全面在很多安检,购物,金融场景有真实的业务运用了,下面这张图挺厉害的!图中右边的那块屏幕看起来就是百度科技园区,里面就是平时行走在园区内小路的我们,而上面的实时人脸识别都在第一时间定位到了出现在画面里的每一个人,每一个人的详细信息,并且最可怕的是戴着口罩也照样精准定位数据库中的信息。

  • 机器人视觉
    • 摄像机 IMU模组
    • SLAM
    • 障碍物检测
    • 地图绘制
    • 图像识别
  • 领先的SLAM技术
    • 视觉惯性算法
    • 局部全局优化
    • O(n)求解器
    • 重定位
    • ARM芯片优化

前面聊了一堆SLAM,没错这里就是开放的机器人视觉&SLAM,前边其实扯了不少了,就不继续说了,光列一些降到的技术吧

DuMixAR 开放平台

现在市面上AR解决方案的公司也不少了,Vuforia(高通的)/Metaio(苹果收购)/EasyAR(国产自研)等,本次开发者大会推出了DuMixAR 开放平台,主要包含

  • DuMix AR SDK

整个SDK中包含了很多技术,本地识别/图片跟踪/IMU/SLAM/录屏/语音交互/内容解析/透明视频等,刚才提到的很多最新的视频技术

  • 内容制作工具
  • 云端内容平台
  • 内容分发服务

从制作-分发一整套服务,制作出来的AR Case都是可以动态更新的,只要预先把整个SDK内置进入app,并且部署好相关的功能,以后每做好一个AR Case,都可以直接上传云端,动态下发给App从而实现动态更新AR Case的效果。


说道AR怎能不看看效果,有一个视频我没录制下来,屋子里有一棵真的圣诞树,然后用AR渲染出来的3D小鹿在圣诞树里飞,AR的效果已经能做到,当小鹿飞到圣诞树的后面的时候,会被圣诞树遮挡住,还有个视频可以看到一只小度熊在一朵花上跳舞。

不过最酷炫的视频Case已经录制下来了

如果看不到视频的点这里的Link,AI 大会AR视频

PaddlePaddle 深度学习平台

Google出的TensorFlow想必大家都听说并且了解了,这次厂里的AI开放平台很重要的一个内容就是也开放一个深度学习的开源工具与平台,PaddlePaddle

并且厂里将PaddlePaddle与自己的云计算技术相结合,将会提供一整套深度学习解决方案,在这套技术方案下实现ABC Ai Bigdata Cloud (好吧我是真不太懂这方面,不知道怎么编词了,直接上图吧。。。)

并且还会开放很多模型库

  • 点击率预估
  • Learning-to-rank
  • 语音识别
  • 语音合成
  • 序列标注
  • 文本分类
  • 机器翻译
  • 物体分类
  • 图像分割
  • ……

感想:遇见未来

遇见了未来,就要由广大开发者一起创造未来

参考链接

没去百度Create2017现场?最干货PPT已经流出

DuerOS开发者解决套件

KITT.AI公司新闻资料

DuerOS生态圈覆盖全行业 多方合作伙伴共建智能语音新时代

DuerOS开发者官网

厂长在五环远程连线的视频

视频链接 : 使用hololens在现实生活中玩超级玛丽

AI 大会AR视频