2月13日,预热许久的小米10终于正式登场。由于肺炎疫情,这场发布会采用了纯线上直播的模式,但这丝毫不影响它极高的关注度。作为国内首款骁龙865旗舰,小米10实现了自我突破,带来了不少惊喜。


8345c393ly1gbutm9herpj22bc334x6q.jpg


除了骁龙865处理器、LPDDR5内存等亮眼的参数信息外,小米自研AI技术展现出的成果同样值得关注,它们已经渗透到小米产品上的各个角落,对相机、系统、语音等多个方面的使用体验都产生了深远的影响。


小米AI语音,变得更强了!


1、小米语音AI技术在快速普及


2017年7月的一场小米发布会上,小米AI音箱正式发布,小米开启了自研语音AI技术在市场上的试水。


短短两年多的时间,小米自研的语音AI技术已经渗透到各个类型的小米产品中,除了智能音箱,小米手机、小米电视、小爱老师等小米产品都配备了“小爱同学”。集成了小米语音智能助理的设备,通过语音这种新交互方式让产品使用起来更加便利。



语音交互解放了用户的双手,降低了学习成本、提升了用户体验,而且增强了产品的竞争力。


2、小米10上的智能助理,更有看点


目前来说,智能手机上的语音助手发出的语音都是人工合成的,基本不会提供个性化的服务,实际使用起来难免感觉机械和不自然,和真人发出的声音差距还是比较大的。


而小米10上的一大惊喜就是配备了个性化语音合成服务。它采用了最新的合成技术,用户只需要在安静环境下录制少量的声音样本并上传,服务器进行识别、训练并建模后,就能获得定制化的AI语音助手了。


006VpgRYgy1gbus4kd05nj30u01hcha0.jpg


别人手机的语音助理发出的语音千篇一律,而小米手机上的小爱同学却能做到千人千音,感觉就像手机里有一个真人助理一样。


微信图片_20200213162550.jpg


3、AI语音技术上,小米展现了哪些功力?


市面上主流语音合成技术有很多不足,具体表现为发出的语音过于机械,像机器人说话一样,还有就是在中英文混合语音中,双语切换的停顿节奏、过度感觉也不自然等。


小米10上的个性化语音合成服务,则瞄准了这些问题进行改进。具体来说,它的实现过程可以分为这么几步。


首先,用户要在安静的环境下录制目标声音;

然后,系统会对采集到的声音信息进行降噪、检错等处理;

接着,处理完的目标声音会被提取特征;

最后,小米云端服务器将收集到的信息进行在线模型训练、部署,生成语音合成引擎。


textlive_02eee297c58d6a4d1517dbd7b2c3be2a.jpg


这个技术过程看起来比较清晰,但存在很多难点。例如,它对目标声音的数据质量要求比较高,在线训练模型费时费力以及小数据量能否训练出满意的效果。


不过,小米已经完美地解决了这些问题,模型训练耗时大大缩短,用户完成整个过程只要20-30分钟,此外,它的合成效果稳定,甚至没有英文语料的情况下,也能合成简单的英文语音。


AI加持,小米10把相机玩出了新花样


相机方面的提升是小米10系列最重要的卖点之一,1亿像素、四颗后置镜头等都吸引了无数人的关注。除了硬件上疯狂堆料外,小米10的相机也展现出了软件算法上的功力。


1、小米10换天更强了


小米CC9的“一键换天”功能得到了很多用户的欢迎,照片拍好后,只需要在编辑选项中轻轻一点,就能把照片中的天空换成自己想要的效果,例如晴天、夕阳、暮光等。


textlive_87ae7a8d63c6b4df31f0953bdb44a823.jpg


这次小米10换天功能在之前的基础上,新增了雨天和雪天,更为强大。从小米的演示对比来看,它在和各类第三方APP PK中大获全胜,换天效果非常自然,基本能达到以假乱真的程度。


微信图片_20200213162515.jpg


小米10换天功能背后,是小米在视觉成像技术上的持续投入。MIUI 10推出时,就带来了AI自拍虚化的功能,单摄相机也能有人像虚化效果,就是通过出色的算法实现的。


小米把之前自拍虚化的算法经验和技术运用在了换天功能上,标注了数万张实际拍摄的天空图片进行训练,并且优化天空分割模型,最终达到了现在的惊人效果。不得不说,实际采集样张,用AI技术来训练模型,相当费时费力,需要长期投入大量的成本。


当然,这种算法对成像的帮助,也不是一般软件优化所能比的。其实,凭借着出色的成像效果秒天秒地的谷歌Pixel系列,在相机算法上,也是通过实际样张采集训练AI模型的思路。这方面,小米和谷歌想到了一起去。 


2、拍vlog也能一键搞定


短视频的蓬勃发展让vlog流行起来,但一般人想要剪出很酷很精致的vlog并不容易。首先,视频后期比图片要复杂,而且vlog制作还涉及音乐、字幕、特效等。


而小米已经敏锐地意识到用户的需求,投入了多个团队来帮助大家搞定入门vlog。简单来说,它优化了这么几个方面。


首先,自动运镜功能让用户不动手机也能有出色的效果,不需要学习滑轨、手摇等很专业的技能。不过具体实现过程中,技术难度不小。


image.png


自动运镜时,视频每一帧的角度要精准匹配,还要对4K分辨率的数据做实时的缩放、转场等计算,对算法的精度有很高的要求和考验。小米AI实验室通过算法优化和调校,把CPU、GPU、解码器等多个计算单元结合,“榨干”了手机的计算性能。

 

微信图片_20200213162603.jpg


另外,语音转字幕这个功能也值得点赞。给视频手动加字幕非常麻烦,有了语音AI技术后,小米手机就能把录制视频里的语音自动转为文本字幕,帮vlog制作者省了很多事情。


3、文档扫描这件“小事”,小米10做到了极致


小米10相机上另外一个极具亮点的功能是“小米拍文档”,它解决了手机文档扫描过程中的诸多痛点:边框识别不准、细节丢失、显示不清晰、变形、阴影等。


小米拍文档给人印象比较深刻的是AI技术对文档扫描这个功能的巨大帮助,比如说它的裁剪校正能力很强,即使拍摄文档的背景非常杂乱无章,也能精准的定位到文档边界,并准确地裁切和矫正文档区域,将有干扰的多余元素去除。


此外,很多时候,拍摄文档的环境光学不理想,成像区域一部分很暗、一部分很亮,非常影响最终的扫描效果。小米拍文档通过针对性的阴影消除技术来解决问题,让文档扫描的成功率大大提升。


textlive_a7bcb345bee5e3c1d7284821e36f06b7.jpg


技术创新铸就了小米拍文档的出色体验,通过神经网络区分图像中光照和阴影部分,利用边缘算法帮助用户对文档进行精确定位,并实际采集多样化的文档使用场景进行训练优化。


值得一提的是,小米拍文档完全由小米AI实验室武汉视觉团队独立负责完成,疫情当前,他们的工作和贡献值得点赞。


微信图片_20200213162538.jpg


小米自研AI技术,值得更进一步的期待


这次的小米10发布会,让我们看到了很多小米过去容易被忽视的地方,自研AI技术就是其中一个重要的部分。


首先,小米10为代表的产品展现出了小米在自研AI技术上的强劲实力。不管是个性化语音合成服务、一键换天、vlog自动字幕等AI助力的具体功能,还是通过采集真实数据训练模型的AI研发思路,都让我们看到了小米在自研AI技术上的用心。


其次,研究AI技术的厂商很多,但像小米这样精准瞄准用户体验的,不太多见。前面我们提到的扫描文档、制作vlog等功能,第三方应用其实都能实现,手机厂商一般不会在这些细节上下太多的功夫。


textlive_00a628f9de3812bc878376c5eae11c54.jpg


但这些看起来不起眼的细节,都和用户需求息息相关。小米把自研AI技术的成果都投入到这些领域,让自家用户能最直接地享受到AI技术发展的红利。小米AI技术更加注重和用户体验相关的场景落地,每个技术创新都能找准用户的实际需求、提升用户体验。当然,这种注重用户体验的基因,从MIUI诞生开始就一直存在,现在刻入到了小米的AI技术研发中。


此外,小米涉足的领域远不只手机,家电、智能家居、PC等等行业,都能看到小米活跃的身影。而小米的自研AI技术,也不局限于给手机功能添砖加瓦。未来,我们有望看到小米自研AI技术未来在影像、语音、5G、IoT等多个领域的爆发成果,这非常值得期待。


雷科技