输入法正在成为AI争夺战的下一个战场。先行者搜狗将输入法作为其“三级火箭”战略的推进器,对于输入法寄予厚望,却使输入法负责过多而变得臃肿沉重,给了讯飞、百度等“后来者”以可乘之机。
近日,搜索输入法针对如火如荼的“直播答题”推出了“作弊神器”,结合OCR、语意理解与搜索技术,可谓是其“输入法to搜索”战略的典型案例。
无论是搜狗还是百度、讯飞,谋求的都是 “下一代人机接口”的先发优势。因为输入法已经成为智能设备上,人机交互的第一入口,正如“对不起了,你的输入法已经出卖了你”的流行所反应的,除了在今日头条这样通过停留时间、打开率来推荐的信息流平台上,输入法是用户“小心思”的第一收集器,担负着倾听用户心声,帮助用户表达自我的重任。
在此过程中,输入法能够收集用户的自然语料,感知用户的表达习惯、真实需求与情感动态,每一次输入都是一次机器学习与AI训练的过程。从过去的文字输入到如今的语音输入、表情输入,未来的脑电波输入,都是输入法“感知能力”的一次次进化。
伴随着自然语意理解与大数据的应用,输入法也在从被动转述向主动“读心”的方向进化。整个人类的语料库和知识图谱都可以为用户所用,提升他们的表达效率。输入法的进化,也是在为无界面的人机交互一步步做铺垫,所以不难理解为什么输入法足以支撑搜狗的上市,也不难理解为什么百度要不遗余力押注于输入法,因为它是度秘的第一桥头堡。
在过去两年里,搜狗输入法与百度输入法你来我往的“专利战”,反映了这个市场的硝烟弥漫。搜狗的接连败诉也说明了专利门槛并不能拦住后来者,也很容易被绕过。
伴随着讯飞、百度各项功能的不断完善,输入法在变得全能的同时也在走向趋同,输入效率也不再悬殊,就连语音识别的准确率都齐头并进冲到了97%的瓶颈。
如今,各家比拼的是对年轻人最新表达需求的快速反应,“感知能力”的不断拓展增强,以及对于语言处理基础技术的突破。
日前,百度输入法发布了v8.0版本,又称为百度输入法AI新版,从麦克风和摄像头双管齐下,进一步实现了对用户表达的精准捕捉与丰富展现。虽然李彦宏近日澄清了“All in AI”的说法,但百度输入法却是百度“AI in All”战略的典型例证,语音、图像、NLP、知识图谱等AI能力都早已集成在输入法之上。
由于百度输入法没有背负沉重的“战略包袱”,反而还可以成为AI技术的试验田和用户行为研究室。
在语音输入方面,语音修改、语音轻声识别、语音翻译、语音联想表情等功能百度都已经“全数上膛”,此次则带来了长语音识别、声纹识别以及Deep Peak2模型等最新技术。
在语音速记的“单人模式”场景中,百度输入法不仅可在手机备忘录中,将语音自动识别成文本,支持长时间、不间断的语言叙述,还可以将录音自动保存。而在“多人模式”场景中,百度输入法率先应用的“声纹识别”技术将自动区分发言人进行记录。这无疑将极大拓展语音速记的应用场景,降低后期处理的时间成本。
而在新版本上亮相的另一个“秘密武器”,则是百度在语音处理方面的最新突破——深度尖峰技术 Deep Peak 2 模型。在以前的数十年间,语音技术领域一直采取的是上下文相关的建模方式,存在着建模单元过多、过度拟合与“前言难搭后语”等问题。
而Deep Peak 2 模型又称为基于LSTM和CTC的上下文无关音素组合的建模,则可以将建模单元数目减少10倍,根本上解决过渡拟合的问题,还可实现口语与书面语、中文与英文的混合建模。据百度自己宣布,Deep Peak 2 模型可以使百度输入法的语音输入相对准确率领先行业最高水平20%。
除了语音输入的技术突破,“AR表情”输入则是百度输入法“开启全感官输入时代”的另一亮点。
iPhone X的发布让AR表情风靡一时,而百度则是输入法中率先引入这一功能的。结合了百度人脸识别和AR技术的AR表情,不仅可根据相机或相册进行人脸识别、制作表情包,还支持用户通过自己的表情控制虚拟人物形象(比如你可以控制门神和武则天向小伙伴们做鬼脸、翻白眼)。而制作出来的AR表情,可以直接通过输入法搜索、语音输入和键盘输入时展示出来。
虽然早在半年前微信电话本就上线了AR表情包功能,然而毕竟只适用于视频聊天场景,而各种第三方AR表情包工具就像2016年流行一时的鬼畜输入法一样,使用门槛过高。而当AR表情成为输入法的“标配”,也许在以后的聊天中,斗图将逐渐被“斗表情”所取代。如果说表情包还是个人情绪的一种间接表达,那么AR表情就是用户直抒胸臆的直接表达。
可以预见的是,搜狗、讯飞将很快跟进AR表情包。虽然输入法对于百度、搜狗、讯飞的战略意义各不相同,然而在争夺“下一代人机接口”的战役中,每一步都不容有失。