争做 PC 「Vibe嘴替」。

专题海报.jpg


键盘输入可能真的要过时了。


过去数年里,桌面端语音输入处在一个极其尴尬的境地:系统自带的听写功能反应迟钝、错字连篇,只能沦为「无障碍辅助」;而第三方输入法虽然加入了云端语音识别,但只要遇到口音、专有名词或是逻辑混乱的长句,吐出来的文字依旧惨不忍睹。


用户不得不在「动嘴输入」和「动手重改」之间拉扯,最后还得老老实实敲键盘。


但在近两个月,大模型技术重构了语音输入法:阿里千问上线语音输入功能,豆包手机上备受好评的语音输入带到了 macOS,垂直黑马 Typeless 凭借 Agent 能力在独立开发者圈子爆火……就连搜狗输入法,也给起语音输入功能换上了全新的大模型底层。


难道传统的键盘打字,真的要被淘汰了吗?为了一探语音输入法的究竟,雷科技挑选了目前市面上最主流、最具代表性的 4 款 AI 驱动语音输入产品,为这些语音输入法准备了一次横评测试。


搜狗/豆包/千问/Typeless争做 PC 「Vibe嘴替」


开始测试之前,我们先来看看介绍一下 4 款「参赛选手」。


作为老牌国民输入法,搜狗在 macOS 上的最新版本正式引入了腾讯元宝的大模型能力。在雷科技看来,它的最大优势在于「无感过渡」:搜狗输入法的 AI 语音输入功能直接集成在了搜狗输入法里面,如果你不用它的语音输入,搜狗输入法和你之前使用的版本没有任何区别。


阿里的千问输入法并不是一个独立的输入法,而是千问 App 中的一个独立组件。它既可以在千问 App 中使用,也可以在千问 App 之外,用千问的能力来执行语音输入。值得一提的是,因背靠千问 App,千问语音输入法也拥有千问的语料规整,甚至是总结排版能力。


w700d1q75cms-3.jpg

图片来源:千问


相比之下,豆包输入法非常的简单,它就是一个拥有大模型语音输入能力的「普通」输入法。在手机上用过豆包输入法,对于电脑上的豆包输入法你一定不会陌生。


至于 Typeless 则是一款近期在独立开发者圈子里流行的 macOS 专属语音输入工具。它完全抛弃了传统输入法的皮肤、词库概念,只有一个菜单栏图标。它的逻辑很简单:按住快捷键说话、松开等待,大模型会在后台处理你的录音,输出经过规整或者翻译后的文字。


识别速度各有千秋,最出色的竟是豆包


对于语音输入而言,速度决定了你「愿不愿意用」,准确度决定了你「用得爽不爽」。为了测试四大语音输入法的识别准确度,雷科技选择了一个「控制变量法」:在固定位置播放先录制好的一段语音,再来看看四款输入法的速度和准确率。


首先是搜狗输入法(以下语料为雷科技关于耳机市场报道的文章:


不过从行业整体发展来看,雷科技认为耳机市场从增量到存量的转型并不会在2025年就戛然而止,可以肯定的是,至少在2026年的上半年,国内耳机市场仍处于这场市场转型当中,在雷科技看来,2026年将是音频新品牌进入主流市场的最后窗口期,AI则是这些耳机新势力的入场券。


从识别效果来看,搜狗输入法做的其实还是不错的,只不过断句处理稍有瑕疵。至于最后那一个「对」字,其实是我录音的时候旁边有东西敲到了麦克风,但是这个声音它并没有做降噪,而是把它当成了正确的文字输入进来。


除此之外,搜狗输入法还有另一个问题:它语音输入的预览窗非常的小,大概只能滚动显示显示不到 10 个字,提升空间还挺大的。


截屏2026-06-02 20.58.34.png

图片来源:雷科技


另外,搜狗语音输入识别速度也比较飘忽不定:有些时候我说完一句话,它隔两三秒马上就能出来;但如果它认为我说的是很长一段文本的话,它必须等我把整段文本都说完才会开始输出,这个过程需要的时间就比较长。


我们再来看看千问的表现(以下语料为雷科技关于耳机市场报道的文章):


不过从行业整体发展来看,雷科技认为耳机市场从增量到存量的转型并不会在 2025 年就戛然而止。可以肯定的是,至少到 2026 年上半年,国内耳机市场仍处于这场市场转型当中。在雷科技看来,2026 年将是音频新品牌进入主流市场的最后窗口期,AI 则是这些耳机新势力的入场券。


千问的语音识别效果我觉得要分两个方面来讨论。首先,它的语音识别准确度是非常不错的,断句也非常的自然,也能看到它会对我的说的话进行一些规整,比如像一些简单的口癖或者说重复的地方它会优化掉。但识别速度方面,如果你说的话比较长,千问的思考时间也会比较长,大概要等 3-4 秒钟才能出结果。


截屏2026-06-02 20.55.34.png

图片来源:雷科技


我们再来看看豆包的语音输入法(以下语料为雷科技关于耳机市场报道的文章):


不过从行业整体发展来看,雷科技认为,耳机市场从增量到存量的转型并不会在2025年就戛然而止。可以肯定的是,至少在2026年的上半年,国内耳机市场仍处于这场市场转型当中。在雷科技看来,2026年将是音频新品牌进入主流市场的最后窗口期,AI则是这些耳机新势力的入场券。


豆包输入法的工作逻辑跟前面提到的其他输入法有点不一样,它采用的是实时转写的模式,我这边一边说,它就会一边在前台转写。这种实时转写的工作模式会让豆包在刚刚开始识别的时候出现一些错字。


截屏2026-06-02 20.57.21.png

图片来源:雷科技


但因为它的输入是一个持续推理的过程,只要我后面继续说话,豆包输入法会意识到前面的错误,然后在我松开手完成输入之前自动把这个错误纠正掉。另外,从识别速度来看,有实时转写能力的豆包显然是识别速度最快的一个。识别速度与我说话基本只差两个字的间隔。


最后,我看来看看「洋和尚」Typeless 的表现(以下语料为雷科技关于耳机市场报道的文章):


不过从行业整体发展来看,雷科技认为,耳机市场从增量到存量的转型并不会在 2025 年就戛然而止。可以肯定的是,至少在 2026 年的上半年,国内耳机市场仍处于这场市场转型当中。在雷科技看来,2026 年将是音频新品牌进入主流市场的最后窗口期,而 AI 则是这些耳机新势力的入场券。


就体验来说,Typeless 的表现跟千问有一点点像,采用的都是我先说,然后他再思考,然后再输出结果的模式,并不能像豆包那样子,我边说他边输入。所以在识别速度上,它跟千问一样并不占优。


截屏2026-06-02 20.58.01.png

图片来源:雷科技


Typeless准确度尚可,它跟千问一样,有语音规整的能力,可以把我一些口癖或者说语气词,又或者我中途修改的部分,直接应用在输出的文本上,不需要我自己重复修改。


长文本难度大,边说边转文字体验更好?


其实从上面的测试中我们也能看出来,因为采用的输入模式不一样,像豆包、搜狗这种边说边转录的输入法,和千问、Typeless 这种我们说完整段话,它识别、思考、处理之后再输入的输入法,两者必然会在长文本识别上有所差异。


但问题是,这种差异会不会真的影响到我们日常使用呢?比如说我说一长段话,语音输入法会不会过载呢?对此,我们也准备了长文本的测试。


因为搜狗输入法采用的是语音实时转录缓存,之后再用 AI 对文本进行润色的处理方案。长文本测试中,搜狗输入法没有因为我一次说了一分半而卡壳,或者出现识别速度变慢、耗时变长的情况。我这边说完,AI 润色个两三秒,就能输出一整段完整的文字,这一点我觉得做的还是非常不错的。


至于千问输入法,受限于输入模式,只要我一直在说,千问输入法一定会等我把整段话都说完之后再进行处理。和短文测试一样,千问的识别准确度是没有任何问题的,但是它的识别、思考时间较之前短文测试明显变长。我说完之后,它差不多要等个 5-6 秒才能把这一段文字一次性输出。


边写边转录的豆包输入法,在长文本输入时效性上有着更好的表现,即使我连说一分钟,它也不会有过载的现象,同样能做到我这边说完,它文字马上就出现。


但 Typeless 的表现就有些意外了(以下语料为雷科技关于磁吸镜头报道的文章):


当然了,任何模块化方案最终都绕不开生态问题,磁吸镜头自然也不例外。在雷科技看来,磁吸镜头能否成为长期存在的产品形态,并不只取决于技术是否成熟,而取决于品牌是否愿意围绕它构建一套可持续演进的配件体系。在理想状态下,这种体系可能包括不同焦段、不同用途的镜头模组,甚至引入第三方厂商参与。

但从过往经验来看,手机厂商在影像接口和系统控制权上往往持谨慎态度。因此雷科技认为:

  • 在相当长一段时间内,磁吸镜头仍会以厂商主导、生态有限的形式存在。

  • 它将更多地承担探索和验证的角色,而不是迅速演化为通用标准。

但即便如此,它的行业意义依旧存在。在一个已经被多摄算法和 AI 卷至极限的影像市场里,磁吸镜头至少提供了一种新的解题思路。当机身形态和模组堆叠逐渐触及极限时,影像能力的突破也许不在机身之内。


虽然采用了和千问一样的先录音再处理的方式,但是 Typeless 并没有因为我连续说了 1 分半钟而延长它的思考识别时间。我说完之后等了不到 2 秒钟,它就把整段文字输出出来了,效率上是比千问要高一点点的。


但 Typeless 犯了自作主张的问题。我只是说了一段话,它就自顾自地帮我把文字分成了带有有序列表的格式,非常主动地做了整理,这一点我觉得有些越俎代庖。


中英文混说和方言才是终极挑战


很显然,作为一个AI时代的输入法,只会中文是远远不够的。中英混合输入,甚至是方言输入,才是考验语音输入法的难点。这里雷科技也用前段时间报道Google I/O 2026的文章开头,对四款输入法进行了一个简单的测试。


首先是搜狗(以下语料为雷科技关于Google I/O报道的文章):


千呼万唤始出来,北京时间间2026年5月20日凌晨,Google I/O 2026正式开幕。因Show活动 17的新功能发布,AI成为本届大会的核心议题。与其他AI企业不同,Google同时拥有YouTube、Google网页搜索、Android等多类互联网生态入口,因此如何以AI技术为上述生态赋能,成为本次大会的重点议题。


尽管在功能上,搜狗并没有对中英混输进行一个专门的分类,只有普通话和方言这两个选项。但从实际效果来看,即使我只选择普通话,搜狗也是有一定的英文输入能力的,只是它的识别效率可能不是那么的准确,比如「The Android Show」就没有准确识别出来(以下语料为雷科技关于Google I/O报道的文章):


千呼万唤始出来,北京时间2026年5月20日凌晨,Google I/O 2026终于开幕。因为Google提前用Android Show分流了Android 17的新功能,AI终于成了Google I/O 2026的主角。但不同于其他AI企业,Google同时掌握Gemini、YouTube、Google网页搜索、Android等多个不同的互联网生态入口,因此如何用AI为这些生态服务赋能也成了此次Google I/O的重点。


虽然识别用时比较长,但是从结果来看,千问语音输入法显然有着更好的中英文输入的支持,对于一些常用的英文单词,也不至于说因为错误识别而导致整句垮掉的情况。


我们再来看看豆包的表现(以下语料为雷科技关于Google I/O报道的文章):


千呼万唤始出来,北京时间2026年5月20日凌晨,Google I/O 2026终于开幕。因为Google提前用The Android Show分流了Android 17的新功能,AI终于成了Google I/O 2026的主角。但不同于其他AI企业,Google同时掌握Gemini、YouTube、Google网页搜索、Android等多个不同的互联网生态入口。因此,如何用AI为这些生态服务赋能,也成了此次Google I/O的重点。


豆包的语音输入法采用的是实时转写的工作模式,第一次识别的时候,豆包错误地把 The Android Show 识别成了 The Enjoy Show。但在听到后面我说其他内容时,豆包输入法会反过来检查前面的内容,并自动把这个错误识别的地方给修正掉。


最后我们来看一看 Typeless(以下语料为雷科技关于Google I/O报道的文章):


千呼万唤始出来,北京时间2026年5月20日凌晨,Google I/O 2026 终于开幕。因为 Google 提前用 The Android Show 分流了 Android 17 的新功能,AI 终于成了 Google I/O 2026 的主角。但不同于其他 AI 企业,Google 同时掌握 Gemini、YouTube、Google 网页搜索、Android 等多个不同的互联网生态入口。因此,如何用 AI 为这些生态服务赋能,也成了此次 Google I/O 的重点。


来自海外的 Typeless 对中英文混输,甚至是英文单词的准确度自然是毋庸置疑。值得一提的是,即使面对中英混说的情况,Typeless 的识别时间也没有明显变长。


方言测试方面,雷科技选择了在海外使用较多的粤语进行测试。


搜狗输入法(以下语料为身为广东人的小雷的语音输入):


语其中一个最大的特色在于其拥有句末助词。到底粤语有哪些句末助词?它们又可以怎样写出来呢。


因为搜狗语音输入法有一个实时的预览窗,所以在播放录音的时候,雷科技发现搜狗输入法一开始其实犯了不少错误。但好在它的 AI 规整能力能把前面的一些地方纠错掉。从结果来看,它对粤语的识别也还可以,只犯了一个错误:把句首的「粤音」识别成「语」。


我们再来看看千问的表现(以下语料为身为广东人的小雷的语音输入):


粤语其中一个最大的特色在于其拥有丰富的句末助词。到底粤语有哪些句末助词?它们又可以怎样写出来呢?


识别效果上,千问的表现显然比搜狗要完整,至少没有漏字的情况,但也同样把「音」识别成了「语」(以下语料为身为广东人的小雷的语音输入):


粤音其中一个最大嘅特色在于其拥有丰富嘅句末助词。到底粤语有边一啲句末助词?佢哋又可以点样写出嚟咧?


不得不说,豆包语音输入法对于粤语的支持是比较完整的。它不仅能分辨出「粤音」「粤语」的区别,同时输出的文本中也保留了粤语的书写习惯,不至于把粤语翻译成普通话。


最后我们再来看看Typeless(以下语料为身为广东人的小雷的语音输入):


粤音其中一个最大的特色,在于其拥有丰富的句末助词。到底粤语有哪些句末助词,它们又可以怎样写出来呢?


从识别效果上看,Typeless 和豆包都能准确的抓到粤语的其中一些关键词,至少没有错误识别的情况。至于把粤语的原始输入翻译成普通话书面语的状况,雷科技认为这个跟 Typeless 的工作方式有关。


在设置界面,我们能找到Typeless选择输入语言分支的状况,我们需要选择按照简体中文还是繁体中文来输出。也应该是这个设计导致了最终输出的文字并非粤语。


总结:各有千秋,豆包和千问综合表现最佳


看到这里,我们不妨先总结一下四款语音输入法的综合表现。


在语音输入方面,豆包输入法的表现显然是四款输入法里面表现最好最稳定的一个。无论是交互界面,还是识别的速度,甚至是长文本、中英文混说,以及对方言支持,豆包输入法都是做的最好的一个。


但从另一个角度讲,豆包输入法也有自己的短板:它能且只能用于输入这一个单一场景,并没有像千问那样丰富的 AI 能力。当然了,豆包也有专门的 macOS 客户端,如果你确实需要用豆包进行一些类似语料规整或者表达优化的处理,那用专门的豆包客户端可能更合适一点。


截屏2026-06-02 21.13.23.png

图片来源:雷科技


作为全能 AI 的代表,雷科技认为 千问和 Typeless 的表现不相上下。千问的语音输入能力显然是最完整的,对于中文的处理和优化也都非常到位。如果你有 AI 语音输入和 AI Agent 的使用场景,那千问显然最适合你。


在雷科技体验的这段时间里,千问 macOS 语音输入的功能已经迎来了不止一次更新,识别速度较之前也有所提升。但就整体表现来说,千问语音输入法这个先说话再识别再输出的工作模式,在时效性上确实不占优。


截屏2026-06-02 21.14.27.png

图片来源:雷科技


至于 Typeless,它的功能虽然没有千问那么完整,但同样对输入、翻译、语音规整这三大主要功能进行了一定的集成。在能力上,雷科技认为它处于豆包跟千问的中间。如果你觉得豆包输入法的功能太少,而千问捆绑整个 AI Agent 又过于臃肿,那 Typeless 其实是一个不错的选择。


只不过,Typeless 也有自己的问题。首先,这是一个免费试用、收费使用的软件。如果你不付费的话,每周只能输入 8000 个词,这对于文字工作者来说是绝对不够用的。在国内还有更优秀的免费输入法的情况下,选择一个收费的 AI 输入法,我觉得有些得不偿失。


截屏2026-06-02 21.15.06.png

图片来源:雷科技


最后我们来谈谈搜狗输入法,其实搜狗输入法的模式跟豆包输入法有点类似,它同样是在一个输入法里面集成了 AI 功能,只不过搜狗是把以前那个语音输入组件底层切换到了腾讯元宝大模型。换句话说,如果你本身就使用搜狗输入法,那选择「搜狗」的学习成本显然更低,体验也是会是相对更好。


总的来说,如果你之前没用过 AI 语音输入法,那雷科技更建议你试试豆包输入法和千问输入法。


从语音输入的发展来看,虽然说传统的键盘输入不会「明天就消失」,由微软、苹果建立的「生态墙」也尚未开放。但从最近几年输入的发展速度来看,更高效、更好用的语音输入已经用实力证明了自己。在这个属于大模型的时代,坚持手工输入的人依然值得尊敬,但会用AI的人,已经体会到了「言出法随」的奥妙。