端侧AI迎来新拐点！

有一说一，最近这AI大模型圈，属实有点抽象了。

各家都在闷声鼓捣那些偏向商业落地的应用，几家大厂们满脑子都是怎么把OpenClaw的概念融入到自家的产品里，真正让人觉得眼前一亮的底层技术突破反倒不怎么看得到了。

谷歌拍了拍脑袋，寻思这样不得劲啊。

于是乎，就在前几天，谷歌推出了新一代开源模型Gemma 4，包括E2B、E4B、26B、31B四个规格，其中 E2B、E4B 两个较小模型直接可以在手机、树莓派等设备上部署运行，26B、31B也只需要一张消费级显卡就能跑起来。

（图源：雷科技）

要知道，前两年吵得沸沸扬扬的AI手机，大家买回家用了半年才发现，超过九成的核心功能依然得依靠网络把数据传到云端服务器才能实现，一旦断网就是个哑巴，这实在让人觉得差点意思。

谷歌这边就表示，Gemma 4的发布代表了移动设备端AI的重大进步，它为手机、平板、笔记本电脑等端侧设备带来了强大的多模态功能，可以让用户体验到过去只有云端先进模型上才能体验的高效处理性能。

又来个以小搏大吗？有点意思。

为了看看这玩意的真实成色，小雷也去下载了谷歌发布的最新模型进行测试，接下来就给大家说说里面的亮点吧。

谷歌要以小搏大

为什么谷歌这次能引起这么大的轰动？

要搞清楚这点，我们就要先搞清楚这个模型是什么。

Gemma 4 E2B/E4B是谷歌利用MatFormer架构打造的轻量化端侧大模型，它借由PLE和Hybrid Attention结构实现了长上下文和低内存消耗设计，内存占用与传统的2B和4B模型相当，最低只要3.2GB内存就能正常调用。

（图源：谷歌）

其次，我们要搞清楚这个模型能做什么。

过去的手机端大模型，大多是简单粗暴地把云端模型切掉一大部分参数，然后硬塞进手机里，这就导致它们往往是个偏科生，只能做点简单的文字问答。

但这次Gemma 4的E2B和E4B型号彻底改变了思路，就像上面说的那样，它们从底层架构开始就采用了原生多模态设计。

原生多模态就是说，这个模型原生支持图像、音视频等多种输入模态，它不需要先把你说的话翻译成文字再慢慢理解，而是能直接听懂语气和语意；它在看图的时候也不需要把高分辨率的照片暴力压缩，而是能直接看清画面里的细节。

（图源：谷歌）

至少理论上是这样的。

最后，我要怎样做，才能用上Gemma 4呢？

放在一年前，想在手机上部署端侧大模型其实是一件异常复杂的事情，往往还要借助Linux虚拟机的帮助才能实现，雷科技曾经还为此推出过一篇教程，因此大家会有这样的疑问也是很合理的。

但是现在，就没有这个必要了。

Google在去年低调上线了一款新应用，名为Google AI Edge Gallery，支持用户在手机上直接运行来自Hugging Face平台的开源AI模型，这是Google首次尝试将轻量AI推理带入本地设备。

（图源：谷歌）

目前该应用已在Android平台开放下载，感兴趣的读者可以直接前往Play Store下载体验。在完成大模型加载后，用户就可以利用这款应用实现对话式AI、图像理解以及提示词实验室功能，甚至可以导入自定义LiteRT格式模型。

无需联网，直接调用手机本地算力完成任务，就是这么简单。

更适合移动设备体质

接下来，就轮到万众期待的测试环节了。

如图所示，谷歌为这款应用默认准备了九款模型，其中有自家的Gemma系列，也有千问和深度求索的开源模型，我们选择了目前最强的Gemma 4-E4B、前代Gemma 3n-E4B、千问的Qwen2.5-1.5B和DeepSeek-R1-1.5B进行测试。

首先是一系列经典的逻辑问题：

Q：Strawberry一词中有多少个字母“r”？

这一题看起来简单，却实实在在难倒过诸多AI大模型。

实测下来，通过谷歌部署的这一系列模型，全部都会回答“2个”，倒是我另外部署的Qwen3-4B GGUF能给出正确答案“3个”，只是莫名其妙的反复思考让它整整生成了两分半钟，挺浪费时间的。

（图源：雷科技）

Q：俩父子钓了三条鱼，每个人都分到一条，这是咋回事？

这个就更绝了，愣是没有一个能答对的，甚至连我在现实中问同事，也至少有一半是反应不过来的，只能说这种玩文字游戏的逻辑题目，对于人和大模型的专注度都是一种考验。

新建项目 (1).jpg

（图源：雷科技，从左到右：Gemma 4、Gemma 3n、DS R1、Qwen2.5）

Q：有三个人 A、B、C。其中一个是骑士（只说真话），一个是无赖（只说假话），一个是间谍（可说真话也可说假话）。
A 说：‘我是骑士。’
B 说：‘A 说的是真话。’
C 说：‘B 是间谍。’
已知三人身份各不相同，请推理出 A、B、C 分别是谁，并说明理由。

这回Gemma 4经过一系列的穷举推理，总算是拿捏了这道题目，总耗时59s，倒也不算长，至于其他三款大模型，除了一本正经胡说八道的，就是自己陷入思考过程无限循环的。

新建项目 (2).jpg

（图源：雷科技，从左到右：Gemma 4、Gemma 3n、DS R1、Qwen2.5）

从结果来看，小参数确实会显著降低模型的逻辑思考能力，思考功能可以在一定程度上降低AI幻觉产生的可能性，但也因此会增加生成所需的时间。

然后是一道比较简单的文学误导题：

Q：“种豆南山下”的前一句是什么？

事实上，这是出自陶渊明《归园田居·其三》的首句诗，并没有前一句，正好能看看这几款小参数模型是否存在为了回答问题编造数据的现象。

新建项目 (3).jpg

结果是全错，论给人陶渊明整成现代诗人这一块。

接下来，是一个简单的文本处理任务。

具体来说，我这边提供了2500字左右的文章，希望他们能够给出对应的文章总结。

其中，只有Gemma 3n-E4B和Gemma 4-E4B算是能完成任务，但是前者耗时将近两分钟，而且给出的答案抓不住重点，后者给出来的答案更加简明扼要。

至于参数最小的DS R1-1.5B，根本就给不出答复。

新建项目 (4).jpg

（图源：雷科技，从左到右：Gemma 4、Gemma 3n、DS R1、Qwen2.5）

从以上四轮测试来看，在文本处理、逻辑推理能力上，Gemma 4-E4B算是有小幅提升，但是在生成速度、回复成功率上其实是领先不少的，只能说深度思考显然是不适合本地模型的。

不过Gemma 3n并不是单纯的文本大模型，人家可是罕有的小参数多模态大模型。

先测试一下仅限Gemma的Ask Audio，我导入了一份21分钟的wav音频，可以看到目前最多支持上传30s内容，语音转文字出来的内容和原音频几乎没有关系，目前可用性挺一般的。

（图源：雷科技）

接着是Ask Image，我可以通过随手拍摄或者上传照片的方式，向Gemma 4提问。

实测下来，Gemma 4对于图片里的元素识别准确了不少，基本都能完整复述出图片里的元素，只是它对于动漫角色依然是一窍不通，诸如花卉识别这类应用也不精准，只有比较常见的食物、硬件这类可以识别出来。

新建项目 (5).jpg

（图源：雷科技）

至于Agent Skills...这玩意除了俩文字游戏外，目前几个功能都是需要联网实现的，和端侧大模型关系不大。

新建项目.jpg

（图源：雷科技）

你别说，在功能的丰富程度上，Gemma 4确实赢太多了。

端侧AI的拐点终于来了

好了，经过我这几天的轮番折腾，是时候给谷歌这次的Gemma 4下个结论了。

在我看来，这玩意儿确实可能会引发本地Agent浪潮。

在基础的文本问答和逻辑能力上，Gemma 4并没有做出什么突破，但是它的思考链更加合理，生成速度对比前代提升了1.5x-2x，这在应对很多不算复杂的日常问题时已经绰绰有余。

而且它的优点也很突出，除了兼容一系列Agent Skills外，Gemma 4-E4B甚至可以做到音频和图片的原生输入，虽说前者目前限制多多，后者理解能力有待提升，但是这都是人无我有的核心价值。

Gemini_Generated_Image_rs4gjers4g.2e16d0ba.fill-1200x600.jpg

（图源：谷歌）

更重要的是，这件事并不是谷歌一家在做。

为了让这两个模型真的跑起来，谷歌这次是把整条硬件链路一起拉进来了，从Pixel 团队，到高通、联发科，再到ARM、英伟达都参与了优化，这也让Gemma 4可能成为市面上第一个能够正常调用NPU的端侧大模型

过去一年，手机大模型的赛道一直处于不温不火的尴尬期。

如今谷歌直接把桌子掀了，把性能强悍的多模态模型塞进手机，必将逼迫国内厂商加快端侧技术的迭代速度。

可以预见，在未来的大半年时间里，一场围绕着手机本地算力的反击战即将打响。而当Agent可以调用本地模型完成推理、生成、任务执行，一台足够安全、足够懂你且无需连网的AI手机或许离我们已经不远了。

而在那一天到来之前，Gemma 4绝对是你当下最值得上手体验的选择。

3月月报.jpg

谷歌Gemma 4实测：手机断网也能用，但逻辑题竟全军覆没

谷歌要以小搏大

更适合移动设备体质

端侧AI的拐点终于来了

雷科技关注智能生活和前沿科技，让每个人享受科技的乐趣