再等等吧。

北京时间 4 月 16 日凌晨,Google 终于把一件「早就该做的事」补上了:正式上线 Gemini 的桌面应用(目前仅 macOS)。


这不是一个突然的发布。过去几个月里,关于 Gemini 将推出桌面客户端的消息已经在外媒间反复流传,彭博社就多次爆料 Google 正在推进 Gemini macOS 桌面端的相关开发,只是节奏一再拖延。相比之下,OpenAI 和 Anthropic 推出 ChatGPT 和 Claude 的桌面应用:


都在 2024 年。


不开玩笑,Google 在这一方面确实太「落后」了,在国内外主流大模型厂商中,也就 DeepSeek、Grok 还没有桌面应用。所以,当 Gemini 终于出现在 macOS 上,这件事本身并不让人意外,反倒更像一次迟到的补课。


截屏2026-04-16 09.27.09.png

图片来源:雷科技


过去很长一段时间里,Gemini 在桌面端的使用方式始终停留在浏览器里:打开网页、进入对话、完成任务,再切回原本的工作流。这个路径没有问题,但在「随时可用」的竞争里,它显得太重了。尤其是在 AI 开始频繁介入写作、整理信息、处理复杂任务之后,调用路径本身就变成了体验的关键一环。


Gemini 桌面端首先要解决的,正是这个问题。


一个快捷键、一层悬浮窗口,把 AI 嵌进正在进行的工作流里。这套思路并不新鲜,但已经被证明有效。也正因为如此,Gemini 这次的上线,更值得关注的其实不是「有没有」,而是「做成什么样」。


换句话说,问题不在于 Google 终于把 Gemini 带到了 macOS,而在于已经有成熟对手的前提下,它准备拿出一套怎样的体验。


Gemini 桌面端初上手,处处透着「粗糙」


Gemini 可以说是我最常用的 AI 之一,但网页端始终存在使用上不够便捷等缺点,所以对于 Gemini 桌面端可以说我早就垂涎已久。但实话实说,至少目前上线的这一版,相当粗糙。


第一眼只能说无功无过,沿用了 ChatGPT 定义的对话框主界面,但默认并不打开侧边的对话列表。


默认不打开是对的。因为一打开我就觉得「丑」,对比网页端,这种感觉只会更加突出。究其原因,桌面端采用了明显更大、更粗的字号,但字与字、行与行的间距又太小,就显得视觉上相当拥挤、不协调。


截屏2026-04-16 18.00.42.png

桌面端,图片来源:雷科技

截屏2026-04-16 18.03.57.png

网页端,图片来源:雷科技


也不知道是 Google 没了设计师,还是这版就是用 Gemini 模型 Vibe Coding 出来的。


当然,这些并不影响功能使用。


真正上手之后,会发现 Gemini 桌面端带来最直观的一个体验变化就是「唤起」。在网页版里,使用 Gemini 的前提是打开浏览器,进入页面,再开始对话。这个过程本身并不复杂,但每一步都意味着一次体验上的中断:你需要离开当前正在处理的任务,切换到另一个环境,再切回来。


桌面端把这一步压缩成了一个动作——快捷键唤出,在 macOS 上为了避开苹果自己的 Spotlight(聚焦搜索)和便利性,默认通常都是 Option + 空格键(也有双击 Option)。


截屏2026-04-16 18.37.32.png

图片来源:雷科技


一个悬浮窗口叠在当前界面之上,不需要切换应用,也不需要进入完整页面。这种差异看起来很小,但在频繁调用的场景里,会被不断放大。写东西、查资料、改内容,这类操作往往是碎片化的,路径越短,越容易被真正用起来。


不过这个交互设计早就成了「标准」。至少以我的使用经历来说,几乎所有 AI 助手/浏览器的桌面端都标配了这个功能。硬要说的是,主要区别都是「位置」,比如 ChatGPT 的桌面端提供了「中下」「左下」「右下」以及「记住上次位置」,Gemini 则是强制使用上次位置。


另一个明显的变化则是「分享窗口」。


简单来说,在系统相应权限的授权之后,可以把某个应用窗口交给 Gemini 作为上下文来源。和网页版相比,「分享窗口」也是一个完全新增的能力,因为浏览器里的 Gemini 很难直接接触到系统内其他 App 的内容。


截屏2026-04-16 10.19.50.png

图片来源:雷科技


不过从实际体验来看,这个功能的实现方式并不复杂,本质仍然是基于对截图的图像理解,你甚至可以理解为一次「持续截图」。开启之后,Gemini 会在每次发出提示词时截图相应 App 当前窗口的画面,用来作为对话上下文。它的价值在于减少操作成本。


ChatGPT 桌面端的类似功能叫「屏幕截图」,但每次都需要手动触发截图,再发起一次新的请求。而 Gemini 则是一次开启之后,可以在对话过程中持续使用。这在处理文档、表格或者网页内容时,会更顺手一些。


截屏2026-04-16 18.09.39.png

ChatGPT 的屏幕截图,图片来源:雷科技


但它能看到的,仍然只是「画面」。对于应用内部的结构、状态,或者更细粒度的信息,当前版本并没有表现出更深入的理解能力。这一点在复杂任务中会逐渐显现,比如需要精确定位、跨区域引用内容时,仍然会回到手动补充信息的方式。


其他核心功能,Gemini 桌面端目前已经对齐了网页端,包括支持制作图片、音乐、视频,还有 Canvas、Deep Research、学习辅导模式等。


问题比较大的是很多管理、设置还是要跳转网页版进行调整,比如记忆管理,目前在客户端中只是一个入口,点击之后会直接跳转到浏览器中才能继续查看和管理。


甚至,Gemini 桌面端的对话界面里还保留了「在浏览器打开」这样的选项。


截屏2026-04-16 18.11.51.png

Gemini 桌面端,图片来源:雷科技


从这个设计来看,Gemini 桌面端的产品团队应该也明白目前版本还很粗糙,在比较简单的使用需求和场景下或许够用,但一旦涉及更完整的管理和配置,仍然需要回到网页版。


整体看下来,这个刚上线的 Gemini 桌面端,确实解决了之前 Gemini 无法全局快速调用、需要反复手动截图的问题,但它远远还称不上好用。尤其是对比已经迭代了很久的其他竞品。


从产品角度,Gemini 离 ChatGPT、Claude 还差得远


把 Gemini 和 ChatGPT、Claude 的桌面端(仅考虑 macOS 版)放在一起用,很难再用「感觉」去评价,差距基本都体现在具体功能上,而且是那种一上手就能察觉的差别。


先讲讲 ChatGPT 的桌面端,它已经不只是一个对话窗口,同时也在尝试打造一个以 ChatGPT 为核心的应用生态。在实际使用中,可以直接调用 macOS 本地应用,也可以接入一批已经打通的第三方工具,比如 Adobe Photoshop、Canva、Figma、Apple Music、OpenTable 等。


截屏2026-04-16 16.44.58.png

ChatGPT 支持的第三方应用,图片来源:雷科技


这类能力,更是重要的是给使用方式本身带来了变化。直接在当前流程里,把相关内容交给 ChatGPT,由它完成分析、生成,甚至一部分操作。这个过程中,AI 相当于直接嵌进了日常的生活和工作流程中,比如直接基于 Figma 让 AI 快速修改原型设计等。


另一方面,虽然在很多核心功能上和 ChatGPT 也差不多,但 Claude 从大模型层面并不像 GPT、Gemini 一样重视多模态,而是更重视 Agent 代理功能。这一点也体现在桌面端应用上。


事实上,Claude 最早在 2024 年 10 月就尝试推出了基于 Claude 桌面端的 Computer Use 代理功能,让 AI 能够直接代理操作。不过后续也发现从模型、智能体框架到生态都没准备好,于是从代码出发打造了 Claude Code,又延伸出了 Claude Cowork,直接让 AI 通过 CLI 命令行、GUI 图形界面直接代理操作计算机。


截屏2026-04-16 18.12.53.png

图片来源:X


此外,Claude 还能再基于「连接器」接入 Slack、设计工具、文档平台等,把不同工具里的信息拉到一起处理。


而这些都是 Gemini 缺失的。不过也要说明,有些问题是桌面端的,有些则不是。尤其是在生态方面,Google 似乎受制于自身强大但有限的生态,并没有像 OpenAI 和 Anthropic 一样积极介入其他第三方软件和平台,导致对很多人来说,并不能无缝介入实际的工作流程中。


所以可以说,这一版 Gemini 的桌面端更像是一个起点,它才刚刚解决了把 Gemini 带到桌面上的问题,但还没有回答一个更关键的问题:


当 AI 已经可以参与工作流时,这个桌面端准备让用户在这里完成多少事情?