再等等吧。

北京时间 4 月 16 日凌晨，Google 终于把一件「早就该做的事」补上了：正式上线 Gemini 的桌面应用（目前仅 macOS）。

这不是一个突然的发布。过去几个月里，关于 Gemini 将推出桌面客户端的消息已经在外媒间反复流传，彭博社就多次爆料 Google 正在推进 Gemini macOS 桌面端的相关开发，只是节奏一再拖延。相比之下，OpenAI 和 Anthropic 推出 ChatGPT 和 Claude 的桌面应用：

都在 2024 年。

不开玩笑，Google 在这一方面确实太「落后」了，在国内外主流大模型厂商中，也就 DeepSeek、Grok 还没有桌面应用。所以，当 Gemini 终于出现在 macOS 上，这件事本身并不让人意外，反倒更像一次迟到的补课。

截屏2026-04-16 09.27.09.png

图片来源：雷科技

过去很长一段时间里，Gemini 在桌面端的使用方式始终停留在浏览器里：打开网页、进入对话、完成任务，再切回原本的工作流。这个路径没有问题，但在「随时可用」的竞争里，它显得太重了。尤其是在 AI 开始频繁介入写作、整理信息、处理复杂任务之后，调用路径本身就变成了体验的关键一环。

Gemini 桌面端首先要解决的，正是这个问题。

一个快捷键、一层悬浮窗口，把 AI 嵌进正在进行的工作流里。这套思路并不新鲜，但已经被证明有效。也正因为如此，Gemini 这次的上线，更值得关注的其实不是「有没有」，而是「做成什么样」。

换句话说，问题不在于 Google 终于把 Gemini 带到了 macOS，而在于已经有成熟对手的前提下，它准备拿出一套怎样的体验。

Gemini 桌面端初上手，处处透着「粗糙」

Gemini 可以说是我最常用的 AI 之一，但网页端始终存在使用上不够便捷等缺点，所以对于 Gemini 桌面端可以说我早就垂涎已久。但实话实说，至少目前上线的这一版，相当粗糙。

第一眼只能说无功无过，沿用了 ChatGPT 定义的对话框主界面，但默认并不打开侧边的对话列表。

默认不打开是对的。因为一打开我就觉得「丑」，对比网页端，这种感觉只会更加突出。究其原因，桌面端采用了明显更大、更粗的字号，但字与字、行与行的间距又太小，就显得视觉上相当拥挤、不协调。

截屏2026-04-16 18.00.42.png

桌面端，图片来源：雷科技

截屏2026-04-16 18.03.57.png

网页端，图片来源：雷科技

也不知道是 Google 没了设计师，还是这版就是用 Gemini 模型 Vibe Coding 出来的。

当然，这些并不影响功能使用。

真正上手之后，会发现 Gemini 桌面端带来最直观的一个体验变化就是「唤起」。在网页版里，使用 Gemini 的前提是打开浏览器，进入页面，再开始对话。这个过程本身并不复杂，但每一步都意味着一次体验上的中断：你需要离开当前正在处理的任务，切换到另一个环境，再切回来。

桌面端把这一步压缩成了一个动作——快捷键唤出，在 macOS 上为了避开苹果自己的 Spotlight（聚焦搜索）和便利性，默认通常都是 Option + 空格键（也有双击 Option）。

截屏2026-04-16 18.37.32.png

图片来源：雷科技

一个悬浮窗口叠在当前界面之上，不需要切换应用，也不需要进入完整页面。这种差异看起来很小，但在频繁调用的场景里，会被不断放大。写东西、查资料、改内容，这类操作往往是碎片化的，路径越短，越容易被真正用起来。

不过这个交互设计早就成了「标准」。至少以我的使用经历来说，几乎所有 AI 助手/浏览器的桌面端都标配了这个功能。硬要说的是，主要区别都是「位置」，比如 ChatGPT 的桌面端提供了「中下」「左下」「右下」以及「记住上次位置」，Gemini 则是强制使用上次位置。

另一个明显的变化则是「分享窗口」。

简单来说，在系统相应权限的授权之后，可以把某个应用窗口交给 Gemini 作为上下文来源。和网页版相比，「分享窗口」也是一个完全新增的能力，因为浏览器里的 Gemini 很难直接接触到系统内其他 App 的内容。

截屏2026-04-16 10.19.50.png

图片来源：雷科技

不过从实际体验来看，这个功能的实现方式并不复杂，本质仍然是基于对截图的图像理解，你甚至可以理解为一次「持续截图」。开启之后，Gemini 会在每次发出提示词时截图相应 App 当前窗口的画面，用来作为对话上下文。它的价值在于减少操作成本。

ChatGPT 桌面端的类似功能叫「屏幕截图」，但每次都需要手动触发截图，再发起一次新的请求。而 Gemini 则是一次开启之后，可以在对话过程中持续使用。这在处理文档、表格或者网页内容时，会更顺手一些。

截屏2026-04-16 18.09.39.png

ChatGPT 的屏幕截图，图片来源：雷科技

但它能看到的，仍然只是「画面」。对于应用内部的结构、状态，或者更细粒度的信息，当前版本并没有表现出更深入的理解能力。这一点在复杂任务中会逐渐显现，比如需要精确定位、跨区域引用内容时，仍然会回到手动补充信息的方式。

其他核心功能，Gemini 桌面端目前已经对齐了网页端，包括支持制作图片、音乐、视频，还有 Canvas、Deep Research、学习辅导模式等。

问题比较大的是很多管理、设置还是要跳转网页版进行调整，比如记忆管理，目前在客户端中只是一个入口，点击之后会直接跳转到浏览器中才能继续查看和管理。

甚至，Gemini 桌面端的对话界面里还保留了「在浏览器打开」这样的选项。

截屏2026-04-16 18.11.51.png

Gemini 桌面端，图片来源：雷科技

从这个设计来看，Gemini 桌面端的产品团队应该也明白目前版本还很粗糙，在比较简单的使用需求和场景下或许够用，但一旦涉及更完整的管理和配置，仍然需要回到网页版。

整体看下来，这个刚上线的 Gemini 桌面端，确实解决了之前 Gemini 无法全局快速调用、需要反复手动截图的问题，但它远远还称不上好用。尤其是对比已经迭代了很久的其他竞品。

从产品角度，Gemini 离 ChatGPT、Claude 还差得远

把 Gemini 和 ChatGPT、Claude 的桌面端（仅考虑 macOS 版）放在一起用，很难再用「感觉」去评价，差距基本都体现在具体功能上，而且是那种一上手就能察觉的差别。

先讲讲 ChatGPT 的桌面端，它已经不只是一个对话窗口，同时也在尝试打造一个以 ChatGPT 为核心的应用生态。在实际使用中，可以直接调用 macOS 本地应用，也可以接入一批已经打通的第三方工具，比如 Adobe Photoshop、Canva、Figma、Apple Music、OpenTable 等。

截屏2026-04-16 16.44.58.png

ChatGPT 支持的第三方应用，图片来源：雷科技

这类能力，更是重要的是给使用方式本身带来了变化。直接在当前流程里，把相关内容交给 ChatGPT，由它完成分析、生成，甚至一部分操作。这个过程中，AI 相当于直接嵌进了日常的生活和工作流程中，比如直接基于 Figma 让 AI 快速修改原型设计等。

另一方面，虽然在很多核心功能上和 ChatGPT 也差不多，但 Claude 从大模型层面并不像 GPT、Gemini 一样重视多模态，而是更重视 Agent 代理功能。这一点也体现在桌面端应用上。

事实上，Claude 最早在 2024 年 10 月就尝试推出了基于 Claude 桌面端的 Computer Use 代理功能，让 AI 能够直接代理操作。不过后续也发现从模型、智能体框架到生态都没准备好，于是从代码出发打造了 Claude Code，又延伸出了 Claude Cowork，直接让 AI 通过 CLI 命令行、GUI 图形界面直接代理操作计算机。

截屏2026-04-16 18.12.53.png

图片来源：X

此外，Claude 还能再基于「连接器」接入 Slack、设计工具、文档平台等，把不同工具里的信息拉到一起处理。

而这些都是 Gemini 缺失的。不过也要说明，有些问题是桌面端的，有些则不是。尤其是在生态方面，Google 似乎受制于自身强大但有限的生态，并没有像 OpenAI 和 Anthropic 一样积极介入其他第三方软件和平台，导致对很多人来说，并不能无缝介入实际的工作流程中。

所以可以说，这一版 Gemini 的桌面端更像是一个起点，它才刚刚解决了把 Gemini 带到桌面上的问题，但还没有回答一个更关键的问题：

Gemini桌面端首发体验：谷歌憋了这么久，交出了一份「粗糙」答卷

Gemini 桌面端初上手，处处透着「粗糙」

从产品角度，Gemini 离 ChatGPT、Claude 还差得远

雷科技关注智能生活和前沿科技，让每个人享受科技的乐趣