豆包AI入职浦东美术馆。

谁能想到,2026年开年的第一场科技圈大戏,不是发手机,也不是发汽车,而是在黄浦江边的浦东美术馆里看画呢?


1月20日,雷科技受邀参加了豆包AI解说体验日。


为了配合豆包的“入职”,这次浦东美术馆拿出了两项国际大展:一个是满眼金银玉器的《图案的奇迹:卢浮宫印度、伊朗与奥斯曼的艺术杰作》,一个是色彩爆炸的《非常毕加索:保罗・史密斯的新视角》。


51aef7876d1bd49bce7d0d54d5117533.jpg

(图源:雷科技)


说实话,来之前我其实挺犯嘀咕的。


毕竟这两年虽然AI喊得震天响,但真落地到生活里,多多少少有些不尽如人意。特别是这种文化艺术类的场景,搞不好就是现场翻车。


但这一趟体验下来,面对着莫卧儿王朝的古董和毕加索的真迹,我得承认:AI技术融入生活的速度,比我们想象的还要快,以前那种跟着解说人员的看展方式,可能真的要彻底翻篇了。


AI「入职」第一关:从看见到看懂


在开始逛展之前,咱们首先是参加了豆包与上海浦东美术馆举行的合作发布会,包括浦东美术馆董事长李旻坤,字节跳动副总裁朱骏,艺术家陈丹青与北京大学教授、艺术史学者朱青生先后上台发言,一同见证了这历史性的一幕。


66207eaf6e19cff97a2cc348de8c6b64.jpg

(图源:雷科技)


这次发布会的信息量还蛮大的,我在这里给大家划几个重点。


首先,这是AI产品第一次真正有了“编制”。豆包不再是一个第三方的辅助工具,而是浦东美术馆官方认证的讲解员。


这意味着什么?意味着数据源的准确性有了背书。


根据豆包逛展项目的负责人介绍,双方通过独家数据合作和定向搜索优化,进一步提升了豆包识别和讲解的准确性。


以前我们用AI搜图,经常会出现张冠李戴的情况。但在发布会上,项目负责人举了个很硬核的例子:这次《图案的奇迹》展里,有一件伊朗15世纪的《牡丹纹盘》,长得跟明代永乐年间的青花牡丹纹盘简直是双胞胎。


63cba343b040f8005be46df0acd6a1df.jpg

(图源:雷科技)


这时候,你用一般的AI扫过去,大概率会说是中国青花瓷。


但因为有了独家数据的投喂和定向搜索优化,借助RAG(检索增强生成)技术,豆包能从釉色、笔触这些微小的细节里,把这两件相隔万里的文物精准区分开,为使用者带来经过专家审核的标准答案。


其次,是交互方式的质变。


在现场和陈鲁豫对谈时,字节跳动副总裁朱骏说了一段很打动我的话,他认为AI和用户的交互本质上是一种对话体验。在观展过程中,希望豆包通过共情式的提问和启发式的对话,把用户已有的感受和经验调动出来,形成更有参与感的理解过程。


为了实现共情,他们还推出了亲子解说风格。


比如在看毕加索的《阅读》这幅画时,如果是专业模式,它会给你讲1932年的创作背景、玛丽·特蕾兹·瓦尔特的缪斯身份;但如果是亲子模式,它可能会引导孩子去看画里柔和的曲线,问孩子“你能从画里看出她在看什么类型的书吗?”。


b91b7a0a5e77805c3338b8194972e3ac.jpg

(图源:雷科技)


这或许就是浦东美术馆董事长李旻坤在台上说的千人千面,让美学教育不再是高高在上的单向灌输,而是成为一场跨越时空的聊天。


最重要的是,这次的技术底座是Seed 1.8模型。


这个模型最厉害的地方在于原生的视频理解能力。正如发布会介绍说,它不再是以前那种“拍一张图、问一句话”的断裂模式,而是能像人的眼睛一样,持续地看、持续地理解。


1116e885d0ce2f86ddf50d98ebd87c16.jpg

(图源:雷科技)


想知道这种“流式”的交互体验,到底怎么样?光听发布会没用,我决定去展厅里实测一把。


现场实测:像跟朋友视频一样逛美术馆


既然这次浦东美术馆拿出了两项国际大展,我们自然是按顺序从下往上去体验,先从二楼设置的毕加索展厅开始。


结果呢?刚进展厅,我就有些困惑。


大家都知道,毕加索的东西,有时候真的很难懂。


而这次毕加索展厅,居然在入口处的墙面上设置了大量的自行车坐垫,更是让没见过世面的我看的一脸懵。


fba8ebb7dcfc2229e8733456c39eb0a6.jpg

(图源:雷科技)


转头看去,在另一面白墙上,同样挂着一个看着像自行车坐垫的玩意儿。


我直接打开豆包的视频通话,对着它问:“这是什么?”


“这是毕加索在1931年创作的青铜雕塑《牛头》。它最绝妙的地方在于材料的运用,其实是用一辆废弃自行车的车把和坐垫组合而成的,车把构成了牛角,坐垫则是牛脸。”


c0e22437bb680e67eaf43ef750d10b75.jpg

(图源:雷科技)


牛头吗…我仔细看了看,确实有那么点意思,但还是很奇怪,于是我接着问:“额,那这不就是个自行车座和车把吗?这也算艺术?”


要是以前的语音助手,这会儿估计已经给我念《牛头》的百度百科了,比如创作年份、材质之类的死板信息。


但豆包的反应很有意思,画面里的识别框闪了一下,然后开始回复:


“毕加索并非简单地用现成的自行车部件进行组合,而是通过青铜浇铸,将工业元素融入雕塑之中,把日常生活中最普通的物品,变成了充满力量和野性的艺术作品,这也体现了他将现成品融入艺术的创作思路,兼具超现实主义的野性张力。”


可以,这很原作。


641ff03b4a8d0c13f61b6088915fe14d.jpg

(图源:雷科技)


就这样,我在豆包的指引下,一点点地了解着毕加索,从他对于斗牛元素的痴迷,到他基于空间元素的结构,还看到了诸如瓷艺、折纸、雕塑等一系列作品。


比起简单的抽象二字,毕加索在我的眼里变得更像一个活生生的、复杂的人。


629266b06896446e016b5c66614bfe55.jpg

(图源:雷科技)


看完毕加索展,我一看表,时间不多了。浦东美术馆不小,要是没头苍蝇乱撞,肯定累死。


能咋办,问吧。


我站在展厅中间,对着手机说:“我还剩差不多半小时,你能帮我规划一下莫卧儿王朝展该怎么逛吗?”


豆包停顿了一下,然后给出了建议:


“建议您现在直接坐扶梯上三楼,去《图案的奇迹》展厅,进去就能看到象征皇权的珠宝和武器,一路走下去还能纵览细密画和地毯,最后快速浏览一下皇帝用的餐具和首饰盒。看完后从出口离开,路上您还能顺便看到那个很火的‘镜厅’打卡点。”


按照路线,我冲到了3楼的《图案的奇迹》展厅。


f3083bbcc25b3af4f4dfcec9e4641ced.jpg

(图源:雷科技)


这里全是印度、伊朗和奥斯曼帝国的宝贝,其中最亮眼的就是我面前这把马头匕首,刀柄上不仅镶满了宝石,而且还整了个栩栩如生的马头雕塑,根本没有男人能拒绝这样的东西。


我把摄像头怼上去,故意刁难它:“这把刀的手柄看着像塑料的,啥情况?”


9b23a61b738340dbc9d4127ecd0589ce.jpg

(图源:雷科技)


这是最考验Seed 1.8模型视频理解能力的时候,它不仅要识别物体,还要在光线不好的情况下判断材质。


豆包的声音传过来:“这可不是塑料。这是17世纪莫卧儿帝国时期的玉雕工艺。你看那个把手是兽首形状的,用的是顶级的白玉。当时的人认为玉能验毒,所以皇室特别喜欢用玉做兵器的手柄。虽然现在看着有点旧,但在当年,这把匕首的价值可能抵得上一座城池。”


它没有被我的描述带偏,而是基于视觉事实进行了纠正。


这一路下来,我最大的感受是:不用打字、不用反复拍照,就像跟一个懂行的朋友视频通话一样,指哪问哪,基本上都能得到想要的答案,偶尔还能扩展些没想到的知识。


只要不怕社死,整个体验确实不赖。


告别拍照查资料,多模态技术终于「活」了


走出美术馆的时候,我整个人心满意足。


虽然我去美术馆的次数不多,一个人去的时候更是寥寥无几,但是这次逛展的体验,确实要比之前和同事们插科打诨的逛展体验好上不少,至少豆包它是真懂,而不是像我同事那样一知半解,说话还贼大声。


具体到产品上,豆包这次给我的感觉,其实是把那种高大上的多模态技术,真正塞进了具体的场景里。


35727647dbec2cdef9dde6aa049239c6.jpg

(图源:雷科技)


这一年时间,国内外各家大模型厂商其实都在鼓吹着“原生多模态”的升级,但是除了Google Gemini之外,鲜有大模型厂商能让这项技术走进人们的生活中,更多人还是把大模型当成一份以AIGC为主的娱乐向工具来使用。


显然,豆包并不满足于此。此前,他们就曾与中国国家博物馆等七家国家一级博物馆合作打造数字化看展体验区,随着视频交互形式逐渐普及,预计他们还会在旅行、观光、展览等视觉信息占比更高的场景发力。


如今,我们可以随手举起手机,让豆包看到我们眼前的东西,从最基本的“这是什么?”出发,一点点挖掘出更多的信息和知识。这种体验,既具有实用价值也充满乐趣,适合出游不喜欢做严密的计划,喜欢遇到更多偶然惊喜的人。


90a9f1e2dd84a41049548a5ed916e93e.jpg

(图源:雷科技)


在我看来,科技的进步,不是为了炫技。它是为了把那些高高在上的艺术,变成我们普通人也能听得懂、聊得来的日常。


而豆包现在在做的,就是文化传播与互动体验融合的正向循环。