外卖员训练 AI,AI 取代外卖员。

外卖员居然成了 AI 训练数据最重要的一环?


近期,美国外送巨头 DoorDash 发布了一款名为「Tasks」的应用,旗下外卖员可以使用这款应用,在每次送餐结束后,拍摄一段街景、送餐的视频,或者一些图片,即可获得一定的报酬。DoorDash 表示,Tasks 的意义是帮助商家获得更真实的线下洞察,同时让 AI 和机器人系统更好地理解现实世界。


6715ece22dabe77c840b1ba948c5c306.png

(图源:knowledgewharton)


换句话说,过去外卖员送的是一份餐食,而在 Tasks 推出之后,他们不仅要送餐,还要负责提交一份训练数据。这两年时间,大模型最常见的训练路径通常都是先用海量网页、书籍、代码、图片这类公开或授权数据做预训练,再靠人工标注、人工反馈和后续微调,让大模型越来越聪明。


而 Tasks 似乎改变了 AI 训练的方向,从互联网上的文本、图片,进一步卷向了现实世界本身。但这也不禁让人疑问,采集现实数据有这么多方式,为何偏偏是外卖员呢?


平台的数据生意,全靠外卖员


DoorDash 这次上线的 Tasks 并不是我们想象中的在外送流程里多加一项任务,而是开发出完全独立的全新体系。骑手除了接外卖单,还可以接拍菜品照片、拍酒店入口、记录日常动作、录制外语对话等零散任务。虽然 DoorDash 表示每次完成任务后都会给外卖员一份报酬,但这个兼职没有大家想象中轻松。


据《洛杉矶时报》报道,Tasks 里的内容不只是商家信息采集,还包括录制西班牙语自然对话、拍自己洗碗、叠衣服、装洗碗机,甚至处理和自动驾驶车辆有关的现场任务。也就是说,除了送餐,外卖员想要达到领取报酬的标准,需要做的事情并不少。


991c8d90d16f93443c0bb7663ee2e38a.png

(图源:DoorDash)


明眼人都能发现,DoorDash 并不是只要一些简单的图片、视频素材,而是要更标准化、更可复用的现实世界音视频样本。尤其是官方还强调,DoorDash 目前拥有超 800 万 Dashers(外卖员),覆盖城市的每个角落。更直白地说,DoorDash 其实是在借 Tasks 的名义,向市场宣布自己拥有 AI 训练数据采集的能力。


当然,回到我们最关注的部分,外卖员在完成这些任务后究竟能获得怎样的报酬?DoorDash 在这方面含糊其辞。媒体 WIRED 参与实际体验得到了一个数据样本,一个拍摄洗衣过程的任务标注为时薪 15 美元、最长 20 分钟,但按平台给出的估算,实际报酬低到只有 0.37 美元;像扫描货架这样的任务,页面会直接显示 16 美元报酬。


平台确实在给外卖员提供额外收入,但价格并不稳定,任务价值也也各有不同。但 DoorDash 为何突然愿意为这些并不起眼的场景提供报酬呢?答案也很简单,DoorDash 要把这些音视频数据拿去自己以及合作伙伴的 AI 模型进行数据训练。更耐人寻味的是,DoorDash 在今年 3 月正式上线了自研的配送机器人 Dot,目前仅在个别城市与地区运营。


c988d0758a24ea5ae6cf71c48314255c.png

(图源:DoorDash)


对于 DoorDash 而言,它要抢占的是目前 AI 大模型里最难做好的「长尾场景」,也就是除用文本、数据、图片训练出来的标准化数据之外,还得有离开实验室也能正常落地的场景数据支持。而这些恰好就对应了 Tasks 任务里那些奇怪的需求,比如拍摄那些门口被遮住的招牌、临时改过的入口、货架上摆放混乱的商品等等。


外卖员跑过的路,正在变成 AI 的训练场


过去的大模型训练,主要靠的其实是互联网文本、图片、代码和公开视频,再加上人工标注、人工偏好排序这类后处理,核心目的是让模型先学会「看」和「说」。OpenAI 早期在 InstructGPT 的论文已经有过解释,语言模型即便参数再大,也还需要人类反馈去微调。而随着多模态和机器人的发展,这些数据已经不够用了。


多模态、身智能需要的数据,不再只是“杯子是什么”、“路牌长什么样”这种认知,而是更具体的物理世界经验,比如从哪个角度靠近门口、不同材质的物体该怎么抓、陌生街道里什么信息最影响路径判断等等。


比如Google DeepMind 在 RT-2 论文里也有提到,互联网规模的视觉和语言数据,确实能帮助机器人获得更强的语义理解能力,但真正让机器人完成控制和动作映射的,仍然是机器人轨迹数据,也就是看到/听到了什么,接下来要做什么动作。


bceb2c565e74ddea4ffbe5fc76da027d.png

(图源:Google)


这也是为什么 DoorDash 这套 Tasks,看起来像给外卖员增加零活,实质上却很像一条低成本的数据采集流水线。外卖员这个职业天然就非常适合干这件事,相比坐在电脑前打标签的传统标注员,外卖员最大的优势是他们本来就活在这些复杂场景里,每天送餐进出不同门店、社区、写字楼和酒店,一些很复杂的出入口,或者比正门更方便的小路,都由他们拍摄记录上传,形成真实的可用的训练数据。


e3bf7ca77351bc9c528b6c21869c257a.png

(图源:supplychaindive)


往更深一点说,这个行为其实也是在推动具身智能的发展。DeepMind 在 2025 年发布 Gemini Robotics 时就有提到,进入物理世界之后,模型要同时处理感知、空间理解、状态估计、规划和控制,这比单纯在屏幕里生成文本复杂得多。像 Google 近两年做的机器人大模型,都在解决一个问题,那就是怎样让机器人不只会背固定动作,而是真的看懂现实场景、理解人类指令,再完成对应操作。为了做到这一点,模型既需要互联网里的图文知识,也需要大量真实世界里的操作数据。


当然,外卖员之所以适合被加进 AI 训练流程里,倒也不完全是因为「性价比」,更多的还是因为模型要走向真实世界,最缺的正是这种更具「活人感」的操作。试想一下,假如聘请大量专业的工程师做这类到现实世界里采集数据的活儿,他们未必能干得比外送员更好。


DoorDash 押注的未来,早已不新鲜了


客观来说,DoorDash 的 Tasks 计划就是帮助企业快速获得“地面信息”的工具,提前囤积一批能让 AI 和机器人更懂现实世界的底层素材。但事实上,自动化配送早已经不是新鲜的概念了。


在中国大陆,美团已经把自动配送车和无人机落实到真实配送场景。据美团官方在 2025 年公布的数据,截至 2024 年底,自动配送车累计完成近 500 万单,自动驾驶里程占比 99%,还帮助骑手减少了超过 240 万公里的路途奔波;无人机累计订单则超过 45 万单。这份数据说明,至少在校园、小区、机场这类线路稳定的场景里,自动配送的效率已经达到及格线以上。


2cd65fe5212121f3f8077afea123e599.png

(图源:Forber)


海外市场里,Serve Robotics 今年 3 月宣布和 White Castle 通过 Uber Eats 推出机器人配送服务,前者已经在美国多个城市落地机器人配送,并在 2025 年底完成了 2000 多台机器人部署。还有Starship Technologies,它们家的自动配送机器人累计已经完成了 900 万次配送。


正因如此,DoorDash 现在让骑手顺手给 AI “喂”数据这件事,就显得十分微妙。目前 DoorDash 自家的 Dot 配送机器人在公开的案例里,自动化配送成功率已经够高,但场景还是相对局限,毕竟机器人最难啃下的硬骨头,还是门口招牌被挡住了、小区入口临时换了、外卖收件点位置不对等等琐碎的问题。DoorDash 作为美国市场的外卖巨头之一,自然也明白自动配送当前的困境。


DoorDash 最聪明的地方就在此,它一边保持让外卖员继续送餐,并用一定的报酬鼓励他们完成 AI 数据采集的任务;另一边则是用这些数据进行深度训练,为即将到来的自动配送机器人做准备。但说到底,外送骑手短期时间里,还是这条流程里最不可缺少的一部分,他们的工作也很难被自动化配送取代。


d89f6db72c06ae116048b7bf890744d9.png

(图源:BGR)


但长期来看,当平台一边积累现实世界数据、一边推进自动配送落地,人和机器的关系可能会慢慢从协同工作,转变为被取代。技术进步当然值得肯定,自动配送、具身智能和现实世界数据采集,本质上都在推动行业效率提升,也有机会把一些重复、辛苦的环节交给系统去完成;但另一方面,外卖和即时配送从来都不是一门只关注“送货”的生意,它里面有太多需要和客户沟通沟通判断和复杂情况处理的问题。因此,至少在相当长一段时间里,配送这件事依然要靠人来兜底。