我们用AI作了一首《雷科技之歌》。

文章开始之前，给大家听一下我们用AI做的一首《雷科技之歌》。

初代《中国最强音》总冠军曾一鸣在用真人演唱迎战AI作品《泪海》后，曾公开给出一个判断：

“再过一段日子，各大平台的排行榜，都会被AI音乐屠榜。”

这个判断，比想象中来得更早。最近在网上冲浪时，相信不少人都刷过这样的内容：大量“AI周杰伦”、“AI孙燕姿”等，翻唱着歌手本人从未演绎过的曲目，粉丝们无不惊呼。

说到AI歌曲，就不得不由酷狗阿波罗声音实验室独立研发的AI虚拟歌手“大头针”，目前已累计上线近2000首翻唱作品，单月最高听众达2517万。在流媒体的数据对标上，这一量级已经逼近了周杰伦同期的月听众规模。

图源：QQ音乐

与此同时，AI虚拟歌手正在从“纯音频Token”向着具备完整人格特质的“虚拟偶像”演进。今年1月，在北京亦庄拿到全国首个虚拟偶像身份证的“Yuri”，不仅在歌曲平台上持续输出，更深度渗透进公共文化活动中。在出道曲《Surreal》发布后，鸣潮、岚图汽车等品牌方的商业合作接踵而至，虚拟声线商业变现上确实有可行性。

图源：岚图汽车

这种现象正在全球蔓延。6月6日，特朗普发布AI单曲《人人都爱特朗普》，歌词写道：“不管我走到哪儿人人都爱特朗普，来到墨西哥，他们喜欢特朗普；去到意大利，他们喜欢特朗普……”。

秉持“绝知此事要躬行”的精神，雷科技（ID：leitech）决定独自下场实测，尝试制作一首《雷科技之歌》，然而，在经历了长达数小时的重度死磕后，我们发现了AI音乐在底层机制上的硬伤。

AI写歌，其实是一个“聋子”在用数学作曲

作为当前的AI音乐顶流，Suno和Udio基本撑起了行业的半壁江山。在实测开始前，我推测AI写歌的逻辑与人类相似，是基于旋律和节奏的实时反馈进行增量修改。但当我真正尝试生成《雷科技之歌》时，首轮测试就遭遇了跨模态对齐的逻辑翻车。

图源：Suno.cn

问题出在歌词的解读上，为了全面测试AI对垂直专有名词和中文多字句的驾驭能力，我通过GPT生成了一版歌词，这个歌词里面包含了大量的多字排比句，以及雷科技旗下的垂直IP矩阵，比如“微信、抖音、B站/ 看小雷聊数码把硬件都拆穿 / 看软硬结合的AI 怎么把体验填满”等等。

然而，算法吐出来的成品完全暴露了它对垂直名词的理解缺失。AI将“小雷聊数码”进行了生硬的截断，在“小雷”后面出现了无意义的断气，随即将“聊数码把硬件”连在一起黏糊糊地唱了出来。这种不符合基本乐理和发音常识的低级错位，在随后的数十次抽卡中高频出现。

图源：Suno.cn

可见，AI音乐并没有听觉，它本质上是在用视觉大模型的逻辑去画一张频谱图。

从底层架构来看，Suno或Udio的第一步是利用声学编解码器（Neural Audio Codecs），将连续的音频信号切碎成每秒数百个微小的音频切片，并将其转化为离散的代码，也就是音频Token。

在模型内部，副歌的情绪和独白的平铺没有高低之分，它们只是两串不同概率分布的矩阵数据。

这依然是Transformer架构最擅长的概率预测游戏。大模型计算的是在当前的上下文环境下，前一秒的数字编码后面接哪一个音频Token的概率最高。当它通过自回归模型算出一串数字序列后，再利用扩散模型进行去噪拟真，最终输出音轨。

这种依赖统计学概率的拼图逻辑，导致它建立的只是“字”与“发音编码”的强绑定。它不具备真正的旋律逻辑，更不懂得中文词组的语境语义，因此在处理稍微复杂的垂直词组时，极易出现错位断句和转音崩塌。

AI没有风格，它只有大数据的“刻板印象”

在摸清了音频Token化的底层机制后，我开始了第二轮测试。在歌词的第三段，时间指针被拉到了2026年，里面的细节更加具象且充满现场感：“飞过太平洋，奔赴不眠的内华达 / CES的展会现场，没有大雪、只有风沙”。

为了衬托这种“创始人带队奔赴前线”的极客感，我试图让AI呈现出一种带有前沿探索感、冷峻且宏大的科技电子流行风。但算法很快展现出了大数据二道贩子的局限。

三十秒后，软件吐出来的音频具有极强的夜店土嗨感。大模型用一种缺乏情感起伏的DJ腔，机械地高喊着“没有大雪、只有风沙”，配上劣质的重低音，活生生把一个科技报道团奔赴内华达沙漠的壮丽现场，唱成了土味夜店的喊麦神曲。

图源：Suno.cn

这暴露了AI写歌的另一个技术瓶颈：它不具备审美和风格的创新能力，它只有对大数据的刻板印象。

人类的风格创新往往来自于对既有规则的打破，而AI的算法逻辑恰恰相反，它永远倾向于选择全互联网大数据统计下来概率最高、最稳妥的陈词滥调。AI在抓取了全网被标记为“科技”的音乐样本后，发现其中高频出现的是廉价的电子合成器和重低音，于是它便将这些大数据的平均值进行打包和放大。

当遇到“内华达、CES、风沙”这种在传统音乐库里几乎找不到对应模版的词汇时，它的算法机制就会自动向下兼容，向着最平庸、最安全的“夜店风”坠落。

由于它是不可控的黑盒逻辑，在这个由概率支配的系统里，你只要微调一处提示词，就会彻底塌陷并重新洗牌。

图源：Suno.cn

为了强行纠正它，我只能放弃人类语言的宏观描述，改用纯粹的结构化思维进行对赌：将歌词手动切碎，使用方括号标记极其严格的结构标签，在“内华达”和“CES”之间手动加入标点符号强行纠正断句，并利用“垫音（Extend）”功能，截取听起来勉强及格的前30秒，再进行局部的增量续写。

在消耗了上百个平台积分、在海量无效音频中进行人工筛选后，这首《雷科技之歌》终于被拼凑了出来。

坦白讲，扩散模型赋予了最终成品极高的技术完成度，无论是高逼真的泛音还是均衡的混响，都具备了工业级的外壳。但这并非技术理解了音乐，而是高效率重组流水线的结果。

AI并没有消灭音乐的艺术，它只是重构了音乐的工业基础。

它能快速清洗掉低端市场的重复制作者，但由于受限于统计学平均值的底层逻辑，它很难越过概率去爆发属于人类创作者的神来之笔。

成本几乎可忽略，AI歌曲成营销新手段

坦白来说，以上对于AI写歌的吐槽有点吹毛求疵，当我们把目光从狭隘的艺术层面移开，站在行业和品牌营销的角度来看，AI音乐在微观细节上的这些硬伤，在商业效率面前其实并不重要。

《雷科技之歌》包括歌曲制作+MV生成，大概花了我56块会员费（额度还没用完），这点钱在营销层面，几乎可以忽略不计。

如果没有AI，传统的品牌营销曲是一件高边际成本的消费品。从邀请词曲创作者、寻找歌手、再到进棚录音及后期混音，一首合格的品牌主题曲往往需要数十万的预算以及数月的制作周期。而AI音乐的出现，直接将生产成本与时间周期砸到了传统行业的视线死死角之外。

这种几乎为零的试错成本，让“即时内容营销”真正具备了实操性。

例如特朗普的AI单曲，很恶搞，但从商业逻辑来看，它是一次极度精准的政治与情绪营销。通过AI工具在几分钟内就能将政治口号、时事热梗，以极低的成本将严肃议题转化为流行符号。

图源：X

这种玩法同样可以复制到商业品牌上，比如，中午互联网刚爆出一个热梗，运营下午就能利用AI做出一首魔性洗脑的歌曲配合分发，这种快速响应的能力直接拉高了内容产出的效率。

还有一种对用户的精细化运营。比如，新能源汽车在车主提车时，系统可以提取用户的兴趣标签，现场在数秒内自动定制一首包含车主名字的专属提车曲，直接推送到车机上。

一些平台在进行年终盘点时，也能为海量用户每个人生成一首专属的生活足迹单曲。这种玩法在传统音乐工业时代是无法计算投入产出比的，而现在它变成了极低成本的情绪价值。

写在最后

在《雷科技之歌》最终拼凑完成时，我有种“总算凑出来了”的感觉，但这种如释重负，本身就说明问题，AI能帮你交差，但交不出惊喜。它擅长把大数据的平均值打包成安全牌，却写不出深夜灵感迸发时那句让人起鸡皮疙瘩的歌词。

未来的音乐创作，大概率会走向分层：神来之笔依然属于人类，而标准化、即时响应的内容生产，交给算法就好。音乐不会死，只是创作的门槛和权力分配，正在被重新洗牌。

AI写歌月入十几万？我们实测了下，发现AI歌曲最大价值是营销

AI写歌，其实是一个“聋子”在用数学作曲

AI没有风格，它只有大数据的“刻板印象”

成本几乎可忽略，AI歌曲成营销新手段

写在最后

雷科技关注智能生活和前沿科技，让每个人享受科技的乐趣