猜一猜左右哪个是数字人老罗?
出品 | 网易科技《态度》栏目
作者 | 袁宁
编辑 | 丁广胜
6小时,1300多万人次观看,GMV突破5500万。这个成绩,甚至超过了罗永浩本人不久前在百度的真人直播。
“其实我们当时预期,和真人差不多就不错了。”平晓黎笑着说,“没想到最后数据还超出预期。”
漂亮的GMV只是一部分,更让她们感到“试验成功”的,是直播后复盘看到的观众停留时长——
许多用户平均停留在一个小时以上。“这说明用户是真的能接受数字人。”平晓黎说。
其实,早在两个月前,百度Create2025大会上,李彦宏就已用大量篇幅重点介绍数字人业务,并直言“2025年最令人激动的突破性应用之一,就是数字人。” 这次,罗永浩的数字人为何选择在百度做首秀?百度又试图借这场直播验证怎么样的商业模型?
615直播后的一场沟通会上,我们和百度副总裁吴甜,百度副总裁、百度电商总经理平晓黎聊了聊这件事。
听她们讲了讲这场在外界看来轰动的数字人直播实验背后,那些复杂的IP复刻难题、商业逻辑与产业布局。
要像我,不像我不行
“复刻一个罗永浩,基本没问题。但老罗本人对数字人的要求要高得多。”平晓黎透露。
作为甲方,罗永浩本人在项目初期给出的标准很简单——但其实也最难:“要像我。”
与其说百度打造的是一个数字人,更像是在复刻一个复杂的IP资产——包括罗永浩的语言风格、口头禅、临场反应、以及那种特有的“罗氏幽默”。
吴甜把这个挑战拆解为“浅层幽默”和“深层幽默”两类:
“浅层的,比如调侃、口头禅,这是可以通过历史数据训练去模仿的;但深层幽默要结合社会热点、文化语境,这背后对模型理解能力提出了很高的要求。”
老罗的直播习惯,就是随时发挥、随时接话,没有剧本。这意味着模型既要随时生成符合他人设的“罗氏幽默”,又必须时刻小心别踩到红线。
平晓黎直言:“其实最担心的也是安全问题,会不会大模型突然来一句不合适的话。我们做了很多特殊的可控性训练,某些话题是绝对不能讲的。”
但观看整场直播可以看到,数字人不仅复刻了罗永浩的语言风格,甚至连他惯用的停顿节奏、小动作、手势都实现了完整还原。
“有些东西,不是你AI生成出一句逻辑通顺的句子就算成功了,而是要像罗永浩的那种说话方式。”吴甜说出了数字人带来真人感受的核心所在。
复刻的不止一个人,而是一整个直播间
更复杂的是,这次不是单人直播,百度还挑战了“双数字人”组合:复刻了罗永浩和他的固定搭档朱萧木的直播配合。 “比如,老罗刚说完‘今天这个价格我都心动’,朱萧木的数字人就马上在旁边比个点赞手势,笑着接‘朋友们,这波可以冲’。”
吴甜现场做了个还原动作,“这个节奏感,其实比单人数字人更复杂得多。”
百度给到的数据也很惊艳:在这场6小时的直播中,后台视觉大模型实时生成了8300多个动作,40%的动作是直播时临场生成的,几乎没有动作重复循环。
此外,要想达到类似真人直播的效果,直播过程中和观众的实时互动,主动邀评,甚至和真人直播间一样的抽奖、发福袋等营销手段促进转化也是关键一环。
当真正把一整套直播间操作还原出来,效果也是很明显的,“整场看下来,观众很难察觉出它和真人直播的那种自然流畅有什么区别。”吴甜说。
3周上线,千元开播,主播走向工业化复制
在外界看来,百度像是在做一场高成本的技术炫技。
但百度的内部逻辑,是要把这条路径快速推向规模化商业交付。
平晓黎透露,罗永浩这场直播,从项目启动到上线,只用了三周时间。
这个交付速度,意味着百度数字人系统的标准化生产能力已经走到了工业化阶段。
“未来做数字人,可能不需要什么复杂谈判、剧本准备了,直接进系统,快速训练就能出成品。”平晓黎说。
百度实际上已经形成了两条产品线:
一条是像罗永浩这样高定版,专为顶流IP深度定制,打造行业标杆;
另一条是标准量产版,服务更广泛的中腰部商家,让“人人可播”成为可能。
“不是每个人都要做到罗永浩这种精细度。”
平晓黎解释,“很多商家要的其实是快速低成本能上线、能卖货。现在千元级别就能开播,我们已经做到了。”
播6小时是为了保护IP稀缺性,技术已经可以做到24小时
在商业模式上,百度对数字人直播的投入其实已经实现了正向闭环。
平晓黎算了一笔账:
真人直播场地、布景、拍摄、灯光、策划、人员成本极高,而数字人制作成本虽然前期定制投入不低,但一旦上线,每天直播的边际成本极低
——只要服务器运转、后台团队在线维护,数字人可以无限次开播。
“真人一天播三四小时已经很累了,数字人理论上24小时都能播。”吴甜补充道,“而且开播时长越长,单位成本越低,边际效益越来越高。”
但像罗永浩这样的头部IP,他们反而主动限制了时长——每天只播6小时,是为了保护品牌的稀缺感。
而对中小商家来说,这种全天候、低成本的数字人直播,正在成为他们快速起量的新手段。
平晓黎透露,目前百度平台已经有大量商家在咨询数字人定制业务,特别是在教育、旅游、图书等对标准化讲解有天然优势的品类中,效果往往比真人主播还好。
这已经是一门正经生意了
如果说过去一年外界还把数字人当成试验品,现在百度的数字人直播,已经成为一门实打实的生意。
平晓黎透露:“单纯数字人业务,今年一年下来已经有几十亿的收入了,广告投流、抽佣模型都跑通了。如果按照行业预期的百亿规模市场,我们现在基本是遥遥领先的。”
而这背后,是百度的技术布局在加速融合:
- 文心大模型,不再只是语言生成模型,而是充当“灵魂编剧”,控制整个直播间的剧情走向;
- 视觉大模型,负责动作、表情、镜头切换、配合节奏,把整个直播间动态还原成近乎真人效果;
- MCP协议,则在直播电商里形成人、货、场的闭环,推动智能化电商运营全链路改造。
可以说,百度这次押注的不只是某一场直播的成败,而是在用数字人重新定义电商平台的底层技术逻辑与商业模型。
而交个朋友副总裁吴加录的说法,也印证了这一点。
在他看来,电商行业正在经历从“流量竞争”向“技术驱动”的深刻变革。而这次合作不仅是一次技术尝试,更是一个趋势卡位。
而未来的直播间,很可能从主播、场控、助理、剪辑师、脚本编辑,几乎全链路都将被AI重构。
显然,故事,才刚刚开始。