太真了！罗永浩数字人引爆直播间，背后技术有多强？

【旭才科技】6 月 18 日消息，一年一度 618，电商平台们都在拼低价、拼补贴卷生卷死的时候，百度另辟蹊径，联手罗永浩搞了一场数字人直播，因为太拟真，以至于让直播间的网友都在猜：这是「真的假的」罗永浩。

罗永浩数字人直播间

6 月 15 日下午，「罗永浩数字人」在百度电商首次开播，全场近 7 小时 GMV 达 5500 万元，观看人次超 1300 万，部分品类销量超甚至越过了 5 月 23 日罗永浩真人直播场。

事实上，数字人直播早已不是新鲜事，为何这次罗永浩数字人在百度优选直播间的表现却让人眼前一亮呢？

在百度 AI Day 上，百度副总裁、电商总经理平晓黎，百度集团副总裁吴甜揭秘了罗永浩数字人背后的黑科技和更多细节。

真假难辨的「罗永浩」

仔细观察这次罗永浩数字人的直播表现，会发现，这场直播创下几个业内首次：

第一，这次数字人直播全场持续了近 7 小时。

目前市面上主流的 AI 生视频产品生成的视频时长大多在几十秒至十几分钟，近 7 小时的数字人直播可谓超越了 AI 视频生成极限。

如何让一个 AI 生成的数字人影像保持近 7 小时的一致性？这背后需要解决哪些技术挑战？

第二、和市面上大多的单个数字人直播不同，罗永浩数字人直播间有两位数字人，分别是罗永浩和他的助手朱萧木的数字人。

这是行业首次「多数字人直播」，并且，在直播中罗永浩与助播数字人配合自然、双数字人搭档接梗流畅，抢话自然。

双人/多人直播相比单人直播，又有哪些技术鸿沟需要翻越？

第三、数字人罗永浩不但能做出喝奶茶、拎可乐等细节动作，还能与直播间用户发布的弹幕进行实时互动，就像真人直播间一样玩抽奖、发福袋等互动。这一点更是秒杀一众对口型的直播数字人。

同样的，在长达近 7 小时的直播中，是如何保持数字人互动动作的精准度的？

也正是因为上面这些直播特征，让直播间的网友一时之间分不清在直播的到底是罗永浩本人，还是罗永浩数字人，真假难辨了。

平晓黎：百度数字人与市面上的直播数字人相比，有代际优势

这个真假难辨的「罗永浩」，百度是如何打造的呢？

百度副总裁、电商总经理平晓黎介绍了「罗永浩数字人」的打造过程：今年 4 月百度发布了高说服力数字人，这是一个新的里程碑。此后，在高说服力数字人的基础之上，百度电商慧播星再一次迭代，围绕慧播星首席体验官罗永浩，发布了业界首个超头主播的数字人，实现了体验、内容、视觉、效果的四大突破，使得数字人带货能力媲美真人。

在平晓黎看来，百度的这个「超头主播的数字人」，跟市场上目前的直播数字人之间，存在着明显的「代际」优势。正是对体验、内容、视觉、效果的四大突破，成就了这种优势。

具体来看，罗永浩数字人直播间做到了：

体验突破，复刻罗永浩跟朱萧木的丝滑配合，是业界首个双数字人互动直播间；

内容突破，数字人做到了「懂创作」，带货时塑品专业度更高，数字人可以「有个性」，甚至能「玩梗」，为数字人注入灵魂；

视觉突破，罗永浩数字人直播实现了在直播实时环境下的超长演绎，做到了动作、表情、语调等贴合话术，且稳定可控；

效果突破，AI 大脑基于直播间信号灵活控场，数字人可以主动邀评、高频互动，极大提升用户沉浸感；通过多智能体实时调度，在数字人直播间实现了和真人直播间一样的互动玩法，如抽奖、发福袋等。

平晓黎介绍，目前，在百度慧播星，单个数字人的制作成本在 1000 元/月左右。目前百度电商已有累计超 10 万数字人主播，覆盖电商、教育、医疗等数十个行业，助力商家直播运营成本下降超 80%，GMV 平均提升 62%。

五大关键技术揭秘

那么，这项领先行业的「罗永浩数字人」到底是如何实现的呢？

百度集团副总裁吴甜在百度 AI Day 上进行了背后技术大揭秘。

吴甜表示，百度在今年 4 月发布了最新的文心 4.5 Turbo 和文心 X1 Turbo 为此次直播提供了强有力的技术支撑，打造了多模协同的数字人技术，罗永浩数字人是基于文心大模型的最佳实践。

具体到罗永浩数字人的打造上，吴甜总结道，罗永浩数字人直播背后的五大关键技术包括：剧本驱动的数字人多模协同、融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成，以及高一致性超拟真数字长视频生成。这些技术的综合应用，为用户呈现了一个高质量的直播间表现。

直播中，数字人不仅要详细解读商品，还要通过肢体语言和表情传达商品特性，这构成了一个多模态的协同问题。多模协同的数字人技术是数字人表现好的关键所在。百度为了实现语言、语音和视觉的协调一致，采用了一种基于剧本驱动的技术方案，剧本不仅包含台词，还包括对视觉、语音等模态以及在直播过程中的实时互动内容，确保数字人的表达在语义、语气语调、微表情和手势上高度协同。

在数字人语音合成方面，通过采用文本自控的语音合成等技术，实现了更逼真、互动性强的对话效果。为解决罗永浩数字人直播双人声音配合的难点，百度采用对话上下文编码器，将对话历史输入和当前对话进行语音合成的统一推理计算，最终实现流畅、自然的双人对话效果。

吴甜还特别提到，在直播间的环境下，数字人形象生成的挑战主要集中在多模协同、高表现力动作的传达、复杂交互的实现以及超长时长的一致性保持。百度通过多模态输入，包括视频、剧本、语音和骨骼信号，以及对视频的多模态理解和人、物、场的高可控视频生成，实现复杂交互片段和大表情、大动作片段的生成。特别地，面对罗永浩直播间两位具有高 IP 价值的主播以及丰富的商品，通过结合多模态视频理解、跨模态信号生成、视频生成等技术，克服了高可控交互，高精度、长时间一致性保持等难点，实现了高一致性超拟真罗永浩数字人长视频生成。

现在，罗永浩已经入驻百度优选，将以真人+数字人的形式不定期开播。同时，罗永浩将担任百度慧播星首席体验官，双方也将在「AI+直播」领域进行探索。

未来数字人直播表现会演进到何种逼真度，值得期待。

刘强东：京东计划在全球所有主要货币国家申请稳定币牌照

美国稳定币监管法案获参议院通过发行人需向监管机构注册

黄金「劝退」了？铂金需求猛增 140%

企业年金累计规模 3.73 万亿元近三年累计收益率 7.46%

「95 后」的致富之路，是它？

潘功胜首谈稳定币对数字金融要加强监管协同、补齐监管短板

证监会新设资本市场学会魏刚将任秘书长

华为要警惕余承东的口无遮拦了？

网红蛋糕店深夜宣布倒闭，7 天前还说不会跑路，加盟商称两年亏了 100 万元

QFII 获准参与 ETF 期权交易 10 月起可做套期保值

滴滴顺风车试点在线真人安全员功能司乘均可使用

50 万一台的人形机器人进厂，搬运效率连工人一半都不到

最高 20 万购房补贴、买车位可提公积金……多地出台楼市新政

：iPhone 17 系列即将量产，全球首个智能眼镜支付来了

全球头条：25% 关税说免就免？英美首个减税协议落地

朱鹤新：将开展绿色外债政策试点新发放一批 QDII 投资额度

今年 618 最不值的一单？06-16 09:400 评

科创板新设科创成长层重启未盈利企业上市

潘功胜：八项金融开放举措助力上海金融中心建设

宠物险宣传保额 15000 实际只赔 1500？大地财险被指虚假宣传

黑马财经

太真了！罗永浩数字人引爆直播间，背后技术有多强？

推荐阅读