Soul内测全双工通话大模型:虚拟人交互迎来“活人感”时代

2025-09-04 12:23:39

? 产品介绍Soul App(所属公司:上海任意门科技有限公司)在2025世界人工智能大会(WAIC)宣布,即将内测自研端到端全双工语音通话大模型。此次升级摒弃传统语音活动检测(VAD)机制,赋予AI自主决策对话节奏的能力,让虚拟人可像真人一样“边听边说”“主动插话”,甚至感知环境与情绪变化,大幅提升交互沉浸感。

? 适用人群目标用户需求场景Z世代社交主力寻求情感陪伴,71.1%年轻人愿与AI建立情感连接(Soul用户调研数据)虚拟人互动爱好者追求“活人感”交互,反感机械式问答社交破冰需求者依赖AI主持人活跃群聊氛围,降低多人社交压力技术尝鲜群体关注多模态交互,期待“视频+语音”立体化虚拟人体验⚙️ 核心功能与技术解析自主决策对话节奏

功能:AI主动打破沉默、适时打断用户、支持并行发言(如辩论或合唱)。 技术原理:基于流式响应预测架构(Response-Listen-Interrupt),通过纯自回归模型统一文本与音频生成,动态控制对话状态。 多维度环境感知

功能:根据时间(如“天黑了”)、环境噪音、事件触发对话策略调整。 技术原理:融合多模态输入(语音/环境音/上下文),利用大语言模型(LLM)实时生成情境化回应。 超拟人化表达

功能:模拟语气词、结巴、情绪起伏(如开心转难过),支持方言和即兴创作。 技术原理:端到端模型跳转文本中间层,保留语音中的副语言信息(Para-linguistic Features)。 多人场景AI主持

功能:在群聊派对中管理秩序、延展话题,捕捉用户共鸣点催化社交关系。 技术原理:双通道token预测(NTPP范式),独立处理多用户语音流并分配响应权。 实时视频生成融合

功能:结合全双工语音与动态人像视频,展示虚拟人形象与场景。 技术原理:实时视频生成技术(CVPR 2025成果)与语音模型协同,塑造立体数字人格。 ? 工具使用技巧快速激活AI互动:在1V1通话中说“我觉得今天好累”,触发AI情感疗愈模式,提供情绪疏导。 多人场景增效:开启群聊派对时,用“小可,帮我们选个话题”指令启动AI主持人,自动引导讨论方向。 个性化定制:输入“用东北话聊美食”,AI自动切换方言与话题风格,适配用户偏好。 ? 访问地址Soul App全双工功能内测申请:https://www.soulapp.com/full-duplex(预计2025年8月开放) WAIC 2025技术展示回顾:https://www.cnfin.com/gs-lb/detail/20250727/4275747_1.html划重点:Soul的突破不仅是技术升级,更是对社交本质的重构——当AI能主动说“你刚才停顿了,是不是有烦心事?”,人与机器的情感共生时代才真正来临。