5 月 8 日,阶跃星辰正式发布新一代实时语音大模型StepAudio 2.5 Realtime,并全量上线开放平台。恰逢 OpenAI 同日发布三款实时语音模型,全球 AI 语音赛道迎来关键节点。StepAudio 2.5 以情绪感知与人设自定义为核心突破,在主观对话体验评测中斩获80.41 分,显著领先国际竞品,为国产实时语音交互树立新标杆。
一、听懂 “弦外之音”:情绪感知,让交互有温度
传统语音 AI 常停留在 “听声辨字”,难以捕捉语调、停顿、叹息等副语言信息,对话生硬、缺乏共情。StepAudio 2.5 的核心突破,在于实现了对情绪的深度感知。
它能精准识别用户声音中的情绪信号 —— 从低沉语调中察觉疲惫,从急促语气里捕捉烦躁,甚至读懂轻笑、犹豫等细微情绪,并动态调整回应策略。无论是日常闲聊的轻松氛围,还是倾诉时的情绪低谷,AI 都能给出贴合语境、有温度的回应,告别机械问答,让交互更像与真人交流。
二、打造专属灵魂:千万人设,自定义不崩塌
StepAudio 2.5 将人设定义权完全交给用户,实现真正的 “全维灵魂捏脸”。
基于10,000 + 高质量原生人设,模型通过算法裂变出百万级人设特征矩阵,开发者可通过 API 从性格、背景、语言习惯到对话边界进行精细化配置。无论是温柔治愈的陪伴者、专业严谨的顾问,还是风趣幽默的搭子,都能稳定呈现。
针对 “人设崩塌” 痛点,团队通过 RLHF 强化学习优化,确保 AI 在多轮对话、复杂场景中始终保持角色一致性,让每个 AI 都拥有独一无二的 “灵魂”。
三、实时交互新体验:低延迟、高稳定,领跑行业
StepAudio 2.5 实现了亚秒级低延迟响应,对话流畅无卡顿。在 4 月权威评测中,其主观对话体验得分80.41,远超 GPT-Realtime-1.5(68.01)与 Gemini Live(67.16),语音问答基准得分达79.80,综合实力跻身全球第一梯队。
模型内置 5 个预设人设,开箱即用;同时支持开发者深度定制,快速适配智能客服、虚拟主播、教育陪伴、车载交互等多元场景,大幅降低企业开发与落地成本。
四、行业意义:国产 AI 语音,从 “能用” 到 “好用”
在 OpenAI 等巨头加速布局实时语音的当下,StepAudio 2.5 的发布意义重大。它不仅标志着国产大模型在情感交互与个性化定制领域实现弯道超车,更推动 AI 语音从 “工具化” 向 “人格化” 跃迁。
未来,具备稳定人设与共情能力的 AI,将深度融入生活与工作 —— 成为懂你的陪伴者、专业的顾问、高效的助手,让人机交互更自然、更有温度。
结语
StepAudio 2.5 Realtime 的发布,是国产实时语音大模型的重要里程碑。它以情绪感知打破交互壁垒,用人设自定义赋予 AI 灵魂,让技术不再冰冷。随着开放平台全面上线,更多创新应用将加速落地,我们正迎来一个AI 更懂人、更像人的全新时代。
未经允许不得转载:物联网的那些事 - Totiot » 阶跃星辰 StepAudio 2.5 Realtime,让 AI 语音更像 “活人”

微信关注,了解更多 