1
1
阿里巴巴开源语音驱动数码人类生成模型 降虚拟人製作门槛促开发者参与创新
文章索引: Alibaba
继初音未来这类由真人驱动或预设脚本的虚拟人(Virtual Human)取得空前成功后,近年在 AI 技术高速发展下,由AI 智能驱动,具备语境理解能力,主打智慧型虚拟代理人的数码人类(Digital Human)亦纷纷涌现。如 DeepBrain AI 便专注开发新闻主播及客服虚拟人。

近日,阿里巴巴便发佈并开源全新语音驱动生影片模型「Wan2.2-S2V」,进一步推动数码人类技术的创新应用。

该模型可透过单张人像图片及一段语音音档,生成具备电影级画质的虚拟人物动画,支援说话、唱歌及表演等多种动作,呈现自然流畅的角色动态。
阿里云推端到端多模态大模型 Qwen2.5-Omni-7B 轻量级参数高效能应用场景
文章索引: Alibaba
生成式 AI 的商业化应用正不断扩展,从智能客服、市场推广到市场分析,生成式 AI 正逐步成为驱动商业模式变革的核心技术之一。过去数月间,各大科技公司争相推出新的大模型,如 Google 的 Gemini 2.5、OpenAI 的 o3、Meta 的 Llama 3.3、X(前 Twitter)的 Grok 3、Anthropic 的 Claude 3.7、Amazon 的 Nova Premier、Microsoft 的 Phi-4,还有话题王 DeepSeek 的 R1 和 V3 等。

阿里云亦不甘后人,近日宣佈推出端到端多模态 AI 模型 Qwen2.5-Omni-7B,展现多模态生成能力及高效能应用场景。

Qwen2.5-Omni-7B 专为全模态感知设计,能处理文本、图像、音档及影片等多模态输入,并实时生成自然语言对答,适用于手机、笔记本电脑等终端设备的部署。儘管仅採用轻量级的 7B 参数,Qwen2.5-Omni-7B 的应用前景仍相当广泛,包括即时语音导航协助视障者辨识周边环境、分析影片中的食材提供烹饪指导,以及创建理解客户需求的智能客服对话体验。
1
1