微软放大招!三款自研MAI模型登场,语音+影像全面补位,成本直接降一半?

620852526811494

微软宣布在Microsoft Foundry上推出三款自研MAI模型:语音转文字的MAI-Transcribe-1、语音生成的MAI-Voice-1,以及文字生成图片的MAI-Image-2,标志着其在多模态AI布局上补齐語音與影像能力。MAI-Transcribe-1支援25种语言,主打企业级准确率,并指出可将GPU成本相比同类模型降低约50%,适合会议逐字稿、客服通话分析与语音资料建档等场景。MAI-Voice-1强调语音自然度与情绪表达,能在单卡GPU上于1秒内生成长达60秒语音,适用于语音助理、客服回覆与影音配音。MAI-Image-2侧重写实风格、版面控制与图中文字呈现,便于行销素材制作与设计辅助,强化跨模态生成能力。三款模型已整合进Copilot、Bing与PowerPoint,并透过Azure Speech与Foundry对外开放,方便开发者构建语音互动、多媒体与生成式應用。观察者认为,此举不仅令微软在语音与影像领域与其他大厂竞争力上升,也有助于提升產品彈性与成本控制,且隨著語音與影像成為AI代理人重要交互介面,相关生态的採用与发展可能被进一步加速。