微软放大招！三款自研MAI模型登场，语音+影像全面补位，成本直接降一半？

微软宣布在Microsoft Foundry上推出三款自研MAI模型：语音转文字的MAI-Transcribe-1、语音生成的MAI-Voice-1，以及文字生成图片的MAI-Image-2，标志着其在多模态AI布局上补齐語音與影像能力。MAI-Transcribe-1支援25种语言，主打企业级准确率，并指出可将GPU成本相比同类模型降低约50%，适合会议逐字稿、客服通话分析与语音资料建档等场景。MAI-Voice-1强调语音自然度与情绪表达，能在单卡GPU上于1秒内生成长达60秒语音，适用于语音助理、客服回覆与影音配音。MAI-Image-2侧重写实风格、版面控制与图中文字呈现，便于行销素材制作与设计辅助，强化跨模态生成能力。三款模型已整合进Copilot、Bing与PowerPoint，并透过Azure Speech与Foundry对外开放，方便开发者构建语音互动、多媒体与生成式應用。观察者认为，此举不仅令微软在语音与影像领域与其他大厂竞争力上升，也有助于提升產品彈性与成本控制，且隨著語音與影像成為AI代理人重要交互介面，相关生态的採用与发展可能被进一步加速。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Related Posts