DeepSeek R1蒸餾模型助力AI應用

17309118218491


香港2025年2月12日 /美通社/ — IBM日前宣佈,DeepSeek-R1 的 Llama 3.1 8B 和 Llama 3.3 70b 蒸餾版本現已在 IBM 的企業級 AI 開發平台 watsonx.ai 上提供。

DeepSeek-R1是由中國人工智能(AI)初創公司 DeepSeek 推出的推理大語言模型(LLM),是世界上最強大的開源模型之一,甚至可以與 OpenAI 的 o1 相媲美。DeepSeek-R1 在 MIT 許可下發佈,主要是通過在基礎模型 DeepSeek-V3 上直接使用強化學習 (RL) 開發的,這是微調 LLM 的一項重大創新。

DeepSeek 還使用了一種稱為知識蒸餾的技術,使用更大的 R1 模型生成的數據來微調多個 Llama 和 Qwen 模型。用戶可以通過兩種方式在 watsonx.ai 上訪問 DeepSeek 蒸餾模型:

– IBM 通過「按需部署目錄」在 watsonx.ai 中提供兩種 Llama 蒸餾變體,允許用戶部署專用實例進行安全推理。
– 用戶還可以使用自定義基礎模型導入功能導入 DeepSeek-R1 模型的其他變體,如 Qwen 蒸餾模型。

DeepSeek-R1是一種先進的 AI 模型,以其卓越的推理能力而著稱,支持各行各業的廣泛應用:

– 規劃:DeepSeek-R1 專注于思維邏輯鏈,能夠執行需要逐步推理的任務,因此非常適合為代理應用程序提供支持。
– 編碼:DeepSeek-R1擅長編碼任務,提供代碼生成、調試輔助和優化建議。
– 數學問題解決:該模型強大的推理能力使其善於解決複雜的數學問題,這對學術研究、工程和科學計算大有裨益。

開發人員可在 IBM watsonx.ai 中使用 DeepSeek-R1 等已部署的模型和解決方案功能構建人工智能解決方案:

– 以易於理解的格式和用戶界面測試和評估模型輸出
– 通過連接各種向量數據庫和嵌入模型來構建 RAG 管道
– 與 LangChain、CrewAI 等流行框架和連接器協同工作

IBM watsonx.ai 使客戶能夠定制實施 DeepSeek-R1 等開源模型,從部署環境的完全靈活性到代理(智能體)開發、微調、RAG、提示工程和與企業應用程序集成的直觀工作流。用戶可以利用watsonx.ai的內置護欄來保護他們的應用程序。

當然,數據安全和AI治理是我們客戶最關心的問題。除防護欄外,在 watsonx.ai 上部署時,這些模型將成為專用實例,這意味著除平台外,不會在其他任何地方共享數據。此外,與 IBM watsonx.governance這一功能強大的治理、風險和合規性(GRC)工具包的無縫集成,可確保客戶的AI在整個AI生命週期內都是負責任、透明和可解釋的。

支持 DeepSeek-R1 的蒸餾變體是 IBM 致力於人工智能開源創新的一部分。DeepSeek Llama 的兩個蒸餾模型都可作為 IBM watsonx.ai 上按需部署目錄的一部分,能夠在專用 GPU 上按小時部署。要從資源中心按需部署基礎模型,請完成以下步驟:

1.從導航菜單打開資源中心。
2.從 「按小時付費 」部分,找到要按需部署的 DeepSeek 模型。
3.從模型詳細信息頁面,單擊 「Deploy(部署)」。
4.從基礎模型磁貼中單擊 「Deploy(部署)」,然後選擇要部署基礎模型的部署空間。
5.單擊「Create(創建)」。
6.通過 Prompt Lab 或 API/SDK 開始使用模型。

IBM watsonx.ai 在這裡用斜體顯示模型的思維過程,而最終輸出則用非斜體顯示。正如你所看到的,只需一個簡單的提示,模型就能推理並規劃出響應中需要包含的各個部分。
(内文照片来自GOOGLE)