DeepSeek R1蒸餾模型助力AI應用

香港2025年2月12日 /美通社/ — IBM日前宣佈，DeepSeek-R1 的 Llama 3.1 8B 和 Llama 3.3 70b 蒸餾版本現已在 IBM 的企業級 AI 開發平台 watsonx.ai 上提供。

DeepSeek-R1是由中國人工智能（AI）初創公司 DeepSeek 推出的推理大語言模型（LLM），是世界上最強大的開源模型之一，甚至可以與 OpenAI 的 o1 相媲美。DeepSeek-R1 在 MIT 許可下發佈，主要是通過在基礎模型 DeepSeek-V3 上直接使用強化學習（RL）開發的，這是微調 LLM 的一項重大創新。

DeepSeek 還使用了一種稱為知識蒸餾的技術，使用更大的 R1 模型生成的數據來微調多個 Llama 和 Qwen 模型。用戶可以通過兩種方式在 watsonx.ai 上訪問 DeepSeek 蒸餾模型：

– IBM 通過「按需部署目錄」在 watsonx.ai 中提供兩種 Llama 蒸餾變體，允許用戶部署專用實例進行安全推理。
– 用戶還可以使用自定義基礎模型導入功能導入 DeepSeek-R1 模型的其他變體，如 Qwen 蒸餾模型。

DeepSeek-R1是一種先進的 AI 模型，以其卓越的推理能力而著稱，支持各行各業的廣泛應用：

– 規劃：DeepSeek-R1 專注于思維邏輯鏈，能夠執行需要逐步推理的任務，因此非常適合為代理應用程序提供支持。
– 編碼：DeepSeek-R1擅長編碼任務，提供代碼生成、調試輔助和優化建議。
– 數學問題解決：該模型強大的推理能力使其善於解決複雜的數學問題，這對學術研究、工程和科學計算大有裨益。

開發人員可在 IBM watsonx.ai 中使用 DeepSeek-R1 等已部署的模型和解決方案功能構建人工智能解決方案：

– 以易於理解的格式和用戶界面測試和評估模型輸出
– 通過連接各種向量數據庫和嵌入模型來構建 RAG 管道
– 與 LangChain、CrewAI 等流行框架和連接器協同工作

IBM watsonx.ai 使客戶能夠定制實施 DeepSeek-R1 等開源模型，從部署環境的完全靈活性到代理（智能體）開發、微調、RAG、提示工程和與企業應用程序集成的直觀工作流。用戶可以利用watsonx.ai的內置護欄來保護他們的應用程序。

當然，數據安全和AI治理是我們客戶最關心的問題。除防護欄外，在 watsonx.ai 上部署時，這些模型將成為專用實例，這意味著除平台外，不會在其他任何地方共享數據。此外，與 IBM watsonx.governance這一功能強大的治理、風險和合規性（GRC）工具包的無縫集成，可確保客戶的AI在整個AI生命週期內都是負責任、透明和可解釋的。

支持 DeepSeek-R1 的蒸餾變體是 IBM 致力於人工智能開源創新的一部分。DeepSeek Llama 的兩個蒸餾模型都可作為 IBM watsonx.ai 上按需部署目錄的一部分，能夠在專用 GPU 上按小時部署。要從資源中心按需部署基礎模型，請完成以下步驟：

1.從導航菜單打開資源中心。
2.從「按小時付費」部分，找到要按需部署的 DeepSeek 模型。
3.從模型詳細信息頁面，單擊「Deploy(部署)」。
4.從基礎模型磁貼中單擊「Deploy(部署)」，然後選擇要部署基礎模型的部署空間。
5.單擊「Create(創建)」。
6.通過 Prompt Lab 或 API/SDK 開始使用模型。

IBM watsonx.ai 在這裡用斜體顯示模型的思維過程，而最終輸出則用非斜體顯示。正如你所看到的，只需一個簡單的提示，模型就能推理並規劃出響應中需要包含的各個部分。
(内文照片来自GOOGLE)

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Related Posts