gpt-oss介紹OpenAI 發布 gpt-oss-120B 與 gpt-oss-20B:開源推理 AI

OpenAI 在人工智慧領域邁出一大步,正式推出 gpt-oss-120Bgpt-oss-20B,兩款專為高階推理設計的「開放權重」模型。其 模型權重在 Apache 2.0 授權下開放,自 2025 年 8 月起,任何開發者、企業或學術機構都能體驗並部署頂尖的 AI,而不再受限於封閉、昂貴的商業模型。

Explore on Hugging Face:https://huggingface.co/openai/gpt-oss-120b

Read model card:https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

前沿架構、人人可用

這兩款模型採用了強大的 Transformer 架構,並結 Mixture-of-Experts (MoE) 系統混合專家模型,能處理長達 128,000 tokens 的上下文。

  • gpt-oss-120B 擁有 1170 億參數與 36 層 Transformer,但每次推理只需啟用 50 億多一點參數(僅四個專家運行),大幅降低硬體需求。僅需 80 GB GPU 即可運行最強版本。
  • gpt-oss-20B 則只需 16 GB GPU,非常適合邊緣運算環境。

模型還加入 RoPE(旋轉位置編碼)grouped multi-query attention 等技術,降低延遲並優化記憶體使用,即使在有限硬體資源下也能表現出色。

訓練與對齊

gpt-oss 的訓練過程結合了 OpenAI 最先進的預訓練與後訓練技術,特別注重培養模型的推理、指令遵循和工具使用能力 。

預訓練與後訓練

模型的訓練數據以高品質的英文純文字為主,側重於 STEM(科學、技術、工程和數學)、程式編寫及通用知識領域 。訓練使用的分詞器是 o200k_harmony,這是 OpenAI 用於 o4-mini 和 GPT-4o 的分詞器的超集,也已同步開源 。
後訓練流程與 o4-mini 類似,包含兩個主要階段 :

  • 監督式微調 (SFT):使用高品質的指令和示範數據對模型進行微調,使其學會遵循指令。
  • 強化學習 (RL):透過高運算需求的強化學習階段,進一步將模型與 OpenAI 的模型規範對齊,並教會其在生成最終答案前,先進行思路鏈 (CoT) 推理和使用工具 。

非監督式思路鏈 (Unsupervised Chain-of-Thought – CoT)

一個重要的設計決策是,OpenAI 並未對模型的思路鏈 (CoT) 進行直接的監督式對齊 。這意味著模型的推理過程是其自然生成的,而非被引導去產生特定格式的「思考過程」。OpenAI 認為,保留未經過濾的 CoT 對於監控模型的潛在不當行為、欺騙性或濫用至關重要,並能讓研究社群有機會開發自己的 CoT 監控系統 。開發者不應直接向終端使用者展示 CoT,因為其中可能包含幻覺或不安全的內容 。

可控的推理深度

與 o 系列模型類似,gpt-oss 支援三種可調節的「推理深度」(reasoning effort):low、medium 和 high 。開發者可以透過在系統訊息中簡單設定,來權衡模型的延遲與性能,以適應不同任務的需求 。

性能與基準測試

gpt-oss 模型在多個標準學術和行業基準測試中展現出卓越的性能,特別是在需要複雜推理的領域 。

  • gpt-oss-120b:在競賽級程式設計 (Codeforces)、通用知識問答 (MMLU)、工具使用 (TauBench) 等方面,其表現與 OpenAI 的前沿模型 o4-mini 相當或更優 。在健康相關查詢 (HealthBench) 和競賽數學 (AIME) 方面,其性能甚至超越了 o4-mini 。
  • gpt-oss-20b:雖然規模較小,但其在相同測試中的表現與 o3-mini 相當或更佳,尤其在數學和健康領域的表現優於 o3-mini 。在 MMLU 基準測試中,它被認為是排名前十的模型 。

這些模型不僅在傳統基準測試上表現出色,還具備強大的代理性工作流程能力,包括工具使用(如網路搜尋、執行 Python 程式碼)、少樣本函數調用和複雜的多步推理 。

GPT-OSS 模型不能取代醫療專業人員,也不用於診斷或治療疾病

範例程式碼

gpt-oss 的權重可在 Hugging Face 上免費下載 。模型已廣泛整合到主流的 AI 部署平台和工具中,包括:

  • 雲端平台:Azure、AWS、Google Cloud (Vertex AI) 。
  • 推理服務商:Fireworks AI、Together AI、Vercel、Cloudflare 等 。
  • 本地部署工具:Hugging Face Transformers、vLLM、Ollama、llama.cpp、LM Studio

https://huggingface.co/blog/zh/welcome-openai-gpt-oss

使用 Transformers

pip install --upgrade accelerate transformers kernels

安裝自備 triton 3.4 的 PyTorch 2.8 及 triton 核心:

# Optional step if you want PyTorch 2.8, otherwise just `pip install torch`
pip install torch==2.8.0 --index-url https://download.pytorch.org/whl/test/cu128

# Install triton kernels for mxfp4 support
pip install git+https://github.com/triton-lang/triton.git@main#subdirectory=python/triton_kernels

以下範例示範如何使用 20B 模型進行簡單推理。mxfp4在下運作時,佔用 16 GB 記憶體;若使用bfloat16,則顯示存約 48 GB。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "openai/gpt-oss-20b"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype="auto",
)

messages = [
    {"role": "user", "content": "How many rs are in the word 'strawberry'?"},
]

inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt",
    return_dict=True,
).to(model.device)

generated = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(generated[0][inputs["input_ids"].shape[-1]:]))

對企業與開發者的影響

這兩款模型的推出,象徵 先進 AI 的真正民主化

  • 各種規模的組織都能用它來自動化複雜分析、開發智慧助理、生成程式碼、提升客服體驗。
  • 同時保持對資料的 完全掌控,可部署於本地或混合雲基礎設施。
  • 靈活性與低成本,讓新創與中小企業(包含西班牙在內的各國公司)都能使用頂尖 AI,而不必依賴外部服務或受限授權。

安全性、風險與限制

OpenAI 強調,安全性是釋出所有模型的基礎,對開放權重模型尤其重要 。

主動安全措施

  • 數據過濾:在預訓練階段,過濾了與化學、生物、放射性和核子 (CBRN) 相關的有害資料 。
  • 安全對齊:在後訓練階段,透過審慎對齊 (deliberative alignment) 和指令階層等技術,教導模型拒絕不安全的提示並防範提示注入攻擊 。
  • 最壞情況微調測試:OpenAI 模擬攻擊者,在生物和網路安全等專業數據上對 gpt-oss-120b 進行惡意微調。結果顯示,即使經過極為廣泛的微調,模型也未能達到其「應變整備框架」中定義的高能力風險門檻 。

開源模型的挑戰
OpenAI 承認,開放權重模型一旦發布,惡意行為者可能對其進行微調以繞過安全措施 。為應對此風險,OpenAI 發起了獎金高達 50 萬美元的「紅隊挑戰賽」,鼓勵全球社群協助發掘新的安全漏洞 。