烤土司-IT記事本

用 SGLang 讓多個 AI Agent 同時跑

70
0
AI相關

端午節大家去划龍舟，我來划 GPU。分享一下從 llama.cpp 換到 SGLang 的過程。

之前用 llama.cpp 跑 Qwen3.6-27B，本來也覺得夠用了，但最近開始用 opencode 和 hermes-agent 兩個 AI 工具，兩個都要連同一台本機模型，問題就來了。
llama.cpp 的並行能力有限 — 本機的 MTP 模式強制 --parallel 1，同一時間只能服務一個請求。即使另一台伺服器開了 --parallel 3，並行時的總吞吐還是遠低於 SGLang。
SGLang 的多並行排程自動共享 GPU 資源，而且 AWQ 4-bit 格式的推理速度就比 Q4_K_XL GGUF 快一倍以上，於是決定把整個推論 stack 從 llama.cpp 換到 SGLang。

AI
llama.cpp
LLM 推論
Qwen3.6-27B
SGLang

...繼續閱讀 »

AI
llama.cpp
LLM 推論
Qwen3.6-27B
SGLang