用 SGLang 讓多個 AI Agent 同時跑

端午節大家去划龍舟,我來划 GPU。分享一下從 llama.cpp 換到 SGLang 的過程。

之前用 llama.cpp 跑 Qwen3.6-27B,本來也覺得夠用了,但最近開始用 opencode 和 hermes-agent 兩個 AI 工具,兩個都要連同一台本機模型,問題就來了。
llama.cpp 的並行能力有限 — 本機的 MTP 模式強制 --parallel 1,同一時間只能服務一個請求。即使另一台伺服器開了 --parallel 3,並行時的總吞吐還是遠低於 SGLang。
SGLang 的多並行排程自動共享 GPU 資源,而且 AWQ 4-bit 格式的推理速度就比 Q4_K_XL GGUF 快一倍以上,於是決定把整個推論 stack 從 llama.cpp 換到 SGLang。

...繼續閱讀 »