AI 標籤列表烤土司-IT記事本 - 點部落

2026-05-20 置頂文章

老機器上玩 llama.cpp MTP 加速 — 同時保留 VLM + TurboQuant + 200K Context

395
0
AI相關

最近在家裡的 AI Server 上跑 Qwen3.6-27B 本地推論，
一直覺得生成速度還有空間可以再壓榨，
剛好看到 llama.cpp 在 2025/5 正式合併了 MTP（Multi-Token Prediction）功能，
趁機把整台機器的推論 stack 全部升上去，順便記錄一下踩過的坑 XD

...繼續閱讀 »

2026-06-21

用 SGLang 讓多個 AI Agent 同時跑

109
0
AI相關

端午節大家去划龍舟，我來划 GPU。分享一下從 llama.cpp 換到 SGLang 的過程。

之前用 llama.cpp 跑 Qwen3.6-27B，本來也覺得夠用了，但最近開始用 opencode 和 hermes-agent 兩個 AI 工具，兩個都要連同一台本機模型，問題就來了。
llama.cpp 的並行能力有限 — 本機的 MTP 模式強制 --parallel 1，同一時間只能服務一個請求。即使另一台伺服器開了 --parallel 3，並行時的總吞吐還是遠低於 SGLang。
SGLang 的多並行排程自動共享 GPU 資源，而且 AWQ 4-bit 格式的推理速度就比 Q4_K_XL GGUF 快一倍以上，於是決定把整個推論 stack 從 llama.cpp 換到 SGLang。

...繼續閱讀 »

烤土司-IT記事本

因為不熟,所以挨踢。。。。

老機器上玩 llama.cpp MTP 加速 — 同時保留 VLM + TurboQuant + 200K Context

用 SGLang 讓多個 AI Agent 同時跑

最新留言