最近在家裡的 AI Server 上跑 Qwen3.6-27B 本地推論,
一直覺得生成速度還有空間可以再壓榨,
剛好看到 llama.cpp 在 2025/5 正式合併了 MTP(Multi-Token Prediction)功能,
趁機把整台機器的推論 stack 全部升上去,順便記錄一下踩過的坑 XD
2026-05-20
置頂文章
最近在家裡的 AI Server 上跑 Qwen3.6-27B 本地推論,
一直覺得生成速度還有空間可以再壓榨,
剛好看到 llama.cpp 在 2025/5 正式合併了 MTP(Multi-Token Prediction)功能,
趁機把整台機器的推論 stack 全部升上去,順便記錄一下踩過的坑 XD