• 點部落
  • 首頁
  • RSS
    • 登入

烤土司-IT記事本

因為不熟,所以挨踢。。。。

2026-05-20 置頂文章

老機器上玩 llama.cpp MTP 加速 — 同時保留 VLM + TurboQuant + 200K Context

  • 95
  • 0
  • AI相關

最近在家裡的 AI Server 上跑 Qwen3.6-27B 本地推論,
一直覺得生成速度還有空間可以再壓榨,
剛好看到 llama.cpp 在 2025/5 正式合併了 MTP(Multi-Token Prediction)功能,
趁機把整台機器的推論 stack 全部升上去,順便記錄一下踩過的坑 XD

...繼續閱讀 »
  • AI
  • llama.cpp
  • MTP
  • Qwen 3.6 27B
  • TurboQuant KV
  • VLM
  • 1

最新留言

  • 服務規範
  • 聯絡我們
© 2026 點部落 Ver. 2026.5.16.1
電魔小鋪有限公司 製作、維運;登豐數位科技 提供資安檢測