显存能不能拼?显存拼接与 PCIe 瓶颈再探
本期视频是对昨天视频的进一步解释与补充,重点探讨 本地大模型推理中的 prefill 与 decode 的差异,以及显卡在不同场景下的表现。
📌 主要内容包括:
🔹 MI50 vs V100:在 gpt-oss-20B-f16 模型上的预处理速度差异
🔹 单 MI50 vs 双 MI50:为什么输出速度反而更慢?⚡ PCIe 瓶颈的直观体现
🔹 4060+CPU 混跑 vs MI50:prefill 性能对比 🖥️
🔹 MOE 模型卸载 CPU/GPU 的速度差异 🔀
🔹 llama.cpp 最新版测试
立即观看