2026-03-02 日报
今日一句话 Qwen3.5 小模型本地跑出大模型效果,开源推理成本正在塌陷。
今日精选(3 条)
1. 本地 coding agent 在 30k+ context 变蠢?检查你的 KV cache 量化设置
r/LocalLLaMA · https://www.reddit.com/r/LocalLLaMA/comments/1rhvi09/psa_if_your_local_coding_agent_feels_dumb_at_30k/
选这条的原因:这是一个真实踩坑经验,很多人以为是模型问题,其实是推理配置问题。
本地跑 coding agent 的人必看。KV cache 量化(比如 Q4/Q8)在短上下文下几乎无损,但到 30k token 以上,精度损失会累积,模型表现会明显退化——表现就是「越聊越蠢」。解法是在长上下文任务里把 KV cache 量化关掉或调高精度,代价是显存占用上升。如果你在用 llama.cpp 或 ollama 跑 agent,默认配置很可能就是踩坑状态。现在应该做的:跑一个长对话 benchmark,对比开关量化的输出质量,再决定你的显存怎么分配。不要等到用户反馈「AI 变傻了」才去查。
2. Qwen3.5 27B dense:170k context,100+ t/s decode,2x3090 跑出来的
r/LocalLLaMA · https://www.reddit.com/r/LocalLLaMA/comments/1rianwb/running_qwen35_27b_dense_with_170k_context_at/
选这条的原因:这个性能数字意味着消费级硬件跑长上下文 coding agent 已经不是玩具了。
两张 3090(48GB 显存)跑 Qwen3.5 27B dense,170k context 下 decode 速度还能维持 100+ t/s,prefill 1500 t/s。这个数字放在一年前是旗舰服务器的水平。更值得注意的是 dense 版本在 coding 任务上的表现——社区里有人直接说「dense 27B 比 MoE 版本更好用」,原因是 MoE 的稀疏激活在某些推理路径上会有一致性问题。如果你在选本地 coding agent 的底座模型,Qwen3.5 27B dense 现在是认真的选项,不是备选。35B a3b 的 MoE 版本在长文本摘要上也有人报告首个不幻觉的小模型,两个都值得测。
3. 94 个 LLM endpoint benchmark:开源模型已在质量上距闭源 5 分以内
r/MachineLearning · https://www.reddit.com/r/MachineLearning/comments/1rhuwyt/r_benchmarked_94_llm_endpoints_for_jan_2026_open_source_is_now_within_5_quality_points/
选这条的原因:这是技术选型的直接依据,不是观点,是数据。
94 个端点的横向对比,结论是 2026 年 1 月开源模型质量已经和闭源顶级模型差距缩小到 5 分以内(满分 100)。这对技术选型的意义很直接:如果你现在还在用 GPT-4 级别的 API 做非实时、非极端质量要求的任务,成本理由已经站不住了。开源端点(自托管或第三方推理服务)在价格上通常是 10 倍以上的差距。建议的动作:把你现在的主力任务跑一遍这类 benchmark,找到质量够用的最便宜端点,然后把省下来的 API 预算投到更高价值的地方。
本周趋势
Qwen3.5 系列这周是绝对主角,从 397B 的旗舰到 27B dense 再到即将发布的 small 版本,整条产品线在同时推进。本地推理社区的情绪是明显的兴奋——不是「又一个模型」的那种,而是「这个真的能用」的那种。
现在应该把精力放在:本地推理配置调优(KV cache、量化策略)、Qwen3.5 系列的实际任务测试、以及重新评估你的 API 成本结构。开源模型质量追平闭源这件事不是趋势预测,是已经发生的事实,技术选型应该跟上。
避开的地方:不要在「哪个模型更聪明」的抽象讨论上花时间,benchmark 数字已经足够密集,缺的是你自己任务上的实测数据。也不要现在就押注某一个本地推理框架,llama.cpp、vllm、ollama 的迭代速度都很快,保持灵活。
今日噪音 今天 Builders List 里 90% 的内容是创业心态和情绪管理,跟 AI 开发没有关系,直接跳过。
暂无命中内容
暂无内容
暂无命中内容
暂无内容
暂无命中内容
暂无内容