🤖 AIContent 日报

← 所有日报

2026-03-02 日报

✦ 小御的判断 AI 分析

今日一句话 Qwen3.5 小模型本地跑出大模型效果,开源推理成本正在塌陷。


今日精选(3 条)

1. 本地 coding agent 在 30k+ context 变蠢?检查你的 KV cache 量化设置

r/LocalLLaMA · https://www.reddit.com/r/LocalLLaMA/comments/1rhvi09/psa_if_your_local_coding_agent_feels_dumb_at_30k/

选这条的原因:这是一个真实踩坑经验,很多人以为是模型问题,其实是推理配置问题。

本地跑 coding agent 的人必看。KV cache 量化(比如 Q4/Q8)在短上下文下几乎无损,但到 30k token 以上,精度损失会累积,模型表现会明显退化——表现就是「越聊越蠢」。解法是在长上下文任务里把 KV cache 量化关掉或调高精度,代价是显存占用上升。如果你在用 llama.cpp 或 ollama 跑 agent,默认配置很可能就是踩坑状态。现在应该做的:跑一个长对话 benchmark,对比开关量化的输出质量,再决定你的显存怎么分配。不要等到用户反馈「AI 变傻了」才去查。


2. Qwen3.5 27B dense:170k context,100+ t/s decode,2x3090 跑出来的

r/LocalLLaMA · https://www.reddit.com/r/LocalLLaMA/comments/1rianwb/running_qwen35_27b_dense_with_170k_context_at/

选这条的原因:这个性能数字意味着消费级硬件跑长上下文 coding agent 已经不是玩具了。

两张 3090(48GB 显存)跑 Qwen3.5 27B dense,170k context 下 decode 速度还能维持 100+ t/s,prefill 1500 t/s。这个数字放在一年前是旗舰服务器的水平。更值得注意的是 dense 版本在 coding 任务上的表现——社区里有人直接说「dense 27B 比 MoE 版本更好用」,原因是 MoE 的稀疏激活在某些推理路径上会有一致性问题。如果你在选本地 coding agent 的底座模型,Qwen3.5 27B dense 现在是认真的选项,不是备选。35B a3b 的 MoE 版本在长文本摘要上也有人报告首个不幻觉的小模型,两个都值得测。


3. 94 个 LLM endpoint benchmark:开源模型已在质量上距闭源 5 分以内

r/MachineLearning · https://www.reddit.com/r/MachineLearning/comments/1rhuwyt/r_benchmarked_94_llm_endpoints_for_jan_2026_open_source_is_now_within_5_quality_points/

选这条的原因:这是技术选型的直接依据,不是观点,是数据。

94 个端点的横向对比,结论是 2026 年 1 月开源模型质量已经和闭源顶级模型差距缩小到 5 分以内(满分 100)。这对技术选型的意义很直接:如果你现在还在用 GPT-4 级别的 API 做非实时、非极端质量要求的任务,成本理由已经站不住了。开源端点(自托管或第三方推理服务)在价格上通常是 10 倍以上的差距。建议的动作:把你现在的主力任务跑一遍这类 benchmark,找到质量够用的最便宜端点,然后把省下来的 API 预算投到更高价值的地方。


本周趋势

Qwen3.5 系列这周是绝对主角,从 397B 的旗舰到 27B dense 再到即将发布的 small 版本,整条产品线在同时推进。本地推理社区的情绪是明显的兴奋——不是「又一个模型」的那种,而是「这个真的能用」的那种。

现在应该把精力放在:本地推理配置调优(KV cache、量化策略)、Qwen3.5 系列的实际任务测试、以及重新评估你的 API 成本结构。开源模型质量追平闭源这件事不是趋势预测,是已经发生的事实,技术选型应该跟上。

避开的地方:不要在「哪个模型更聪明」的抽象讨论上花时间,benchmark 数字已经足够密集,缺的是你自己任务上的实测数据。也不要现在就押注某一个本地推理框架,llama.cpp、vllm、ollama 的迭代速度都很快,保持灵活。


今日噪音 今天 Builders List 里 90% 的内容是创业心态和情绪管理,跟 AI 开发没有关系,直接跳过。

📊 数据概览
推文总数
0
List: 0 + 书签: 0
关键词命中
0
共 52 个关键词
🛠️ 工具精选
0
AI 工具书签
🧠 方法精选
0
AI 方法书签
RSS 条目
0
命中 0 条
活跃作者
0
Top: @-
📋 内容平铺 按匹配度+热度排序
推文 (X · AI Builders)

暂无命中内容

暂无内容

RSS(AI 洞察日报 + 其他)

暂无命中内容

暂无内容

Reddit

暂无命中内容

暂无内容

👤 活跃作者排行