2026-02-26 日报
今日一句话 Karpathy 说编程变了,Qwen3.5 本地跑起来了,别再等了。
今日精选(3 条)
1. Karpathy:过去两个月,编程已经变了
@karpathy · https://x.com/karpathy/status/2026731645169185220
选这条的原因:13k 赞不是因为情绪共鸣,是因为说出了很多工程师正在经历但没说清楚的事。
Karpathy 说的「变化」不是渐进的,是突变式的。如果你最近两个月还在用 AI 做「补全」而不是「协作」,你可能已经落后了一个范式。具体来说:现在的工作流应该是你描述意图、AI 生成草稿、你做 review 和方向修正,而不是你写代码、AI 帮你补。这个转变对内容创作者同样成立——你的价值不在于「写」,在于「判断」。现在应该做的事:把你日常最重复的编码任务(写测试、写胶水代码、写文档)全部交出去,看看你的瓶颈在哪里移动了。不要再问「AI 能不能做这个」,开始问「我还需要亲手做什么」。
2. 🛠️ Qwen3.5 本地部署:24GB 显存能跑什么,怎么跑更快
r/LocalLLaMA · https://www.reddit.com/r/LocalLLaMA/comments/1resggh/best_qwen3535ba3b_gguf_for_24gb_vram/
选这条的原因:Qwen3.5 刚出,社区已经跑出了量化对比数据,现在就能用。
结论先说:24GB 显存(RTX 4090/5080)跑 Qwen3.5-35B-A3B,Q4_K_M 是性价比最高的选项,速度和质量都可以接受;如果你在意输出质量、不在意速度,Q8_0 在 RTX 5080 上也能塞进去。另外有个实用 trick:llama-server 里可以用 --reasoning-budget 0 关掉 thinking 模式,直接走 instruct 路径,速度提升明显,适合不需要推理链的任务。llama.cpp 需要更新到 b8153 以上才能正确支持 Qwen3.5,旧版本会有问题。27B vs 35B 的对比:27B 在 RTX 4090 上更流畅,35B 的 A3B(MoE)架构在编码任务上有明显短板,别对它抱太高期望。
3. 🧠 Mercury 2:扩散模型做实时推理,不是噱头
r/LocalLLaMA · https://www.reddit.com/r/LocalLLaMA/comments/1rep5bg/introducing_mercury_2_diffusion_for_realtime/
选这条的原因:扩散 LM 第一次认真做推理任务,架构方向值得跟踪。
Mercury 2 是 Inception Labs 的扩散语言模型,主打「实时推理」——不是 autoregressive 一个 token 一个 token 生成,而是并行扩散,理论上延迟更低。对工程师来说现在最重要的判断是:这个方向还在早期,不是「现在切换」的时机,但如果你在做对延迟极度敏感的场景(实时对话、流式代码补全),这个架构值得放进你的技术雷达。和现有方案比,扩散 LM 的问题是质量还不稳定,长文本控制差,但速度优势是真实的。等它在 coding benchmark 上能打过同量级 autoregressive 模型再说,现在看看就好。
本周趋势
Qwen3.5 发布后社区的反应很能说明问题:大家第一时间做的不是「这模型好不好」的评测,而是「怎么在我的硬件上跑起来」「怎么关掉 thinking 省 token」。这说明本地部署的工程化需求已经非常成熟,模型发布和可用之间的窗口越来越短。
现在应该把精力放在:本地推理栈的调优(量化选择、KV cache 配置、llama.cpp 版本管理),以及 agent 编排——dontbesilent 那个「豆包手机 + 飞书 + openclaw + Claude Code 互相调用」的实验虽然看起来很 hacky,但它指向的方向是对的:多 agent 协作的胶水层怎么搭。
避开的方向:不要在 Qwen3.5 的编码任务上押注,社区测试显示它在 hard coding 上表现明显下滑;不要被「扩散模型做推理」的新鲜感带跑,Mercury 2 现在还不是生产可用的选项。
今日噪音
小红书叙事审美疲劳、龙虾 NAS、键盘轴体测评——今天 dontbesilent 的时间线有一半在喂噪音,跳过就好。
暂无命中内容
暂无内容
暂无命中内容
暂无内容
暂无命中内容
暂无内容