大模型推理性能优化:从KV Cache到FlashAttention 大模型推理性能优化的核心在于缓解内存I/O瓶颈,vLLM通过PagedAttention将KV Cache显存浪费从80%降至4%以下,Triton融合算子减少数据搬运,FlashAttention避免中间矩阵写入显存,三者协同实现高吞吐推理。 2026-06-09 📓 工程札记 0
角速度为什么是矢量:三维空间的几何戏法 角速度之所以是矢量,源于它天然携带转得快慢、转轴方向、转的手性三个不可分割的信息;更重要的是,当物体同时绕多轴转动时,这些信息必须用平行四边形法则合成。此外,有限角位移本身不是矢量(旋转顺序不同结果不同),只有无穷小角位移才具有矢量性;三维空间的霍奇对偶使得本该是二阶张量的旋转可以「压缩」成矢量形式。 2026-06-08 📓 工程札记 0
20美元拍一部短片:开源项目用AI流水线把剧本变成电影 开源项目「90210」将剧本自动转化为短片,整合Veo 3.5、Gemini 2.5 Pro、ElevenLabs等AI工具,实现本地化视频生成,单片成本约20美元,并配备多模型质量评估与叙事分析系统保输出稳定。 2026-06-08 📓 工程札记 0
一个公式+一个循环:感知机如何学会判断 感知机是1958年提出的最简神经网络模型,仅包含权重、偏置和一个判断阈值。本文通过「判断成绩是否及格」的具体例子,解释了偏置如何将锁定在0的决策边界「搬运」到正确的50分位置——没有偏置,机器无论训练多久准确率都卡在50%;加上偏置后精准达到100%。感知机虽小,却是理解现代深度学习原理的最佳起点。 2026-06-08 📓 工程札记 0
Rust 在 Pico 2 W 上跑通 Matter 灯泡:一块开发板接入三大智能家居平台 Rust 仓库为树莓派 Pico 2 W 带来 Matter 协议智能灯泡实现,支持苹果 HomeKit、谷歌 Google Home 与 Home Assistant,通过 BLE 配网和 Wi-Fi 通信控制外部 LED。 2026-06-08 📓 工程札记 0
设计师用AI写代码替代画图:原型直接在代码里跑通 Jane Street 设计师放弃 Figma,改用 Claude Code 直接在代码库里构建可运行原型。好处是省去文档和 mockup 的中间环节,迭代成本极低;但审阅者面对的是「已做完」的功能而非提案,协作关系需要重新定义。 2026-06-07 📓 工程札记 2
千年石像该不该加罩?沧州铁狮子的教训说明了一切 河南巩义宋陵露天石像引发保护方式讨论。文物局长反对加装玻璃罩,认为会阻断空气流通、加速风化。沧州铁狮子案例印证了这一担忧——千年完好的铁狮在历次「保护性修缮」后反而受损致残,至今需靠钢架支撑。 2026-06-06 📓 工程札记 0
花6美元租显卡,用QLoRA微调LLM重写90年代文档风格 作者用QLoRA方法在两个8B规模模型上微调,让LLM学会1990年代技术文档的写作风格。训练数据来自Bitsavers网站的微软手册(超3700万词),在Runpod平台租用B200显卡完成适配器训练,成本可控。微调后的适配器导出为LoRA文件,在本地Ollama上运行,整个流程耗时不超过一个周末。 2026-06-05 📓 工程札记 0
Anthropic 详解 Claude 代理三层隔离防御架构 Anthropic 详解其 Claude 代理三层隔离防御架构:环境层(沙箱/VM)、模型层(提示词/分类器)、内容层(工具权限管控)。承认概率防御非 100% 有效,但重叠部署可将风险控制在可接受范围。 2026-06-04 📓 工程札记 0
strace-ui 和 Bonsai_term:终端调试工具的文艺复兴 Jane Street 将内部积累的响应式 UI 框架 Bonsai 移植到终端,推出 strace-ui 改善调试体验,并受益于 AI 编程工具带动的终端界面复兴。 2026-06-02 📓 工程札记 0