📓 工程札记 | 小鹿资讯

大模型推理性能优化：从KV Cache到FlashAttention

大模型推理性能优化的核心在于缓解内存I/O瓶颈，vLLM通过PagedAttention将KV Cache显存浪费从80%降至4%以下，Triton融合算子减少数据搬运，FlashAttention避免中间矩阵写入显存，三者协同实现高吞吐推理。

2026-06-09 📓 工程札记 0

角速度为什么是矢量：三维空间的几何戏法

角速度之所以是矢量，源于它天然携带转得快慢、转轴方向、转的手性三个不可分割的信息；更重要的是，当物体同时绕多轴转动时，这些信息必须用平行四边形法则合成。此外，有限角位移本身不是矢量（旋转顺序不同结果不同），只有无穷小角位移才具有矢量性；三维空间的霍奇对偶使得本该是二阶张量的旋转可以「压缩」成矢量形式。

2026-06-08 📓 工程札记 0

20美元拍一部短片：开源项目用AI流水线把剧本变成电影

开源项目「90210」将剧本自动转化为短片，整合Veo 3.5、Gemini 2.5 Pro、ElevenLabs等AI工具，实现本地化视频生成，单片成本约20美元，并配备多模型质量评估与叙事分析系统保输出稳定。

2026-06-08 📓 工程札记 0

一个公式+一个循环：感知机如何学会判断

感知机是1958年提出的最简神经网络模型，仅包含权重、偏置和一个判断阈值。本文通过「判断成绩是否及格」的具体例子，解释了偏置如何将锁定在0的决策边界「搬运」到正确的50分位置——没有偏置，机器无论训练多久准确率都卡在50%；加上偏置后精准达到100%。感知机虽小，却是理解现代深度学习原理的最佳起点。

2026-06-08 📓 工程札记 0

Rust 在 Pico 2 W 上跑通 Matter 灯泡：一块开发板接入三大智能家居平台

Rust 仓库为树莓派 Pico 2 W 带来 Matter 协议智能灯泡实现，支持苹果 HomeKit、谷歌 Google Home 与 Home Assistant，通过 BLE 配网和 Wi-Fi 通信控制外部 LED。

2026-06-08 📓 工程札记 0

设计师用AI写代码替代画图：原型直接在代码里跑通

Jane Street 设计师放弃 Figma，改用 Claude Code 直接在代码库里构建可运行原型。好处是省去文档和 mockup 的中间环节，迭代成本极低；但审阅者面对的是「已做完」的功能而非提案，协作关系需要重新定义。

2026-06-07 📓 工程札记 2

千年石像该不该加罩？沧州铁狮子的教训说明了一切

河南巩义宋陵露天石像引发保护方式讨论。文物局长反对加装玻璃罩，认为会阻断空气流通、加速风化。沧州铁狮子案例印证了这一担忧——千年完好的铁狮在历次「保护性修缮」后反而受损致残，至今需靠钢架支撑。

2026-06-06 📓 工程札记 0

花6美元租显卡，用QLoRA微调LLM重写90年代文档风格

作者用QLoRA方法在两个8B规模模型上微调，让LLM学会1990年代技术文档的写作风格。训练数据来自Bitsavers网站的微软手册（超3700万词），在Runpod平台租用B200显卡完成适配器训练，成本可控。微调后的适配器导出为LoRA文件，在本地Ollama上运行，整个流程耗时不超过一个周末。

2026-06-05 📓 工程札记 0

Anthropic 详解 Claude 代理三层隔离防御架构

Anthropic 详解其 Claude 代理三层隔离防御架构：环境层（沙箱/VM）、模型层（提示词/分类器）、内容层（工具权限管控）。承认概率防御非 100% 有效，但重叠部署可将风险控制在可接受范围。

2026-06-04 📓 工程札记 0

strace-ui 和 Bonsai_term：终端调试工具的文艺复兴

Jane Street 将内部积累的响应式 UI 框架 Bonsai 移植到终端，推出 strace-ui 改善调试体验，并受益于 AI 编程工具带动的终端界面复兴。

2026-06-02 📓 工程札记 0