2026-04-09 - ShortNews.dev

给软件开发者准备的优质简报，每日阅读 10分钟。

ML promises to be profoundly weird

作者将 LLM 的核心运作机制定义为“即兴表演机器”或“胡扯机器”，它基于海量训练数据，通过统计概率生成看似合理、实则常与事实不符的回答，且倾向于完成任务而非承认未知。
LLM 展现出“锯齿状能力前沿”：它们能在某些复杂任务（如高级编程、蛋白质折叠预测）上表现卓越，却在另一些看似简单的任务（如基础逻辑推理、图像编辑、理解日常语境）上犯下低级错误。
模型不具备意识、意图或真正的元认知能力；当被要求解释自身行为或进行“思考”时，它们只是在生成符合语境的虚构故事，其关于“编程”或“推理过程”的描述通常是谎言。
LLM 会持续产生“幻觉”或无意识地“说谎”，例如编造不存在的研究引文、生成虚假的数据图表，或在涉及事实的问答中捏造信息，这给依赖其输出的诸多领域带来了真实风险。
尽管投入巨大，但当前模型架构的改进有限，单纯增加算力和数据可能面临收益递减；其成功原理尚未完全明晰，但现有技术已足以对工作、文化、信息生态等领域产生广泛、深刻且奇特的影响。

核心功能是让应用程序的网络连接活动变得可见，允许用户精确查看哪个程序连接到哪个服务器，一键拦截未授权的连接，并能追踪流量历史和数据量。
基于eBPF技术集成到Linux网络栈进行监控，兼容Linux内核6.12或更高版本且需要BTF支持，用户界面可通过终端命令littlesnitch或网页http://localhost:3031/访问。
支持使用多种常见格式的外部拦截列表（如每行一个域名或主机名、/etc/hosts格式、CIDR范围）并自动更新，同时允许创建针对特定进程、端口或协议的精细规则。
其Web界面默认对本地所有进程开放，存在被恶意应用篡改规则或关闭过滤的风险，但可通过配置文件启用身份验证和TLS加密来增强安全性。
该软件明确设计用于隐私监控而非系统安全，在Linux上受eBPF的存储和复杂性限制，高流量下可能无法可靠关联每个网络数据包，且主机名解析依赖启发式方法而非深度包检测。
软件由三部分组成：eBPF内核程序和Web界面基于GNU GPL v2开源，而核心守护进程（littlesnitch --daemon）为专有软件但可免费使用和分发，高级配置可通过覆盖目录中的文本文件实现。

作者因“突发性”使用模式常在编码中途触及 Claude 的月度限额而感到沮丧，而闲置时已支付的 100 美元订阅额度却会浪费。
新方案核心是：每月支付 10 美元订阅 Zed 编辑器，并将 90 美元预充值至 OpenRouter。OpenRouter 充值额度 365 天未使用才会过期，可实现额度滚存，按实际 API 用量灵活付费。
Zed 编辑器速度显著快于 VSCode，内置基础的智能体框架，并能通过 Agent Client Protocol (ACP) 集成 Claude Code 等外部工具。作者推荐使用其 OpenRouter 集成以获得更低价格和完整上下文窗口（如 Gemini 3.1 的完整 100 万 token）。
作者保留了每月 20 美元的 Cursor 订阅以关注其基于 Rust 重写的 Cursor 3.0 进展。Cursor 支持将规则精确应用到特定文件路径（如 *.py），能更高效地利用上下文窗口。
即使转向新方案，仍可通过配置环境变量将 Claude Code 的 API 端点指向 OpenRouter，从而继续使用其框架并调用 OpenRouter 上的各类模型（包括 Claude 模型）。
在 OpenRouter 设置中，作者为最小化数据风险，选择不共享数据以改善产品（牺牲 1% 折扣），并启用“仅零数据保留端点”的防护设置，尽管这会失去对部分模型（如阿里云上的 Qwen 模型）的支持。

工具通过一个 craft.toml 文件定义项目，并自动生成对应的 CMakeLists.txt，从而将开发者从手动编写 CMake 配置的繁琐工作中解放出来。
它提供了一站式依赖管理，支持通过简单命令添加本地项目或远程 Git 仓库依赖，自动完成克隆和 CMake 链接配置，并能轻松移除或更新依赖。
Craft 内置项目模板（如可执行文件、静态库）并支持自定义模板，允许用户快速创建和复用项目结构，显著提升项目初始化效率。
工具提供了一套直观的命令行接口，涵盖项目创建、构建、运行、代码生成、清理及全局配置管理，实现了流畅的现代化开发工作流。

在编码前引入文献研究阶段，使代理能发现仅依赖代码上下文会错过的优化点。研究揭示了文本生成是内存带宽瓶颈而非计算瓶颈，并指出了CUDA/Metal后端存在而CPU后端缺失的算子融合技术。
代理在研究后转向减少内存流量的优化策略，在30多次实验中成功落地5项优化，包括4项内核融合和1项自适应并行化。其中最大的优化是将Flash Attention的QK tile上的三次内存遍历融合为一个单次AVX2 FMA循环。
研究竞争对手项目（如ik_llama.cpp）和其他后端（如CUDA）比单纯搜索arXiv论文更高效。这些研究直接促成了最终五项优化中的两项，例如发现并实现了CPU后端缺失的RMS_NORM与MUL算子融合。
在约3小时内，代理使用4个云虚拟机，最终使Flash Attention文本生成在x86架构上加速15%，在ARM架构上加速5%。总成本约为29美元（20美元用于CPU虚拟机，9美元用于API调用）。
实验表明，当优化方案存在于代码库之外时，文献研究能显著提升代理假设的质量。此方法适用于任何拥有基准测试和测试套件的开源项目。