给软件开发者准备的优质简报,每日阅读 10分钟


Claude Opus 4.7

1117 pointsLinkComment(835)Share

Anthropic 发布 Claude Opus 4.7:高级软件工程与自主任务处理能力显著提升

  • Claude Opus 4.7 正式发布,在高级软件工程方面较 Opus 4.6 有显著提升,尤其在复杂长任务和最困难工作上表现突出;用户可将此前需密切监督的棘手编码工作放心交付给 Opus 4.7,并能自主验证输出结果后在汇报前主动核实自身工作的准确性
  • 视觉与多模态能力大幅增强:支持处理更高分辨率图像,长边可达 2,576 像素(约 375 万像素),是此前型号的三倍以上,适用于计算机操作代理读取密集截图、复杂技术图表数据提取以及生命科学专利工作流程;界面、幻灯片和文档的专业质量也更高
  • 获得 28 家企业的早期测试反馈,覆盖金融科技、代码审查、软件开发代理、法律分析、自动渗透测试等多个领域,普遍反映在编码基准测试中提升 10%–15%,任务完成率、逻辑推理、工具调用准确性和长时自主工作能力均有实质性改进
  • 内置网络安全防护机制作为 Project Glasswing 公告后推出的首款安全测试模型,自动检测并阻止高风险网络安全请求,合法用途用户可申请加入 Cyber Verification Program;安全评估结论为"整体良好对齐且可信赖"
  • 定价保持不变(每百万输入 token 5 美元、输出 token 25 美元),新增 "xhigh"(超高)努力级别以提供更精细的推理延迟控制,Claude Code 新增 /ultrareview 审查命令,Auto mode 扩展至 Max 用户
  • 迁移注意:更新后的分词器可能导致相同输入映射到 1.0–1.35 倍 token 数,高努力级别下输出 token 有所增加(尤其在代理设置的后续轮次中),但内部编码评估显示各努力级别的整体 token 使用效率均有改善

The future of everything is lies, I guess: Where do we go from here?

383 pointsLinkComment(386)Share

审视AI:以汽车变革社会为鉴,呼唤审慎应对

  • 作者以汽车如何重塑城市街道、消灭有轨电车、导致城市蔓延等深远影响为喻,呼吁人们不仅关注LLM在代码生成或音乐创作上的惊艳表现,更应思考这项技术将如何从根本上重塑社会结构、经济形态乃至人类生活方式
  • 作者对当前AI现状深感疲惫:搜索结果充斥垃圾内容,客服与工程师用LLM盲目撒谎,数据中心推高电价,LLM爬虫频繁导致网站服务瘫痪,收件箱被LLM垃圾邮件填满,甚至工作、饮食、出行、艺术乃至人际关系都被外包给ChatGPT
  • 作者坦承面临生存焦虑:阅读、思考与写作等核心技能恰好处于LLM的杀伤范围内,面临失业甚至流离失所的威胁,曾考虑转行学建筑却担忧ML迟早吞噬那个领域
  • 研究表明ML辅助会降低人类的表现和毅力,剥夺通过亲身实践积累的"metis"(实践智慧)和深层理论构建能力;作者从未在写作、软件或个人生活中使用LLM,尽量减少对LLM生成内容的消费,转而阅读人类撰写的食谱、通过大学网站识别野生动物、与朋友面对面交流问题
  • 作者提出一系列具体行动建议:组建工会抵制强制使用Copilot(微软明确标注其"仅供娱乐目的使用")、联系议员要求对ML公司的碳排放和数字污染进行严格监管、反对对数据中心的税收优惠、在AI公司工作的人应认真考虑辞职以免成为制造未来的帮凶
  • 尽管持批评态度,作者在文末以变色灯泡为例探讨未来使用LLM的可能性——安全风险小、场景受限、可手动验证且不会给他人遗留技术债务——随即以自问自答"会有什么危害呢?……对吧?"的开放式结尾,揭示其内心深处对AI复杂性的真诚困惑与持续反思

Qwen3.6-35B-A3B: Agentic coding power, now open to all

706 pointsLinkComment(337)Share

Qwen3.6-35B-A3B:开源稀疏MoE模型的高效智能编程方案

  • 稀疏MoE架构突破:采用混合专家架构,总参数350亿、激活参数仅30亿,以稀疏激活实现高效推理,在多个基准测试中超越稠密模型Qwen3.5-27B和Gemma4-31B
  • 代理编码能力领先:Terminal-Bench 2.0达51.5分(+11分)、SWE-bench Verified达73.4分,大幅超越前代Qwen3.5-35B-A3B,在多项代理编码任务上表现优异
  • 原生多模态与双重思维模式:支持视觉语言理解,在RefCOCO空间推理测试达92.0分,在多数视觉语言基准上可与Claude Sonnet 4.5媲美,同时支持多模态思维和非思维两种工作模式
  • 完全开源可获取:已在Qwen Studio上线交互对话,API以qwen3.6-flash名称提供服务(即将登陆阿里云Model Studio),开源权重可在Hugging Face和ModelScope下载用于自托管部署
  • preserve_thinking功能支持:可保留对话历史中的思维内容,建议用于代理任务,兼容OpenAI和Anthropic两种API协议标准
  • 无缝集成主流编码工具:可与OpenClaw、Claude Code、Qwen Code等流行AI编程助手配合,实现终端级智能编程体验

Darkbloom – Private inference on idle Macs

449 pointsLinkComment(220)Share

Darkbloom:利用闲置Apple Silicon设备的去中心化私有AI推理网络

  • Darkbloom由Eigen Labs推出,旨在连接超过1亿台自2020年起出货的Apple Silicon设备与AI计算需求,消除传统三层加价链路(GPU厂商→超大规模云商→API提供商),实现点对点直连,用户成本比中心化方案降低高达70%
  • 借鉴Airbnb、Uber、屋顶太阳能等共享经济模式,将分布式闲置容量直接对接需求侧,每台Mac平均每天闲置18小时以上,运营商赚取自有硬件的被动收入
  • 通过四层独立可验证机制解决信任问题:设备端加密传输、Apple安全硬件生成的硬件绑定密钥、阻止调试和内存检查的强化运行时、以及可追溯至硬件签名的完整证明链路,确保运营商无法观察推理数据
  • 提供OpenAI兼容API,仅需变更基础URL即可使用全部现有SDK,支持流式输出、函数调用、图像生成(FLUX.2)和语音转文字(Cohere Transcribe),文本推理覆盖最大239B参数MoE模型
  • 文本推理价格比OpenRouter低50%(如Gemma 4 26B输入$0.03/百万token),图像生成$0.0015/张,语音转文字$0.001/分钟;运营商保留100%收入,平台零抽成,电费成本仅$0.01-0.03/小时
  • 运营商通过终端一条命令即可完成安装并配置为launchd服务运行,平台提供earnings估算器可按硬件型号计算预期收益,未来将推出原生macOS菜单栏应用实现一键安装

Codex for almost everything

397 pointsLinkComment(203)Share

OpenAI Codex 重大更新:智能体操控与记忆能力全面升级

  • OpenAI 发布 Codex 重大更新,涵盖软件开发生命全周期,已有超过 300 万开发者每周使用
  • 后台计算机控制功能上线,Codex 可通过视觉识别、点击和打字操控电脑上的所有应用,多个智能体可在 Mac 上并行工作而互不干扰
  • 应用内浏览器支持直接评论页面提供精确指令,还可通过 SSH 连接远程开发环境、打开多个终端标签页并预览 PDF、幻灯片、电子表格和文档
  • 新增 90 多个插件,整合 Atlassian Rovo、CircleCI、CodeRabbit、GitLab Issues、Microsoft Suite 等工具,并支持 gpt-image-1.5 生成图像
  • 记忆功能预览版上线,可保存个人偏好、修正信息和积累的上下文,并能主动识别 Google Docs 未处理评论、Slack 和 Notion 中的相关讨论,自动生成优先任务列表
  • 自动化功能扩展,支持复用对话线程保留上下文、自动调度并唤醒执行跨天跨周的长周期任务

The local LLM ecosystem doesn’t need Ollama

587 pointsLinkComment(192)Share

为什么应避免使用 Ollama:署名回避、性能问题与战略偏离

  • Ollama 完全依赖 Georgi Gerganov 于 2023 年 3 月创建的 llama.cpp,但项目 README 在超过一年内未提及该依赖,分发的二进制文件也未包含 MIT 许可证要求的版权声明,社区 issue 持续 400 多天无实质回应,仅最终添加了一行署名
  • 2025 年中 Ollama 弃用 llama.cpp 转而开发基于 ggml 的自定义后端,结果重新引入了前者早已修复的问题,Georgi Gerganov 本人指出其对 GGML 的改动存在问题;基准测试显示 llama.cpp 吞吐量比 Ollama 高出 1.8 倍,CPU 环境下差距达 30-50%
  • Ollama 将 DeepSeek-R1-Distill-Qwen-32B 等蒸馏模型直接标注为 "DeepSeek-R1",与 DeepSeek 官方命名规范不符,用户运行 ollama run deepseek-r1 实际得到的是 8B 规模的蒸馏版本,而非真正的 6710 亿参数模型
  • 2025 年 7 月发布的 macOS 和 Windows GUI 桌面应用采用闭源模式且未公开源代码,与项目长期宣称的"开源"形象形成矛盾,引发社区强烈质疑
  • Ollama 的 Modelfile 系统在 GGUF 已内置单文件部署设计的基础上添加额外配置层,导致修改参数时需复制整个模型(30-60GB),而 llama.cpp 仅需命令行参数;新模型上架也存在等待瓶颈,且仅支持少数几种量化格式
  • Ollama 已获 Y Combinator 融资,2025 年底引入第三方云端托管模型和专有模型(如 MiniMax),与其"本地优先、隐私保护"的品牌定位相悖,还存在 CVE-2025-51471 令牌泄露漏洞,本质上遵循"开源获信任→回避署名→建立锁定→闭源变现"的 VC 路径

Put your SSH keys in your TPM chip

62 pointsLinkComment(62)Share

将SSH密钥存入TPM芯片

  • TPM(可信平台模块)是现代电脑标配的安全芯片,可将SSH私钥存储其中,私钥无法从TPM提取也无法被恶意软件窃取,相比文件系统存储更安全;但作为板载设备,其安全性低于Yubikey、Nitrokey等可物理拔插的便携式HSM
  • 私钥并不直接存储在TPM芯片中,而是加密后保存在主机的SQLite数据库文件里,TPM仅在需要签名操作时才加载密钥,这使其能突破芯片有限的存储容量管理多把密钥
  • 重要警告:许多消费级主板在BIOS更新时会清除TPM数据,建议在离线的安全机器上生成SSH密钥并备份后再导入TPM,以应对BIOS更新或ROCA等漏洞风险,支持导入RSA和ecc256算法
  • 配置步骤:在Linux上安装tpm2-tools、libtpm2-pkcs11-tools等软件包,创建PKCS#11存储目录后用tpm2_ptool init初始化,通过文件(避免换行符)设置user pin和SO pin后用tpm2_ptool addtoken添加令牌
  • 导入密钥需先将私钥转换为PEM格式并移除密码保护,再用tpm2_ptool import命令导入;使用前需配置TPM2_PKCS11_SO环境变量和~/.ssh/config中的PKCS11Provider路径
  • 连接时需输入user pin进行身份验证,也可使用ssh-add -s命令将密钥加入SSH agent实现一次验证后续免密;注意此功能不支持WSL

Show HN: MacMind – A transformer neural network in HyperCard on a 1989 Macintosh

91 pointsLinkComment(26)Share

MacMind:HyperTalk 实现的复古 Macintosh 单层 Transformer

  • 该项目用 1987 年的脚本语言 HyperTalk 完整实现了一个 1,216 参数的单层单头 Transformer,包含令牌嵌入、位置编码、缩放点积自注意力、交叉熵损失及完整的反向传播和随机梯度下降,无任何编译代码或外部库
  • 训练任务是快速傅里叶变换(FFT)的第一步——比特反转置换,模型通过自注意力和梯度下降自主发现了这一数学结构,训练后的注意力图呈现与 1965 年 Cooley-Tukey FFT 相同的蝴蝶图案
  • 运行在 Macintosh SE/30(8 MHz 68030 处理器)上,纯 HyperTalk 解释执行,每个训练步骤耗时数秒,完全收敛需数小时;也可在 Basilisk II 等模拟器上运行
  • 采用 5 张卡片的 HyperCard 栈设计,分别实现标题介绍、实时训练、推理测试、注意力图可视化和原理说明,模型权重以逗号分隔的数字存储在 HyperCard 隐藏字段中,保存退出后重新打开权重依然保留
  • 提供预训练版和空白版两个下载版本,以及 validate.py Python/NumPy 参考实现;MIT 许可证,由 Sean Lavigne 开发
  • 核心意义在于证明注意力机制和反向传播不是黑箱魔法而是可理解的数学,与当代大语言模型的训练过程本质相同,区别仅在于参数规模(GPT-4 约万亿参数)

Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7

88 pointsLinkComment(20)Share

Qwen3.6-35B-A3B在笔记本电脑上画的鹈鹕骑自行车图比Claude Opus 4.7更好

  • 作者Simon Willison在2026年4月16日对比测试了阿里Qwen3.6-35B-A3B(20.9GB量化模型,通过LM Studio在MacBook Pro M5上运行)与Anthropic最新发布的Claude Opus 4.7,测试任务为生成"鹈鹕骑自行车"的SVG插图
  • Qwen3.6生成的鹈鹕骑自行车图:自行车车架形状正确,天空有云朵,鹈鹕有可爱的喉囊;Claude Opus 4.7两次生成的结果:自行车车架形状完全错误,且鹈鹕造型不够理想
  • 作者进行了第二个测试"火烈鸟骑独轮车",Qwen生成的图片更加有创意(火烈鸟戴墨镜、系领结、叼香烟、周围有爱心emoji),而Claude Opus 4.7的版本虽然准确但较为平淡无趣
  • 虽然Qwen在这两个测试中胜出,但作者强调"鹈鹕骑自行车"基准测试本质上是一个玩笑,这种特定任务的胜负并不能反映模型的综合实用性
  • 作者指出,尽管近年来鹈鹕图片质量与模型整体实用性存在松散关联,但这个关联在今天已被打破——一个21GB的量化本地模型不太可能比Anthropic最新专有模型更强大或更有用
  • 作者否认AI实验室会针对这个"愚蠢的基准测试"进行训练,他表示虽然这次结果确实引起了一点点怀疑,但仍然相信实验室没有这样做
← 2026-04-15 2026-04-16 ...