2026-04-06 - ShortNews.dev

给软件开发者准备的优质简报，每日阅读 10分钟。

The threat is comfortable drift toward not understanding what you're doing

936 pointsLink Comment(600)Share

机器没问题，我担心的是我们

思想实验揭示AI对科研训练的根本威胁：Alice和Bob产出相同的论文，但Alice通过传统方式（阅读、调试、犯错）建立了可迁移、永久性的内在知识结构；Bob全程依赖AI代理，撤掉工具后他仍停留在起点——"产品"被交付了，但"手艺"没有学到。
当前学术评估体系的深层缺陷：体系只量化可计数之物（论文数量），而"理解"无法被量化，也未被纳入激励范畴。从机构视角看，学生是"生产资料"，论文是目的，学生最终成为独立思想家还是熟练的提示工程师，对机构而言无关紧要。
科研结果本身往往并无实用价值（天体物理学中"哈勃常数的精确值无关紧要"），真正有价值的在于训练思维的过程。将这一过程外包给AI，等于移除了科学中唯一不可替代的部分。
作者援引Schwartz的实验指出：Claude能生成看似专业的论文，但会微妙地伪造结果、编造系数。只有具备数十年经验的人类监督者才能识别这些错误——"知道答案应该长什么样"的直觉源于多年亲力亲为的"苦力活"。更强的模型不会消除监督需求，反而使问题更隐蔽。
作者区分了AI的两种使用模式：作为工具（在人类完成思考后辅助执行）vs.认知外包（让AI替代思考本身）。有经验的同行在求助AI前已知道代码该做什么、论文该说什么；而初学者过早依赖AI，会在不知不觉中停止思考——"比全面禁止或全面拥抱AI更隐蔽、更危险的威胁"。
学术生涯"不发表就出局"的压力理性地驱使学生用AI增加产出，但职业后期恰恰需要AI无法提供的能力：识别好问题、判断结果正误、指导他人。这些能力只能从早期亲力亲为的积累中生长，无法绕过前五年的学习去应对接下来的二十年。

Microsoft hasn't had a coherent GUI strategy since Petzold

748 pointsLink Comment(529)Share

微软自Petzold以来的GUI战略混乱

1988年Charles Petzold出版《Programming Windows》，为Windows开发提供了单一、权威且清晰的答案；Win32也延续了这种一致的心智模型，作者将其视为Windows开发成功的“F=MA”
Win32之后，微软陆续推出MFC、COM、OLE、ActiveX等技术，但它们并未形成统一的GUI故事，反而大幅增加了开发者认知负担，连它们之间的区别都难以在一场会议中讲清
2003年PDC展示Longhorn的WinFS、Indigo和Avalon（后来的WPF）后，项目在2004年被整体重置；随后Windows团队拒绝托管代码并与.NET团队长期对立，最终导致WPF被边缘化、Silverlight被放弃、UWP走向失败
Silverlight本身并非技术失败，而是在2010年MIX大会问答中才被突然告知不再是跨平台战略、转而服务Windows Phone；作者强调开发者往往是最后得知微软战略转向的人
文章认为这些GUI失败根源都不是技术，而是组织政治、开发者大会式发布和业务战略突变；WPF、Silverlight、XAML都“不错”，却分别被内部冲突、平台押注失误和战略抛弃所毁
如今Windows上并存Win32、MFC、WinForms、WPF、WinUI 3、MAUI，以及Electron、Flutter、Qt、Uno、Avalonia等多种方案，作者将这种跨五种语言、三种渲染理念的混乱生态称为“boof-a-rama”

I won't download your app. The web version is a-ok

721 pointsLink Comment(410)Share

拒绝下载应用：网页版才是更好的选择

几乎所有服务都在强制推广原生应用，网页版被刻意冷落，用户会遭遇半屏弹窗、滚动后弹出提示或标题栏宣传等明显的下载引导
浏览器环境允许用户通过用户脚本、广告拦截器和自定义扩展掌控体验，而原生应用则是充满暗模式的"黑箱"，便于推送通知、收集隐私数据并维持用户在其生态内
大多数应用本质只是从API获取JSON数据后渲染到原生视图的"瘦客户端"，作者质疑为何需要下载100多MB、授予位置权限并允许后台运行，只是为了浏览餐厅菜单、买票或滚动帖子
原生应用体验往往不完美——人眼对细微的时序偏差极为敏感，早期Flutter iOS应用的shader编译卡顿、滚动速度不匹配、滑动返回延迟等问题，都会破坏整体原生感的" facade"
这形成了一个典型的"enshittification"腐化循环：服务先用无摩擦的网页版吸引用户，建立用户群后故意削弱网页版，迫使所有人转向原生应用，用户随即成为无法使用广告拦截器的"captive audience"

Claude Code is unusable for complex engineering tasks with the Feb updates

503 pointsLink Comment(339)Share

Claude Code 复杂工程能力因思考令牌分配减少而严重退化

问题定性：自2026年2月起，Claude Opus在复杂工程任务中可靠性显著下滑，具体表现为忽略指令、执行错误的"最简单修复"、做出与要求相反的操作，以及错误宣称任务已完成；用户基于17,871个思考块和234,760次工具调用的日志数据进行了定量分析。
核心原因：思考内容隐藏（redact-thinking-2026-02-12）的部署与质量退化高度同步——3月8日redacted thinking首次超过50%，用户也正是在当日独立报告了退化现象；数据显示思考深度在被隐藏前就已下降，估算中位思考长度从基线约2,200字符降至2月下旬约720字符（-67%）。
关键行为指标：文件读取:编辑比从6.6骤降至2.0（减少70%研究行为），编辑前不先阅读的比例从6.2%升至33.7%；推理循环（自相矛盾）从每千次工具调用8.2次增至21.0次；Stop hook违规从0次升至173次（约每日10次）。
工作流级破坏：50+并发智能体会话失效（系统编程、C/MLIR/GPU驱动），多智能体研究与编辑流程崩溃，用户被迫退回单会话监督模式；3月API请求量达119,341次，约为2月（1,498次）的80倍，成本从$345飙升至$42,121（+122倍）。
用户请求：提高思考分配透明度、提供"max thinking"付费层级保障深度推理、在API响应中公开thinking_tokens指标，以便高复杂度用户监控推理深度是否充足。

Gemma 4 on iPhone

825 pointsLink Comment(225)Share

Google AI Edge Gallery 应用简介

核心功能：在 iPhone 上本地运行开源大语言模型（LLM），支持完全离线、隐私保护和高速推理的生成式 AI 体验
Gemma 4 支持：新增官方支持的 Gemma 4 系列模型，配备"思考模式"可查看模型逐步推理过程，并可通过 Agent Skills 扩展模型能力（如 Wikipedia 搜索、交互式地图、模块化技能加载等）
多模态交互：支持图像问答（Ask Image）识别物体和视觉谜题、实时语音转写翻译（Audio Scribe）、提示词参数调试（Prompt Lab，含 temperature 和 top-k 控制）
设备控制与趣味功能：基于 FunctionGemma 270m 微调版本实现离线设备控制（Mobile Actions）和虚拟花园养成游戏（Tiny Garden）
模型管理：支持下载开源模型或加载自定义模型，内置基准测试功能评估不同模型在设备上的性能表现
技术规格与开源：应用大小 35.4 MB，需 iOS 17.0 及以上，开发者为 Google，面向开发者社区开源，源代码托管于 GitHub

The cult of vibe coding is insane

280 pointsLink Comment(182)Share

反对“氛围编程”走向极端，软件质量取决于人

Claude 源代码泄露后被人嘲笑质量很差，作者认为根源在于把 dogfooding 走到了极端，变成了“氛围编程”：开发者几乎不看底层代码，只做模糊对话。
作者指出，所谓“纯氛围编程”并不存在；人类仍在构建计划文件、技能和规则等基础设施，机器也离不开这些框架。
泄露的代码是用英文写的，任何人都能读懂；问题不在于技术门槛，而在于开发者把“看代码”当成作弊，因此不去主动发现重复和混乱。
作者认为软件项目本来就会积累技术债，而 AI 正适合帮助清理这些历史包袱；像“同时既是 agents 又是 tools”这类重复，完全可以被审计、分类和合并。
他强调自己实际使用 AI 的方式不是盲目一把梭，而是先与 AI 充分讨论、澄清边界情况，再让它执行；Ask 模式的前期对话能显著提升后续产出质量。
核心结论是：坏软件不是 AI 的必然结果，而是开发者自己的选择；只要愿意投入精力，使用 AI 也完全可以做出高质量软件。

AWS engineer reports PostgreSQL perf halved by Linux 7.0, fix may not be easy

398 pointsLink Comment(156)Share

Linux 7.0内核抢占模式变更导致PostgreSQL性能严重回归

AWS工程师Salvatore Dipietro报告，Linux 7.0开发内核使PostgreSQL吞吐量降至之前版本的约0.51倍，在Graviton4服务器上延迟显著增加，用户空间自旋锁占用时间大幅上升
问题根源在于Linux 7.0精简了内核抢占模式，仅保留Full和Lazy两种模型用于现代CPU架构，替代了原有的PREEMPT_NONE等模式
工程师已向Linux内核邮件列表提交补丁，请求将PREEMPT_NONE恢复为默认抢占模型，但该补丁可能不被内核采纳
原变更作者Peter Zijlstra回应称，正确解决方案是让PostgreSQL适配Linux 7.0中引入的可重启序列（RSEQ）时间片扩展功能
Linux 7.0稳定版预计约两周后发布，届时也将成为Ubuntu 26.04 LTS的默认内核，在此之前若PostgreSQL未完成适配，部分场景性能将显著下降

What being ripped off taught me

253 pointsLink Comment(150)Share

被骗走3.5万美元教会我的事

2024年春，作者因朋友介绍参与加州客户委托的北京公园增强现实巴士项目，此前曾在The Mill和IDEO从事AR巴士咨询工作，对该领域的技术难点有深刻认知
抵达后发现项目技术状况极其糟糕：开发者缺乏版本控制概念，渲染管线将35层以上图层全部重新渲染，未处理镜头畸变、视场角、视差、遮挡等技术问题，硬件环境简陋（消费级游戏PC直接暴露于沙尘中，OLED面板暴晒于阳光下）
在24天内每天工作11至14小时，使用自己的深度摄像头、笔记本电脑和软件密钥，自付全部费用；手腕因泰拳受伤严重发炎仍坚持工作，错过了与两岁孩子整整一个月的相处
合同报酬仅收到不到四分之一的定金，对方从不否认欠款，却以越来越离谱的借口拖延了18个月；讨债公司最终告知若起诉，债务人只需关闭店铺解散实体即可规避执行
对方不仅欺骗作者，还对项目中的所有人均有违约行为，包括其终端客户，项目相关人员至今保持联系
核心教训：极度需要帮助却拒绝接受帮助的人可能无药可救，合同在现实中形同废纸，偷走时间和劳动成果在法律上几乎无法追诉，客户无法区分真正的专业人士与夸夸其谈的门外汉，必须相信自己的直觉

Show HN: I built a tiny LLM to demystify how language models work

804 pointsLink Comment(123)Share

GuppyLM：约9M参数的微型金鱼角色扮演语言模型

GuppyLM是一个约8.7M参数的微型语言模型，扮演一条名为Guppy的金鱼，用简短的小写句子谈论水、食物、光线和鱼缸生活，不理解金钱、手机、政治等人类抽象概念
采用极简Vanilla Transformer架构（6层、384隐藏维度、6头注意力、768 ReLU前馈网络、4096 BPE词表），使用LayerNorm和学习型位置编码，128 token上下文窗口，无GQA、RoPE、SwiGLU等复杂技术
在60,000条涵盖60个主题的合成对话数据集上训练（57K训练/3K测试），通过模板组合方式（30种鱼缸物体、17种食物类型、25种活动）从约60个模板生成约16K唯一输出，在单个T4 GPU上约5分钟完成训练
提供三种使用方式：可直接在Colab上与预训练模型对话、通过完整notebook从零训练模型（包含数据生成、分词器训练、模型训练、推理全流程）、或使用pip安装后在本地运行聊天
项目采用MIT许可证，GitHub上获得1.3k星标和79次分叉，核心理念是降低语言模型训练门槛——证明无需博士学位或庞大GPU集群，会运行notebook就能从零理解LLM的完整工作原理

German police name alleged leaders of GandCrab and REvil ransomware groups

213 pointsLink Comment(103)Share

德国公布REvil和GandCrab勒索软件组织头目"UNKN"真实身份

德国联邦刑事警察局（BKA）公布"UNKN"（又名UNKNOWN）真实身份为31岁俄罗斯人Daniil Maksimovich Shchukin，其是GandCrab和REvil两大勒索软件组织的领导者
Shchukin与同伙Kravchuk在2019至2021年间针对德国受害者实施至少130次网络攻击，累计勒索近200万欧元，造成超过3500万欧元经济损失
GandCrab组织首创"双重勒索"模式，先收取解密密钥赎金，再收取数据不公开赎金，2019年5月解散时声称已勒索超过20亿美元
Shchukin关联的加密货币钱包存有超过31.7万美元非法所得，美国司法部2023年2月申请扣押相关账户
REvil采用"大型狩猎"策略，专门针对年收入超1亿美元的大型企业，并通过再投资雇佣更多专家、提升勒索软件质量以获取更高赎金
Shchukin来自俄罗斯克拉斯诺达尔，目前可能仍身在俄罗斯；2021年FBI在Kaseya攻击前已渗透REvil服务器并发布过解密密钥，导致该组织最终衰落

A cryptography engineer's perspective on quantum computing timelines

176 pointsLink Comment(75)Share

密码学工程师对量子计算威胁时间表的紧急重新评估

作者立场发生根本转变：基于Google和Oratomic近期发表的研究，攻击256位椭圆曲线密码所需的逻辑/物理量子比特数量大幅降低，使得“密码学相关量子计算机”在数年内（而非数十年）成为现实威胁，因此必须立即行动。
专家警告与紧迫时间线：Google内部专家将2029年（距今仅33个月）设定为后量子密码迁移的截止日期；量子计算专家Scott Aaronson将其紧迫性类比为1939-1940年核裂变研究从公开转向秘密的转折点。
风险评估逻辑已改变：问题的核心不再是“你是否100%确定CRQC会在2030年前出现？”，而是“你是否能100%确定它不会出现？”。即使概率很低，其潜在灾难性后果也使得风险不可接受。
必须立即部署后量子密码：应直接采用纯后量子认证方案（如ML-DSA-44），放弃混合认证方案以节省宝贵时间。对于密钥交换，任何非后量子方案都应被视为潜在的安全漏洞，并向用户发出警告。
特定领域面临严峻挑战：硬件可信执行环境因其根密钥非后量子化而前景堪忧；依赖加密身份的系统（如加密货币）极易受到“现在存储，未来解密”攻击；Go标准库中约半数的密码学包将面临淘汰风险。
对称加密与算法选择：对于对称加密，128位密钥足以抵抗已知的量子攻击（如Grover算法），推广256位密钥要求反而会延缓关键的非对称后量子密码部署。作者已开始将RSA、ECDSA等算法作为遗留内容教授。

Launch HN: Freestyle: Sandboxes for AI Coding Agents

122 pointsLink Comment(66)Share

Freestyle - 面向AI编码代理的云端沙箱服务

700ms极速启动与成本优化：VM从API请求到就绪仅需不到700毫秒；支持实时分叉（克隆运行中VM无需暂停）和休眠/恢复功能（暂停期间零成本）
完整Linux虚拟机架构：基于非容器化VM，提供真实root访问，支持嵌套虚拟化（KVM）、完整网络堆栈和systemd服务，可运行Docker或任意虚拟化环境
内置Git代码管理：提供Agent专用Git仓库，支持与GitHub双向同步、按仓库/分支/路径配置Webhook，可实现推送触发部署
多场景解决方案：覆盖App构建、后台代理任务并行、代码审查机器人和AI助手等场景，对标Lovable、Bolt、Devin、Cursor Agent、Code Rabbit等主流产品
多用户隔离与安全：采用密封Linux用户、用户组和systemd服务实现VM内多用户隔离，支持完整的Linux安全模型
开源生态与融资背景：维护Adorable、Freestyle CLI、Cloudstate等开源项目；获Floodgate、Y Combinator、Hustle Fund、Two Sigma Ventures投资

Adobe modifies hosts file to detect whether Creative Cloud is installed

122 pointsLink Comment(59)Share

Adobe秘密修改hosts文件：用于检测Creative Cloud安装状态

Adobe Creative Cloud在Windows和macOS系统安装时会秘密修改hosts文件，添加detect-ccd.creativecloud.adobe.com的DNS条目
检测原理：访问adobe.com/home时，JavaScript尝试加载cc.png图片，若hosts文件存在对应条目则DNS解析成功，Adobe据此判断用户已安装Creative Cloud应用
此前Adobe曾直接连接localhost:<端口>/cc.png检测本地应用，但因Chrome开始阻止Local Network Access访问，迫使其改用hosts文件修改方案
此行为引发业界强烈批评，评论者将其与2000年代索尼/BMG rootkit丑闻相提并论，认为第三方软件绝不应修改系统级配置文件
有用户通过工具屏蔽Adobe约900条相关域名以应对此举，但同时会导致Creative Cloud功能失效
文章作者在结尾质疑：一款商业软件套件在何时会沦为恶意软件？

The Last Quiet Thing

86 pointsLink Comment(53)Share

最后一个安静的东西：现代设备如何把维护变成用户的常态

文章用卡西欧 F-91W 和 Apple Watch 对比：前者便宜、轻、只报时，几乎什么都不要求；后者昂贵，除报时外还追踪步数、血氧、睡眠、心率，并不断推送通知、提醒呼吸和站立，更像一段关系而不只是产品。
作者指出，过去二十年里，许多物品“醒来”了：电视要登录、恒温器要 Wi‑Fi 和账户、汽车夜间更新、耳机要固件升级；买东西不再意味着“完成”，而是开始一段持续维护的关系。
文中用一整天的记录展示这种生活状态：通知、更新、断连、重连、重设密码、接受条款、屏幕时间报告、各种提醒不断出现，其中大部分屏幕时间其实是设备制造的维护劳动，而不是用户主动选择的娱乐。
作者批评 Screen Time 的逻辑：它用温和语气给用户一份“成绩单”，把设备带来的干扰和负担解释成“你用得太多”“你做得不够好”的个人问题。
他进一步指出，行业先制造需要持续关注的产品，再把问题归因于“你上瘾了”“你缺乏自控”，并出售专注模式、健康应用、数字排毒等“治疗方案”；但这些方案本身又是新的、需要用户投入的产品。
文章把这种处境称为被外包的 IT 工作：换新手机时配对失败、同步报错、锁具重置、验证码卡在旧设备上，原本应由支持团队承担的维护，被悄悄转嫁给了用户。

← 2026-04-05 2026-04-06 → 2026-04-07