给软件开发者准备的优质简报,每日阅读 10分钟。
Google changes its search box
谷歌搜索AI新时代全面升级
- AI Mode用户量突破10亿:上线仅一年月活跃用户已超10亿,季度查询量翻倍增长,上季度搜索查询量创历史新高;Gemini 3.5 Flash成为AI Mode全球默认模型
- 智能搜索框25年来最大升级:全新AI驱动搜索框支持文本、图片、视频、文件、Chrome标签等多模态输入,具备动态扩展和AI辅助提问建议功能,今日起在全球AI Mode可用地区逐步上线
- 搜索信息智能体时代正式开启:用户可创建多个专属AI信息智能体,24/7后台智能追踪公寓租赁、球星联名发售等个性化信息并主动推送;今夏首先面向Google AI Pro和Ultra订阅用户开放
- Agentic Booking能力大幅扩展:搜索本地体验和服务时,用户可分享具体需求如"周五晚上六人包厢且深夜供应餐食的KTV",系统整合实时价格和可用性并可直接跳转至提供商完成预订;部分类别还可让谷歌代打电话联系商家,今夏向全美用户开放
- Agentic Coding功能集成搜索:通过Antigravity平台和Gemini 3.5 Flash,搜索可实时生成自定义可视化界面、模拟工具及健身追踪器等个性化迷你应用,今夏免费向所有用户开放
- Personal Intelligence服务大规模扩展:覆盖近200个国家和地区、98种语言,无需订阅即可使用;用户可自主选择关联Gmail、Google Photos及即将支持的Google Calendar等应用,确保透明度和控制权
Show HN: Forge – Guardrails take an 8B model from 53% to 99% on agentic tasks
Forge:自托管LLM工具调用的可靠性增强框架
- 核心定位:Python框架,专为提升本地8B模型在工具调用和多步骤代理工作流中的可靠性,通过防护栏机制(解析修复、重试提示、步骤强制)和上下文管理(VRAM感知预算、分层压缩)将模型性能提升至同规模顶尖水平
- 性能表现:Ministral-3 8B Instruct Q8在26场景评估中达86.5%准确率,最高难度层级达76%,相关论文已发表于IEEE并提供预印本
- 核心组件:WorkflowRunner负责结构化代理循环管理;SlotWorker提供优先队列机制实现多代理架构下共享GPU推理槽位的自动抢占;两者结合支持构建复杂多代理系统
- 三种使用模式:Guardrails中间件可嵌入现有编排系统;WorkflowRunner适合直接基于Forge构建应用;Proxy服务器以OpenAI兼容接口透明代理本地模型,自动注入synthetic respond工具引导小模型保持工具调用模式
- 后端支持与部署:支持llama-server(推荐,性能最优)、Ollama(配置最简)、Llamafile(零依赖单二进制)、Anthropic API;通过pip安装
forge-guardrails核心包即可使用,Python版本要求3.12+,采用MIT许可证
Incident Report: May 19, 2026 – GCP Account Suspension
Railway 平台因 GCP 账户误暂停导致约 8 小时全平台故障
- 事故触发:2026年5月19日 22:20 UTC,Google Cloud 自动化系统错误地将 Railway 生产账户置于暂停状态,导致控制平面、数据库及计算基础设施全部离线,用户遭遇 503 错误("no healthy upstream"、"unconditional drop overload")并无法登录
- 故障蔓延机制:边缘代理依赖 GCP 托管的网络控制平面 API 填充路由表,虽然 Railway Metal 和 AWS 上的工作负载本身保持在线,但当路由缓存约 1 小时后过期时,边缘节点无法解析至活跃实例的路由,最终所有地区均返回 404 错误,平台全部工作负载不可达
- 恢复过程与连锁问题:持久磁盘约 1 小时后恢复就绪,但核心网络与边缘路由延迟至约 3.5 小时后才完全恢复;部署任务积压和 GitHub OAuth 及 webhook 重试请求激增导致速率限制,部分用户登录和构建再次受阻;服务条款接受记录被重置,用户访问控制台时需重新确认
- 根本原因:Railway 采用 Metal、GCP、AWS 间高可用光纤互联的网状环形架构,但工作负载可发现性仍硬依赖 GCP 上的网络控制平面 API,成为单点故障根源;Railway 明确表示承担全部责任
- 整改措施:立即移除网络控制平面硬依赖实现真正的网状拓扑;将高可用数据库分片跨 AWS 和 Metal 扩展,确保任一云实例全部消失时数据库仲裁机制仍能维持运行;计划将 Google Cloud 从数据平面热路径移除并重构数据平面与控制平面架构,使核心服务不再依赖单一供应商
Google's AI is being manipulated. The search giant is quietly fighting back
人工智能搜索结果遭操控:谷歌反击之战
- BBC调查揭示:仅需一篇精心编写的博文即可操纵ChatGPT、Gemini和谷歌AI Overviews传播虚假信息,全球逾十亿聊天机器人用户和每月25亿AI Overviews观众均面临被误导风险
- 作者亲测验证:发布虚假"热狗吃手世界冠军"文章后次日即被多家AI公司作为事实引用,该手法还被用于操控医疗保健品安全性和退休金融信息等敏感领域
- 谷歌更新垃圾邮件政策正式将操纵AI回答列为违规行为,违规者可能被从搜索结果中移除或降权,但同时声称此次更新仅为"澄清"而非政策变化
- 专家观察到谷歌和ChatGPT正悄然尝试解决方案,包括移除AI答案中自我推广者姓名、增加置信度标签及建议用户参考第三方核查
- 专家警告AI"唯一答案"输出模式使用户更易轻信,建议用户保持审慎态度并自行核实信息来源,批评者认为谷歌在"打地鼠"——新规只会让操纵手段转向YouTube视频等更隐蔽渠道
Saying Goodbye to Asm.js
SpiderMonkey在Firefox 148中禁用asm.js,计划未来完全移除
- Firefox 148已默认禁用asm.js优化,但现有asm.js代码仍可通过常规JIT编译器正常运行,不会导致任何网站损坏
- asm.js是JavaScript的严格静态类型子集,引擎可即时识别并编译为原生代码,同时避免了NaCl/PNaCl所需的独立沙箱、IPC通信或替代API
- asm.js使Unity和Unreal的C/C++代码首次仅凭标准Web技术即可移植到浏览器,《Epic Citadel》演示仅用四天完成移植,证明了纯Web技术可实现接近原生的运行速度
- asm.js的成功直接催生了WebAssembly,后者于Firefox 52发布时继承了其核心使命;若没有asm.js,WebAssembly很可能不会诞生
- 禁用原因包括WebAssembly已成功迁移、持续维护asm.js路径的额外成本,以及虚拟机中新增的攻击面;建议开发者将asm.js重新编译为WebAssembly以获得更优性能
- asm.js编译器代号OdinMonkey(以北欧神话主神命名),其移除由代号"Ragnarök"的Bug追踪;其继承者BaldrMonkey(WebAssembly优化编译器)和RabaldrMonkey(baseline编译器)将主导新的编译器架构
How fast is N tokens per second really?
tokenspeed — 用文字流直观感受 LLM 速度差距的工具
- 工具目的:基准测试中的 tok/s 数字(如"180 tok/s on a 4090")难以让人真正感知速度差异,tokenspeed 通过实时渲染 token 流来弥补这一认知缺口
- 四种模式:code(带语法高亮的伪代码,最常见场景)、text(lorem ipsum 散文,聊天回复场景)、think(斜体推理句与代码交替,模拟推理模型的思考过程)、agent(工具调用与代码生成交替,含处理暂停,模拟 AI 编码助理)
- 推荐体验步骤:从默认 30 tok/s 开始阅读;依次切换到 1(≈5 tok/s,树莓派级本地模型)、5(≈60 tok/s,典型托管 Claude/GPT)、7(≈200 tok/s,Groq 级别)、9(≈800 tok/s,Cerebras 级别,瓶颈变成人眼);再在同一速率下切换 code 与 text 模式体验差异
- Token 计算方式:采用 BPE 风格近似分词,短词常为单 token,长标识符会被拆分(如
processUserInput→process+User+Input),标点和运算符也计入;代码 token 密度高于散文,相同 tok/s 下感知速度会因内容类型不同而有明显差异 - 速算参考:英文约 1.3 token/词,30 tok/s ≈ 23 词/秒