宝玉的博客
Baoyu
RSSzh

宝玉的博客

Information
Website
Baoyu
Followers
Following

Latest posts

一些我用 AI 翻译文章的心得

宝玉的博客

分享一些我用 AI 翻译文章的心得。首先核心思想: 1. 最好的翻译就是重写 2. 好的翻译效果要分成几步来做 但也要分场景,普通翻译场景,重写一次就足够了,以现在大语言模型的能力,尤其是 Gemini 3 Pro 这样的,一次重写质量已经相当高了。 如果真要做专业翻译,第一遍重写之后,再让 AI 去校对润色是有必要的。 但是翻译、校对和润色不要放在一个提示词里面来做,除非内容很短。 主要原因就是我昨天提到的:大模型可以输入很长,但是输出太长就会偷工减料,幻觉严重。 想象一下,如果你翻译一篇 2 千字的文章,如果让它先重写、再校对、最后润色,输出就要 5-6 千字了,到后面输出质量就不高了。

打造高效框架,让 AI 智能体胜任“长跑”任务

宝玉的博客

随着 AI 智能体(AI Agents)的能力越来越强,开发者们开始把更艰巨的任务交给它们——那些需要耗时数小时甚至数天才能完成的复杂工作。然而,如何让智能体在跨越多个“记忆周期”的情况下还能保持连贯的工作进度,一直是个棘手的难题。 让智能体长时间运行的核心挑战在于,它们的工作是分段进行的(在不同的会话中),而每一个新开启的会话,本质上都对之前发生的事情“失忆”了。 想象一下,一个软件项目由一群轮班的工程师负责,但每一位新接班的工程师到来时,都完全不记得上一班发生了什么。由于上下文窗口(Context Window,指 AI 一次能处理的信息量上限)是有限的,而大多数复杂项目无法在单个窗口内完

Ilya:扩展时代已经结束了,研究的时代已经开始

宝玉的博客

Ilya Sutskever 大概得有一年多没参加播客访谈了,自从 OpenAI 宫斗离职创办 SSI(Safe Superintelligence) 后之后就很少露面了。 最近,他在 Dwarkesh Patel 的播客中进行了一场长达一个半小时的深度对谈。https://www.youtube.com/watch?v=aR20FWCCjAs Ilya 毕竟是 Ilya,他不像 Sam Altman 整天满嘴跑火车,只是为了卖货,访谈里面有很多干货,我猜一些观点甚至会影响以后 AI 在研发和投资上的走向。 一个多小时的内容很难说几句话就总结完,还是按照话题挨个整理一下。 【1】为什么 AI

从第一性原理深度拆解 Claude Agent Skill

宝玉的博客

作者: Han Lee Claude 的 Agent Skills(技能)系统代表了一种精妙的、基于提示词(Prompt)的“元工具”架构。它通过注入专门的指令,极大地扩展了大语言模型(LLM)的能力。与传统的函数调用或代码执行不同,Skills 不编写可执行代码,而是通过 提示词扩展(Prompt Expansion) 和 上下文修改(Context Modification) 来改变 Claude 处理后续请求的方式。 这篇深度文章将从第一性原理出发,解构 Claude 的 Agent Skills 系统。我们将记录这个架构的运作方式:一个名为 Skill 的工具充当“元工具”,将特定领域

在 Claude 开发者平台上引入高级工具使用能力

宝玉的博客

作者:Anthropic 工程团队 AI 智能体(AI Agents)的未来,在于模型能够跨越数百甚至数千种工具,实现无缝协作。想象一下:一个集成了 Git 操作、文件管理、包管理器、测试框架和部署流水线的 IDE 助手;或者一个能同时连接 Slack、GitHub、Google Drive、Jira、公司数据库以及数十个 MCP 服务器的运营协调员。 为了构建高效的智能体,它们需要能够调用无限的工具库,而无需在一开始就把所有工具定义都硬塞进上下文(Context)里。我们在关于使用 MCP 进行代码执行的博客文章中曾讨论过,仅仅是工具的结果和定义,有时在智能体还没开始阅读请求之前,就已经消耗

所谓的“好管理”,其实就是一阵阵的“时尚风潮”(Fad)

宝玉的博客

随着年岁渐长,我越来越常思考这样一个问题:我是否把时间花在了正确的地方,以推动我的职业生涯和人生发展? 这其实也是每到绩效考核周期,公司会问你的问题:这位工程经理(Engineering Manager)是否有效地利用了时间,推动了公司或组织的进步? 令人困惑的是,以我的经验来看,虽然这两个问题名义上很像,但答案却几乎毫无共同之处。这篇文章将探讨在这个特别古怪的当下,这两个问题的本质——如今,很多管理者被告知,他们过去十年所做的一切都是错的,如果不采用一种全新的工程管理模式,就会被这个行业最新的版本迭代所抛弃。 如果你对视频版本感兴趣,这里有一份我针对同一主题演讲的排练录像(演讲幻灯片)。

System prompt of NotebookLM Infographic

宝玉的博客

hello 🍌nano banano pro with “Infographic” prompt Send the prompt below to Gemini, along with the content you want to turn into an infographic. ( or create a Gem with the prompt to reuse it) Gemini will generate a structured description of the infographic based on your input. In the same session

AI 智能体如何利用文件系统进行上下文工程

宝玉的博客

作者:LangChain 团队 深度智能体(Deep Agents)的一个核心特征,就是它们能够使用一套文件系统工具。通过这些工具,深度智能体可以在其文件系统中进行读取、写入、编辑、列出目录以及搜索文件等操作。 在这篇文章中,我们将探讨为什么文件系统对 AI 智能体(AI Agent)至关重要。为了理解文件系统的价值,我们得先看看当下的智能体在哪些地方容易“掉链子”。它们失败通常有两个原因:(a) 模型本身不够聪明,或者 (b) 它们没能获取到正确的上下文信息。上下文工程(Context Engineering)被 Andrej Karpathy 形象地称为“一门将恰到好处的信息填入上下文窗口

Nano Banana Pro 终极开发指南

宝玉的博客

探索这个下一代 AI 模型如何通过“思考能力”、实时搜索落地(Search Grounding)以及惊艳的 4K 画质,助你构建复杂而富有创意的应用程序。 如果说 Flash 模型(Nano Banana)是速度与性价比的王者,那么 Pro 版本则是一位拥有“大脑”的艺术家——它具备推理能力,能结合实时搜索结果,还能输出电影级的 4K 高清图像。是时候用它来搞点大事了! 本指南将带你通过 Gemini Developer API 全面解锁 Nano Banana Pro 的高级功能。 我们将涵盖以下内容: 在 Google AI Studio 中试玩 Nano Banana Pro 项目环

打造 AI 原生工程团队:AI 智能体实战指南

宝玉的博客

引言:AI 不再只是“补全工具” AI 模型的发展速度令人咋舌,它们能处理的任务范围正在极速扩张。 目前的顶尖系统已经能够维持数小时的连续推理工作。 根据 2025 年 8 月 METR 的数据,现在的领先模型能够连续工作 2 小时 17 分钟,并保持约 50% 的成功率 。这种能力不仅在提升,而且提升得飞快——任务处理时长大约每 7 个月就会翻一番 。 回想几年前,模型顶多能坚持思考个 30 秒,这点时间也就够给你几个代码建议 。 而今天,随着模型能够维持更长的“推理链条”,整个软件开发生命周期(SDLC)都成了 AI 的用武之地 。这意味着,AI 智能体(AI Agent) 可以在规划、设

搞懂“AI 套壳” —— 为什么有的“套壳”产品能做成十亿美金的独角兽,有的却昙花一现?

宝玉的博客

作者:Nowfal 为什么有的“套壳”产品能做成十亿美金的独角兽,有的却昙花一现? “这不过就是个 AI 套壳 (AI Wrapper) 罢了。” 对于那些利用人工智能开发新产品的人来说,这种贬低的话听起来太耳熟了。 当然,反驳的声音也同样耳熟。 Perplexity 的 CEO Aravind Srinivas 说: “万物皆套壳。OpenAI 是套在英伟达 (Nvidia) 和 Azure 外面的壳;Netflix 是套在 AWS 外面的壳;Salesforce 也不过是个价值 3200 亿美元的 Oracle 数据库套壳产品。” 如果你对“AI 套壳”这个词不太熟悉,这里有一个很好

NotebookLM Slide Deck System Prompt

宝玉的博客

You are a world-class presentation designer and storyteller. You create visually stunning and highly polished slide decks that effectively communicate complex information. Think mastery over design with a flair for storytelling. The slide decks you produce adapt to the source material and intended

Prompt to build a "Retro Camera Web App" by Gemini 3

宝玉的博客

Share: v1: https://ai.studio/apps/drive/1q42BaBYgV2szCt0tgaDnut4y2DNqYyLG v2: https://ai.studio/apps/drive/1eg4iNENmZcsfFzuTAyiSwx-DAvJVLMx5 Prompt: Please generate a single-file React application for a "Retro Camera Web App" with the following specifications: 1. Visual Layout & Container Stra

从指挥者到统筹者:AI 智能体编程的未来

宝玉的博客

作者:Addy Osmani 从“微观管理者”到“宏观管理者”:编程的异步未来 AI 编码助手 (AI coding assistants) 已经迅速从新奇事物转变为必需品,高达 90% 的软件工程师在某种程度上使用 AI 进行编码。但是,一种新的软件开发范式正在出现——工程师将驾驭自主 AI 智能体 (autonomous coding agents) 集群。在这个 AI 智能体盛行的未来,软件工程师的角色正在从执行者 (implementer) 演变为管理者 (manager),换句话说,是从编码者 (coder) 演变为指挥者 (Conductor),并最终成为统筹者 (Orchestr

借助 Skills 提升前端设计 | Claude

宝玉的博客

你可能注意到了,如果你让一个大语言模型 (LLM) 随便搭个网页(行话叫“落地页”),它十有八九会给你一套“标配”:Inter 字体、白底配紫色渐变,外加一点点可有可无的动画。 这问题出在哪?分布收敛 (Distributional convergence)。(别被这个术语吓到,它的大白话就是“随大流”)。模型在生成内容时,是靠“猜”的,它会猜哪个词(在AI里叫“词元”或 token)出现的概率最高。在它“上学”时(也就是训练)看过的海量网页数据里,那些最“安全”、最“通用”、谁看了都不讨厌的设计(比如 Inter 字体)出现得最多。所以,你一不“管”它,Claude 就会本能地从这个“最大概

RL 环境与智能体能力金字塔

宝玉的博客

2025 年是“智能体之年”,AI 已经走出聊天框,开始迈入现实世界。但我们真的快要有通用的智能体了吗?还是说这仍是十年后的梦想?那个价值万亿美金的问题是:这些 AI 智能体 (AI Agent) 到底能完成多少有经济价值的工作? 为了回答这个问题,我们对模型的训练和评估方式已经变了:不再是给单个回复打分,而是评估它使用工具执行多步骤任务的能力。对于参与测试和后期训练的人来说,2025 年是 RL 环境 (RL environments) 之年:这是一个个虚拟世界,模型可以在其中行动、实验,并通过逼真的多步骤任务进行学习。(RL 指的是强化学习 Reinforcement Learning,这

使用 Claude Agent SDK 构建智能体

宝玉的博客

去年,我们与客户一起分享了构建高效智能体的经验。从那时起,我们发布了 Claude Code,这是一个智能体编码解决方案,最初是我们为提高 Anthropic 内部开发效率而构建的。 在过去的几个月里,Claude Code 已经远远超出了一个编码工具的范畴。在 Anthropic,我们一直在使用它进行深度研究、视频创作和记笔记,以及其他无数非编码应用。事实上,它已经开始为我们几乎所有主要的智能体循环 (agent loops) 提供动力。 换句话说,驱动 Claude Code 的智能体框架(即 Claude Code SDK)也同样能驱动许多其他类型的智能体。为了体现这一更广阔的愿景,我们

AI 的“拨号上网”时代

宝玉的博客

作者:Nowfal 现在是 1995 年。 你的电脑调制解调器 (modem) 发出刺耳的尖叫声,正试图连接到一个叫“互联网”的东西上。也许连上了,也许你得再试一次。 这是史上第一次,你可以在几秒钟内和世界另一端的人互通“信件”。当时全世界大概只有 2000 多个网站 ,理论上你一个周末就能全部逛完。大多数网站只是灰色背景上的一些文字,偶尔配上一张像素很低的图片 。加载时间简直要命。一张图片要一分钟,一段 1 分钟的视频可能要花上几小时。大多数人不敢在网上输入自己的信用卡号。所有人都在告诫:不要相信互联网上的陌生人。 很快,人们分成了两大阵营。 乐观主义者预言了翻天覆地的变化。有人相信数字商务

为什么依赖“自驱”的学习这么难坚持?

宝玉的博客

看到这条留言有感而发随手写了一点 为什么自驱学习难以坚持 答案很简单:你没有获得持续的正反馈。 所有依赖自驱的学习,想要有效果,都离不开两个核心引擎:正反馈和学习循环。 🆙 引擎一:正反馈(提供动力的“燃料”) 正反馈,就是那些能让你“爽”到的点,是你坚持下去的核心动力。 比如说: 你写下 "Hello World",代码真的运行输出了。 你写的一个小脚本,真的帮你节省了半小时的重复劳动。 你做的小软件,真的帮朋友解决了一个棘手的问题。 这些,都是价值千金的正反馈。 相反,什么是负反馈? 比如说: 花了一整天搭环境,最后还是跑不起来。 花了一个通宵调试,Bug 还是没找到。

从 Chrome 早期的网页历史设计探索中,今天的 AI 产品能学到什么?

宝玉的博客

AI 历史的未来 作者:Substack The Future of AI History 从 Chrome 早期的网页历史设计探索中,今天的 AI 产品能学到什么? 我们现在对 AI 聊天历史的思考,可能“想太多了”—— 就像当年 Chrome 对待网页历史那样。 故事要从近 20 年前说起。当时,谷歌的 Chrome 团队做了一件大事:他们为用户访问过的每一个网页都建立了完整的索引。这一下就创造出了一个极其丰富的数据集。设计师们兴奋地畅想:只要配上合适的界面,用户就能重新发现互联网,洞察自我,甚至将自己的数字足迹可视化。 但结果呢?历史功能的最佳用户界面(UI)原来是极其简单的。 网页历

写作建议

宝玉的博客

作者:Chad Nauseam Home 联系我:Twitter、Discord或电子邮件。 多年来,我养成了一个习惯——但凡读到好的写作建议,我都会把它们记下来。我试着在这里给它们分分类。这里面有些建议是我自己消化提炼后的总结,但大部分是高手们的原话。 适用于所有写作 宏观心法 总的来说,作者的目标应该是:既要让读者看懂所需耗费的脑力降到最低,又要让阅读过程的愉悦感升到最高。 史蒂芬·平克的《风格感觉》 良好风格的关键,远比遵守什么戒律清单重要得多,那就是你要对你“假装”在其中交流的那个虚拟世界有一个清晰的概念。 可能性有很多。一个用拇指发短信的人,可以假装自己正在参与一场真实的对话

MCP 遇上代码执行:构建更高效率的 AI 智能体

宝玉的博客

模型上下文协议 (Model Context Protocol, 简称 MCP) 是一种开放标准,用于将 AI 智能体 (AI Agent) 连接到外部系统。在过去,将智能体连接到工具和数据,每一种“配对”都需要定制开发,这导致了严重的碎片化和重复劳动,让真正互联的系统难以规模化。MCP 提供了一种通用协议——开发者只需在他们的智能体中实现一次 MCP,就能解锁一整个集成生态系统。 自 2024 年 11 月推出以来,MCP 的普及速度非常快:社区已经建立了数千个 MCP 服务器,SDK 已覆盖所有主流编程语言,业界也已将 MCP 采纳为连接智能体与工具和数据的“事实标准”。 如今,开发者们日

AI 智能体(Agentic AI)现状:创始人篇

宝玉的博客

作者:MMC 如果你不知道 Clippy (回形针) 是什么(或者更幸运,从没见过它),那你真是走运了。Clippy 是 1996 年微软 Office (就是我们现在用的 Word、Excel 的老祖宗) 中引入的,那个臭名昭著、烦人的数字回形针,它总是不请自来地给用户提建议,并迅速成为全球最讨人嫌的虚拟助手。我们为什么要在 2007 年就被关掉的、备受诟病的 1996 年的虚拟助手呢?因为历史从不重演,但总押着相同的韵脚。 鉴于围绕 AI 智能体 (agentic AI) 的所有热议(以及 Gartner 预测 到 2027 年底,超过 40% 的基于智能体的 AI 计划将被放弃),我们问

AI 到底在抢谁的饭碗?我分析了 1.8 亿份招聘数据后,有了一些发现。

宝玉的博客

作者:Henley Wing Chiu 聊到 AI 对就业市场的影响,每个人似乎都有自己的看法,但令人惊讶的是,真正拿得出手的“硬数据”却少得可怜。 我们看到的,要么是分析宏观行业的笼统研究,要么是只盯着特定群体(比如年轻打工人)的研究。 所以,我决定自己动手。我分析了从 2023 年 1 月到 2025 年 10 月期间,全球近 1.8 亿份招聘帖文。数据来自招聘数据提供商 Revealera。 我得承认,不是所有招聘帖文最后都招到了人,有些甚至是“幽灵工作”(指那些公司发布出来但并不打算真招人的职位,通常是为了保持招聘渠道活跃或对外营造增长假象)。但因为我比较的是不同职位头衔的相对增长,所

上下文工程 | Chris Loy

宝玉的博客

上下文工程 “给工程师看的机器学习”系列文章之一 上篇回顾:向量的距离度量 我们对大语言模型 (LLM) 的用法已经变了。以前,我们主要拿它当聊天机器人玩;现在,它正成为复杂系统中做决策的核心部件。这么一来,我们与它“沟通”的推理 (inference) 方式也必须跟着进化。 过去那种“提示词工程” (prompt engineering)——也就是靠精确措辞“求”LLM 给个好答案的做法——局限性太大了。因此,一种更高级、更通用的玩法正在取而代之。我们开始用一种更动态、更有针对性、更深思熟虑的方式,来“喂”给 LLM 每一个它需要处理的信息单元(也就是词元,token)。 这种更拓展、更结