羊羽的AI-Native周报(3)
GPT Image 2.0 真不错!
每天都有免费额度!
打不开?
参考羊羽4个月前的文章:科学上网的原理和Gemini Chat的使用
知识和技巧
iTerm2 快捷打开 ClaudeCode
陆续帮几个产品、运营同学做了 Claude Code 的安装和调试——他们也想试试 Claude Code。
但我发现 Claude Code 这种 TUI(终端用户界面)类型的产品,对他们来说非常不友好。
让他们打开一个终端、新建 tab、输入命令回车启动——这套流程对非技术背景的同学来说,认知负担是很重的。
就算是程序员群体里,也有相当一部分人对终端并不熟悉,日常更习惯 high-level 的 GUI 或 IDE。
但是我找了一圈也没有啥比较好的 Claude Code GUI 应用,所以这件事需要自己想办法做一些适配。
后来我想到了一个非常取巧的办法:给非技术背景的同事装 iTerm2,通过预定义设置,把它变成一个「点击即进入 Claude Code」的受限终端启动器。
好处
- 降低操作门槛:他们日常没有「黑屏操作」的需求,不需要理解终端本身
- 明确功能定位:打开 iTerm2 这个应用的唯一目的就是使用 Claude Code
- 简化认知:对他们来说,iTerm2 就是一个 Claude Code 启动器
配置步骤
- 安装 iTerm2:
brew install --cask iterm2(或从 iterm2.com 下载安装包) - 打开 iTerm2 → Settings → Profiles,点击 + 新建一个 Profile,命名为「Claude Code」
- 在 General 标签中,将 Command 选为
Login Shell,并在Send text at start中填入claude - 在 Window 标签中,按需设置窗口大小、透明度等外观参数
- 保存后,这个 App 打开就是 Claude Code 界面啦~
ClaudeCode搭配使用Codex
Claude Code 作为 TUI 界面的 AI 辅助编程工具,已经是事实上的统治者了——大家一说起 AI 编程,首先想到的就是 Claude Code。
但 OpenAI 在后面紧追不舍。
Codex 很早就推出了,配合最新的 GPT-Codex 模型(针对 AI 编程做了专门的定制优化),不管是使用体验还是编程效能,都已经非常有吸引力,最近使用量和用户接受度也越来越高。
为了方便大家在保持 Claude Code 使用习惯的同时逐步迁移,Codex 提供了一个 skill,可以在 Claude Code 编码工作流程中集成 Codex:
- 直接在 Claude Code 里做代码变更
- 通过这个 skill 委托 Codex 进行交叉的代码验收、测试或 Code Review
| 命令 | 说明 |
|---|---|
/codex:setup | 检查本地 Codex CLI 是否已就绪 |
/codex:review | 对当前仓库的本地 git 状态执行 Codex 代码审查 |
/codex:result | 查看当前仓库中已完成 Codex 任务保存的最终输出结果 |
/codex:status | 查看当前仓库中正在运行和最近的 Codex 任务状态 |
/codex:cancel | 取消当前仓库中正在执行的后台 Codex 任务 |
/codex:rescue | 通过子代理将任务委托给 Codex 处理 |
jina-web-skills
skill 安装引导:yungyu16/skills
一个轻量级 Claude Code 自定义 Skill,通过 Jina AI OpenAPI 实现网页内容读取和网络搜索功能。
可作为 Claude Code 内置 WebFetch 和 WebSearch 工具的高效替代方案,零第三方依赖,支持并发操作。
什么是 Jina AI
Jina AI 是一家专注于多模态 AI 基础设施的公司,提供 Reader、Search、Embeddings 等 AI 服务和 API。
本 Skill 使用了其 Reader 和 Search 两大 OpenAPI,为 AI Agent 提供网络信息获取能力。
为什么要用这个 Skill?
Claude Code 内置的 WebFetch 和 WebSearch 工具需要付费订阅才能使用。
如果你没有订阅,或者需要更强大的网络信息获取能力,这个 Skill 是一个高效的替代方案:
| 对比项 | Claude Code 内置工具 | Jina Skill |
|---|---|---|
| 可用性 | 需要 Claude Code 付费订阅 | 只需 Jina API Key(Reader API 免费) |
| 网页读取 | 一次读取单个 URL | 多 URL 并发读取 |
| 网络搜索 | 基础搜索 | 支持时间/地域过滤 |
| PDF 支持 | 不支持 | 支持 |
| 灵活度 | 固定行为 | 可控制结果数、输出文件、提取链接/图片 |
功能特性
- 网页内容读取:将网页或 PDF 转为干净的 Markdown,支持提取链接和图片
- 网络搜索:实时互联网搜索,支持时间过滤、地域/语言设置
- 认证管理:支持环境变量和持久化文件两种认证方式
- 并发操作:多个 URL 或关键词自动并行处理,保持结果顺序
大模型 Token 计费逻辑
最近 DeepSeek V4 发布了,一个非常大的卖点就是成本极低——百万 Token 的单价可能只有国外同类型模型(比如 Claude 系列模型)的十分之一。
我在看它的产品 Spec 时,发现里面标注了输入 Token 单价、输出 Token 单价、命中缓存和未命中缓存的价格差异……各种维度的价格差异看得人眼花,所以我研究了一下,这里做个总结。
前置概念:
大模型 API 是无状态的 request-response 模型。 给大模型(或 API 网关)发一个请求,大模型在线推理后返回一个响应。
在这个过程中,Token 分两类:
- 输入 Token:请求中的提示词(Prompt)和上下文内容
- 输出 Token:响应中模型推理生成的内容(无论流式还是非流式)
ReAct 循环下的 Token 累加
在 Agent 或 Agentic App 的场景下(包括 Claude Code、Codex 等),大多采用 ReAct 架构——核心是「观察 → 动作 → 推理(Reasoning)→ 响应 → 再观察」的循环。
每一轮的请求和响应会拼接起来,作为下一轮的输入:第 n 轮的输入 Token + 输出 Token,共同转化为第 n+1 轮的输入 Token
Cache(缓存)机制
Cache 只对输入 Token 生效,输出 Token 不会有缓存(因为输出是模型即时推理出来的)。
但输出 Token 在后续轮次中角色会变化:
- 第 n 轮的输出 Token,变成第 n+1 轮的输入 Token
- 随后,它可能成为第 n+2 轮的 Cache Token
简单说:Cache Token 这个概念只针对输入 Token,即请求中带来的上下文和提示词。
定价的大致概念
- 输入 Token 的计费单价至少是输出 Token 的 1/2(比例约 1:2)
- 命中 Cache 的输入 Token 价格,是没有命中 Cache 的输入 Token 价格的 10%(即 1/10)
言论和想法
跟 Gemini 唠了唠职场困惑
跟 Gemini 聊了聊最近的一些职场困惑,我感觉它说得好有道理。正着肯定我、反着批判我,都让我心服口服!
Node.js 才是最高效的 Agent 开发平台
我觉得 Node.js 才是最合适的 Agent 开发平台,四个理由:
协程 + 异步,天生适合流式场景
大模型 API 都是 SSE 流式返回,Node.js 的异步模型处理起来非常自然。反观 Java 对接 LLM 简直折磨,WebFlux 写起来也一言难尽;Python 生态虽强,但前端侧的工具体验还是差一截。
前后端一把梭
谁都会点 JS,没人不会 JS。Agent 应用往往是前后端一体的,用一套语言从头写到尾,省心智负担。
TypeScript 强类型,扛得住高频重构
AI 写的代码变脸比翻书还快。TS 的好处:
- 改接口签名,编译器直接标红,不用跑测试撞大运
- 类型就是活文档,AI 改代码时歧义少、幻觉也少
- 对比 Python,项目一大、AI 参与度一高,重构就是扫雷
成熟的 AI 开发生态
后端有 Vercel AI SDK 这类 LLM 抽象层,界面侧用 React 就能写 TUI。Claude Code、Gemini CLI 这些你正在用的 AI Agent 终端产品,全是 Node.js / TypeScript 写的。
TypeScript 好啊,TypeScript 得学啊。又能干前端、又能干后端!一般的 FaaS/BaaS 平台也是拿 JavaScript 作为一等公民来支持!
有 AI 了,更累了
我发现,尽管 AI 写代码确实很快——只要你愿意,代码行数可以像往硬盘里写无用数据一样瞬间填满。
但这种速度的提升,反而让开发者的工作变得更累了。
工作性质的转变
- 以前:我们是自己在打磨和创造代码,里面融入了心思和创意
- 现在:更多是在看 AI「表演」,然后帮它做审核和善后
枯燥的审核过程
这种状态有点像「数据标注师」或者「鉴黄师」——机械地面对一张图片,标注哪里是猫、哪里是狗。非常枯燥,缺少了以前那种获得感和成就感。
所以体感上,比以前还要累一些。大概就是这样。
/01-gpt-image-1.png)
/02-gpt-image-2.png)
/03-chatgpt-open.png)
/04-iterm2-profile-1.png)
/06-codex-skill.png)
/11-token-pricing.png)
/12-gemini-chat-1.png)
/13-gemini-chat-2.jpg)
/14-gemini-chat-3.png)
/15-gemini-chat-4.png)
/16-nodejs-agent.png)
/17-ai-tired.png)