文章

羊羽的AI-Native周报(3)

羊羽的AI-Native周报(3)

GPT Image 2.0 真不错!

  
GPT Image 生成图1GPT Image 生成图2

每天都有免费额度!

chatgpt.com

打不开?

ChatGPT打不开提示

参考羊羽4个月前的文章:科学上网的原理和Gemini Chat的使用

知识和技巧

iTerm2 快捷打开 ClaudeCode

陆续帮几个产品、运营同学做了 Claude Code 的安装和调试——他们也想试试 Claude Code。

但我发现 Claude Code 这种 TUI(终端用户界面)类型的产品,对他们来说非常不友好。

让他们打开一个终端、新建 tab、输入命令回车启动——这套流程对非技术背景的同学来说,认知负担是很重的。

就算是程序员群体里,也有相当一部分人对终端并不熟悉,日常更习惯 high-level 的 GUI 或 IDE。

但是我找了一圈也没有啥比较好的 Claude Code GUI 应用,所以这件事需要自己想办法做一些适配。

后来我想到了一个非常取巧的办法:给非技术背景的同事装 iTerm2,通过预定义设置,把它变成一个「点击即进入 Claude Code」的受限终端启动器。

好处

  1. 降低操作门槛:他们日常没有「黑屏操作」的需求,不需要理解终端本身
  2. 明确功能定位:打开 iTerm2 这个应用的唯一目的就是使用 Claude Code
  3. 简化认知:对他们来说,iTerm2 就是一个 Claude Code 启动器

配置步骤

  1. 安装 iTerm2:brew install --cask iterm2(或从 iterm2.com 下载安装包)
  2. 打开 iTerm2 → Settings → Profiles,点击 + 新建一个 Profile,命名为「Claude Code」
  3. 在 General 标签中,将 Command 选为 Login Shell,并在 Send text at start 中填入 claude
  4. 在 Window 标签中,按需设置窗口大小、透明度等外观参数
  5. 保存后,这个 App 打开就是 Claude Code 界面啦~

iTerm2 Profile配置1

ClaudeCode搭配使用Codex

Claude Code 作为 TUI 界面的 AI 辅助编程工具,已经是事实上的统治者了——大家一说起 AI 编程,首先想到的就是 Claude Code。

但 OpenAI 在后面紧追不舍。

Codex 很早就推出了,配合最新的 GPT-Codex 模型(针对 AI 编程做了专门的定制优化),不管是使用体验还是编程效能,都已经非常有吸引力,最近使用量和用户接受度也越来越高。

为了方便大家在保持 Claude Code 使用习惯的同时逐步迁移,Codex 提供了一个 skill,可以在 Claude Code 编码工作流程中集成 Codex:

  1. 直接在 Claude Code 里做代码变更
  2. 通过这个 skill 委托 Codex 进行交叉的代码验收、测试或 Code Review

Codex Skill 截图

命令说明
/codex:setup检查本地 Codex CLI 是否已就绪
/codex:review对当前仓库的本地 git 状态执行 Codex 代码审查
/codex:result查看当前仓库中已完成 Codex 任务保存的最终输出结果
/codex:status查看当前仓库中正在运行和最近的 Codex 任务状态
/codex:cancel取消当前仓库中正在执行的后台 Codex 任务
/codex:rescue通过子代理将任务委托给 Codex 处理

https://github.com/openai/codex-plugin-cc

jina-web-skills

skill 安装引导:yungyu16/skills

一个轻量级 Claude Code 自定义 Skill,通过 Jina AI OpenAPI 实现网页内容读取和网络搜索功能。

可作为 Claude Code 内置 WebFetch 和 WebSearch 工具的高效替代方案,零第三方依赖,支持并发操作。

什么是 Jina AI

Jina AI 是一家专注于多模态 AI 基础设施的公司,提供 Reader、Search、Embeddings 等 AI 服务和 API。

本 Skill 使用了其 Reader 和 Search 两大 OpenAPI,为 AI Agent 提供网络信息获取能力。

为什么要用这个 Skill?

Claude Code 内置的 WebFetchWebSearch 工具需要付费订阅才能使用。

如果你没有订阅,或者需要更强大的网络信息获取能力,这个 Skill 是一个高效的替代方案:

对比项Claude Code 内置工具Jina Skill
可用性需要 Claude Code 付费订阅只需 Jina API Key(Reader API 免费)
网页读取一次读取单个 URL多 URL 并发读取
网络搜索基础搜索支持时间/地域过滤
PDF 支持不支持支持
灵活度固定行为可控制结果数、输出文件、提取链接/图片

功能特性

  • 网页内容读取:将网页或 PDF 转为干净的 Markdown,支持提取链接和图片
  • 网络搜索:实时互联网搜索,支持时间过滤、地域/语言设置
  • 认证管理:支持环境变量和持久化文件两种认证方式
  • 并发操作:多个 URL 或关键词自动并行处理,保持结果顺序

大模型 Token 计费逻辑

最近 DeepSeek V4 发布了,一个非常大的卖点就是成本极低——百万 Token 的单价可能只有国外同类型模型(比如 Claude 系列模型)的十分之一。

我在看它的产品 Spec 时,发现里面标注了输入 Token 单价、输出 Token 单价、命中缓存和未命中缓存的价格差异……各种维度的价格差异看得人眼花,所以我研究了一下,这里做个总结。

Token计费表格

前置概念:

大模型 API 是无状态的 request-response 模型。 给大模型(或 API 网关)发一个请求,大模型在线推理后返回一个响应。

在这个过程中,Token 分两类:

  1. 输入 Token:请求中的提示词(Prompt)和上下文内容
  2. 输出 Token:响应中模型推理生成的内容(无论流式还是非流式)

ReAct 循环下的 Token 累加

在 Agent 或 Agentic App 的场景下(包括 Claude Code、Codex 等),大多采用 ReAct 架构——核心是「观察 → 动作 → 推理(Reasoning)→ 响应 → 再观察」的循环。

每一轮的请求和响应会拼接起来,作为下一轮的输入:第 n 轮的输入 Token + 输出 Token,共同转化为第 n+1 轮的输入 Token

Cache(缓存)机制

Cache 只对输入 Token 生效,输出 Token 不会有缓存(因为输出是模型即时推理出来的)。

但输出 Token 在后续轮次中角色会变化:

  1. 第 n 轮的输出 Token,变成第 n+1 轮的输入 Token
  2. 随后,它可能成为第 n+2 轮的 Cache Token

简单说:Cache Token 这个概念只针对输入 Token,即请求中带来的上下文和提示词。

定价的大致概念

  1. 输入 Token 的计费单价至少是输出 Token 的 1/2(比例约 1:2)
  2. 命中 Cache 的输入 Token 价格,是没有命中 Cache 的输入 Token 价格的 10%(即 1/10)

言论和想法

跟 Gemini 唠了唠职场困惑

跟 Gemini 聊了聊最近的一些职场困惑,我感觉它说得好有道理。正着肯定我、反着批判我,都让我心服口服!

  
Gemini对话1Gemini对话2
Gemini对话3Gemini对话4

Node.js 才是最高效的 Agent 开发平台

我觉得 Node.js 才是最合适的 Agent 开发平台,四个理由:

协程 + 异步,天生适合流式场景

大模型 API 都是 SSE 流式返回,Node.js 的异步模型处理起来非常自然。反观 Java 对接 LLM 简直折磨,WebFlux 写起来也一言难尽;Python 生态虽强,但前端侧的工具体验还是差一截。

前后端一把梭

谁都会点 JS,没人不会 JS。Agent 应用往往是前后端一体的,用一套语言从头写到尾,省心智负担。

TypeScript 强类型,扛得住高频重构

AI 写的代码变脸比翻书还快。TS 的好处:

  • 改接口签名,编译器直接标红,不用跑测试撞大运
  • 类型就是活文档,AI 改代码时歧义少、幻觉也少
  • 对比 Python,项目一大、AI 参与度一高,重构就是扫雷

成熟的 AI 开发生态

后端有 Vercel AI SDK 这类 LLM 抽象层,界面侧用 React 就能写 TUI。Claude Code、Gemini CLI 这些你正在用的 AI Agent 终端产品,全是 Node.js / TypeScript 写的。

Node.js生态截图

TypeScript 好啊,TypeScript 得学啊。又能干前端、又能干后端!一般的 FaaS/BaaS 平台也是拿 JavaScript 作为一等公民来支持!

有 AI 了,更累了

累了

我发现,尽管 AI 写代码确实很快——只要你愿意,代码行数可以像往硬盘里写无用数据一样瞬间填满。

但这种速度的提升,反而让开发者的工作变得更累了。

工作性质的转变

  • 以前:我们是自己在打磨和创造代码,里面融入了心思和创意
  • 现在:更多是在看 AI「表演」,然后帮它做审核和善后

枯燥的审核过程

这种状态有点像「数据标注师」或者「鉴黄师」——机械地面对一张图片,标注哪里是猫、哪里是狗。非常枯燥,缺少了以前那种获得感和成就感。

所以体感上,比以前还要累一些。大概就是这样。

本文由作者按照 CC BY 4.0 进行授权