文章

羊羽的AI-Native周报(1)

羊羽的AI-Native周报(1)

AI-Native第一步,提升打字的速度

现在更多的是和 各类AI智能体用自然语言沟通,打字告诉它我的想法、它哪里做得不对。需要大量的输入中文,中英文输入比例由之前的二八开,变成了现在的八二开!

经常需要长篇大论的跟它【拉通对齐】!然后往往还带着情绪(因为它有时候自作聪明、南辕北辙、画蛇添足、非常气人),很着急的打字,一着急就各种幺蛾子。

当然也有可能是我的键盘原因,但是我已经换了很多键盘了!

脑子里想的手打出来的
脑子里想的手打出来的

根本原因是,全拼输入很容易拼错,韵母太长了!

拼音输入法里说的”韵母”,就是汉语拼音中声母后面的那一部分。

常见韵母一般包括这些:

单韵母:

a、o、e、i、u、ü

复韵母:

ai、ei、ui、ao、ou、iu、ie、ue、er

前鼻韵母:

an、en、in、un、ün

后鼻韵母:

ang、eng、ing、ong

如果按常见教学口径,一共是 24 个韵母。

这个问题一直有,只是之前轻度中文输入还能忍受,现在是忍不了一点了!

肯定有人问,为什么不语音输入?坦率的说,我试过了,但是因为语音识别工具没有之前的对话上下文,只能按当前语音输入来转文字,一些私域的名词啊、话术啊就识别不了!我还得一点点给它改,直接逼死急性子!

新形势必须要有新思路,全拼输入法已经成为瓶颈,五笔输入法上手又太麻烦,只能折中,准备开始学双拼输入法!

双拼输入法的本质是声母、韵母映射,汉语拼音一共24个声母、24个韵母,键盘有26个字母按键,完全可以够映射。

输入汉字时,按声母、韵母来按键,一般2次击键就可以输入一个汉字!

在这个大方向上,有大量的按键编排、映射方案,【搜狗输入法】支持如下方案:

搜狗输入法双拼方案列表

我选择的双拼方案是:小鹤双拼。原因是我google了一下,发现小鹤的曝光率、提及率最高!

反正各种方案都大差不差,那就挑个热闹的方案用!

小鹤双拼键位图

昨天慎重考虑后决定的!准备每天中午、晚上练习10到20分钟!他们说一周就能形成肌肉记忆看到疗效了!

我感觉这个习惯或者改变比去健身房运动简单多了!

烟都能戒,这个小挑战我肯定能行!等我一个月后拿到结果后给大家反馈吧!

双拼练习截图

学习日志自动沉淀

我现在非常喜欢用Claude Code 或者 Codex 来学习和研究新课题,之前都是用网页版的对话形式,比如Deepseek。

AI是很好的老师,Opus4.6和GPT5.4 更是顶级的好老师!之前的技术好奇心需要用各种搜索引擎、绞尽脑汁变换各种关键词来满足,而现在你只需要和O老师、G老师随意的聊天。

但是年纪大了,记忆力真的变差了。可能半个月前花了半个小时跟O老师多轮探讨终于深入理解了一个技术、一个课题的来龙去脉,然后过了半个月中间如果没有在工作中涉及或周期性回顾,就会忘记!!!

半个月后看到了那个技术名词或者啥线索,会记起来半个月前我认真的研究过它、深入的理解了它,但是!现在已经全忘了、记不起来了!

这种感觉很难受、非常难受!

难受的点在于:我知道自己损失了什么。如果我都记不起来我忘记了什么,那我都无所谓。

关键是我会意识到半个月前我兴奋的、满足的、沾沾自喜的花了半个多小时学的东西,被我忘了!!!

为了解决这个问题,我整了个Skill,对话结束以后,自动总结、沉淀提升了我认知的内容,按日期归档!

使用

使用示例

结果

日记录提示词
结果示例1结果示例2

这样有了归档以后,我就可以隔段时间就回顾下!毕竟全是我一点一点积累、沉淀的技术认知资产~

Skill

简要内容如下,可以结合自己的场景描述需求让Claude Code自己创建Skill。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
---
name: learning-log
description: 将当前对话里真正提升认知的新内容沉淀为学习日志;当用户表达"记录这次学习""记下刚才学到的内容""生成今天的学习日志"等意图时应触发。
---

# Learning Log

  将当前对话中真正有价值的"认知增量"沉淀到本地学习日志。优先记录新的理解、原理性认识、抽象关系与工程视角,不要保存整段聊天文本,也不要记录命令流水账。

  ## 适用场景

  在以下意图出现时触发:

- 记录这次学习
- 把刚才关于某个主题的认知点记下来
- 生成今天的学习日志
- 整理我今天学到了什么

  当用户只是在继续讨论问题、尚未表达"沉淀/记录/总结"意图时,不主动触发。

## 输出位置

- 原子记录:`~/Agent/learning-log/inbox.jsonl`
- 每日日志:`~/Agent/learning-log/YYYY-MM-DD.md`

jina-https://jina.ai/

发现了这个好用、免费的服务!

有两个东西对我很有用:

  1. 网页抓取、格式转换: 可以把网页内容转换成markdown。你试试访问这个:https://nptr.cc/posts/2026-04/no-js-is-not-necessary/ 再试试访问这个:https://r.jina.ai/https://nptr.cc/posts/2026-04/no-js-is-not-necessary/ 感受到差异了吧~
  2. 网络搜索: 提供了搜索引擎服务,而且格式对LLM非常友好。

MCP接入可以看这个:https://github.com/jina-ai/MCP

飞书-Cli

用Cli来驱动飞书能力,用下来很香!

飞书CLI截图

飞书 CLI 能力介绍与最佳实践

skills 统一管理

skill在各个智能体的配置方式比较统一,就是把技能的物料文件下载到约定目录,技能的物料格式在各个智能体之间基本兼容。

这就有了自动化安装技能的基础!

最近花了点时间把常常看到的这个技能安装的快捷命令原理好好研究了下。

1
npx skills add shadcn/ui

原理

  1. skills 是一个 npm package,类似java的Jar、python的whl。特别的是这个包有一个入口文件,类似java的main方法吧。

    详见:https://www.npmjs.com/package/skills

skills npm包截图

这里有两个入口文件,但是npx执行的时候没有指定时默认调用和 name 同名的 bin。

  1. npx 是一个 快捷运行 npm package的命令,它做的事情就是去 下载skills package、执行指定的入口命令(上图中的bin)。看起来就像是运行本地已经安装了的命令一样。
  2. skills包会解析 skill位置参数,支持github链接和本地目录
  3. 如果是github等网络位置,则先下载
  4. 在目录里递归搜索skill.md文件
  5. 每个包含skill.md文件的目录都是一个技能包

后面的就都是自然而然的了。

总结

有两个我觉得有用的点:

  1. 技能分发:可以是github代码仓库,也可以本地目录。
  2. 技能发现:会在目录里遍历、搜索所有技能。可以指定技能名安装,也可以全部安装。

这个工具还可以给你管理你本机已经安装的所有skill哦。

skills管理界面截图

升华

这里案例里有一个我自己认知的变化:之前我想了解一个命令的用法,要各种看文档、看博客,如果工具比较小众,资料少就很费劲。

现在就比较简单,我就把代码clone下来,然后把我想了解的东西整理成问题,让Claude Code给我分析出来!我还能不停的交互、追问。

TUI-Based IDE(基于终端的IDE)

现在终端界面的接受度越来越高了,如果发现自己其实逐渐用不上傻大黑粗的IDE的功能了,可以考虑逐步的去IDE!

下面是一个示例方案:

TUI IDE示例方案截图

yazi-https://yazi-rs.github.io/docs/installation

基于终端设计的文件管理器,甚至可以在终端预览图片!

yazi截图

lazygit-https://github.com/jesseduffield/lazygit

基于终端设计的Git管理工具,如果你重度依赖Jetbrains家的Git GUI工具,可以试试这个!

把它当做Jetbrains的TUI平替来理解好了!

JetBrains Git GUIlazygit Git TUI
JetBrains Git GUIlazygit Git TUI

终端复用/分屏

终端分屏这个东西,目前有两个架构层次的实现路线:

  1. 基于TUI的终端复用器。以tmux为典型,这个思路下衍生出来了很多同类产品比如:zellij

又是rust写的。一个东西只要可以用rust写,最后一定终究会用rust写!

  1. 基于GUI终端模拟器。大部分终端模拟器都可以实现基于GUI的分屏管理,比如Item2、Ghostty。

两种方案的本质都是【多开shell解释器,比如zsh】,技术细节我非常懂,但是太小众了我懒得讲了。

最直观的差异在进程树上:

基于GUI的模拟器分屏

1
2
3
4
5
6
7
8
9
10
11
12
操作系统内核 (launchd / systemd)
│
└─ [终端模拟器] (iTerm2 / Ghostty)     <- 主进程:既是渲染窗口,也是复用管理器
    │
    ├─ [zsh] (左分屏)                 <- 层级扁平:由模拟器直接 fork 出来的子进程
    │   └─ [vim]                     <- 响应极快:减少了一层协议解析
    │
    ├─ [zsh] (右上分屏)               <- 生命周期绑定:窗口关闭则进程组同步回收
    │   └─ [pnpm install]            <- 正在安装依赖
    │
    └─ [zsh] (右下分屏)               <- 原生集成:支持 GUI 级别的分屏拖拽和 UI 渲染
        └─ [git log]                 <- 查阅日志

基于TUI的终端复用器

1
2
3
4
5
6
7
8
9
10
11
12
13
操作系统内核 (launchd / systemd)
│
├─ [终端模拟器] (iTerm2 / Ghostty)     <- GUI 窗口进程:仅负责渲染
│   └─ [zsh] (初始 Shell)
│       └─ [tmux client]             <- 传声筒:负责将输入输出传给 Server
│
└─ [tmux server]                     <- 中间层服务端:管理所有分屏的核心大脑
    ├─ [zsh] (分屏 1)                 <- 实际工作的 Shell:实现了界面与会话的分离
    │   └─ [vim]                     <- 正在编辑代码
    ├─ [zsh] (分屏 2)                 <- 持久化运行:不会随窗口关闭而 SIGHUP
    │   └─ [npm run dev]             <- 正在运行的前端服务
    └─ [zsh] (分屏 3)
        └─ [htop]                    <- 系统监控

因为我很早很早,AI-Coding还没流行就开始深度的使用Iterm2终端模拟器了,所以我目前都是用GUI模拟器分屏方案,现在用下来也够用。之前试过tmux,感觉对鼠标的支持比较差,不知道zellij咋样没试过。

本文由作者按照 CC BY 4.0 进行授权