播客有个根本性的问题:它是线性的。一集两小时的节目,你要么从头听到尾,要么在快进中错过关键内容;想回忆某个观点,只能靠模糊的时间印象反复拖动进度条。
podcast-chat 解决的就是这个问题。扔一个链接进去,它自动完成音频下载、Whisper 转录、结构化摘要,最后和你深聊内容——带时间戳引用,随时跳回原音频。
支持的平台
目前支持两个平台:
- Apple Podcasts:直接粘贴分享链接(
podcasts.apple.com/...?i={episode_id}) - 小宇宙:粘贴单集链接(
xiaoyuzhoufm.com/episode/...)
两个平台覆盖了国内外主流播客的绝大多数内容。Apple Podcasts 的链接支持最近约 200 集(通过 iTunes API 获取音频),更早的老节目建议用小宇宙链接代替。
完整流水线:七个步骤
缓存优先
每次运行前,skill 会先用 URL 的 MD5 作为 key 检查本地转录缓存(存在 ~/.claude/memory/podcasts/)。同一集播客,第二次打开秒出摘要,不需要重新转录。
音频获取
缓存未命中时,从平台 API 提取音频直链,下载到本地临时目录。下载完成后立刻检测音频时长——这直接影响下一步的模型选择。
智能模型选择
这一步是 podcast-chat 比较用心的地方。它会先检测本地有没有 faster-whisper,再根据音频时长和语言给出推荐:
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 中文播客(任意时长) | medium | 中文识别准确率明显更高 |
| 英文播客,超过 40 分钟 | small | 精度够用,速度约快 3 倍 |
| 英文播客,40 分钟以内 | medium | 时间可控,不必牺牲精度 |
如果没有装任何转录后端,skill 会自动安装 faster-whisper(相比原版 openai-whisper 速度约快 4 倍)。转录以后台任务形式运行,不阻塞对话。
结构化摘要
转录完成后,skill 生成一份固定格式的摘要:
## 📻 节目标题
平台 | 时长 | 主播
### 核心主题
[1-2 句概括]
### 主要观点
1. ...(3-7 条,每条附简短说明)
### 值得关注的细节
[有意思的细节或金句,附大致时间位置]
摘要结束后,直接进入对话模式。
带时间戳的对话
这是整个 skill 最实用的部分。在对话中问任何问题,AI 回答时会附上时间位置:
"主播在约第 35 分钟提到,……"
时间戳来自转录文本里的 [Xs] 标记(秒数),skill 自动换算成分钟数。你可以直接拿这个时间跳到原音频,验证上下文,或者继续追问细节。
使用方式
在 Claude Code 中,直接扔链接就行:
https://podcasts.apple.com/cn/podcast/...?i=1000693000000 这期讲了什么
https://www.xiaoyuzhoufm.com/episode/abc123 帮我转录这集,想聊聊里面的观点
触发关键词:转录、内容、讲了什么、分析、对谈、聊聊,以及英文的 transcript、summarize。
以 faster-whisper medium 模型为例,一集 60 分钟的中文播客,M 系列 Mac 本地转录大约需要 10-15 分钟。转录在后台运行,完成前你可以继续做别的事,结束后 skill 自动推送结果。
首次使用需要安装 faster-whisper(或 openai-whisper)和 ffmpeg。skill 会自动检测并提示,但 ffmpeg 需要手动安装:brew install ffmpeg(macOS)。
转录缓存的意义
每次转录的结果会保存到 ~/.claude/memory/podcasts/,下次打开同一集直接读缓存。这个设计有两个好处:
- 节省时间:反复回顾某集节目时,不需要重新等转录
- 跨会话使用:今天转录的内容,下周依然可以继续追问
缓存用 URL 的 MD5 命名,互不干扰,积累下来就是一个私人的播客知识库。
小结
podcast-chat 的价值在于把一种消费型媒介(线性音频)变成了一种可检索、可对话的知识形态。它不是简单的"总结工具",而是让你能够真正和播客内容互动:追问细节、验证论点、提取观点、关联思考。
如果你有在听播客的习惯,这个 skill 会让你从播客里提取的价值翻倍。
解压后将 podcast-chat/ 目录放入 ~/.claude/skills/,重启 Claude Code 即可使用。还需安装 ffmpeg 和 faster-whisper(pip install faster-whisper)。