by chubbyguan
Ingest Chinese content from platforms such as Douyin, Bilibili, Xiaohongshu, WeChat Official Accounts, X/Twitter, and podcasts, automatically transcribe videos, enrich with summaries, tags, and insights, and store the result as structured Markdown in an Obsidian vault with an MCP server for agent‑wide retrieval.
Chubby Skills provides a collection of AI‑driven skills that let you capture, transcribe, enrich, and organize multimedia content from the major Chinese social and video platforms into a searchable personal knowledge base.
git clone https://github.com/chubbyguan/chubbyskills.git
cd chubbyskills
python3 tools/check_env.py
setup.sh script. Choose a light install for text‑only skills or add video, podcast, wechat, or all for heavy dependencies.python3 tools/chubby_ingest.py "<content‑url>" -o output/ --enrich
The tool auto‑detects the platform, calls the appropriate skill, optionally enriches the output with DeepSeek, and can copy the Markdown directly into an Obsidian vault.tools/validate_outputs.py to ensure required front‑matter fields are present.title, type, platform, source, created, tags, etc., for consistent querying.requirements.txt and can be installed independently.XHS_COOKIE for Xiaohongshu to avoid rate limits.DEEPSEEK_API_KEY for enrichment, translation, and topic extraction.mcp_server.py) that works on any OS with Python 3.8+.SKILL.md, and ensure the script outputs the required front‑matter.中文 · English
我是 Chubby,Ai+电商的探索者
平时做内容、搭个人知识库,也写一些 AI Agent / Skill 的实践。我习惯把每天刷到的好东西——视频、播客、公众号、小红书、推特——自动收进自己的知识库,让信息真正沉淀下来,而不是看完就忘。这个仓库里的工具,就是这套工作流里我自己每天在用的那几件。
同好的话,欢迎来唠:
都是在自己项目里跑通了一段时间,确实省事,才搬出来开源的。没什么花活,就是几个挺实用的东西。
这里的每个 Skill 都是 Agent 能直接加载的结构化指令集,遵循 Agent Skills 开放标准。Claude Code、Codex、OpenCode、OpenClaw、Hermes 都能装。
一句话:把中文全渠道的内容,变成你自己的、可检索的第二大脑。
这个仓库接下来按三个阶段迭代:
当前 README 已覆盖这三阶段的第一批能力;后续会继续补真实平台 smoke test 和更多平台深水区能力。
git clone https://github.com/chubbyguan/chubbyskills.git
cd chubbyskills
python3 tools/check_env.py
bash setup.sh
# 等同于 bash setup.sh light
轻量模式可直接使用:公众号文章、X 图文、小红书图文、行业情报雷达、知识库健康检查、content-enrich。只有视频/播客转录才需要装重依赖。
bash setup.sh video # 抖音/B站/TikTok/微博/知乎/YouTube/小红书视频/X视频
bash setup.sh podcast # 播客转录
bash setup.sh wechat # 公众号/PDF 解析增强
bash setup.sh all # 全部依赖
# 自动识别平台并调用对应 skill
python3 tools/chubby_ingest.py "https://www.bilibili.com/video/BVxxxx" -o output/
# 采集后自动加工摘要/标签(需要 DEEPSEEK_API_KEY)
python3 tools/chubby_ingest.py "https://x.com/user/status/123" -o output/ --enrich
# 采集后复制进 Obsidian vault/inbox
python3 tools/chubby_ingest.py "https://mp.weixin.qq.com/s/xxx" --vault ~/Documents/Obsidian/Inbox
python3 tools/validate_outputs.py examples/outputs
python3 tools/validate_outputs.py output/
统一输出协议要求每篇 Markdown 至少带这些 frontmatter 字段:title、type、platform、source、created。
| 能力 | 平台/范围 | 默认依赖 | 关键限制 |
|---|---|---|---|
| 字幕优先转录 | B站 / YouTube | yt-dlp |
有字幕时免模型;无字幕回退视频转录 |
| 视频转录 | 抖音 / B站 / TikTok / 微博 / 知乎 / YouTube / 小红书视频 / X视频 | ffmpeg + funasr + torch |
首次安装重;平台风控会影响下载 |
| 播客转录 | 小宇宙 / 喜马拉雅 / RSS / 本地音频 | ffmpeg + faster-whisper |
长音频耗时较久 |
| 图文采集 | 小红书 / X / 公众号 | 轻量或零 pip 依赖 | 小红书建议配置 XHS_COOKIE |
| 内容加工 | 任意 Markdown | DEEPSEEK_API_KEY |
LLM 费用和上下文长度由用户环境决定 |
| 知识库管理 | Obsidian vault | 健康检查零依赖;MCP 需 mcp |
MCP 读取本地 vault,需设置 VAULT_DIR |
| 一键工作流 | 自动识别常见链接 | 复用对应 skill 依赖 | 无法识别时用 --skill 指定 |
| 名字 | 平台 | 一句话 |
|---|---|---|
| 🎬 douyin-transcribe | 抖音 | 抖音视频 → 转录 → Markdown |
| 📺 bilibili-transcribe | B站 | B站视频 → 转录 → Markdown |
| 🎵 tiktok-transcribe | TikTok | TikTok 视频 → 转录 → Markdown |
| 📱 weibo-transcribe | 微博 | 微博视频 → 转录 → Markdown |
| 💡 zhihu-transcribe | 知乎 | 知乎视频 → 转录 → Markdown |
| 🌍 youtube-transcribe | YouTube | YouTube → 转录 → 英文翻译 → 中英对照 |
| 名字 | 平台 | 一句话 |
|---|---|---|
| 🎙️ podcast-transcribe | 小宇宙/喜马拉雅 | 播客 → 下载 → 转录 → Markdown |
| 名字 | 平台 | 一句话 |
|---|---|---|
| 📰 wechat-article-ingest | 微信公众号 | 公众号链接 → Markdown + A层观点提取 + B层问题链 |
| 📕 xiaohongshu-ingest | 小红书 | 图文存图/视频转文字稿 + 爆款拆解 + 衍生选题 |
| 🐦 x-ingest | X / Twitter | 推文采集 → 图文存图 / 视频转文字稿(免登录) |
| 名字 | 一句话 |
|---|---|
| ✨ content-enrich | 给任意采集产物自动补「摘要 + 要点 + 标签 + 价值判断」,惠及全部采集 skill |
| 名字 | 一句话 |
|---|---|
| 🧠 knowledge-base-management | 知识库全生命周期管理:三层架构、素材入库、健康检查、三件套集成 |
| 名字 | 一句话 |
|---|---|
| 📡 industry-intelligence-radar | 多源扫描(X/即刻/V2EX/HN) → 关键词过滤 → 趋势检测 → 每日情报简报 |
| 📚 learning-notes-automation | 视频/播客转录 → 知识点提取 → 闪卡生成 → 知识图谱更新 |
git clone https://github.com/chubbyguan/chubbyskills.git
cd chubbyskills
bash setup.sh # 默认 light:轻量能力
bash setup.sh video # 视频转录重依赖
bash setup.sh podcast # 播客转录
bash setup.sh wechat # 公众号/PDF 处理
bash setup.sh all # 全部依赖
bash setup.sh doctor # 只做环境体检
git clone https://github.com/chubbyguan/chubbyskills.git
cd chubbyskills
pip install -r requirements.txt # 全部
pip install -r podcast-transcribe/requirements.txt # 单个 skill
在 Claude Code、Codex、OpenClaw、Hermes 等支持 Skill 的 Agent 里,直接说:
帮我安装这个 skill:https://github.com/chubbyguan/chubbyskills/tree/main/<skill-name>
tools/chubby_ingest.py 会自动识别输入链接并调用对应 skill:
| 输入 | 自动调用 |
|---|---|
BV... / bilibili.com |
bilibili-transcribe |
youtube.com / youtu.be |
youtube-transcribe |
douyin.com |
douyin-transcribe |
x.com/.../status/... / twitter.com |
x-ingest |
xiaohongshu.com / xhslink.com |
xiaohongshu-ingest |
mp.weixin.qq.com |
wechat-article-ingest |
| 本地音频文件 | podcast-transcribe |
常用参数:
python3 tools/chubby_ingest.py "<链接>" -o output/
python3 tools/chubby_ingest.py "<链接>" -o output/ --enrich
python3 tools/chubby_ingest.py "<链接>" --vault ~/Documents/Obsidian/Inbox
python3 tools/chubby_ingest.py "<链接>" --skill youtube --no-translate
"想把抖音视频转成文字,以前得折腾半天 cookie 和 yt-dlp,现在一句话搞定。"
抖音视频 → 下载音频 → SenseVoice-Small 转录 → 存为 Markdown。
致谢:vangie/douyin-transcriber · FunAudioLLM/SenseVoice
"B 站那么多干货视频,终于可以转成文字慢慢看了。"
B 站视频 → yt-dlp 下载音频 → SenseVoice-Small 转录 → 存为 Markdown。 支持字幕优先和 URL 列表批量处理:
python3 bilibili-transcribe/scripts/batch_transcribe.py examples/bilibili-urls.txt -o output/bilibili
致谢:yt-dlp/yt-dlp · FunAudioLLM/SenseVoice
"TikTok 上的好内容,也能存下来慢慢看了。"
TikTok 视频 → 下载音频 → SenseVoice-Small 转录 → 存为 Markdown。支持 vm.tiktok.com 短链接。
致谢:yt-dlp/yt-dlp · FunAudioLLM/SenseVoice
"微博上的视频内容,终于能转成文字了。"
微博视频 → 下载音频 → SenseVoice-Small 转录 → 存为 Markdown。支持 weibo.com 和 m.weibo.cn。
致谢:yt-dlp/yt-dlp · FunAudioLLM/SenseVoice
"知乎上的视频回答,也能转成文字收藏了。"
知乎视频 → 下载音频 → SenseVoice-Small 转录 → 存为 Markdown。
致谢:yt-dlp/yt-dlp · FunAudioLLM/SenseVoice
"英文 YouTube 终于能轻松看懂了。"
YouTube 视频 → yt-dlp 下载 → SenseVoice-Small 转录 → 英文自动翻译成中文 → 输出中英对照 Markdown。 支持字幕优先和 URL 列表批量处理:
python3 youtube-transcribe/scripts/batch_transcribe.py examples/youtube-urls.txt -o output/youtube --no-translate
致谢:yt-dlp/yt-dlp · FunAudioLLM/SenseVoice · DeepSeek
"播客听不完?让它变成文字,想看就看。"
播客音频 → 下载 → faster-whisper 转录 → 存为 Markdown。支持小宇宙、喜马拉雅,支持 RSS 批量下载。
致谢:SYSTRAN/faster-whisper · OpenAI Whisper
"公众号文章直接变成结构化知识。"
微信公众号文章 → Markdown 提取 → A层观点提取 + B层问题链生成。支持直接链接抓取。
链接抓取会尽量保留标题层级、图片和正文链接;PDF fallback 会统一补 platform: wechat。
致谢:microsoft/markitdown · pymupdf/PyMuPDF · dontbesilent
"采集爆款笔记,顺手拆出能直接写的选题。"
小红书笔记 → 统一 frontmatter Markdown(标题/正文/标签/作者/赞藏评)→ DeepSeek 爆款拆解(人群×场景×痛点×情绪×钩子)→ 5 条衍生选题。自动区分图文/视频:图文下载图片本地嵌入,视频提取直链转成文字稿(同抖音)。支持 xhslink 短链;建议配 XHS_COOKIE 规避风控。
如果被风控或页面结构变化,可以用 --fallback-text 手动正文.txt 继续生成标准 Markdown。
致谢:DeepSeek · 小红书爆款方法论
"一条推文,图存下来、视频转成字。"
X 推文 → 统一 frontmatter Markdown(正文/作者/赞回复/话题)。自动区分图文/视频:图文下载图片本地嵌入,视频提取最高码率 mp4 直链转成文字稿。走 X 官方嵌入端点,免登录、免 API Key;目前支持单条推文。
如果 syndication 端点临时不可用,可以用 --fallback-text 手动正文.txt 继续生成标准 Markdown。
致谢:FunAudioLLM/SenseVoice · X 官方嵌入端点
"采集进来的原始文本,一键变成带摘要、要点、标签的可用知识。"
给任意采集产物(转录稿 / 文章 / 笔记)自动补元信息:用 DeepSeek 提炼一句话总结、3-5 条要点、领域、标签、「值得深读?」判断,写进 frontmatter 并在正文顶部插入 ## 📝 摘要 区块,原内容完整保留。支持单篇就地增强、整目录批量;幂等可重做。是连接「采集」与「知识库」的加工层通用能力。
致谢:DeepSeek
"知识库从素材入库到健康检查,一套流程全搞定。"
Obsidian 知识库全生命周期管理:三层架构(素材库/Wiki/产出)、素材 ABC 分级入库、健康检查与清理、GBrain/GraphRAG/LLM Wiki 三件套集成、目录整理与归档。附带 MCP Server(mcp_server.py)——把知识库检索暴露给任何 MCP Agent,「采集写入 + MCP 查询」闭环。
核心能力:
致谢:Obsidian · GBrain · GraphRAG
"早知道 = 早行动 = 早收益"
多源情报扫描系统:X/Twitter + 即刻 + V2EX + Hacker News + 36kr → 关键词过滤 → 趋势检测 → 每日情报简报。
核心能力:
覆盖领域:AI/Agent、半导体、航天、新能源、游戏、跨境电商、创业/投资
"看视频 ≠ 学会,生成闪卡 = 记住"
学习内容自动化处理:视频/播客转录 → 知识点提取 → 闪卡生成 → 知识图谱更新。
核心能力:
输出格式:
💡 不确定要装什么?先跑
python3 tools/check_env.py体检——它会告诉你缺哪些依赖、以及哪些功能零依赖就能用(轻量模式)。
bash setup.sh # 全部依赖
bash setup.sh podcast # 只装指定 skill
或手动安装每个 skill 目录下的 requirements.txt。
pip install -r douyin-transcribe/requirements.txt
# 系统依赖
brew install ffmpeg yt-dlp # macOS
# Ubuntu: sudo apt install ffmpeg && pip install yt-dlp
# YouTube 翻译功能(可选)
export DEEPSEEK_API_KEY=your-key
pip install -r podcast-transcribe/requirements.txt
brew install ffmpeg # macOS
pip install -r wechat-article-ingest/requirements.txt
# 采集与拆解均零 pip 依赖(仅标准库)
export XHS_COOKIE="你的小红书 cookie" # 可选,提高采集成功率
export DEEPSEEK_API_KEY="your-key" # 爆款拆解必需
# 图文/文字采集零依赖、免登录;视频转录才需要 funasr + ffmpeg
pip install funasr modelscope torch torchaudio # 仅视频推文需要
# 零 pip 依赖(仅标准库)
export DEEPSEEK_API_KEY="your-key" # 用于提炼摘要/要点/标签
# 健康检查脚本 vault_health_check.py 零依赖,纯标准库,无需安装
# 以下为可选的第三方工具(不随本仓库提供):
# GBrain(知识库搜索)— pip install gbrain
# GraphRAG(知识图谱发现)— 独立项目,见 SKILL.md
# LLM Wiki — 集成到 Obsidian vault
# scan.py 零依赖,纯标准库(HN + V2EX + RSS),无需安装、无需 API Key
# X/即刻信号由 Agent 联网搜索补充(可选)
# make_notes.py 需要 DeepSeek API Key 做知识点提取 + 闪卡生成
export DEEPSEEK_API_KEY=your-key
# 转录环节复用本仓库的 *-transcribe skill(见上方「视频转录」依赖)
所有采集类 skill 产出的 Markdown 使用统一的 frontmatter,便于知识库按来源/平台聚合与检索:
| 字段 | 含义 | 示例 |
|---|---|---|
title |
标题 | 某视频标题 |
type |
类型 | note |
platform |
机器可读来源(聚合用) | bilibili / youtube / douyin / tiktok / weibo / zhihu / podcast / wechat / xiaohongshu |
source |
原始链接(本地文件则为路径) | https://... |
author |
作者 / UP主 / 公众号(可空) | 某某 |
created |
入库日期 | 2026-06-14 |
tags |
中文平台标签 | [B站] |
transcriber |
转录引擎(仅转录类) | 字幕 / SenseVoice-Small / faster-whisper-small |
视频/音频类还可能带 language、translated 字段。platform 字段是机器可读的,建议在 Obsidian/Dataview 里用它做按平台聚合的视图。
本仓库所有采集类 skill(视频 / 播客 / 公众号 / 小红书 / X 等)仅供个人学习与研究使用:
robots.txt 与相关法律法规如平台方或权利人认为某 skill 不当,欢迎提 issue,我会及时处理。
感谢所有开源贡献者!🙏
这些 skill 都是我自己每天在用的,开源出来如果对你有帮助,给个 ⭐ 就行。
MIT License · 自由使用 / 修改 / 再分发
Made by @chubbyguan
Please log in to share your review and rating for this MCP.
Explore related MCPs that share similar capabilities and solve comparable challenges
by modelcontextprotocol
A basic implementation of persistent memory using a local knowledge graph. This lets Claude remember information about the user across chats.
by topoteretes
Provides dynamic memory for AI agents through modular ECL (Extract, Cognify, Load) pipelines, enabling seamless integration with graph and vector stores using minimal code.
by basicmachines-co
Enables persistent, local‑first knowledge management by allowing LLMs to read and write Markdown files during natural conversations, building a traversable knowledge graph that stays under the user’s control.
by agentset-ai
Provides an open‑source platform to build, evaluate, and ship production‑ready retrieval‑augmented generation (RAG) and agentic applications, offering end‑to‑end tooling from ingestion to hosting.
by smithery-ai
Provides read and search capabilities for Markdown notes in an Obsidian vault for Claude Desktop and other MCP clients.
by chatmcp
Summarize chat messages by querying a local chat database and returning concise overviews.
by dmayboroda
Provides on‑premises conversational retrieval‑augmented generation (RAG) with configurable Docker containers, supporting fully local execution, ChatGPT‑based custom GPTs, and Anthropic Claude integration.
by qdrant
Provides a Model Context Protocol server that stores and retrieves semantic memories using Qdrant vector search, acting as a semantic memory layer.
by doobidoo
Provides a universal memory service with semantic search, intelligent memory triggers, OAuth‑enabled team collaboration, and multi‑client support for Claude Desktop, Claude Code, VS Code, Cursor and over a dozen AI applications.