https://kapeli.com/docsets

https://github.com/technosophos/dashing

  1. index.html 加载方式

该页面是 Docusaurus 生成的静态 HTML,内容直接在 HTML 文件中,无需额外异步加载。页面结构和内容都在初始 HTML 里,适合直接抓取。

  1. dashing docset 需求

dashing 需要:

  • 完整的 HTML 文件(带导航、内容)

  • 目录结构与原始文档一致

  • 支持 docset 的 Info.plist、docSet.dsidx(可后续生成)

  • 最好首页为 index.html,API 文档、普通文档都能被索引

1
2
3
4
5
6
7
8
9
wget \
--mirror \
--convert-links \
--adjust-extension \
--page-requisites \
--no-parent \
--domains=playwright.dev \
--accept-regex '/python/' \
https://playwright.dev/python/
1
python -m http.server 8000

brew install dashing

1. doc2dash 识别“已知格式”机制

doc2dash 默认只支持以下几种文档格式:

  • Sphinx (有 _build/html/ 或 _static/、objects.inv)

  • Doxygen

  • Javadoc

  • ESDoc

  • TypeDoc

  • …等

普通的 HTML 文件夹(如 Docusaurus 导出、你现在的结构)不会被识别为“已知格式”!