处理流水线
每个发布条目都会被规范化、下载、校验、索引,然后通过静态文件公开。
整个工作流由脚本驱动,因此在索引、预览、OCR、中文译文或研究层发生变更后,可以重新构建发布包。
01
捕获与解析
把渲染后的来源页面记录解析为 JSONL 清单,并保留页面和行号来源信息。
02
解析与下载
解析原始媒体 URL,下载到本地,并为文件生成 SHA-256 校验值。
03
预览与搜索
生成本地预览图,提取 PDF 内嵌文本,并使用 Tesseract OCR 处理扫描型 PDF。
04
中文 OCR 译文
把 OCR 英文正文分块机器翻译成中文,保留原文偏移,以便在详情页进行原文、中文和对照阅读。
05
质量审计
评估 OCR 噪声、短碎词、译文覆盖和中文字符比例,为每条 OCR 记录标注可读性等级。
06
复核队列
把低可信和需对照原文的 OCR 记录汇总为待复核清单,支持本地备注和 JSON 导出。
07
研究索引
生成主题、实体、关键词和文本覆盖标记,作为静态浏览器的检索辅助层。
08
发布打包
发布包保留 `site/` 与 `data/` 的相对路径,并输出清单、说明和托管审计文件。
可重复执行的脚本
build-site-index.mjs
build-preview-assets.py
extract-pdf-text.py
ocr-pdf-pages.py
build-ocr-zh-index.py
build-ocr-quality-index.py
build-research-index.py
verify-site.mjs
prepare-publish-package.py
verify-publish-package.mjs
audit-hosting-readiness.mjs