WAR.GOV / UFO / Release 01

处理方法

处理流水线

每个发布条目都会被规范化、下载、校验、索引,然后通过静态文件公开。

整个工作流由脚本驱动,因此在索引、预览、OCR、中文译文或研究层发生变更后,可以重新构建发布包。

01

捕获与解析

把渲染后的来源页面记录解析为 JSONL 清单,并保留页面和行号来源信息。

02

解析与下载

解析原始媒体 URL,下载到本地,并为文件生成 SHA-256 校验值。

03

预览与搜索

生成本地预览图,提取 PDF 内嵌文本,并使用 Tesseract OCR 处理扫描型 PDF。

04

中文 OCR 译文

把 OCR 英文正文分块机器翻译成中文,保留原文偏移,以便在详情页进行原文、中文和对照阅读。

05

质量审计

评估 OCR 噪声、短碎词、译文覆盖和中文字符比例,为每条 OCR 记录标注可读性等级。

06

复核队列

把低可信和需对照原文的 OCR 记录汇总为待复核清单,支持本地备注和 JSON 导出。

07

研究索引

生成主题、实体、关键词和文本覆盖标记,作为静态浏览器的检索辅助层。

08

发布打包

发布包保留 `site/` 与 `data/` 的相对路径,并输出清单、说明和托管审计文件。

可重复执行的脚本

build-site-index.mjs build-preview-assets.py extract-pdf-text.py ocr-pdf-pages.py build-ocr-zh-index.py build-ocr-quality-index.py build-research-index.py verify-site.mjs prepare-publish-package.py verify-publish-package.mjs audit-hosting-readiness.mjs