处理方法 - WAR.GOV UFO 档案

处理流水线

每个发布条目都会被规范化、下载、校验、索引，然后通过静态文件公开。

整个工作流由脚本驱动，因此在索引、预览、OCR、中文译文或研究层发生变更后，可以重新构建发布包。

捕获与解析

把渲染后的来源页面记录解析为 JSONL 清单，并保留页面和行号来源信息。

解析与下载

解析原始媒体 URL，下载到本地，并为文件生成 SHA-256 校验值。

预览与搜索

生成本地预览图，提取 PDF 内嵌文本，并使用 Tesseract OCR 处理扫描型 PDF。

中文 OCR 译文

把 OCR 英文正文分块机器翻译成中文，保留原文偏移，以便在详情页进行原文、中文和对照阅读。

质量审计

评估 OCR 噪声、短碎词、译文覆盖和中文字符比例，为每条 OCR 记录标注可读性等级。

复核队列

把低可信和需对照原文的 OCR 记录汇总为待复核清单，支持本地备注和 JSON 导出。

研究索引

生成主题、实体、关键词和文本覆盖标记，作为静态浏览器的检索辅助层。

发布打包

发布包保留 `site/` 与 `data/` 的相对路径，并输出清单、说明和托管审计文件。

可重复执行的脚本

build-site-index.mjs build-preview-assets.py extract-pdf-text.py ocr-pdf-pages.py build-ocr-zh-index.py build-ocr-quality-index.py build-research-index.py verify-site.mjs prepare-publish-package.py verify-publish-package.mjs audit-hosting-readiness.mjs