这是一个完整的文档恢复质量评估系统,基于 DINOv2 深度学习特征提取 和 智能相似度分析 ,提供科学的文档恢复质量评价标准。系统采用两阶段工作流程: 特征提取阶段 和 质量分析阶段 ,支持批量处理和多线程并发。
doc_restore_eval/
├── 🔧 核心工具
│ ├── image_cutter.py # DINOv2 特征提取引擎 (18KB)
│ ├── similarity_analyzer.py # 相似度分析核心 (31KB)
│ ├── layout_export.py # 版面重建工具 (15KB)
│ └── doc_restore_analyze.py # 特征文件收集器 (2KB)
├── 🚀 工作流程脚本
│ ├── myfeature_extractor.py # 第一步:批量特征提取 (5KB)
│ └── myfeature_analyze.py # 第二步:多图对比分析 (14KB)
├── 📊 分析报告
│ └── weight_comparison_report.py # 权重方案对比工具 (10KB)
└── 📁 输出目录
├── histograms/ # 相似度分布直方图
├── models/ # DINOv2 模型缓存
└── *.json # 分析结果文件
myfeature_extractor.py
)功能 :批量处理图片,提取 DINOv2 深度学习特征
核心技术 :
--force-cpu
参数输入 :原始图片文件 输出 :patches 目录 + .npy 特征文件
# 使用示例
python myfeature_extractor.py
# 支持参数:--dinov2-model, --force-cpu, --no-embeddings
myfeature_analyze.py
)功能 :多图片对比分析,生成质量评估报告
核心算法 :
输入 :多个图片目录(normal/good/bad) 输出 :similarity_results.json + 可视化直方图
./models/{model}_pretrain.pth
Bottom 1% Mean: 40% (最严重问题,木桶效应)
Bottom 5% Mean: 25% (低端稳健性)
10th Percentile: 20% (中等稳健性)
Median: 15% (整体水平参考)
设计理念 :
doc_restore_eval/
├── similarity_analyzer.py # 主分析脚本 (v2.0)
├── weight_comparison_report.py # 权重方案对比工具
├── doc_restore_data.json # 输入数据
├── similarity_results.json # 分析结果
├── weight_comparison_report.json # 权重对比报告
├── histograms/ # 直方图输出目录
│ ├── file1_similarity_histogram.png
│ └── ...
└── README.md # 本文档
python similarity_analyzer.py
python weight_comparison_report.py
{
"overall_statistics": {
"good_weighted_final_score_mean": 0.814,
"bad_weighted_final_score_mean": 0.579,
// ... 更多统计信息
},
"file_results": {
"文件 key": {
"good_weighted_final_score": 0.853,
"bad_weighted_final_score": 0.612,
"good_distribution_quality": {
"distribution_type": "concentrated",
"coefficient_of_variation": 0.089,
"stability_score": 0.911
},
// ... 14 种详细统计评分
}
}
}
✅ Core Algorithm: Cosine similarity with 148px center distance filtering
✅ Balanced Weighting: Optimized for better extreme/median balance
✅ Distribution Analysis: Quality assessment with CV and outlier detection
🎯 Recommendation: Use 'Balanced F inal Scores' as primary evaluation metric
📊 For detailed analysis, check distribution quality indicators
参数 | 值 | 说明 |
---|---|---|
距离阈值 | 148 像素 | box 中心距离筛选 |
聚合比例 | 5% | 文件级最小值比例 |
直方图 bins | 30 | 分布可视化精度 |
异常值检测 | IQR×1.5 | 标准异常值识别 |
推荐使用 Balanced Final Score 作为主要评价标准:
结合分布质量指标进行深入分析:
关注以下情况:
如需进一步优化算法:
calculate_weighted_final_score()
函数calculate_statistical_scores()
中添加plot_similarity_histogram()
函数assess_distribution_quality()
功能如遇到问题或需要定制化功能,请检查:
🎉 Doc Restore Similarity Analyzer v2.0 - 为文档恢复质量评估提供科学、稳健的分析工具!