一、程序功能介绍
产品定位
投标文件雷同检测工具 是一款专为招投标场景设计的文档对比软件,用于快速发现多份投标文件之间的雷同内容,帮助招标方/评审方识别可能存在的串标、围标行为。
核心功能
| 功能模块 | 说明 |
|---|---|
| 多格式文档读取 | 支持 `.docx`、`.doc`、`.wps`、`.wpt` 四种主流文档格式 |
| 批量文件导入 | 支持逐个添加文件或整个文件夹批量导入 |
| 雷同检测 | 基于 N-gram + Jaccard 相似度算法,自动计算所有文档对的相似度 |
| 精准定位 | 精确到段落级别,显示雷同内容所在的具体段落位置和预览 |
| 关键词查询 | 在已加载的所有文档中搜索指定关键词,显示匹配位置和上下文 |
| 报告导出 | 支持导出为 JSON(结构化数据)或 TXT(可读文本)格式的检测报告 |
| 离线运行 | 完全本地计算,无需联网,保障文档数据安全 |
技术特点
- 纯绿色免安装:打包后为单个
.exe文件,无需安装任何依赖 - 零外部模型依赖:不需要下载大型语言模型或向量数据库,程序仅几十 MB
- 精确字面匹配:针对投标文件这类正式文书,字面重复检测比语义相似度更具实际意义
- 高性能:基于字符级 N-gram 算法,对比 20 份文档仅需数秒
- 全离线:所有计算在本地完成,投标文件不会上传至任何服务器
算法原理简述
程序采用 N-gram + Jaccard 相似度算法:
- 将每份文档拆分为段落
- 提取每个段落的字符级 N-gram 指纹(连续 N 个字符的组合)
- 计算文档对之间的 Jaccard 相似度(交集 / 并集)
- 按指定分块大小进行段落块对比,定位具体雷同段落
二、界面概览

三、详细操作步骤
第一步:添加投标文件
- 点击 「📂 添加文件」 → 在弹出的文件选择对话框中,选择一个或多个 Word/WPS 文档
- 或点击 「📁 添加文件夹」 → 选择包含多个投标文件的文件夹,程序会自动扫描并加载所有支持的文档
支持的格式: `.docx`、`.doc`、`.wps`、`.wpt` v1.0
添加成功后,左侧文件列表会显示每个文件的 文件名 和 段落数。
第二步:调整检测参数(可选)
在 「检测参数」 区域设置三个参数:
| 参数 | 默认值 | 范围 | 说明 |
|---|---|---|---|
| N-gram大小 | 8 | 4~20 | 连续字符数,值越大检测越严格 |
| 相似度阈值 | 0.30 | 0.10~0.90 | 判定为雷同的最低相似度 |
| 分块大小 | 5 | 2~20 | 每块包含的段落数,影响对比粒度 |
一般使用默认值即可。如需更严格的检测,可适当增大 N-gram 值和相似度阈值。
第三步:开始对比检测
点击 「🔍 开始对比检测」 按钮:
- 程序自动计算所有文档对之间的相似度(N 份文档共对比 N×(N-1)/2 对)
- 对比过程在后台线程运行,界面不会卡死
- 完成后状态栏显示:
✅ 对比完成!共 X 对文档,Y 对高度相似(≥50%)
第四步:查看对比结果
切换到 「📊 对比结果」 标签页:
- 汇总表 显示所有文档对的相似度,按相似度从高到低排列
- 颜色标识:
- 🟥 红色背景:高度相似(≥ 50%),存在大量雷同内容
- 🟨 黄色背景:中等相似(30%~50%),有部分重复
- 🟩 绿色背景:低相似度(< 30%),属正常范围
点击汇总表中的任意一行,右侧 「📋 详细分析」 标签页会自动显示该文档对的详细雷同内容。
第五步:查看详细分析
切换到 「📋 详细分析」 标签页:
- 顶部下拉框:选择要查看的文档对比对
- 左栏(文档A内容):显示文档 A 的雷同段落及位置
- 右栏(文档B内容):显示文档 B 的雷同段落及位置
- 相似度信息:显示整体相似度、共同 N-gram 数、雷同段落块数量
每个雷同块包含:
- 雷同块编号和块内相似度
- 段落位置(第 X ~ Y 段)
- 内容预览(前 50 字符)
第六步:关键词查询
切换到 「🔎 关键词查询」 标签页:
- 在关键词输入框中输入要搜索的词/短语
- 按 回车键 或点击 「🔍 搜索」 按钮
- 可选:勾选 「区分大小写」 进行精确匹配
搜索结果列表显示:
- 所属文件:关键词出现在哪个文档中
- 段落号:第几段
- 匹配内容:包含关键词的段落文本(前 200 字符)
- 匹配次数:该段落中关键词出现的次数
点击任意搜索结果,会弹出新窗口显示完整段落内容,关键词以黄色高亮标记。
第七步:导出报告
点击 「📊 导出报告」 按钮,选择保存路径和文件格式:
- JSON 格式(.json): 结构化数据,包含摘要和完整详情,适合程序化处理
- TXT 格式(.txt): 可读文本报告,适合打印或人工审阅
四、检测参数说明
N-gram 大小
N-gram 指连续的 N 个字符。例如 N=8 时,句子”投标文件应当真实有效”会提取:
投标文件应当真、标文件应当真实、文件应当真实有、件应当真实有效
相似度阈值
Jaccard 相似度 = 两个文档共同 N-gram 数 ÷ 两个文档所有 N-gram 总数
| N值 | 检测效果 | 适用场景 |
|---|---|---|
| 4~6 | 较宽松,短短语匹配也算雷同 | 粗略筛查 |
| 7~10 | 适中(默认 8),句子级重复 | 常规检测 ✅ |
| 11~20 | 严格,需长段落完全一致 | 精准取证 |
分块大小
将文档按段落分块进行对比,块越大对比越粗略但速度越快。
| 阈值 | 效果 |
|---|---|
| 0.10~0.20 | 非常宽松,大量内容会被标记 |
| 0.10~0.20 | 非常宽松,大量内容会被标记 |
| 0.30(默认) | 平衡检出率和准确性 |
| 0.50~0.70 | 严格,仅高度雷同的内容会被标记 |
| 0.80~0.90 | 极严格,几乎需完全一致 |
五、结果解读
相似度等级参考
| 分块大小 | 效果 |
|---|---|
| 2~3 | 精细对比,定位准确但速度较慢 |
| 5(默认) | 平衡精度与速度 ✅ |
| 10~20 | 快速对比,适合大批量初筛 |
| 相似度范围 | 等级 | 含义 | 建议处理 |
|---|---|---|---|
| ≥ 50% | 高度相似 | 存在大量雷同段落 | 重点关注,需进一步审查 |
| 30% ~ 50% | 中等相似 | 有部分重复内容 | 检查雷同部分是否为模板/套话 |
| < 30% | 低相似度 | 属正常范围 | 一般无需特别关注 |
雷同块说明
- 相似度:该块的局部相似度(0~1)
- 段落位置:在原文中的段落编号范围
- 内容预览:雷同段落的前 50 个字符
- 共同 N-gram 数:两文档在该块中共享的 N-gram 数量
六、常见问题
Q1:为什么 .doc / .wps 文件读取失败?
A: 旧版格式需要 Windows 系统上安装 Microsoft Word 或 WPS Office。建议将文件另存为 .docx 格式后再导入。
Q2:相似度多少算高?
A: 建议参考标准:
- ≥ 50%:高度相似,存在大量雷同内容
- 30% ~ 50%:中等相似,有部分重复
- < 30%:低相似度,属正常范围
Q3:可以对比多少份文件?
A: 理论上无限制。但 N 份文件需对比 N×(N-1)/2 对,建议单次不超过 20 份。
Q4:检测速度慢怎么办?
A: 可尝试:
- 增大「分块大小」(如改为 10)
- 增大「N-gram 大小」(减少匹配的 n-gram 数量)
- 提高「相似度阈值」(减少输出结果量)
Q5:关键词查询支持正则表达式吗?
A: 当前版本仅支持普通文本精确/模糊匹配,不支持正则表达式。
发布者:云端客,转转请注明出处:https://www.itrenonline.com/bidcomparator.html
