投标文件雷同检测工具V1.0

用于批量对比多份投标文档的相似度,精准定位雷同段落。

一、程序功能介绍

产品定位

投标文件雷同检测工具 是一款专为招投标场景设计的文档对比软件,用于快速发现多份投标文件之间的雷同内容,帮助招标方/评审方识别可能存在的串标、围标行为。

核心功能

功能模块说明
多格式文档读取支持 `.docx`、`.doc`、`.wps`、`.wpt` 四种主流文档格式
批量文件导入支持逐个添加文件或整个文件夹批量导入
雷同检测基于 N-gram + Jaccard 相似度算法,自动计算所有文档对的相似度
精准定位精确到段落级别,显示雷同内容所在的具体段落位置和预览
关键词查询在已加载的所有文档中搜索指定关键词,显示匹配位置和上下文
报告导出支持导出为 JSON(结构化数据)或 TXT(可读文本)格式的检测报告
离线运行完全本地计算,无需联网,保障文档数据安全

技术特点

  • 纯绿色免安装:打包后为单个 .exe 文件,无需安装任何依赖
  • 零外部模型依赖:不需要下载大型语言模型或向量数据库,程序仅几十 MB
  • 精确字面匹配:针对投标文件这类正式文书,字面重复检测比语义相似度更具实际意义
  • 高性能:基于字符级 N-gram 算法,对比 20 份文档仅需数秒
  • 全离线:所有计算在本地完成,投标文件不会上传至任何服务器

算法原理简述

程序采用 N-gram + Jaccard 相似度算法:

  1. 将每份文档拆分为段落
  2. 提取每个段落的字符级 N-gram 指纹(连续 N 个字符的组合)
  3. 计算文档对之间的 Jaccard 相似度(交集 / 并集)
  4. 按指定分块大小进行段落块对比,定位具体雷同段落

二、界面概览

投标文件雷同检测工具V1.0

三、详细操作步骤

第一步:添加投标文件

  1. 点击 「📂 添加文件」 → 在弹出的文件选择对话框中,选择一个或多个 Word/WPS 文档
  2. 或点击 「📁 添加文件夹」 → 选择包含多个投标文件的文件夹,程序会自动扫描并加载所有支持的文档

支持的格式: `.docx`、`.doc`、`.wps`、`.wpt` v1.0

添加成功后,左侧文件列表会显示每个文件的 文件名段落数

第二步:调整检测参数(可选)

「检测参数」 区域设置三个参数:

参数默认值范围说明
N-gram大小84~20连续字符数,值越大检测越严格
相似度阈值0.300.10~0.90判定为雷同的最低相似度
分块大小52~20每块包含的段落数,影响对比粒度

一般使用默认值即可。如需更严格的检测,可适当增大 N-gram 值和相似度阈值。

第三步:开始对比检测

点击 「🔍 开始对比检测」 按钮:

  • 程序自动计算所有文档对之间的相似度(N 份文档共对比 N×(N-1)/2 对)
  • 对比过程在后台线程运行,界面不会卡死
  • 完成后状态栏显示:✅ 对比完成!共 X 对文档,Y 对高度相似(≥50%)

第四步:查看对比结果

切换到 「📊 对比结果」 标签页:

  • 汇总表 显示所有文档对的相似度,按相似度从高到低排列
  • 颜色标识:
    • 🟥 红色背景:高度相似(≥ 50%),存在大量雷同内容
    • 🟨 黄色背景:中等相似(30%~50%),有部分重复
    • 🟩 绿色背景:低相似度(< 30%),属正常范围

点击汇总表中的任意一行,右侧 「📋 详细分析」 标签页会自动显示该文档对的详细雷同内容。

第五步:查看详细分析

切换到 「📋 详细分析」 标签页:

  • 顶部下拉框:选择要查看的文档对比
  • 左栏(文档A内容):显示文档 A 的雷同段落及位置
  • 右栏(文档B内容):显示文档 B 的雷同段落及位置
  • 相似度信息:显示整体相似度、共同 N-gram 数、雷同段落块数量

每个雷同块包含:

  • 雷同块编号和块内相似度
  • 段落位置(第 X ~ Y 段)
  • 内容预览(前 50 字符)

第六步:关键词查询

切换到 「🔎 关键词查询」 标签页:

  1. 在关键词输入框中输入要搜索的词/短语
  2. 按 回车键 或点击 「🔍 搜索」 按钮
  3. 可选:勾选 「区分大小写」 进行精确匹配

搜索结果列表显示:

  • 所属文件:关键词出现在哪个文档中
  • 段落号:第几段
  • 匹配内容:包含关键词的段落文本(前 200 字符)
  • 匹配次数:该段落中关键词出现的次数

点击任意搜索结果,会弹出新窗口显示完整段落内容,关键词以黄色高亮标记。

第七步:导出报告

点击 「📊 导出报告」 按钮,选择保存路径和文件格式:

  • JSON 格式(.json): 结构化数据,包含摘要和完整详情,适合程序化处理
  • TXT 格式(.txt): 可读文本报告,适合打印或人工审阅

四、检测参数说明

N-gram 大小

N-gram 指连续的 N 个字符。例如 N=8 时,句子”投标文件应当真实有效”会提取:

投标文件应当真、标文件应当真实、文件应当真实有、件应当真实有效

相似度阈值

Jaccard 相似度 = 两个文档共同 N-gram 数 ÷ 两个文档所有 N-gram 总数

N值检测效果适用场景
4~6较宽松,短短语匹配也算雷同粗略筛查
7~10适中(默认 8),句子级重复常规检测 ✅
11~20严格,需长段落完全一致精准取证

分块大小

将文档按段落分块进行对比,块越大对比越粗略但速度越快。

阈值效果
0.10~0.20非常宽松,大量内容会被标记
0.10~0.20非常宽松,大量内容会被标记
0.30(默认)平衡检出率和准确性
0.50~0.70严格,仅高度雷同的内容会被标记
0.80~0.90极严格,几乎需完全一致

五、结果解读

相似度等级参考

分块大小效果
2~3精细对比,定位准确但速度较慢
5(默认)平衡精度与速度 ✅
10~20快速对比,适合大批量初筛
相似度范围等级含义建议处理
≥ 50%高度相似存在大量雷同段落重点关注,需进一步审查
30% ~ 50%中等相似有部分重复内容检查雷同部分是否为模板/套话
< 30%低相似度属正常范围一般无需特别关注

雷同块说明

  • 相似度:该块的局部相似度(0~1)
  • 段落位置:在原文中的段落编号范围
  • 内容预览:雷同段落的前 50 个字符
  • 共同 N-gram 数:两文档在该块中共享的 N-gram 数量

六、常见问题

Q1:为什么 .doc / .wps 文件读取失败?

A: 旧版格式需要 Windows 系统上安装 Microsoft Word 或 WPS Office。建议将文件另存为 .docx 格式后再导入。

Q2:相似度多少算高?

A: 建议参考标准:

  • ≥ 50%:高度相似,存在大量雷同内容
  • 30% ~ 50%:中等相似,有部分重复
  • < 30%:低相似度,属正常范围

Q3:可以对比多少份文件?

A: 理论上无限制。但 N 份文件需对比 N×(N-1)/2 对,建议单次不超过 20 份

Q4:检测速度慢怎么办?

A: 可尝试:

  • 增大「分块大小」(如改为 10)
  • 增大「N-gram 大小」(减少匹配的 n-gram 数量)
  • 提高「相似度阈值」(减少输出结果量)

Q5:关键词查询支持正则表达式吗?

A: 当前版本仅支持普通文本精确/模糊匹配,不支持正则表达式。

投标文件雷同检测工具V1.0

投标文件雷同检测工具V1.0¥78.00

发布时间: 2026年5月26日 软件大小: 33.1MB 工具类型: 文档对比 下载次数: 0
已付费?登录刷新

发布者:云端客,转转请注明出处:https://www.itrenonline.com/bidcomparator.html

(0)
云端客的头像云端客站点管理
国家网信办等三部门联合印发《智能体规范应用与创新发展实施意见》
上一篇 2026年5月13日 下午4:28
文档属性查看与清理工具V1.0
下一篇 4天前

相关推荐

发表回复

登录后才能评论
关注微信