项目简介
DataMaster Pro 是一款企业级的数据处理桌面工具,专为处理密集型数据业务设计。在当下数据合规越来越严格的大环境下,它最独特的价值在于 100% 本地运行、不联网、不上传——企业数据全程可控,从根本上规避云端方案的合规风险。
核心算法经过深度优化,单核处理速度可达每秒 6.5 万条,完整支持百万级数据。内置 12 个国家的电话号码识别规则,准确率超过 99%,是数据清洗、去重、分类场景下的专业选择。
核心功能
- 智能导入:支持 Excel / CSV / TXT,自动识别字段类型与号码国家
- 四种去重模式:智能去重 / 全局去重 / 指定去重 / 内部去重,覆盖不同业务场景
- 标签管理系统:按来源 / 日期 / 特征打标,支持按标签查询、导出、删除
- 多维度查询:号码 / 姓名 / 日期 / 来源 / 标签多种条件组合查询
- 数据清洗:空行清理、格式标准化、有效性验证
- 文件分割:大文件按行数自动拆分,便于分批处理
- 性能表现:插入 65,878 条/秒、查询 <10ms、完整支持百万级数据
- 隐私保障:100% 本地运行、不联网、不上传、企业数据完全自主可控
技术栈
Python PyQt / Tkinter SQLite Pandas 正则引擎
关键技术亮点
1. 百万级数据的桌面级性能 写入 65,878 条/秒,查询 <10ms。关键点是 SQLite WAL 模式 + 批量事务 + 索引策略优化,避免桌面工具常见的"数据一多就卡死"。
2. 12 国号码智能识别 每个国家一套正则 + 号段白名单,按优先级匹配。对"0086 / +86 / 86 开头"等多种写法做归一化,混入数据中也能正确识别与归类。
3. 四种去重模式覆盖真实场景
- 智能去重:跨文件全局比对
- 全局去重:按现存库去重
- 指定去重:按用户指定字段去重
- 内部去重:仅处理当前文件内部重复 四种模式对应真实业务中"清洗 / 合并 / 补录 / 归档"等不同场景。
4. 100% 本地 + 零网络依赖 全部逻辑在本机运行,不调任何外部 API,不上传任何数据,不产生出网流量。适用于合规敏感行业、内网部署、无法联网的运行环境。
交付成果
- 开箱即用的桌面应用,无需部署、无需配置
- 企业级性能,百万数据秒级响应
- v2.0 已发布,覆盖数据导入、清洗、去重、查询、导出全流程




