🔧 注意力工坊 注意力工坊 · 第1期

在用 AI 处理工作文件之前,先给它打个码

· 阅读约 2 分钟

在用 AI 处理工作文件之前,先给它打个码

「注意力工坊」· 第1期

一个可以直接用的文件脱敏脚本


你有一份合同想用 AI 帮你审。一份报价单想让 AI 帮你对比。一份内部纪要想让 AI 帮你总结。

但你不敢把原始文件直接丢进去。

里面有客户名字、金额、公司内部编号、联系方式。你不知道这些数据会被传到哪里、存在哪里、被用来训练什么模型。

这个脚本就是解决这个问题的:在发给 AI 之前,自动给文件里的敏感信息打码。


脚本做什么

  1. 识别并替换中文姓名(保留”某先生/女士”)
  2. 替换手机号、身份证号、邮箱地址
  3. 替换金额数字(保留数量级)
  4. 替换公司名称(保留行业分类)
  5. 替换内部编号(保留格式结构)

关键设计原则:保留文档结构和语义可读性。 脱敏后的文件 AI 仍然能理解、能分析——只是一切可以追溯到具体个人或公司的信息都被替换了。


代码

(完整 Python 脚本——基于 mask.py 项目中已实现的脱敏逻辑。)


🧭 使用指南

  1. 把脚本保存为 mask.py
  2. 把需要脱敏的文件放在同一目录
  3. 运行 python mask.py <文件名>
  4. 得到一个新的 <文件名>_masked 文件
  5. 安全地发给 AI 分析

工具在精不在多。少用一个工具,但把它用透——这是注意力工坊的信条。