在用 AI 处理工作文件之前,先给它打个码
「注意力工坊」· 第1期
一个可以直接用的文件脱敏脚本
你有一份合同想用 AI 帮你审。一份报价单想让 AI 帮你对比。一份内部纪要想让 AI 帮你总结。
但你不敢把原始文件直接丢进去。
里面有客户名字、金额、公司内部编号、联系方式。你不知道这些数据会被传到哪里、存在哪里、被用来训练什么模型。
这个脚本就是解决这个问题的:在发给 AI 之前,自动给文件里的敏感信息打码。
脚本做什么
- 识别并替换中文姓名(保留”某先生/女士”)
- 替换手机号、身份证号、邮箱地址
- 替换金额数字(保留数量级)
- 替换公司名称(保留行业分类)
- 替换内部编号(保留格式结构)
关键设计原则:保留文档结构和语义可读性。 脱敏后的文件 AI 仍然能理解、能分析——只是一切可以追溯到具体个人或公司的信息都被替换了。
代码
(完整 Python 脚本——基于 mask.py 项目中已实现的脱敏逻辑。)
🧭 使用指南
- 把脚本保存为
mask.py - 把需要脱敏的文件放在同一目录
- 运行
python mask.py <文件名> - 得到一个新的
<文件名>_masked文件 - 安全地发给 AI 分析
工具在精不在多。少用一个工具,但把它用透——这是注意力工坊的信条。