大多数企业客户一开始都会做出一个合理的假设:如果敏感数据被正确标记,人工智能系统就可以简单地遵循这些标签并确保安全。
问题在于,标签描述的是分类,而非内容。它们预先应用,依赖于人工或自动化的准确性,并且通常滞后于数据的实际使用方式。一旦文档被打开、复制、摘要或查询,仅凭标签就无法回答最重要的问题:
就此请求而言,这段文字目前是否包含敏感信息?
这正是 Gemini Enterprise 旨在解决的问题。
本文从客户的角度解释了即使 Purview 标签缺失、不完整或不可用,Gemini 如何在运行时检测敏感数据。
客户面临的挑战:标签是必要的,但还不够
从企业安全角度来看,风险不仅仅在于访问权限本身,真正的风险出现在授予访问权限之后。
客户普遍担心的情况包括:
用户有权打开文档,但要求人工智能提取原始标识符。
文件标签为通用名称,但包含嵌入的PHI或PII。
敏感细节仅出现在自由文本、注释或叙述部分中。
用户无意中以某种方式触发人工智能系统,从而扩大其曝光度。
在所有这些情况下,可能存在权限标签,但一旦人工智能系统处理了数据,这些标签并不能完全控制数据的使用方式。
Gemini 通过在用户使用时检查内容本身来弥补这一差距。
Gemini 如何在运行时检测敏感数据
Gemini Enterprise采用多种重叠的检测机制。每一层都能捕获不同的风险类别,它们共同构成纵深防御。
1. 基于模式的检测(确定性)
这是最具体、最可审计的一层。
Gemini 运行数据防泄漏扫描器,查找诸如以下明确定义的敏感模式:
社会保障号码,包括国际格式
经 Luhn 验证的信用卡号码
银行账号
电话号码
电子邮件地址
政府颁发的身份识别卡
例如:
123-45-6789立即被标记为社会保障号码。
这些探测器包括:
高精度
与语言无关
确定性且可审计
仅这一层就涵盖了大部分受监管数据,并提供了一个清晰、可解释的基线。
2. 上下文和语义检测(基于机器学习)
对于PHI等敏感信息,仅靠模式匹配是不够的。
许多受监管的信息披露都是基于上下文而非数字的。
例如:
“患者被诊断患有 II 型糖尿病。”
“核磁共振结果显示肿瘤进展。”
“出生日期:1978 年 2 月 14 日,MRN:9938821。”
这些看起来都不像社保号码或信用卡信息。它们之所以敏感,是因为其含义,而不是格式。
Gemini采用以下方式进行上下文分类:
训练用于识别PHI和PII上下文的NLP分类器
医疗和金融实体认可
基于标识符邻近性的风险评分
即使没有明确的标识符,Gemini 也能检测到敏感信息。
3. 提示意图分析(用户行为)
Gemini不仅评估数据,还评估用户要求它执行的操作。
例如:
“从这些文件中提取所有社会保障号码。”
即使用户有权查看文件,Gemini 也会将此视为高风险意图。
作为回应,双子座可以:
拒绝该请求
敏感信息请谨慎填写
请提供汇总信息而非原始数值。
这可以防止企业环境中常见的故障模式:授权用户未经授权使用数据。
4. 基于政策的执行(企业控制)
单靠检测没有执法是无济于事的。
一旦识别出敏感点,Gemini 会将该信号输入到企业策略规则中,例如:
屏蔽原始敏感值
强制聚合或汇总
屏蔽特定字段
限制下载、导出或回写操作
管理员可以进行以下调整:
允许传输哪些类型的敏感数据?
允许哪些响应类型
执法力度应该有多严格?
这样就能将控制权掌握在安全和合规团队手中。
5. 瞬态处理以降低风险
即使检测到并处理敏感数据,Gemini 也能通过设计最大限度地减少数据泄露。
数据仅存在于内存中
没有索引或持久化
没有模型训练
不支持跨会话重用
如果发生意外,这将大大限制爆炸半径。
为什么无需权限标签也能奏效
权限标签回答了以下问题:这些数据应该如何分类?
双子座回答的是另一个问题:这段文字目前是否包含敏感信息?
这种内容检查方法与以下机构使用的模型相同:
云端DLP扫描仪
安全检查工具
合规监控系统
电子邮件网关
标签有助于使用前识别。检查可确保使用过程中的安全。
实际应用情况如何
场景:
一个带有标签的 SharePoint 文档包含:“患者 John Doe(出生日期 1975 年 1 月 12 日)被开了胰岛素处方。”
用户向 Gemini 提问:“总结最近的患者入院记录。”
会发生什么:
由于用户已获得授权,因此允许访问。
双子座短暂地收到了这条信息
Gemini 根据患者背景信息、出生日期和治疗情况来检测 PHI(受保护的健康信息)。
Gemini 生成高级概要
标识符已被屏蔽或省略
用户无需暴露任何敏感信息即可获得价值。
这关系到信誉度。
Gemini公司并不声称拥有完美的检测能力。
任何系统都无法取代门禁控制。
DLP是纵深防守,不是魔法。
明确说明限制条件有助于建立与安全团队的信任。
安全领导者的一句话
“Gemini 通过使用确定性模式、上下文机器学习分类器和用户意图分析来检查内容本身,而不是通过继承外部标签来检测敏感数据。”
小结
Purview决定是否可以访问数据。Gemin DLP决定如何使用这些数据。
正是这种区别使得 Gemini Enterprise 在企业级规模下安全可靠。