数据库 频道

Gemini Enterprise 如何处理敏感数据

  大多数企业客户一开始都会做出一个合理的假设:如果敏感数据被正确标记,人工智能系统就可以简单地遵循这些标签并确保安全。

  问题在于,标签描述的是分类,而非内容。它们预先应用,依赖于人工或自动化的准确性,并且通常滞后于数据的实际使用方式。一旦文档被打开、复制、摘要或查询,仅凭标签就无法回答最重要的问题:

  就此请求而言,这段文字目前是否包含敏感信息?

  这正是 Gemini Enterprise 旨在解决的问题。

  本文从客户的角度解释了即使 Purview 标签缺失、不完整或不可用,Gemini 如何在运行时检测敏感数据。

  客户面临的挑战:标签是必要的,但还不够

  从企业安全角度来看,风险不仅仅在于访问权限本身,真正的风险出现在授予访问权限之后。

  客户普遍担心的情况包括:

  •   用户有权打开文档,但要求人工智能提取原始标识符。

  •   文件标签为通用名称,但包含嵌入的PHI或PII。

  •   敏感细节仅出现在自由文本、注释或叙述部分中。

  •   用户无意中以某种方式触发人工智能系统,从而扩大其曝光度。

  在所有这些情况下,可能存在权限标签,但一旦人工智能系统处理了数据,这些标签并不能完全控制数据的使用方式。

  Gemini 通过在用户使用时检查内容本身来弥补这一差距。

  Gemini 如何在运行时检测敏感数据

  Gemini Enterprise采用多种重叠的检测机制。每一层都能捕获不同的风险类别,它们共同构成纵深防御。

  1. 基于模式的检测(确定性)

  这是最具体、最可审计的一层。

  Gemini 运行数据防泄漏扫描器,查找诸如以下明确定义的敏感模式:

  •   社会保障号码,包括国际格式

  •   经 Luhn 验证的信用卡号码

  •   银行账号

  •   电话号码

  •   电子邮件地址

  •   政府颁发的身份识别卡

  例如:

  123-45-6789立即被标记为社会保障号码。

  这些探测器包括:

  •   高精度

  •   与语言无关

  •   确定性且可审计

  仅这一层就涵盖了大部分受监管数据,并提供了一个清晰、可解释的基线。

  2. 上下文和语义检测(基于机器学习)

  对于PHI等敏感信息,仅靠模式匹配是不够的。

  许多受监管的信息披露都是基于上下文而非数字的。

  例如:

  “患者被诊断患有 II 型糖尿病。”

  “核磁共振结果显示肿瘤进展。”

  “出生日期:1978 年 2 月 14 日,MRN:9938821。”

  这些看起来都不像社保号码或信用卡信息。它们之所以敏感,是因为其含义,而不是格式。

  Gemini采用以下方式进行上下文分类:

  •   训练用于识别PHI和PII上下文的NLP分类器

  •   医疗和金融实体认可

  •   基于标识符邻近性的风险评分

  即使没有明确的标识符,Gemini 也能检测到敏感信息。

  3. 提示意图分析(用户行为)

  Gemini不仅评估数据,还评估用户要求它执行的操作。

  例如:

  “从这些文件中提取所有社会保障号码。”

  即使用户有权查看文件,Gemini 也会将此视为高风险意图。

  作为回应,双子座可以:

  •   拒绝该请求

  •   敏感信息请谨慎填写

  •   请提供汇总信息而非原始数值。

  这可以防止企业环境中常见的故障模式:授权用户未经授权使用数据。

  4. 基于政策的执行(企业控制)

  单靠检测没有执法是无济于事的。

  一旦识别出敏感点,Gemini 会将该信号输入到企业策略规则中,例如:

  •   屏蔽原始敏感值

  •   强制聚合或汇总

  •   屏蔽特定字段

  •   限制下载、导出或回写操作

  •   管理员可以进行以下调整:

  •   允许传输哪些类型的敏感数据?

  •   允许哪些响应类型

  •   执法力度应该有多严格?

  这样就能将控制权掌握在安全和合规团队手中。

  5. 瞬态处理以降低风险

  即使检测到并处理敏感数据,Gemini 也能通过设计最大限度地减少数据泄露。

  •   数据仅存在于内存中

  •   没有索引或持久化

  •   没有模型训练

  •   不支持跨会话重用

  如果发生意外,这将大大限制爆炸半径。

  为什么无需权限标签也能奏效

  权限标签回答了以下问题:这些数据应该如何分类?

  双子座回答的是另一个问题:这段文字目前是否包含敏感信息?

  这种内容检查方法与以下机构使用的模型相同:

  •   云端DLP扫描仪

  •   安全检查工具

  •   合规监控系统

  •   电子邮件网关

  标签有助于使用前识别。检查可确保使用过程中的安全。

  实际应用情况如何

  场景:

  一个带有标签的 SharePoint 文档包含:“患者 John Doe(出生日期 1975 年 1 月 12 日)被开了胰岛素处方。”

  用户向 Gemini 提问:“总结最近的患者入院记录。”

  会发生什么:

  由于用户已获得授权,因此允许访问。

  双子座短暂地收到了这条信息

  Gemini 根据患者背景信息、出生日期和治疗情况来检测 PHI(受保护的健康信息)。

  •   Gemini 生成高级概要

  •   标识符已被屏蔽或省略

  用户无需暴露任何敏感信息即可获得价值。

  这关系到信誉度。

  Gemini公司并不声称拥有完美的检测能力。

  任何系统都无法取代门禁控制。

  DLP是纵深防守,不是魔法。

  明确说明限制条件有助于建立与安全团队的信任。

  安全领导者的一句话

  “Gemini 通过使用确定性模式、上下文机器学习分类器和用户意图分析来检查内容本身,而不是通过继承外部标签来检测敏感数据。”

  小结

  Purview决定是否可以访问数据。Gemin DLP决定如何使用这些数据。

  正是这种区别使得 Gemini Enterprise 在企业级规模下安全可靠。

0
相关文章