高歌猛进的DeepSeek尴尬时刻:ClickHouse数据库泄露百万条信息

B站影视 2025-02-06 16:36 3

摘要:Wiz Research 已经确定了一个属于 DeepSeek 的可公开访问的 ClickHouse 数据库,该数据库允许完全控制数据库作,包括访问内部数据的能力。暴露包括超过 100 万行日志流,其中包含聊天历史记录、密钥、后端详细信息和其他高度敏感信息。W

属于 DeepSeek 的可公开访问数据库允许对数据库作进行完全控制,包括访问内部数据的能力。暴露包括超过 100 万行包含高度敏感信息的日志流。

Wiz Research 已经确定了一个属于 DeepSeek 的可公开访问的 ClickHouse 数据库,该数据库允许完全控制数据库作,包括访问内部数据的能力。暴露包括超过 100 万行日志流,其中包含聊天历史记录、密钥、后端详细信息和其他高度敏感信息。Wiz Research 团队立即负责任地向 DeepSeek 披露了这个问题,DeepSeek 迅速获得了曝光。

在这篇博文中,我们将详细介绍我们的发现,并考虑对整个行业的更广泛影响。

中国 AI 初创公司 DeepSeek 最近因其开创性的 AI 模型,尤其是 DeepSeek-R1 推理模型而引起了媒体的广泛关注。该模型在性能上可与 OpenAI 的 o1 等领先的 AI 系统相媲美,并以其成本效益和效率而著称。

随着 DeepSeek 在 AI 领域掀起波澜,Wiz Research 团队开始评估其外部安全态势并识别任何潜在的漏洞。

几分钟之内,我们发现了一个链接到 DeepSeek 的可公开访问的 ClickHouse 数据库,该数据库完全开放且未经身份验证,暴露了敏感数据。它在 oauth2callback.deepseek.com:9000 和 dev.deepseek.com:9000 举办。

该数据库包含大量聊天记录、后端数据和敏感信息,包括日志流、API 密钥和作详细信息。
更关键的是,这种暴露允许在 DeepSeek 环境中进行完全的数据库控制和潜在的权限提升,而无需对外部世界进行任何身份验证或防御机制。

我们的侦察工作从评估 DeepSeek 的可公开访问域开始。通过使用简单的侦察技术(被动和主动发现子域)映射外部攻击面,我们确定了大约 30 个面向 Internet 的子域。大多数看起来是良性的,托管了聊天机器人界面、状态页面和 API 文档等元素,这些元素最初都不是高风险暴露。

然而,当我们把搜索范围扩大到标准HTTP端口(80/443)之外时,我们发现了两个不寻常的开放端口(8123和9000)与以下主机相关联:

经过进一步调查,这些端口导致了一个公开暴露的 ClickHouse 数据库,该数据库根本不需要任何身份验证即可访问——立即引发了危险信号。

ClickHouse 是一个开源的列式数据库管理系统,专为对大型数据集进行快速分析查询而设计。它由 Yandex 开发,广泛用于实时数据处理、日志存储和大数据分析,这表明这种曝光是一个非常有价值和敏感的发现。

通过利用 ClickHouse 的 HTTP 接口,我们访问了 /play 路径,该路径允许通过浏览器直接执行任意 SQL 查询。运行一个简单的 SHOW TABLES;query 返回可访问数据集的完整列表。

ClickHouse Web UI 的表格输出

其中,一个表脱颖而出:log_stream,其中包含大量日志和高度敏感的数据。

log_stream 表包含超过 100 万个日志条目,其中特别具有启发性的列:

timestamp – 2025 年 1 月 6 日的日志span_name – 对各种内部 DeepSeek API 端点的引用string.values – 纯文本日志,包括聊天历史记录、API 密钥、后端详细信息和作元数据_service – 指示哪个 DeepSeek 服务生成了日志_source – 公开日志请求的来源,包括聊天历史记录、API 密钥、目录结构和聊天机器人元数据日志

这种级别的访问对 DeepSeek 自身的安全及其最终用户构成了严重风险。攻击者不仅可以检索敏感日志和实际的纯文本聊天消息,而且还可能使用如下查询直接从服务器窃取纯文本密码和本地文件以及专有信息:SELECT * FROM file('filename'),具体取决于他们的 ClickHouse 配置。

在没有相应安全性的情况下快速采用 AI 服务本身就存在风险。这种暴露凸显了这样一个事实,即 AI 应用程序的直接安全风险源于支持它们的基础设施和工具。

虽然围绕 AI 安全的大部分注意力都集中在未来威胁上,但真正的危险往往来自基本风险,例如数据库的意外外部暴露。这些风险对安全至关重要,应始终是安全团队的首要任务。

随着组织争先恐后地采用越来越多的初创公司和提供商提供的 AI 工具和服务,我们必须记住,这样做就是将敏感数据委托给这些公司。快速的采用速度通常会导致忽视安全性,但保护客户数据必须仍然是重中之重。安全团队与 AI 工程师密切合作,以确保对正在使用的架构、工具和模型的可见性,这样我们才能保护数据并防止暴露,这一点至关重要。

世界上从未见过任何一项技术以 AI 的速度被采用。许多 AI 公司已经迅速成长为关键基础设施提供商,而没有通常伴随着如此广泛采用的安全框架。随着 AI 深度集成到全球企业中,该行业必须认识到处理敏感数据的风险,并实施与公有云提供商和主要基础设施提供商相同的安全实践。

来源:AI中国

相关推荐