数据目录为非结构化数据带来全新改变

摘要：合作伙伴内容 Starfish Storage 可能不是企业存储从业者家喻户晓的名字，但在高性能计算圈子中，它被认为是最具可扩展性和多功能性的文件管理平台。你会在世界领先的超级计算中心中看到 Starfish 的身影。这些中心包括大型企业的研发部门、顶级大学的

合作伙伴内容 Starfish Storage 可能不是企业存储从业者家喻户晓的名字，但在高性能计算圈子中，它被认为是最具可扩展性和多功能性的文件管理平台。你会在世界领先的超级计算中心中看到 Starfish 的身影。这些中心包括大型企业的研发部门、顶级大学的科研计算机构、EDA 模拟农场、对冲基金以及动画工作室。

多功能性与可扩展性

Starfish 同时应对传统存储管理的各种应用场景，如归档、备份、迁移、成本核算和老化分析。它也处理数据管理应用场景，包括 AI/ML 工作流、数据策划、数据保全和内容分类。

这一切都在极大规模下运行。Starfish 的最大客户拥有成千上万个存储卷、数百个 PB（拍字节）的数据以及数百亿个文件。举个典型例子，Starfish 最近在世界之最强超级计算机 El Capitan 上为劳伦斯利弗莫尔国家实验室部署使用。

野外环境中的非结构化数据目录

Starfish 成立于 2011 年，是最早将数据目录这一概念应用于野外环境中文件的浏览和管理的商业产品之一。这里所说的“野外”，指的是存储在经由 NFS、SMB、原生客户端、POSIX 和 S3 等方式访问的存储设备上的文件。这些文件处于被频繁使用的状态，用户、应用程序、数据采集设备以及科学和生物医学仪器不断地添加、删除和更新它们。

此类文件并不存放在类似 Microsoft SharePoint 这样的门户之中，也不属于内容管理系统、记录管理系统、档案系统或数据湖的一部分。它们就像你个人电脑上的文件一样，可能会被重命名、删除、产生重复或出现版本不匹配的情况。

数据目录指的是一种软件平台，用于将元数据与数据库、数据湖和数据仓库等数据资源关联起来。它让业务用户能查找并访问其机构的数据资产。

Starfish 的创始人发现，主流数据目录供应商缺乏能将元数据分配给隐藏在复杂目录树和用户权限背后的非结构化数据的技术手段。企业数据目录仅限于策划结构化和半结构化数据，而野外的文件仍然不透明、无法驾驭。Starfish 的原始产品（现称为非结构化数据目录或 UDC）通过在整个组织的文件存储设备上创建一个索引，将元数据与文件和目录关联，从而填补了这一市场空白。UDC 使企业能够了解文件内容如何关联到项目、知识产权、工作流和成本中心，即使这些文件分散在多个存储设备上。

UDC 有助于解决将数据存储与数据价值挂钩这一历久弥新的问题。它还提供了关于如何在时间推移中更好管理存储的见解，包括管理员可以归档或删除哪些数据、必须保留哪些数据以及由谁承担相关费用。内嵌的报告仪表板利用元数据系统提供了细粒度的容量和老化分析洞见。

数据目录在 AI 就绪性中的角色

快进到 2025 年，各种组织正争相通过识别并获取可能与 AI 工作负载相关的数据资源，从而实现 AI 就绪。

这股 AI/ML 热潮突显了数据目录的重要性，尤其是针对那些埋藏在组织文件仓库中的海量有价值信息。AI 数据质量和安全性依赖于区分文件版本、考虑权限（尤其在基于检索增强生成 ( RAG ) 场景中）以及将 AI/ML 工作流的输出整合回目录元数据中。

抄袭者纷纷登场

正如预期，新玩家正纷纷进入非结构化数据目录这一领域。其中一些是初创公司，而另一些则是传统存储供应商，他们正在为自己的文件存储产品增加数据目录功能。这引出了一个问题：怎样才能构建出一个优秀的基于文件的数据目录？

Starfish 的一个重要设计标准就是能与存储供应商无关。它可与几乎所有的文件与对象存储设备协同工作。这使得 Starfish 拥有一个涵盖组织内所有文件内容的通用地图。相比之下，存储供应商提供的数据目录往往只能在自家存储设备上运行良好，无法扩展到其他供应商设备上存储的内容。结果就只是在制造一种新的供应商锁定效应。Starfish 避免了这一问题，提供了对所有存储设备的不受阻碍的全景视图。

许多数据管理系统都是内嵌式的，即直接在存储基础设施上运行，这在大规模时容易产生瓶颈和漏洞。另一方面，Starfish 从头设计即采用带外（ out-of-band ）的操作方式，通过独立进程与存储系统交互。这带来了诸如非干扰式操作和更容易扩展等优势。

吸引既了解数据又懂得数据价值的终端用户

Starfish 拥有一个名为 Storage Zones 的功能，它将相关内容进行分组，并呈现给相关用户，如研究人员、实验室经理、图书管理员等，并为他们提供在所属区域内搜索与标注的工具。这让存储用户得以管理其文件集合，即便这些文件分散在包括 NAS、高性能计算文件系统和 S3 桶在内的多个系统中。这正是存储无关优势的又一体现；该功能让最了解自己数据价值的人参与到数据管理实践中。长期来看，这种效果会逐步显现，因为组织可以以更契合数据实际价值的方式存储数据，同时释放出主要存储资源。

数据迁移与数据处理的需求

无论目标是达到 AI 就绪性，还是解决非结构化数据管理的其它方面，一个数据目录的元数据和发现能力都仅能展现问题的一半。还必须有一种机制，可以让感兴趣的文件以安全的方式被访问和处理。

为此，Starfish 集成了一个名为 Starfish Automation Engine 的任务引擎，该引擎可以根据目录中的洞见来处理和移动文件。反过来，该任务引擎会根据其所做的发现或采取的操作，为目录增加元数据。

例如，目录可能识别出应当用于训练模型的文件。任务引擎接着可以将这些文件提交到训练流水线中，并将用于训练模型的文件版本反馈记录到元数据目录中。随着时间的推移，这个反馈循环将使你对数据集的使用和管理有更深入的了解。

总结

对于 Starfish Storage 来说，正处于一个令人兴奋的时代。我们多年来所占据的小众市场正在走向主流，而我们拥有一个独特、成熟且可在极高规模下运行的解决方案。

除了跨越多个供应商存储设备的统一文件索引系统外，我们还构建了一个灵活的元数据系统，使文件集合的分类、迁移和处理变得更为容易。

来源：至顶网一点号

标签： storage 工作流结构化存储设备 starfish

本文地址：http://news.43b.com.cn/a/390665.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!