Administrator
Published on 2025-10-12 / 5 Visits
0
0

【云原生存储】什么是对象存储?为什么说它是“数据宇宙的黑洞”?

一、开篇:为什么我们再也离不开“对象存储”

传统存储像个仓库,讲究容量、货架和锁;
而对象存储像一个“宇宙”,每一颗星星都是独立的对象,在无限空间中被标识、索引、检索。

当你的企业数据从 TB 增长到 PB、EB 级时,传统文件系统早已崩溃;
而对象存储,能像黑洞一样吞下海量数据,却依然保持高效、低成本与高可靠。

如今,从 ChatGPT 的模型训练集央企的日志审计与安防视频,都在使用对象存储。
它已成为“云原生架构的基石”。


二、什么是对象存储(Object Storage)

对象存储,也称为“面向对象的存储”,英文是Object-based Storage。现在很多云厂商,也直接称之为“云存储”。

不同的云厂商对它有不同的英文缩写命名。例如阿里云把自家的对象存储服务叫做OSS,华为云叫OBS,腾讯云叫COS,七牛叫Kodo,百度叫BOS,网易叫NOS……五花八门,反正都是一个技术。

对象存储(Object Storage)是一种 以对象为单位进行数据存储与管理 的云端存储方式。

每个“对象(Object)”包含三部分:

  1. 数据本体(Data) —— 真正的文件内容,如视频、图片、文档;

  2. 元数据(Metadata) —— 文件描述信息,如创建时间、权限、标签;

  3. 唯一标识符(Object ID / Key) —— 相当于文件的身份证,可通过 URL 或 API 直接访问。

👉 没有复杂的目录结构,也不需要挂载路径。
你只需一个“桶(Bucket)”+“对象名(Key)”,就能像访问网页一样访问文件:

https://oss.example.com/my-bucket/videos/2025/demo.mp4

三、对象存储 vs 文件存储 vs 块存储

类型

数据组织方式

优点

缺点

典型场景

文件存储(File Storage)

层级目录 + 文件名

访问习惯自然

不适合海量小文件

共享文件、企业网盘

块存储(Block Storage)

固定大小数据块

性能高,可挂载

无文件语义,管理复杂

数据库、虚拟机磁盘

对象存储(Object Storage)

扁平化对象 + 元数据

可扩展性强、低成本

不适合高频随机写

海量图片、视频、日志、AI数据集

📦 一句话总结:

文件存储像文件柜,块存储像硬盘,而对象存储像云端的“无边空间”,既能存视频,又能当备份,还能与 AI/大数据系统无缝对接。


DAS和SAN是基于物理块的存储方式,而NAS是基于文件的存储方式。

在DAS和SAN中,存储资源就像一块一块的硬盘,直接挂载在主机上,我们称之为块存储

而在NAS中,呈现出来的是一个基于文件系统的目录架构,有目录、子目录、孙目录、文件,我们称之为文件存储

文件存储的最大特点,就是所有存储资源都是多级路径方式进行访问的。例如:

C:\Program Files (x86)\Tencent\WeChat\WeChat.exe

\\NJUST-Server\学习资料\通信原理\第一章作业.doc

四、对象存储的核心架构

对象存储的架构是怎样的呢?如下图所示,分为3个主要部分

  • OSD对象存储设备

这是对象存储的核心,具有自己的CPU、内存、网络和磁盘系统。它的主要功能当然是存储数据。同时,它还会利用自己的算力,优化数据分布,并且支持数据预读取,提升磁盘性能。

  • MDS元数据服务器

它控制Client和OSD的交互,还会管理着限额控制、目录和文件的创建与删除,以及访问控制权限。

  • Client客户端

提供文件系统接口,方便外部访问。

根据上面的架构可以看出,对象存储系统可以是一个提供海量存储服务的分布式架构。

对象存储背后的魔法来自四个层面:

  1. 分布式文件系统(如 Ceph、MinIO、Swift)

    • 数据被分片、冗余保存,多副本或纠删码确保不丢。

  2. 元数据管理层

    • 记录每个对象的位置、标签、版本、权限。

  3. 访问接口层

    • 支持 RESTful API、S3 协议、SDK;兼容所有主流云厂商标准。

  4. 安全控制与审计层

    • IAM 权限、访问日志、加密传输、存储加密(AES-256)。

🧠 举个例子:当你上传一个 10GB 的视频到对象存储时,它会:

  • 自动切片 → 可能分成数十个小块;

  • 多副本存储 → 同时保存在不同机架、机房;

  • 更新索引 → 在元数据数据库登记位置;

  • 生成链接 → 供系统、用户或CDN调用。


五、为什么对象存储能做到“无限扩容”

20世纪末,随着互联网的爆发,数据存储需求发生了两个重大的变化。

第一,就是数据量爆炸式增长。

Web应用的崛起、社交需求的刺激,极大地推动了多媒体内容的创作和分享。人们开始上传大量的照片、音乐、视频,加剧了数据量的爆发

此外,信息技术的发展、企业数字化的落地,也产生了大量的数据,不断吞食着存储资源。

第二,是非结构化数据的占比显著增加。

什么是非结构化数据?

举个例子大家就明白了。我们经常做的excel表格,姓名、身高、体重、年龄、性别,这种用二维表结构可以进行逻辑表达的数据,就是结构化数据。

而图像、音频、视频、word文章、演示胶片这样的数据,就是非结构化数据。根据此前的预测,全球数据总量的80%,将是非结构化数据。

面对这两大趋势,因为本身技术和架构的限制,DAS、SAN和NAS无法进行有效应对于是,就搞出了对象存储

早在1996年,美国卡内基梅隆大学就将对象存储作为一个研究项目提出来。随后,加州大学伯克利分校也有推出类似的项目。

2002年,Filepool公司推出了基于内容可寻址技术的Centera系统,算是比较早期的对象存储系统。

2006年,美国Amazon公司发布AWS S3(Simple Storage Service)服务,正式将对象存储作为一项云存储服务,引入云计算领域,从此开启了对象存储的黄金时代。

S3几乎成为对象存储的事实标准

各厂家基本上都会兼容S3

对象存储抛弃了文件系统的层级结构,采用“扁平化命名空间 + 分布式索引”设计。
这意味着:

  • 不存在“目录满了”的问题;

  • 可以水平扩展到上百亿文件;

  • 每个对象都能独立管理、授权、追踪。

这就是它能支撑 抖音、Bilibili、百度网盘 一类平台的根本原因。

说了半天,对象存储到底是一个什么样的技术?它和块存储、文件存储有什么区别?

首先,第一点,千万不要去看百度百科上面“对象存储”的定义,否则,你可能会怀疑人生。

想要了解对象存储,最简单直接的办法,就是从实际使用体验上进行对比。

对象存储的底层硬件介质,依然是硬盘,和块存储、文件存储没有区别。

而对象存储架构在底层硬件之上的系统,和两者完全不同。

不同的软件,带来了完全不同的使用体验:

块存储,操作对象是磁盘。存储协议是SCSI、iSCSI、FC。

以 SCSI 为例,主要接口命令有 Read/Write/Read Capacity/Inquiry 等等。

文件存储,操作对象是文件和文件夹。存储协议是NFS、SAMBA(SMB)、POSIX等。

以NFS(大家应该都用过“网上邻居”共享文件吧?就是那个)为例,文件相关的接口命令包括:READ/WRITE/CREATE/REMOVE/RENAME/LOOKUP/ACCESS 等等,文件夹相关的接口命令包括:MKDIR/RMDIR/READDIR 等等。

对象存储,主要操作对象是对象(Object)。存储协议是S3、Swift等。

以 S3 为例,主要接口命令有 PUT/GET/DELETE 等。

看出来了吧?接口命令非常简洁,没有那种目录树的概念。

在对象存储系统里,你不能直接打开/修改文件,只能先下载、修改,再上传文件。(如果大家用过百度网盘或ftp服务,一定可以秒懂。)

对象存储中的数据组成
对象存储呈现出来的是一个“桶”(bucket),你可以往“桶”里面放“对象(Object)”。这个对象包括三个部分:Key、Data、Metadata。

  • Key

可以理解文件名,是该对象的全局唯一标识符(UID)。

Key是用于检索对象,服务器和用户不需要知道数据的物理地址,也能通过它找到对象。这种方法极大地简化了数据存储。

下面这行,就是一个对象的地址范例:

看上去就是一个URL网址。如果该对象被设置为“公开”,所有互联网用户都可以通过这个地址访问它。

  • Data

也就是用户数据本体。这个不用解释了。

  • Metadata

Metadata叫做元数据,它是对象存储一个非常独特的概念。

元数据有点类似数据的标签,标签的条目类型和数量是没有限制的,可以是对象的各种描述信息。

举个例子,如果对象是一张人物照片,那么元数据可以是姓名、性别、国籍、年龄、拍摄地点、拍摄时间等。

元数据可以有很多

在传统的文件存储里,这类信息属于文件本身,和文件一起封装存储。而对象存储中,元数据是独立出来的,并不在数据内部封装。

元数据的好处非常明显,可以大大加快对象的排序,还有分类和查找。

对象存储的优点很多,简单归纳如下:

  • 容量无限大

对象存储的容量是EB级以上。EB有多大?大家的硬盘普遍是TB级别。1EB约等于1TB的一百万倍,请自行脑补...

对象存储的所有业务、存储节点采用分布式集群方式工作,各功能节点、集群都可以独立扩容。从理论上来说,某个对象存储系统或单个桶(bucket),并没有总数据容量和对象数量的限制。

换句话说,只要你有足够的money,服务商就可以不停地往架构里增加资源,这个存储空间就是无限的。

你可以根据自身需求购买相应大小的对象存储空间。如果需要调整大小,也是支持弹性伸缩的,你不要进行数据迁移和人工干预。

  • 数据安全可靠

对象存储采用了分布式架构,对数据进行多设备冗余存储(至少三个以上节点),实现异地容灾和资源隔离。

根据云服务商的承诺,数据可靠性至少可以达到99.999999999%(不用数了,一共11个9)。这意味着,1000亿个文件里,每月最多只会有1个文件发生数据丢失。这比一个人被陨石击中的概率还要小143000倍。

数据访问方面,所有的桶和对象都有ACL等访问控制策略,所有的连接都支持SSL加密,OBS系统会对访问用户进行身份鉴权。因为数据是分片存储在不同硬盘上的,所以即使有坏人偷了硬盘,也无法还原出完整的对象数据。

  • 使用方便

对于用户来说,对象存储是一个非常方便的存储方式。

很多人把它比喻为“代客泊车”,你只需要把车扔给他,他给你一个凭证,你通过凭证取车就可以了。你不需要知道车库的布局,也不需要自己去费力停放。

数据的存取方法也非常灵活多样。除了前面说的可以使用网页(基于http)直接访问之外,大部分云服务提供商都有自己的图形化界面客户端工具,用户存取数据就像用网盘一样。 

腾讯云的对象存储工具界面


六、对象存储的安全与合规能力

在政企、科研、信创环境下,对象存储的安全与合规尤为重要:

安全能力

说明

传输加密

全程 HTTPS/TLS 通信

存储加密

AES-256、SM4、KMS 密钥管理

访问控制

Bucket Policy + IAM 策略

日志审计

记录每个访问请求与来源

多租户隔离

虚拟化沙箱隔离不同用户数据

合规标准

支持国密算法、等保三级、ISO27001、GDPR

特别是 国产信创云(如华为云 OBS、阿里云 OSS 国密版),已经实现国密 SM 系列算法全链路加密,适用于涉密科研网、条件保障专项环境。


七、对象存储的典型应用场景

场景

描述

企业级备份与归档

异地多活、低成本冷数据存储

大数据分析/AI训练集

Hadoop、Spark、PyTorch 可直接读取

内容分发系统(CDN)

视频、图像、音频文件分发

日志与监控系统

日志文件与指标数据长期留存

容灾与快照备份

跨区域冗余与恢复

政务云/科研网环境

支撑安全审计、资料汇交与档案存储


事实上,大部分的对象存储需求,并不是个人用户买来当网盘用,而且企业或政府用户用于系统数据存储。例如网站、App的静态图片、音频、视频,还有企业系统的归档数据等。

像这种数据,是通过程序内部的接口调用的。对象存储提供开放的REST API接口。程序员在开发应用时,直接把存储参数写进代码,就可以通过API接口调用对象存储里的数据。相比文件存储那一串串的路径,对象存储要方便很多。

目前国内有大量的云服务提供商,他们把对象存储当作云存储在卖。

他们通常会把存储业务分为3个等级,即标准型、低频型、归档型。对应的应用场景如下:

标准类型:移动应用 | 大型网站 | 图片分享 | 热点音视频 

低频访问类型:移动设备 | 应用与企业数据备份 | 监控数据 | 网盘应用

归档类型:各种长期保存的档案数据 | 医疗影像 | 影视素材

根据估算,目前全球互联网70%以上的热点数据是保存在对象存储系统中的。

对象存储虽然看上去很好很强大,但也不是没有缺点。它最大的缺点,和它的工作模式有关。

它是那种把整个数据取出来,修改,再放回去的模式,不支持直接在存储上修改,哪怕只是加一行数据,都不行。所以,它不适合存储需要频繁擦写的数据(例如关系型数据库的数据)。

在数据的一致性保证上,对象存储也存在先天的不足。不过,据说目前技术上已经有了很大改进。

八、主流对象存储产品对比

厂商

产品名

特点

阿里云 OSS

稳定、支持国密、API 丰富

政企、云上备份

华为云 OBS

纠删码性能领先、国产替代强

信创与科研网

腾讯云 COS

生态完善、微信体系整合

互联网与视频云

七牛云 Kodo

成本低、开发者友好

图床、创业项目

AWS S3

行业标准定义者

全球 SaaS 平台

MinIO

开源自建方案,支持私有云

企事业私有部署


九、趋势:AI + 对象存储,走向智能数据湖

未来五年,对象存储不再只是“文件仓库”,而是演变为“智能数据湖底座”:

  • 自动识别文件类型与内容(AI元数据)

  • 实时数据分层:热数据自动上层缓存、冷数据自动归档

  • 与大模型训练无缝对接(直接读取 S3 URI)

  • Serverless 化调用:事件触发 Lambda 函数

📈 这意味着:对象存储将成为 AI 数据生态的入口
一切数据的流入、加工、分析与训练,都将从对象存储开始。


十、结语:对象存储是“数据的终极归宿”

在数字化转型的今天,算力决定速度,存储决定命运。
对象存储以其“可扩展、可管理、可合规”的特性,正逐渐取代传统 NAS 与 SAN,
成为企业数据资产的“最终落点”与“统一入口”。

☁️ 如果说云计算是天空,那么对象存储,就是那片装得下整个世界的数据云。


Comment