新闻动态
你的位置: 开云(中国)kaiyun体育网址登录入口 > 新闻动态 >

1. 存储
1.1. 存储是数据工程生命周期的基石
1.1.1. 是数据取得、不异和办当事人要阶段的基础1.1.1.1. 当构建数据管说念时,跟着数据经过取得、不异和管事阶段,工程师会选用允洽的玄虚来存储他们的数据1.1.2. 当数据在生命周期中出动时,它会被屡次存储1.1.2.1. 必须在存储中抓续存在,直到系统准备好消费它以进一步处理和传输
1.2. 了解数据的使用情况和你明天检索它的面容是为你的数据架构选用合适的存储贬责决议的第一步
1.3. 源系统泛泛不是由数据工程师可贵或适度的
1.4. 数据工程师告成处理的存储
1.4.1. 包含了数据工程生命周期的各个阶段,包括从源系统中索要数据,到为数据提供分析、数据科学磋商等价值1.4.2. 好多体式的存储以某种面容连气儿了扫数这个词数据工程生命周期
1.5. 组成存储系统的原材料,包括硬盘、固态硬盘和系统内存
1.5.1. 序列化和压缩,这是实用存储的关节软件元素1.5.2. 缓存对存储系统的拼装至关要紧
1.6. 了解物理存储时刻的基本特征,关于评估任何存储架构中内在的量度是至关要紧的
1.7. 在实践中,咱们并不告成走访系统内存或硬盘
1.7.1. 物理存储组件存在于管事器和集群内,这些管事器和集群不错使用多样走访模式取得和检索数据1.7.2. 存储系统被拼装成一个云数据仓库,一个数据湖等
2. 数据存储的原材料
2.1. 在大大量数据架构中,数据在通过数据管说念的各个处理阶段时,时时会经过磁性存储、SSD和内存
2.1.1. 照顾管事有可能将数据工程师从照顾管事器的复杂性中目田出来,但数据工程师仍然需要了解底层组件的基本特征、性能考量、永恒性和资本
2.2. 磁盘驱动器
2.2.1. 磁盘是涂有铁磁薄膜的旋转盘片2.2.1.1. 薄膜在写操作中被读/写头磁化,对二进制数据进行物理编码2.2.1.2. 读/写头在读操作中检测磁场并输出比特流2.2.1.3. 热助磁纪录(Heat-Assisted Magnetic Recording,HAMR)、叠瓦式磁纪录(Shingled Magnetic Recording,SMR)和充氦磁盘存储器等步地被用来已毕越来越大的存储密度2.2.1.3.1. 硬盘性能的其他方面却受到了物理学的进攻2.2.2. 磁盘驱动器还是存在了很永劫刻2.2.2.1. 仍然是大容量数据存储系统的主干2.2.2.2. 磁盘在性能、存储密度和资本方面还是有了不凡的创新2.2.3. 它们每千兆字节的存储数据的资本远低于固态硬盘2.2.3.1. 固态硬盘在多样绸缪上皆大大跳动了磁盘2.2.3.2. 商用磁盘驱动器的资本约为每千兆字节3好意思分2.2.4. 主要收尾2.2.4.1. 磁盘传输速率,即数据的读写速率,与磁盘容量不成正比2.2.4.1.1. 磁盘容量与面积密度(逐日常英寸1:存储的千兆位)成比例,而传输速率与线性密度(每英寸的比特数)成比例2.2.4.1.2. 要是磁盘容量加多4倍,传输速率只加多2倍2.2.4.1.3. 假定传输速率为300MB/s,读取一个30TB的磁盘的一起内容需要20多个小时2.2.4.2. 检索时刻2.2.4.2.1. 了走访数据,硬盘必须将读/写头物感性地从头定位到磁盘上的允洽轨说念2.2.4.3. 旋转蔓延2.2.4.3.1. 为了在磁盘上找到一个特定的数据,磁盘适度器必须恭候该数据在读/写头下旋转2.2.4.4. 每秒输入/输出操作(Input/Output Operations Per Second,IOPS)2.2.4.4.1. 对往返型数据库至关重2.2.4.4.2. 一个磁驱动器的IOPS在50~500之间2.2.5. 多样技巧不错改善蔓延和进步传输速率2.2.5.1. 使用更高的旋转速率不错提高传输速率,减少旋转蔓延2.2.5.2. 收尾磁盘盘面的半径或只将数据写入磁盘上的一个窄带,不错减少检索时刻2.2.5.3. 磁驱动器不错通过并行面容守护极高的传输速率2.2.5.4. 皆不行使磁驱动器在随即走访查询方面与固态硬盘有竞争力2.2.6. 磁盘因其低数据存储资本而在数据中心中仍然受到醉心2.2.6.1. 磁盘上的对象存储还是成为数据湖和云数据仓库中大界限数据存储的主要选用2.2.7. 云对象存储背后的关节理念:数据不错散布在集群中的数千个磁盘上2.2.7.1. 通过同期从繁密磁盘中读取数据,数据传输率大幅提高,这时读取速率主要受限于汇聚性能而不是磁盘传输率
2.3. 固态硬盘
2.3.1. 固态硬盘将数据看成电荷存储在闪存单位中2.3.1.1. 固态硬盘不需要磁盘的机械部件,数据是通过隧说念的电子妙技读取的2.3.1.2. 固态硬盘不错在不到0.1毫秒(100微秒)的时刻内查询到随即数据2.3.2. 固态硬盘不错通过将存储切成具有繁密并行驱动的存储适度器的分区来推广数据传输速率和IOPS2.3.2.1. 商用固态硬盘不错接济每秒数千兆字节的传输速率和更仆难数的IOPS2.3.3. 固态硬盘不错以更低的蔓延、更高的IOPS和更高的传输速率提供数据,部分原因是固态硬盘莫得物理旋转的磁盘或磁头需要恭候2.3.4. 固态硬盘还是透顶更正了事务数据库,成为OLTP系统交易部署的公认圭臬2.3.4.1. 固态硬盘接济相关数据库(如PostgreSQL、MySQL和SQL Server)每秒处理泛滥成灾的往返2.3.5. 固态硬盘当今并不是大界限分析数据存储的默许选项2.3.5.1. 商用固态硬盘每千兆字节容量的资本泛泛为20~30好意思分(USD),险些是磁盘每容量资本的10倍2.3.6. SSD在OLAP系统中仍然阐扬着要紧作用2.3.6.1. OLAP数据库期骗SSD缓存来接济对频繁走访数据的高性能查询
2.4. 随即存取存储器
2.4.1. 随即存取存储器(Random Access Memory,RAM)2.4.1.1. 附属于CPU,并映射到CPU的地址空间2.4.1.2. 存储CPU实践的代码和该代码告成处理的数据2.4.1.3. 是易失性存储器,而磁盘和SSD口舌易失性存储器2.4.1.4. 传输速率和检索时刻彰着优于SSD存储2.4.1.4.1. DDR5内存提供了100ns的数据检索蔓延,约莫比SSD快1000倍2.4.1.4.2. 一个典型的CPU不错接济100GB/s的带宽到附加内存和数百万的IOPS2.4.1.5. 比固态硬盘存储贵得多,约莫为10好意思元/GB2.4.1.6. 接到单个CPU和内存适度器的RAM数目上是有限的2.4.1.6.1. 高内存管事器泛泛在一块板上使用好多互连结洽的CPU,每个CPU皆有一个接洽的RAM块2.4.1.7. 仍然比CPU缓存慢得多,CPU缓存是一种告成位于CPU芯片上或兼并封装中的存储器2.4.2. 动态RAM,一种高密度、低资本的内存体式2.4.2.1. 动态RAM将数据看成电荷储存在电容器中2.4.3. 硬件内存适度器处理这些时刻细节,而数据工程师只需要记挂带宽和检索蔓延的特质2.4.4. CPU险些皆是经受冯·诺依曼体绑缚构,代码和数据存储在兼并个内存空间2.4.4.1. CPU泛泛也不错设定退却在特定内存页中实践代码,以增强安全性2.4.5. RAM被用于多样存储和处理系统,不错用于缓存、数据处理或索引2.4.5.1. 一些数据库将RAM看成主要存储层,允许超快的读写性能2.4.5.2. 恒久铭记RAM的易失性2.4.5.2.1. 即使存储在内存中的数据是在集群中复制的,导致几个节点瘫痪的停电也会导致数据丢失2.4.5.2.2. 想要抓久存储数据的架构可能需要电板备份,并在停电时自动将所稀有据转储到磁盘
2.5. 汇聚和CPU
2.5.1. 汇聚和CPU亦然存储系统的关节原材料2.5.2. 越来越多的存储系统为了提高性能、永恒性和可用性经受散布式2.5.2.1. 单个磁性磁盘提供了相对较低的传输性能,但一个磁盘集群不错并行读取,不错已毕显贵的性能推广2.5.2.2. 独处磁盘冗余阵列(Redundant Arrays of Independent Disk,RAID)等存储圭臬在单个管事器上已毕了并行化,但云对象存储集群的驱动界限要大得多,磁盘散布在一个汇聚致使多个数据中心和可用区2.5.3. 可用区是一种圭臬的云结构,由具有独处电力、水和其他资源的狡计环境组成2.5.3.1. 多区存储增强了数据的可用性和永恒性2.5.4. 存储成为一个具有API、后端管事组件和负载均衡的汇聚应用2.5.5. CPU处理管事苦求、团员读取和分派写入的细节2.5.6. 汇聚建树性能和汇聚拓扑结构是已毕高性能的关节身分2.5.6.1. 通过在地舆上分裂数据已毕的耐用性和可用性2.5.6.2. 将存储保抓在一个小的地舆区域和围聚数据消费者或写入者的性能和资本上风
2.6. 序列化
2.6.1. 序列化是另一个原材料,亦然数据库想象的一个关节身分2.6.2. 过软件存储在系统内存中的数据泛泛不是允洽存储在磁盘或通过汇聚传输的步地2.6.3. 序列化是将数据扁平化并打包成一个读取者不详解码的圭臬步地的经由2.6.3.1. 序列化步地提供了一个数据交换的圭臬2.6.3.2. 会以基于行的面容将数据编码为XML、JSON或CSV文献,然后将其传递给另一个用户,后者不错使用一个圭臬对其进行解码2.6.4. 一个序列化算法有处理类型的逻辑,对数据结构施加端正,并允许数据在编程言语和CPU之间流畅2.6.4.1. 序列化算法也有处理十分的端正2.6.5. 初级别的数据库存储亦然一种序列化的体式2.6.5.1. 面向行的相关数据库将数据组织成磁盘上的行,以接济快速查找和当场更新2.6.5.2. 列式数据库将数据组织摆列文献,以优化高效压缩并接济对大数据量的快速扫描2.6.6. 面前最流行的步地(如Apache Parquet)、羼杂序列化(如Apache Hudi)和内存序列化(如Apache Arrow)
2.7. 压缩
2.7.1. 压缩是存储工程的另一个要紧组成部分2.7.1.1. 压缩使数据变小,另外压缩算法也与存储系统的其他细节复杂地互相影响2.7.2. 高效的压缩在存储系统中有三个主要上风2.7.2.1. 数据更小,因此在磁盘上占用的空间更少2.7.2.2. 压缩加多了每个磁盘的实践扫描速率2.7.2.2.1. 在10:1的压缩比下,咱们从每块磁盘200MB/s的扫描速率酿成了每块磁盘2GB/s的高效扫描速率2.7.2.3. 在汇聚性能方面,鉴于亚马逊EC2实例和S3之间的汇聚接洽提供10GB/s的带宽,10:1的压缩比将灵验的汇聚带宽加多到100GB/s2.7.3. 弱点2.7.3.1. 压缩妥协压缩数据需要特等的时刻和资源破钞来读取或写入数据
2.8. 缓存
2.8.1. 缓存的中枢想想是将时时或最近走访的数据存储在一个快速走访层2.8.2. 缓存的速率越快,资本越高欧洲杯体育,可用的存储空间越少2.8.2.1. 不太频繁走访的数据则存储在更低廉、更慢的存储中2.8.2.2. 由具有不同性能特征的存储所组成2.8.3. 缓存关于数据管事、处理和不异至关要紧2.8.4. 存档存储看作是一种反向的缓存2.8.4.1. 存档存储以较低的资本提供了较差的走访特质2.8.4.2. 存档存储一般用于数据备份和鼎沸数据保留的合规性条款2.8.4.3. 数据惟一在蹙迫情况下才会被走访
下一篇:开yun体育网这是由于其领有轻细匀质的碳化物-开云(中国)kaiyun体育网址登录入口
- 欧洲杯体育往复单元为1000桶/手-开云(中国)kaiyun体育网址登录入口 2025-12-24
- 欧洲杯体育 当中国面对对越南的自保反击时-开云(中国)kaiyun体育网址登录入口 2025-12-22
- 欧洲杯体育② 打造精彩短视频:在创作短视频时-开云(中国)kaiyun体育网址登录入口 2025-12-21
- 欧洲杯体育即可将招聘信息快速推送给潜在的求职者-开云(中国)kaiyun体育网址登录入口 2025-12-21
- 欧洲杯体育贝恩:2024年中国阛阓蹧跶销售瞻望下滑18%到20%-开云(中国)kaiyun体育网址登录入口 2025-12-19
