搜索
缓存时间16 现在时间16 缓存数据 年轻时 你做了一个决定 要把自己的生命献给爱情 后来你没死 年轻替你抵了命
查看: 226|回复: 0

小红书将业界最大数据湖迁至阿里云

[复制链接]
发表于 2024-11-7 11:33:27 | 显示全部楼层 |阅读模式

厌倦了滚动浏览相同的帖子?当您创建帐户后,您将始终回到您离开的地方。使用帐户,不仅可以享受无广告的清爽界面!

您需要 登录 才可以下载或查看,没有账号?注册

×
小红书近日成功将其庞大的数据湖无故障迁移至阿里云,该项目历时一年,共有1500人参与,迁移数据量达500PB。

作为中国领先的互联网公司之一,小红书月活跃用户已超过3亿,其数据湖存储了过去11年的所有原始数据,涵盖结构化、半结构化和非结构化数据。随着业务的快速增长,小红书对在线数据处理的需求不断增加,同时,离线处理积累的历史问题也可能在未来的切换中带来更多成本与风险。

为此,2023年11月,小红书发起迁云项目——计划一年内,把小红书的数据湖搬上阿里云。

迁移至阿里云上后,数据湖可通过多个OSS Bucket支持纳入统一资源池,实现多个Bucket共享资源池内的OSS吞吐及QPS能力。这样的流控能力在面向小红书复杂业务场景,可灵活调配资源,高效利用吞吐性能,降低不同业务租户间的互相影响。阿里云原生HDFS+DLA元数据可实现无缝对接Hadoop EMR体系,支持元数据线性扩展能力,轻松应对小红书数百PB数据下的元数据线性增长。

较于过往业界体量最大的案例,小红书的本次迁移的数据体量更大。

据介绍,小红书的迁云项目经历了三个阶段。第一步,项目组首先解决标准问题,然后根据标准进行治理;第二步,完成治理后,项目在2024年5月正式进入双跑阶段。把数据拷贝到阿里云上,两边同时跑数,验证正确性与及时性;第三步,2024年8月,项目结束双跑,进入割接阶段。阿里云团队全程在现场保障,顺利完成了割接。

2024年11月,小红书迁云项目正式宣告结束。在0故障的情况下,迁移数据500PB,任务11万,参与人数1500人,涉及部门40多个。

来源:https://finance.sina.com.cn/jjxw ... cvckzz0126301.shtml
爱生活,爱奶昔~

Powered by Nyarime. Licensed

GMT+8, 2024-11-23 16:13 , Processed in 0.023521 second(s), 9 queries , Gzip On, Redis On
发帖际遇 ·手机版 ·小黑屋 ·RSS ·奶昔网

登录切换风格
快速回复 返回顶部 返回列表