博客园
最新
热门
发布
日榜
周榜
月榜
Apache Celeborn 在B站的生产实践
随着B站业务的飞速发展,数据规模呈指数级增长,计算集群也逐步从单机房扩展到多机房部署模式。多个业务线依托大数据平台驱动核心业务,大数据系统的高效性与稳定性成为公司业务发展的重要基石。
Celeborn
海星之梦
发布于01月03日
211浏览
万字长文:Comprehensive Data Catalog Comparison
Catalog,中文翻译“数据目录”,从字面意思上可以看出,它就像一个可搜索的数据集目录,类似于图书馆目录对书籍的整理方式。广义上讲,数据目录是组织内数据资产的清单。它能帮助用户发现、理解和管理可供使用的数据。数据目录通常包含元数据(关于数据的信息),如数据源、描述、所有者、质量指标、血缘关系和访问控制。
滴滴
发布于01月02日
371浏览
StarRocks元数据无法合并BUG原理与解决
StarRocks 集群运行几个月后崩溃,元数据很久未合并,恢复时发现 FE 元数据无法 Checkpoint。排查发现是配置 metadata_journal_skip_bad_journal_ids 导致,相关 bugfix 未合并进出问题版本,升级版本后解决,成功生成新 image 文件,BDB 文件数量大幅减少。
StarRocks
图南
发布于2024年12月30日
157浏览
dolphinscheduler分布式集群部署指南(小白版)
dolphinscheduler-3.2.2-release版本源码系列之RPC框架专栏,帮助大家深入了解和更好的使用Dolphinscheduler整合现有业务开发。
Dolphinscheduler
如风掠过指尖
发布于2024年12月27日
436浏览
一文详细解读Apache Flink 2.0最新特性
摘要:文章主要介绍了 Flink 2.0 - preview1 版本。其发布于 2024 年 10 月 23 日,是自 1.0 以来首个重大更新。此版本虽为预览版,不建议用于生产环境,但可让用户提前体验新功能并为社区提供反馈。
Flink
海星之梦
发布于2024年12月17日
704浏览
AI Coding 赛道全景解析:玩家有哪些?新机会在哪里?
AI Coding 可能是今年 AI 领域最热,最快找到 PMF 和商业化落地的赛道了。Github Copilot、Cursor、Bolt、Windsurf以及最近刚刚收费的Devin,诸多产品都实现了ARR 收入的高速增长。「海外独角兽」的这篇赛道全景图的分析,从投资角度详细梳理了目前AI Coding 赛道的代表性产品、竞争壁垒、以及之后发展的方向等,值得细读。授权转载,文章结构略有调整。
滴滴
发布于2024年12月16日
294浏览
流存储Fluss:迈向湖流一体架构
在大数据处理领域,Lambda 架构是使用非常广泛的一种架构。Lambda 架构将数据处理分成单独的两条链路,一条是离线计算链路,通常由 Hive 作为离线计算链路的存储,另外一条是实时链路,通常由流存储,如 Kafka 作为实时链路的存储。
Flink
车车
发布于2024年12月16日
286浏览
Kubernetes 架构学习笔记(下)
在过去的两年中,我协助eBay云计算架构师做eBay云计算部门系统架构设计审核会议的组织协调工作,于是萌生了用我们日常工作中实际的架构设计讨论来深入理解社区 Kubernetes Design Principle 的想法。文中例子来源于真实的设计迭代, 我仅是做了汇总。借此机会感谢所有为云计算系统设计做出贡献的同事, 向你们学习才让我这些年对Kubernetes的设计理念有了进一步的理解。
Kubernetes
滴滴
发布于2024年12月07日
103浏览
一个快速且轻量的 Kafka 可视化工具,从此 Kafak 的运维管理简单化,Star 10K!
Kafka 以其高吞吐量和低延迟的数据传输能力而闻名,作为一个分布式流处理平台,广泛应用于大数据、实时流处理等领域。许多大型企业和开源项目都建立在Kafka之上,在互联网公司、金融行业、物联网(IoT)等多个领域都有广泛应用
有趣的开源集市
随风
发布于2024年12月06日
303浏览
支持 Flink/Gluten/优雅升级...Celeborn0.3.0 介绍
Apache Celeborn(Incubating)[1] [2] 是阿里云开源的大数据计算引擎通用 Remote Shuffle Service,旨在提升 Shuffle 的性能/稳定性/弹性,目前已广泛运行在包含阿里在内的多家企业,每天服务着生产环境数十P的 Shuffle 数据,可稳定支撑单 Shuffle 超 600T 的大作业。
Celeborn
随风
发布于2024年12月05日
198浏览
Iceberg x Amoro 在多点 DMALL 数据入湖的探索实践
随着大数据技术的迅猛发展,数据湖作为新兴的数据管理范式应运而生。在此基础上,通过简化架构、优化数据流程、引入创新技术等方式,降低企业数字化转型中的 TCO(总体拥有成本)成为可能。多点 DMALL 作为零售科技领域的先行者,我们持续探索和实践前沿技术,旨在提升数据处理效率,实现数据管理的标准化和自动化。通过这些努力,我们逐步构建了一个更高效、更具成本效益的大数据生态系统,赋能企业决策和生产运营。
Amoro
Iceberg
随风
发布于2024年12月05日
223浏览
服务器重启后如何自动重启 Docker 容器?
在现代 IT 运维中,容器化技术的普及使得 Docker 成为服务器管理的重要工具之一。然而,在实际生产环境中,服务器因各种原因(如定期维护、意外断电或升级操作系统)重启后,如何让 Docker 容器自动恢复运行成为一个关键问题。本文将详细介绍如何确保 Docker 容器在服务器重启后自动重启,包括相关原理、配置方法以及一些常见的注意事项。
Docker
车车
发布于2024年12月05日
157浏览
Fluss-面向分析的实时流存储初探
编者荐语: 我超哥嘎嘎能写,写到凌晨3点44,超哥牛的,支持云邪偶像的Fluss
洪波涌起
发布于2024年11月30日
368浏览
【全面解读】Apache SeaTunnel常见问题全攻略
Apache SeaTunnel 是一个分布式、高性能、易扩展、用于海量数据(离线&实时)同步和转化的数据集成平台
SeaTunnel
数智先锋
发布于2024年11月30日
85浏览
知乎基于 Apache Celeborn 优化 Spark Shuffle 的实践
知乎Hadoop集群上每天运行着大量的Spark作业,包括调度平台提交的例行作业、Kyuubi提交的Spark SQL作业,每天Spark作业的Shuffle量达到3PB以上,单个Spark作业Shuffle量最大接近100TB,单个Stage 50TB。同时Hadoop集群上每天有1PB左右的MR作业Shuffle,以及DataNode的磁盘IO。
Celeborn
春风得意
发布于2024年11月27日
397浏览
阿里云StarRocks使用感受:优点与挑战
在这个信息爆炸的时代,我们的业务对数据的实时性要求越来越高。为了应对这个挑战,我们选择了一款强大的OLAP数据库——阿里云的StarRocks。在这篇文章中,我将分享我们使用StarRocks的心路历程,包括它带给我们的便利,以及我们在使用过程中遇到的一些困扰和问题。
StarRocks
墨翼飞鸿
发布于2024年11月20日
699浏览
2点赞
drools使用指南——动态增加、修改、删除规则
drools使用指南——动态增加、修改、删除规则
Drools
OAOA
发布于2024年11月19日
288浏览
2点赞
Dinky集成Doris CdcTool 进行数据同步
本教程介绍使用 Dinky 运行 CDC pipeline 任务实现整库同步 Doris 并自动建表。包括前置条件、Docker 部署 Dinky、部署 Doris 与 MySQL 测试环境及具体操作步骤等内容。
Dinky
墨无痕
发布于2024年09月26日
546浏览
1点赞
一个自托管的翻译平台,无需依赖外部服务,离线版的Google翻译,Star 7.8K!
一个自托管的翻译平台,无需依赖外部服务,离线版的Google翻译,Star 7.8K!
有趣的开源集市
开源集市
发布于2024年09月05日
1485浏览
1点赞
1收藏
一个开源的网页变化监控工具,实时自动化检测网页变化内容,简单实用,Star 16.5K+!
一个开源的网页变化监控工具,实时自动化检测网页变化内容,简单实用,Star 16.5K+!
有趣的开源集市
开源集市
发布于2024年09月05日
797浏览
1点赞
1收藏
1
3
4
5
6
7
82