无匹配社区
博客园
最新
热门
请选择社区
发布
Flink八种分区算子
Flink是一个流处理框架,一个Flink-Job由多个Task/算子构成,逻辑层面构成一个链条,同时Flink支持并行操作,每一个并行度可以理解为一个数据管道称之为SubTask。
Flink
忆往昔
发布于 2024年12月20日
99浏览
深入解析 StarRocks 物化视图:全方位的查询改写机制
本文将重点介绍如何利用物化视图进行查询改写。文章将全面介绍物化视图的基本原理、关键特性、应用案例、使用场景、代码细节以及主流大数据产品的物化视图改写能力对比。
StarRocks
蛇年大吉
发布于 2024年12月19日
74浏览
Kafka Streams 在监控场景的应用与实践
介绍 Kafka Streams 的原理架构,常见配置以及在监控场景的应用。作者:来自 vivo 互联网服务器团队- Pang Haiyun
Kafka
蛇年大吉
发布于 2024年12月18日
39浏览
Apache Hudi 1.0.0 版本正式发布
Apache Hudi 1.0.0 是 Apache Hudi 的一个重要里程碑版本。此版本包含重要的格式更改和令人兴奋的新功能。
Hudi
车车
发布于 2024年12月17日
98浏览
Seatunnel本地模式快速测验
本节主要总结了单机模式下使用 seatunel完成官方示例程序,初步体会使用,其实使用起来还是很简单的,模式同我之前介绍的 DataX如出一辙,可喜的是它有自己的 web页面可以配置, 因此后面我将分享下如何在页面中进行配置同步任务,最后时间允许的情况下,分析起优秀的源码设计思路,千里之行始于足下,要持续学习,持续成长,然后持续分享,再会~。
SeaTunnel
春风得意
发布于 2024年12月17日
56浏览
SeaTunnel初体验,5000字深入浅出带你用上Oracle-CDC
Apache SeaTunnel 是啥? 下一代高性能、分布式、海量数据集成框架。 支持上百个数据源、传输速度快、准确率高,丰富易扩展的连接器和插件化的连接器设计,能够更轻松的运行复杂的集成。 是一个分布式、高性能的数据集成平台,用于数据迁移和实时流处理任务。
SeaTunnel
海星之梦
发布于 2024年12月17日
213浏览
一文详细解读Apache Flink 2.0最新特性
摘要:文章主要介绍了 Flink 2.0 - preview1 版本。其发布于 2024 年 10 月 23 日,是自 1.0 以来首个重大更新。此版本虽为预览版,不建议用于生产环境,但可让用户提前体验新功能并为社区提供反馈。
Flink
海星之梦
发布于 2024年12月17日
524浏览
什么?!redis也可以是成本优化利器
交通路况团队主要负责AMAP(高德地图)轨迹收容和实时计算,不仅承担了实时路况的计算和发布,而且利用海量用户轨迹,陆续推出红绿倒计时和V2X(道路预警)等重磅功能,作为海量数据实时计算的基础链路,自然少不了对消息中间件的使用,一直以来我们都是集团MQ团队的重要客户,随着业务的快速发展,数据规模和计算频次进一步提升,MQ成本急剧增加,替换更加合适的消息中间件成为了必然。
Redis
滴滴
发布于 2024年12月16日
58浏览
AI Coding 赛道全景解析:玩家有哪些?新机会在哪里?
AI Coding 可能是今年 AI 领域最热,最快找到 PMF 和商业化落地的赛道了。Github Copilot、Cursor、Bolt、Windsurf以及最近刚刚收费的Devin,诸多产品都实现了ARR 收入的高速增长。「海外独角兽」的这篇赛道全景图的分析,从投资角度详细梳理了目前AI Coding 赛道的代表性产品、竞争壁垒、以及之后发展的方向等,值得细读。授权转载,文章结构略有调整。
滴滴
发布于 2024年12月16日
220浏览
Rust重写万物之——彻底重写SQLite
两年前,我们对 SQLite 进行了分叉。我们非常喜欢 SQLite 的嵌入式特性,但同时我们也渴望探索一种更加开放的开发模式。 在这样的背景下,libSQL 应运而生,作为一个开放的贡献项目,我们诚挚邀请社区成员加入我们,共同构建这个项目。
滴滴
发布于 2024年12月16日
141浏览
拥抱 PyTorch,来自 Gauss 的自我革命
微信 Gauss 团队致力于提供业界领先的推荐工程技术服务,我们将持续跟进、推动关键领域的技术进步,与业界同仁一道,为提升用户价值而不懈努力。
滴滴
发布于 2024年12月16日
132浏览
流存储Fluss:迈向湖流一体架构
在大数据处理领域,Lambda 架构是使用非常广泛的一种架构。Lambda 架构将数据处理分成单独的两条链路,一条是离线计算链路,通常由 Hive 作为离线计算链路的存储,另外一条是实时链路,通常由流存储,如 Kafka 作为实时链路的存储。
Flink
车车
发布于 2024年12月16日
220浏览
Apache SeaTunnel 集群部署详细教程
SeaTunnel Engine 的Master服务和Worker服务分离,每个服务单独一个进程。Master节点只负责作业调度,RESTful API,任务提交等,Imap数据只存储在Master节点中。Worker节点只负责任务的执行,不参与选举成为Master,也不存储Imap数据。
SeaTunnel
车车
发布于 2024年12月13日
98浏览
第三方服务对目标进行被动信息收集
第三方服务或实体通过合法和非侵入性的手段,对特定目标(个人、组织、系统等)进行信息搜集和分析的过程。这种信息收集不涉及直接与目标交互或对其系统进行探测,而是通过公开可用的资源和数据来获取信息。
久安
发布于 2024年12月11日
102浏览
1点赞
B站大数据平台故障自愈实践
故障自愈系统通过智能化和自动化技术,显著提升了故障处理的及时性、智能化和可分析性,从而将被动响应转变为主动预防。
数据平台架构
随风
发布于 2024年12月10日
184浏览
Kubernetes 架构学习笔记(下)
在过去的两年中,我协助eBay云计算架构师做eBay云计算部门系统架构设计审核会议的组织协调工作,于是萌生了用我们日常工作中实际的架构设计讨论来深入理解社区 Kubernetes Design Principle 的想法。文中例子来源于真实的设计迭代, 我仅是做了汇总。借此机会感谢所有为云计算系统设计做出贡献的同事, 向你们学习才让我这些年对Kubernetes的设计理念有了进一步的理解。
Kubernetes
滴滴
发布于 2024年12月07日
46浏览
Kubernetes 架构学习笔记(上)
我把eBay 云计算部门的效率看成三个层面,第一层是代码开发的效率(包含持续集成持续发布), 第二层是架构效率,第三层是产品效率。这一篇博客主要讨论第二层架构效率。这件事情的缘起是一些架构讨论悬而不决,三年多前有一天我找到云计算部门的总架构师讨论一个设计困惑,他突然问我说许健你看过 Kubernetes 的设计原则吗?
Kubernetes
滴滴
发布于 2024年12月07日
74浏览
Hadoop平台进阶之路 | eBay Spark测试框架——Woody
新版本的Spark拥有更好的性能和稳定性,对于用户来说,如果长期停留在低版本的Spark,不仅会浪费集群资源,还会进一步加大平台管理团队的工作量。如果进行Spark大版本升级,考虑到版本间可能由于计算行为不一致而导致的数据质量问题,用户就要投入大量的精力去对比重要的job在不同版本下的数据质量,加大了版本升级的困难度。
Hadoop
滴滴
发布于 2024年12月07日
21浏览
一个快速且轻量的 Kafka 可视化工具,从此 Kafak 的运维管理简单化,Star 10K!
Kafka 以其高吞吐量和低延迟的数据传输能力而闻名,作为一个分布式流处理平台,广泛应用于大数据、实时流处理等领域。许多大型企业和开源项目都建立在Kafka之上,在互联网公司、金融行业、物联网(IoT)等多个领域都有广泛应用
有趣的开源集市
随风
发布于 2024年12月06日
188浏览
支持 Flink/Gluten/优雅升级...Celeborn0.3.0 介绍
Apache Celeborn(Incubating)[1] [2] 是阿里云开源的大数据计算引擎通用 Remote Shuffle Service,旨在提升 Shuffle 的性能/稳定性/弹性,目前已广泛运行在包含阿里在内的多家企业,每天服务着生产环境数十P的 Shuffle 数据,可稳定支撑单 Shuffle 超 600T 的大作业。
Celeborn
随风
发布于 2024年12月05日
131浏览
1
23
24
25
26
27
73