博客园
最新
热门
发布
日榜
周榜
月榜
网站SEO怎么做?
seo优化策略
SEO
梦想家
发布于2024年08月19日
155浏览
2点赞
HDP3.3.2.0-011版本公测,Seatunnel ↑2.3.6,DS↑3.2.2,HBase↑2.5.10等9个组件升级
新增Prometheus Node Exporter(主机监控)和Pushgateway(可以用于Flink等),使用方式会延续《Zookeeper+Prometheus+Grafana》这个系列做专题介绍。
升级
大象
发布于2024年08月15日
528浏览
Dinky手把手教程 - 集成K8s,提交Flink On K8s Application任务
本文介绍了Dinky与K8s集成指南,包括环境准备、服务账号创建、镜像制作、Dockerfile编写、镜像构建推送、Kubernetes集群配置,以及FlinkSQL任务的提交。
墨无痕
发布于2024年08月14日
1157浏览
1点赞
海豚调度清理:使用 API 轻松清理历史工作流实例以及日志文件
本系列文章是 DolphinScheduler 由浅入深的教程,涵盖搭建、二开迭代、核心原理解读、运维和管理等一系列内容。适用于想对 DolphinScheduler了解或想要加深理解的读者。**
Dataops
发布于2024年08月14日
750浏览
1点赞
Gartner分析:数据中台即将消亡
在新发布的“中国数据分析和人工智能技术成熟度曲线图”中, Gartner认为,“数据中台(Data Middle Office)”即将消亡,取而代之的是“数智基建”(Data Infrastructure)。 数智基建与数据中台的巨大差异,导致了这一转变的发生。
忆往昔
发布于2024年08月13日
749浏览
1点赞
一文了解数据湖变更数据捕获
更改数据捕获 (CDC) 是一种用于识别和捕获数据更改的技术,可确保数据在各种系统中保持新鲜和一致。将 CDC 与数据湖相结合,可以解决 ETL 管道将数据从事务数据库传送到分析数据库时通常面临的几个挑战,从而显著简化数据管理。其中包括保持数据新鲜度、确保一致性以及提高数据处理效率。本文将探讨数据湖和 CDC 之间的集成、它们的优势、实施方法、涉及的关键技术和工具、最佳实践以及如何选择适合需求的工
忆往昔
发布于2024年08月13日
206浏览
Seatunnel-Web环境搭建
Seatunnel-Web手把手安装部署文档
月影幽篁
发布于2024年08月12日
751浏览
2点赞
1收藏
基于 tugraph-analytics 的实时业务数据异常归因诊断
本文将分享货拉拉基于 tugraph-analytics 的实时业务数据异常归因诊断技术。 Tugraph-analytics 是蚂蚁开源的一个高性能流图计算引擎,支持万亿级数据的存储,具备图表混合处理、实时图计算,以及 OLAP 等核心能力。
随风
发布于2024年08月12日
396浏览
2点赞
58用户画像数据仓库建设实践
大家好,我是来自 58 同城的包磊,于 18 年加入了 58,目前所在部门是 TEG-大数据科学中心-数据 BP 部。主要负责建立整个集团的用户数据体系,涵盖了流量、连接、用户画像等主题数仓的建设。
随风
发布于2024年08月12日
745浏览
一个为90后设计的Shell,早知道,当年学Shell也不至于那么痛苦了,Star 25K+!
Linux有很多解析器(Shell),Bash是默认安装也是用途最广的Shell之一。但是作为一个运维小白(比如N年前刚入运维坑的我),刚开始学习Shell的时候简直头大。什么 awk, sed,脑子根本记不住,用了小本子也记不住,shell脚本也是边学边忘边“某度”。总之,当年的《鸟哥私房菜》,啃了两遍,最终结果就是翻页查找特快(也有可能我不够聪明)!
开源集市
发布于2024年08月09日
1028浏览
2点赞
联通数科如何基于Apache DolphinScheduler构建DataOps一体化能力平台
今天,我将和大家聊一聊联通数字科技有限公司是如何基于Apache DolphinScheduler构建DataOps一体化能力平台的。 今天的分享主要分为三个部分: 1.关于DataOps的一些思考; 2.企业在实施任务调度系统时的一些困境和困难; 3.我们基于Apache DolphinScheduler所做的一些改造。
实践
Dataops
发布于2024年08月09日
409浏览
2点赞
映客基于Apache SeaTunnel 打造高效的一站式数据集成平台
现有的数据集成平台短板慢慢展现导致部分业务线无法快速对接。数据源的架构在变得繁多和复杂,数据应用也逐渐变得更加垂直和场景化,这也倒逼了现代数据架构飞速发展。从而数据集成已经从一项技术管理工作升级为系统工程。
Dataops
发布于2024年08月09日
473浏览
AI 大模型时代呼唤新一代基础设施,DataOps 2.0和编排愈发重要
在 AI 时代,DataOps 2.0 代表了一种全新的数据管理和操作模式,通过自动化数据管道、实时数据处理和跨团队协作,DataOps 2.0 能够加速数据分析和决策过程。它融合了人工智能和机器学习技术,使得数据的获取、清洗和分析更加高效,推动企业在快速变化的市场中保持竞争优势。
Dataops
发布于2024年08月08日
182浏览
2点赞
Apache DolphinScheduler 1.3.4升级至3.1.2版本过程中的踩坑记录
因为在工作中需要推动Apache DolphinScheduler的升级,经过预研,从1.3.4到3.1.2有的体验了很大的提升,在性能和功能性有了很多的改善,推荐升级。 查看官方的升级文档,可知有提供升级脚本,如果只是跨小版本的更新那么只用执行脚本就好了,但跨多个大版本升级时依然容易出现各种问题,特此总结。
Dataops
发布于2024年08月07日
102浏览
Apache Dolphinscheduler在某新能源企业的落地与实践
我司中创新航(CALB),是全球领先的新能源科技企业 ,致力于成为能源价值创造者,构建全方位能源运营体系,为以动力及储能为代表的新能源全场景应用市场提供完善的产品解决方案和全生命周期管理。
Dataops
发布于2024年08月07日
307浏览
1点赞
如何基于 Apache SeaTunnel 构建高效数据同步管道
Apache SeaTunnel是一站式数据集成平台,支持离线和实时数据同步,提供了灵活的扩展和高效的并行处理,确保数据一致性。 本文介绍了SeaTunnel的架构设计、核心功能、最佳实践以及如何参与社区共建,帮助用户快速上手并深入了解其强大功能。
忆往昔
发布于2024年08月05日
866浏览
3点赞
Apache Doris + Apache Iceberg 快速搭建指南|Lakehouse 使用手册(三)
湖仓一体(Data Lakehouse)融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势,能够更加便捷地满足各种数据处理分析的需求。Apache Doris 持续加深与数据湖的融合,已演进出一套成熟的湖仓一体解决方案。
忆往昔
发布于2024年08月04日
278浏览
1点赞
官宣|Apache Flink 1.20 发布公告
Apache Flink PMC(项目管理委员)很高兴地宣布发布 Apache Flink 1.20.0。与往常一样,这是一个充实的版本,包含了广泛的改进和新功能。总共有 142 人为此版本做出了贡献,完成了 13 个 FLIPs、解决了 300 多个问题。感谢各位贡献者的支持!
海星之梦
发布于2024年08月02日
982浏览
1点赞
Apache Doris + Apache Hudi 快速搭建指南|Lakehouse 使用手册(一)
湖仓一体(Data Lakehouse)融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势,帮助用户更加便捷地满足各种数据处理分析的需求。在过去多个版本中,Apache Doris 持续加深与数据湖的融合,已演进出一套成熟的湖仓一体解决方案。
忆往昔
发布于2024年07月29日
388浏览
1点赞
开源免费的数据集成工具 Data Integration
数据集成 (Data Integration) 是指将不同来源的数据整合到一个统一的数据库或数据仓库中,以便进行数据分析和处理。数据集成可以帮助我们从不同的数据源中提取有用的信息,并将其整合到一个统一的视图中,从而更好地理解和分析数据。
海星之梦
发布于2024年07月29日
1293浏览
1
9
10
11
12
13
83