AI编程
AI应用开发
AI大世界
Flink
Doris
SeaTunnel
数据分析
Dolphinscheduler
StarRocks
车联网
PowerData
用户画像
Kafka
Dinky
Agile Query
Hive
Hadoop
有趣的开源集市
Streampark
Gravitino
Linux
数据仓库/中台
数据治理
Paimon
Clickhouse
MySQL
Docker
新零售
Spark
Web前端
Atlas
Kubernetes
Java
Hudi
Python开发
嵌入式开发
智能制造
Calcite
Drools
物理围栏
数据平台架构
金融
规则系统
Dbeaver
Elasticsearch
Nifi
Git
Linkis
Kettle
Ambari
Datart
Redis
MongoDB
Hbase
Zookeeper
Ranger
SQLLineage
Celeborn
游戏
Datax
Gradle
Iceberg
Druid
OpenMetadata
数据结构和算法
Canal
Kyuubi
maven
指标中台
Amoro
HiDataPlus
MQTT
FineReport
物流
数据湖
Griffin
Superset
DataHub
Debezium
Airflow
MinIo
Tidb
小阳杂说
Zabbix
Azkaban
Flume
StreamSets
数智化
Kudu
Sqoop
Beam
Tez
Telegraf
Oracle
Zeppelin
Nmon
Kylin
Prometheus
Maxwell
Storm
Sentry
Davinci
Pulsar
Impala
Phoenix
大数据启示录
Filebeat
Hue
Svn
Presto
Cassandra
Oozie
Greenplum
Grafana
雷达视频设备应用
InfluxDB
Bigtop
巨人肩膀
Golang
提示词工程
网络安全
数智领航
书籍共享
asdasd
动力电池
d3ed4
测试私密home显示
dasdas55555
SFF
无匹配社区
博客园
最新
热门
请选择社区
发布
16种竞品分析方法,数据产品经理必备
竞品分析是数据产品经理的核心技能,本文介绍了16种常见的竞品分析方法,包括表格分析法、功能拆解分析法、雷达图分析法、加减乘除分析法、波特五力模型分析法、PEST分析法、SWOT分析法、竞品画布分析法和矩阵分析法等。这些方法适用于不同场景,如功能对比、差异化创新、行业环境分析和战略制定等,帮助产品经理全面了解竞品,指导产品发展方向。
数据分析
竞品分析
产品经理
数据分析
数据分析狮
发布于 6 days ago
14浏览
全流程讲解完整数据分析
本文由支付产品经理分享从0到1搭建支付业务数据分析体系的实战经验,强调数据驱动决策的重要性。文章分为四部分:1. 数据分析的必要性(量化投资、验证产品、洞察用户、发现机会);2. 数据分析框架(数据生成、获取、建模、分析及应用);3. 数据指标体系设计(AARRR、UJM+OSM模型);4. 数据呈现方法。通过支付业务案例,阐述如何通过数据优化转化率、资源配置及用户画像,最终实现业务增长。
数据分析
数据驱动
数据指标体系
数据分析
数据分析狮
发布于 6 days ago
15浏览
数据分析不只是跑个SQL!
数据分析远不止SQL和可视化,而是一个从认识现状、原因分析、优化表现、预测走势到主动解读数据的完整闭环。真正的数据分析师需具备业务敏感度、数据思维和沟通能力,通过WHY-WHAT-HOW模型将数据转化为业务价值,而非简单执行需求。
数据分析
业务价值
WHY-WHAT-HOW
数据思维
数据分析
数据分析狮
发布于 7 days ago
10浏览
10种数据分析的模型思维让你“灵光一闪”
数据分析思维的核心在于模型化思考,本文介绍了10种常见的数据分析思维:分类思维(如RFM模型)、矩阵思维(如波士顿矩阵)、漏斗分析、相关思维、帕累托分析(二八法则)、逻辑树拆解、留存/队列分析、实验思维(AB测试)、聚类分析及指数化思维。这些方法帮助从数据中提炼关键信息,支持精细化运营与决策,但需结合实际业务灵活应用。
数据分析
数据思维
模型思维
数据分析
数据分析狮
发布于 7 days ago
10浏览
数据治理方法论和实践小百科全书
数据治理是从分散数据到统一管理的过程,涵盖数据获取、处理、使用的全生命周期,旨在提升数据质量、实现共享与价值挖掘。其核心目标包括制定政策、保障安全、促进共享(集团/政府)或通过精细化管理提升效率(业务部门)。治理框架含顶层设计、环境、治理域及PDCA过程,实施需具备“聚、治、通、用”四大能力,结合流程化、自动化、智能化方法。
数据治理
数据质量
数据安全
数据治理
数据分析狮
发布于 8 days ago
12浏览
如何识别元数据:一张图玩转元数据相关概念
本文系统介绍了元数据及其相关概念,包括数据元、数据项、数据元素、数据结构、数据元标准、数据对象、数据模型、元模型、数据字典和数据标准等。通过制造业项目实例,解析了三张主数据表(物料、固定资产、人员)中的数据关系,帮助理解元数据在数据治理中的核心作用。元数据作为数据管理的基石,确保数据一致性、准确性和完整性,为数据治理项目奠定基础。
数据治理
数据字典
元数据
数据标准
数据治理
数据管理
数据分析狮
发布于 9 days ago
8浏览
Apache Paimon大厂面试题必备-进阶篇
Paimon通过快照文件保证数据的时效性与一致性,时效性受Flink检查点间隔影响,建议设置为1-10分钟。一致性通过两阶段提交协议实现,支持Snapshot Isolation级别。Paimon提供快照过期和分区过期机制清理旧数据,支持同步和异步两种过期模式,各有优劣势。
Paimon
流批一体
湖仓一体建设
Paimon
我不是超人
发布于 9 days ago
13浏览
Apache Paimon大厂面试必备系列-基础篇
Apache Paimon是流批统一的实时数据湖存储格式,实现高效写入与查询。核心能力包括实时入湖、流批一体处理、多生态集成及高效查询。提供主键表(支持更新/删除)和Append表(仅追加)两种类型,通过分桶(Bucket)优化存储与并行度。支持动态分桶、跨分区更新及多种合并机制。文件结构包含快照、清单及LSM数据文件,采用乐观并发控制。压缩策略包括异步压缩与全量压缩,平衡读写性能。
Paimon
Apache Paimon
流批一体
实时计算
我不是超人
发布于 9 days ago
15浏览
效率神器:程序员必备的在线工具合集(下)
本文介绍了文件类、编码类和开发类的高效工具,包括Parquet、Json、Orc、Avro文件解析工具,支持元数据提取和Excel转换;Hex16进制、MD5、Base64等编解码工具;以及正则开发、JSON处理、时间戳转换等开发类工具,助力程序员提升工作效率。
AI应用开发
文件解析
编解码
开发工具
程序员工具
效率提升
我不是超人
发布于 10 days ago
16浏览
效率神器:程序员必备的在线工具合集(上)
本文介绍了一款程序员必备的在线工具合集,涵盖SQL、优化、命令等多个领域,提供可视化界面和一键操作,简化编程和数据处理任务。重点介绍了SQL类工具(如Doris/StarRocks建表语句、Flink SQL Connector)、优化类工具(如Flink内存优化)及命令类工具(如Flink启动命令、curl请求),帮助开发者提升工作效率。
AI应用开发
程序员必备
效率神器
在线工具
我不是超人
发布于 10 days ago
23浏览
vivo 湖仓架构的性能提升之旅
vivo大数据平台面临Presto和ClickHouse在多维分析场景的性能与兼容性挑战,最终选择StarRocks作为新一代引擎。通过优化ORC格式支持、数据缓存、HDFS慢节点处理及元数据刷新机制,显著提升查询性能。StarRocks的强兼容性、资源隔离和运维便捷性有效替代原有组件,实现湖仓加速统一标准。
数据仓库/中台
数据分析狮
发布于 10 days ago
30浏览
从 Spark 到 StarRocks:实现58同城湖仓一体架构的高效转型
58集团数据探查平台通过引入StarRocks引擎实现Ad-Hoc查询10倍性能提升,日均处理6.5万条SQL,平均响应时间降至3.3秒。通过语法兼容改造、元数据缓存优化、函数兼容性处理及容器化部署方案,解决了Spark与StarRocks的兼容性问题,并实现98%以上的查询成功率。后续将探索智能物化视图进一步提升查询效率。
数据仓库/中台
数据分析狮
发布于 10 days ago
23浏览
超全面数仓建设规范指南(干货建议收藏)
本文详细介绍了企业数据仓库(数仓)和中台建设的规范与最佳实践,基于OneData体系,涵盖数据模型设计、分层架构(ODS、CDM、ADS)、公共规范、指标定义等核心内容。强调高内聚低耦合、核心与扩展模型分离、成本与性能平衡等原则,并提供分层调用、数据类型、冗余与拆分等实操指南。通过标准化指标体系和命名约定,确保数据一致性、可复用性及高效管理,助力企业构建高质量数仓体系。
数据仓库/中台
数据中台
OneData
数据仓库
维度建模
我不是超人
发布于 12 days ago
26浏览
基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成
本教程详细介绍了如何使用Flink CDC YAML快速构建MySQL到Kafka的Streaming ELT作业,包括整库同步、表结构变更同步演示和关键参数配置。从Flink集群部署、Docker环境准备、MySQL数据初始化,到通过Flink CDC CLI提交任务并验证数据同步效果,完整演示了实时数据同步流程。教程还展示了表结构变更的实时同步能力,以及通过路由配置实现表名映射等特色功能。
Flink
Flink CDC
实时同步
Kafka
我不是超人
发布于 12 days ago
14浏览
大数据职业发展方向&知识图谱
本文系统梳理了大数据领域的三大工作方向(数据开发、平台开发、基础架构)及核心技术栈,涵盖数据仓库、实时计算、数据治理等关键知识点,重点推荐掌握HBase、Flink、Kafka等加★技术。同时提出分布式系统的学习方法论,强调从组件、存储、计算、通信四个维度理解框架设计。
大数据启示录
分布式系统
数据仓库
实时计算
我不是超人
发布于 12 days ago
15浏览
推荐一款好用的在线智能笔记工具-NotepadAI
NotepadAI是一款多功能智能笔记助手,集成了Notepad++代码编辑器功能,支持语言自动识别。用户可自定义常用AI功能如翻译、扩写等,并临时调用AI无需切换窗口。提供AI工具箱,涵盖代码编程和文本创作工具,支持一键分享和导出。适用于生成周报、代码解释及内容创作等场景,免费使用。
AI应用开发
代码编辑器
智能笔记
AI工具
我不是超人
发布于 13 days ago
12浏览
京东物流基于Flink & StarRocks的湖仓建设实践
京东物流实时湖仓团队分享了基于Flink和StarRocks的湖仓架构探索,解决复杂业务场景下的实时数据处理挑战。通过分层设计和联邦查询,支持分钟级数据分析,优化存储成本,并满足内外部用户的高时效需求。
数据仓库/中台
数据分析狮
发布于 13 days ago
24浏览
网易游戏 x Apache Doris:湖仓一体架构演进之路
网易游戏技术中心为解决数据处理时效性差、查询性能低、运维及研发成本高等问题,引入Apache Doris进行架构升级,构建实时数仓和湖仓一体架构。通过整合多个引擎,显著提升查询性能和时效性,日均查询量突破1500万,存储数据达PB级。未来计划推广数据湖方案、实现智能物化,并升级至3.0版本。
数据仓库/中台
数据分析狮
发布于 14 days ago
28浏览
提效10倍:基于Paimon+Dolphin湖仓一体新架构在阿里妈妈品牌业务探索实践
阿里妈妈基于Paimon+Dolphin湖仓一体架构升级品牌数据链路,解决Lambda架构效率低、存储计算成本高的问题。Paimon支持流批一体与主键更新,结合Dolphin的OLAP优化能力,实现非精确UV计算、SST格式点查提升及高性能查询。业务场景包括实时报表、多目标调控和实时特征生产,整体成本降低60%,时效性达分钟级,查询性能显著提升。
数据仓库/中台
数据分析狮
发布于 14 days ago
18浏览
腾讯视频指标中台驱动湖仓一体建设实践
腾讯视频构建了指标中台与湖仓一体架构,通过统一管理指标服务(如MQL查询语言、数据地图)解决一致性、时效性与成本问题。湖仓1.0基于Iceberg实现流批一体,2.0引入StarRocks加速查询并优化冷热数据管理,提升开发效率与分析性能。未来规划聚焦指标驱动消费模式与存算分离方案。
数据仓库/中台
数据分析狮
发布于 14 days ago
26浏览
1
2
3
4
5
6
60