博客｜实践复盘与案例沉淀｜巨人肩膀

10种数据分析的模型思维让你“灵光一闪”

数据分析思维的核心在于模型化思考，本文介绍了10种常见的数据分析思维：分类思维（如RFM模型）、矩阵思维（如波士顿矩阵）、漏斗分析、相关思维、帕累托分析（二八法则）、逻辑树拆解、留存/队列分析、实验思维（AB测试）、聚类分析及指数化思维。这些方法帮助从数据中提炼关键信息，支持精细化运营与决策，但需结合实际业务灵活应用。

数据思维模型思维数据分析

数据分析狮发布于2025年04月24日

171

数据治理方法论和实践小百科全书

数据治理是从分散数据到统一管理的过程，涵盖数据获取、处理、使用的全生命周期，旨在提升数据质量、实现共享与价值挖掘。其核心目标包括制定政策、保障安全、促进共享（集团/政府）或通过精细化管理提升效率（业务部门）。治理框架含顶层设计、环境、治理域及PDCA过程，实施需具备“聚、治、通、用”四大能力，结合流程化、自动化、智能化方法。

数据质量数据安全数据治理

数据分析狮发布于2025年04月23日

175

如何识别元数据：一张图玩转元数据相关概念

数据字典元数据数据标准数据治理数据管理

数据分析狮发布于2025年04月22日

224

Apache Paimon大厂面试题必备-进阶篇

Paimon通过快照文件保证数据的时效性与一致性，时效性受Flink检查点间隔影响，建议设置为1-10分钟。一致性通过两阶段提交协议实现，支持Snapshot Isolation级别。Paimon提供快照过期和分区过期机制清理旧数据，支持同步和异步两种过期模式，各有优劣势。

流批一体湖仓一体建设Paimon

我不是超人发布于2025年04月22日

500

Apache Paimon大厂面试必备系列-基础篇

Apache Paimon是流批统一的实时数据湖存储格式，实现高效写入与查询。核心能力包括实时入湖、流批一体处理、多生态集成及高效查询。提供主键表（支持更新/删除）和Append表（仅追加）两种类型，通过分桶（Bucket）优化存储与并行度。支持动态分桶、跨分区更新及多种合并机制。文件结构包含快照、清单及LSM数据文件，采用乐观并发控制。压缩策略包括异步压缩与全量压缩，平衡读写性能。

Apache Paimon流批一体实时计算

我不是超人发布于2025年04月22日

702

效率神器：程序员必备的在线工具合集（下）

本文介绍了文件类、编码类和开发类的高效工具，包括Parquet、Json、Orc、Avro文件解析工具，支持元数据提取和Excel转换；Hex16进制、MD5、Base64等编解码工具；以及正则开发、JSON处理、时间戳转换等开发类工具，助力程序员提升工作效率。

文件解析编解码开发工具程序员工具效率提升

我不是超人发布于2025年04月21日

152

效率神器：程序员必备的在线工具合集（上）

本文介绍了一款程序员必备的在线工具合集，涵盖SQL、优化、命令等多个领域，提供可视化界面和一键操作，简化编程和数据处理任务。重点介绍了SQL类工具（如Doris/StarRocks建表语句、Flink SQL Connector）、优化类工具（如Flink内存优化）及命令类工具（如Flink启动命令、curl请求），帮助开发者提升工作效率。

程序员必备效率神器在线工具

我不是超人发布于2025年04月21日

155

vivo 湖仓架构的性能提升之旅

vivo大数据平台面临Presto和ClickHouse在多维分析场景的性能与兼容性挑战，最终选择StarRocks作为新一代引擎。通过优化ORC格式支持、数据缓存、HDFS慢节点处理及元数据刷新机制，显著提升查询性能。StarRocks的强兼容性、资源隔离和运维便捷性有效替代原有组件，实现湖仓加速统一标准。

数据分析狮发布于2025年04月21日

433

从 Spark 到 StarRocks：实现58同城湖仓一体架构的高效转型

58集团数据探查平台通过引入StarRocks引擎实现Ad-Hoc查询10倍性能提升，日均处理6.5万条SQL，平均响应时间降至3.3秒。通过语法兼容改造、元数据缓存优化、函数兼容性处理及容器化部署方案，解决了Spark与StarRocks的兼容性问题，并实现98%以上的查询成功率。后续将探索智能物化视图进一步提升查询效率。

数据分析狮发布于2025年04月21日

424

超全面数仓建设规范指南（干货建议收藏）

本文详细介绍了企业数据仓库（数仓）和中台建设的规范与最佳实践，基于OneData体系，涵盖数据模型设计、分层架构（ODS、CDM、ADS）、公共规范、指标定义等核心内容。强调高内聚低耦合、核心与扩展模型分离、成本与性能平衡等原则，并提供分层调用、数据类型、冗余与拆分等实操指南。通过标准化指标体系和命名约定，确保数据一致性、可复用性及高效管理，助力企业构建高质量数仓体系。

数据中台OneData数据仓库维度建模

我不是超人发布于2025年04月19日

523

基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成

本教程详细介绍了如何使用Flink CDC YAML快速构建MySQL到Kafka的Streaming ELT作业，包括整库同步、表结构变更同步演示和关键参数配置。从Flink集群部署、Docker环境准备、MySQL数据初始化，到通过Flink CDC CLI提交任务并验证数据同步效果，完整演示了实时数据同步流程。教程还展示了表结构变更的实时同步能力，以及通过路由配置实现表名映射等特色功能。

Flink CDC实时同步Kafka

我不是超人发布于2025年04月19日

177

大数据职业发展方向&知识图谱

本文系统梳理了大数据领域的三大工作方向（数据开发、平台开发、基础架构）及核心技术栈，涵盖数据仓库、实时计算、数据治理等关键知识点，重点推荐掌握HBase、Flink、Kafka等加★技术。同时提出分布式系统的学习方法论，强调从组件、存储、计算、通信四个维度理解框架设计。

分布式系统数据仓库实时计算

我不是超人发布于2025年04月19日

220

京东物流基于Flink & StarRocks的湖仓建设实践

京东物流实时湖仓团队分享了基于Flink和StarRocks的湖仓架构探索，解决复杂业务场景下的实时数据处理挑战。通过分层设计和联邦查询，支持分钟级数据分析，优化存储成本，并满足内外部用户的高时效需求。

数据分析狮发布于2025年04月18日

444

网易游戏 x Apache Doris：湖仓一体架构演进之路

网易游戏技术中心为解决数据处理时效性差、查询性能低、运维及研发成本高等问题，引入Apache Doris进行架构升级，构建实时数仓和湖仓一体架构。通过整合多个引擎，显著提升查询性能和时效性，日均查询量突破1500万，存储数据达PB级。未来计划推广数据湖方案、实现智能物化，并升级至3.0版本。

数据分析狮发布于2025年04月17日

470

提效10倍：基于Paimon+Dolphin湖仓一体新架构在阿里妈妈品牌业务探索实践

阿里妈妈基于Paimon+Dolphin湖仓一体架构升级品牌数据链路，解决Lambda架构效率低、存储计算成本高的问题。Paimon支持流批一体与主键更新，结合Dolphin的OLAP优化能力，实现非精确UV计算、SST格式点查提升及高性能查询。业务场景包括实时报表、多目标调控和实时特征生产，整体成本降低60%，时效性达分钟级，查询性能显著提升。

数据分析狮发布于2025年04月17日

428

腾讯视频指标中台驱动湖仓一体建设实践

腾讯视频构建了指标中台与湖仓一体架构，通过统一管理指标服务（如MQL查询语言、数据地图）解决一致性、时效性与成本问题。湖仓1.0基于Iceberg实现流批一体，2.0引入StarRocks加速查询并优化冷热数据管理，提升开发效率与分析性能。未来规划聚焦指标驱动消费模式与存算分离方案。

数据分析狮发布于2025年04月17日

459

数据无界、湖仓无界，Apache Doris 湖仓一体典型场景实战指南

本文深入探讨了Apache Doris在湖仓一体架构中的三大场景实践：湖仓分析加速、多源联邦分析和湖仓数据处理。通过本地缓存、物化视图优化提升查询性能，支持多数据源联邦查询解决数据孤岛问题，并提供定时任务调度实现外部数据同步与加工。结合具体配置示例和性能对比，展示了Doris如何高效支持企业级数据分析需求。

数据分析狮发布于2025年04月17日

324

从 0 到 1 构建湖仓体系， Apache Doris 湖仓一体解决方案全面解读

近年来，数据分析技术栈经历了从数据仓库、数据湖到湖仓一体的演进。湖仓一体架构融合了数据仓库的高性能与数据湖的高扩展性，通过开放数据格式、统一元数据管理及多元计算引擎，解决了数据孤岛、实时性不足等问题。Apache Doris作为湖仓一体解决方案，提供灵活的数据接入、高性能处理及业务迁移能力，支持企业低成本高效转型。

数据分析狮发布于2025年04月17日

407

从阿里、腾讯、字节、快手四大厂实践，看湖仓一体如何解决大数据核心痛点

四大互联网公司通过湖仓一体技术解决大数据处理三大困境：架构割裂、时效性瓶颈和成本治理难题。阿里妈妈采用Flink+Paimon实现毫秒级实时决策，腾讯视频通过Iceberg+StarRocks统一指标口径，字节跳动基于Hudi构建多引擎协同平台，快手利用Doris+Alluxio提升查询性能。

数据分析狮发布于2025年04月17日

1208

1 23 24 25 26 27 84

10种数据分析的模型思维让你“灵光一闪”

数据治理方法论和实践小百科全书

如何识别元数据：一张图玩转元数据相关概念

Apache Paimon大厂面试题必备-进阶篇

Apache Paimon大厂面试必备系列-基础篇

效率神器：程序员必备的在线工具合集（下）

效率神器：程序员必备的在线工具合集（上）

vivo 湖仓架构的性能提升之旅

从 Spark 到 StarRocks：实现58同城湖仓一体架构的高效转型

超全面数仓建设规范指南（干货建议收藏）

基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成

大数据职业发展方向&知识图谱

推荐一款好用的在线智能笔记工具-NotepadAI

京东物流基于Flink & StarRocks的湖仓建设实践

网易游戏 x Apache Doris：湖仓一体架构演进之路

提效10倍：基于Paimon+Dolphin湖仓一体新架构在阿里妈妈品牌业务探索实践

腾讯视频指标中台驱动湖仓一体建设实践

数据无界、湖仓无界，Apache Doris 湖仓一体典型场景实战指南

从 0 到 1 构建湖仓体系， Apache Doris 湖仓一体解决方案全面解读

从阿里、腾讯、字节、快手四大厂实践，看湖仓一体如何解决大数据核心痛点