大数据(DT)社区 | 信息(IT)社区 | 人工智能(AI)社区 | 物联网(IOT)社区 | 巨人肩膀

社区

最新最热推荐

HarmonyOS

携手共建鸿蒙花园，为HarmonyOS学习者提供一片肥沃的土壤，共同推动鸿蒙技术的繁荣发展。期待您的加入，一起创造更加精彩的鸿蒙未来!

巨人肩膀小编

2025年06月30日

2157

4

AI编程

一个专注于AI编程能力与经验分享的社区。这里汇聚了众多AI编程探索者，共同交流最新技术、分享实用工具和编程心得。无论你是初学者还是资深开发者，都能在这里找到提升自我、拓展视野的宝贵资源。

LLM编程编程助手

2025年02月06日

8178

1

AI应用开发

利用人工智能技术，设计、构建和维护软件应用程序，通过大语言模型等应用平台，快速搭建生产级的生成式AI应用，以提高工作效率、减少重复性劳动，并推动个人和企业的发展。

开发LLM应用

2024年06月20日

5809

1

Flink

Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。此外，Flink的运行时本身也支持迭代算法的执行。

开源计算

巨人肩膀小编

6715

9

Doris

Apache Doris是一个现代化的MPP （Massively Parallel Processing，即大规模并行处理）分析型数据库产品。仅需亚秒级响应时间即可获得查询结果，有效地支持实时数据分析。Apache Doris的分布式架构非常简洁，易于运维，并且可以支持10PB以上的超大数据集。 Apache Doris可以满足多种数据分析需求，例如固定历史报表，实时数据分析，交互式数据分析和探索式数据分析等。

数据库开源

6571

7

SeaTunnel

SeaTunnel是一个简单易用的数据集成框架，由于开发时间或开发部门不通用，往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行。数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享。

Apache开源数采

5548

6

数据分析

定期分享数据分析领域的最新动态、实战案例、技术工具评测、数据可视化技巧以及行业洞察报告，旨在打造一个集学习、交流与成长为一体的数据分析爱好者社群。

数据分析师

数据分析狮

2024年07月03日

4226

3

AI大世界

欢迎来到AI大世界！这里是人工智能爱好者的聚集地，涵盖技术讨论、应用分享、行业动态等丰富内容。无论你是开发者、研究者还是AI爱好者，都能在这里找到志同道合的伙伴，共同探索AI的无限可能。加入我们，一起推动AI技术的进步与创新！

AI学习AI工作AI生活AI编程LLM

2025年02月08日

4769

0

Dinky

Dinky是一个开源项目，它基于Apache Flink进行扩展，增强Flink的应用与体验，探索流式数仓。Dinky致力于实时计算平台建设，让Flink SQL纵享丝滑。Dinky（原Dlink）原意为“小巧而精致的”，直观地表明了它的特征：轻量级但又具备复杂的大数据开发能力。“Data Integrate No Knotty”的首字母组合，寓意“数据整合不难”，易于建设批流一体平台及应用。Dinky由Apache Flink社区的贡献者创建，它的目标是站在巨人肩膀上创新与实践，在未来批流一体的发展趋势下潜力无限。

DevOpt开源计算

2631

8

Dolphinscheduler

DolphinScheduler (海豚) 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。

Apache调度开源

3162

5

PowerData

我们是由一群数据从业人员，因为热爱凝聚在一起，以开源精神为基础，组成的PowerData数据之力社区。 Power代表力量， Data代表数据 PowerData代表我们想要将国内数据力量通过社区凝聚在一起，专注自我提升，推动行业发展。

大数据开源

2024年08月06日

3027

4

StarRocks

StarRocks 是一款极速统一的Lakehouse产品，具备水平在线扩缩容，金融级高可用，兼容 MySQL 5.7 协议和 MySQL 生态，提供全面向量化引擎与多种数据源联邦查询等重要特性。StarRocks 致力于在全场景 OLAP 业务上为用户提供统一的解决方案，适用于对性能，实时性，并发能力和灵活性有较高要求的各类应用场景。

数据库

巨人肩膀小编

3173

3

Web前端

Web前端开发主要涉及网页的页面展示、‌与用户交互等方面，‌包括但不限于公司官网、‌移动端网页、‌移动端APP、‌微信小程序等。‌随着互联网的发展，‌现代网页不仅美观，‌还具有显著的交互效果和强大的功能。‌

行业前端

2024年07月30日

3231

2

车联网

车联网大数据是指在车联网环境中，通过车辆传感器、智能终端、云计算等技术手段，收集、传输、处理和利用的大量数据。这些数据涵盖了车辆运行状态、驾驶员行为、车辆位置、交通情况等多个方面，对于提升车辆安全性、优化交通效率、改进车辆性能等方面具有重要意义。

行业

巨人肩膀小编

2536

4

数据仓库/中台

数据仓库（Data Warehouse，简称DW或DWH）是为企业所有级别的决策制定过程提供所有类型数据支持的战略集合。数据仓库通过集成、处理、存储和管理各种数据源的数据，为企业提供统一、稳定、高质量的数据环境，支持企业的业务分析和决策。

方法论

巨人肩膀小编

3114

1

有趣的开源集市

分享有趣的开源、免费的产品、工具、技术、市场趋势等内容

开源

2024年08月10日

2907

1

Paimon

Apache Paimon是一个流数据湖平台，具有高速数据摄取、变更日志跟踪和高效的实时分析的能力。

数据湖开源

巨人肩膀小编

2700

1

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

存储开源

巨人肩膀小编

2070

4

Hive

Apache Hive是一个基于Hadoop的数据仓库工具，它可以将结构化数据文件映射为一张数据库表，并提供类SQL查询功能。Hive的本质是将SQL转换为MapReduce程序。它主要用于离线数据分析，比直接使用MapReduce开发效率更高。

数据库开源计算

巨人肩膀小编

2639

1

数据治理

数据治理是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行，关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。数据治理的最终目标是提升数据的价值，它是一个管理体系，包括组织、制度、流程、工具。

方法论

巨人肩膀小编

2797

0

用户画像

用户画像（User Persona）是通过对用户数据、行为、偏好等信息的综合分析和归纳，形成的一个虚拟的、具有代表性的用户模型。它可以帮助企业更深入地了解目标用户，从而制定更为精准的市场策略和产品方案。

开源

巨人肩膀小编

2161

3

Linux

Linux 系统已经渗透到 IT 领域的各个角落，不管你是专注于编程，还是专注于运维，都应该对 Linux 有所了解，甚至还要深入学习，掌握核心原理。Shell 是 Linux 的一部分，学习 Linux 一般也要学习 Shell。

开源运维

巨人肩膀小编

2146

1

Streampark

Streampark（原名为StreamX）是一个简单易用的流处理应用开发框架和操作管理平台。它的目标是让流处理更简单，轻松构建和管理流处理应用程序。它不仅提供使用 ApacheFlink 和 Apache Spark 编写流处理应用程序的开发框架，未来还计划支持更多其他引擎。

DevOpt开源计算

1915

2

Kafka

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

开源数采

巨人肩膀小编

2293

0

Docker

Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux或Windows操作系统的机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。

开源运维

2073

1

Gravitino

它可以管理来自不同来源、类型和地区的元数据，支持多种类型的数据目录，如 Apache Hive 元存储、Apache Iceberg 表、关系存储、文件集、Apache Kafka 等消息系统，以及对 Trino、Apache Spark 和 Apache Flink 的多引擎支持。

治理

巨人肩膀小编

2024年06月12日

1846

2

Agile Query

Agile Query 是一款商业智能数据分析平台，旨在让用户能够以更直观、更高效的方式利用数据做出决策。它通过强大的SQL 编译器、搜索驱动的数据分析以及即时查询性能，让用户无需专业技能即可探索、理解和分享数据。

交互分析商业

1839

2

新零售

新零售大数据是指在新零售背景下，通过对海量数据的收集、处理和分析，挖掘出消费者的需求和行为特征，以实现精准营销、精细化运营和提高用户体验的一种数据驱动的零售模式。。

行业

巨人肩膀小编

1677

2

MySQL

MySQL是一个开源的关系型数据库管理系统（RDBMS）。它使用了一种名为Structured Query Language（SQL）的语言进行数据操作和管理。MySQL由瑞典公司MySQL AB开发，后来被Sun Microsystems收购，最终被甲骨文公司（Oracle Corporation）收购。MySQL是一个广泛应用于Web开发的数据库系统，它可以与许多编程语言（如PHP、Python、Java等）配合使用，并且支持大量的并发用户连接。

数据库开源

巨人肩膀小编

1840

1

Spark

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

开源计算

巨人肩膀小编

1752

1

Python开发

一种高级编程语言。它语法简洁易读，支持面向对象编程，具有丰富的标准库和强大的可扩展性，能在多种平台上运行。Python适用于快速开发应用，广泛用于数据科学、Web开发等领域。

巨人肩膀小编

2024年06月21日

1934

0

Clickhouse

一种面向列式数据库的管理系统。它支持高速读取和写入大数据量，并且可以通过水平扩展轻松地扩展到多个节点上。适用于各种类型的数据分析，包括实时和流数据分析，数据仓库，商业智能和在线事务处理。也是一种时序数据库。

时序数据库数据库

巨人肩膀小编

1662

1

数据平台架构

探讨与分享数据架构设计思考与实践。共学共进数据架构能力，实现数据驱动的业务增长，共创数据价值新篇章。

行业

2024年07月08日

1461

2

Atlas

Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目，它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心功能。

开源治理

巨人肩膀小编

1369

2

Hudi

Hudi 是一个通用的大数据存储系统，主要特性：摄取和查询引擎之间的快照隔离，包括 Apache Hive、Presto 和 Apache Spark；支持回滚和存储点，可以恢复数据集；自动管理文件大小和布局，以优化查询性能和目录清单；准实时摄取，为查询提供最新数据；实时数据和列数据的异步压缩。

数据湖开源

巨人肩膀小编

1560

1

Kubernetes

kubernetes，简称K8s，是用8代替名字中间的8个字符“ubernete”而成的缩写。是一个开源的，用于管理云平台中多个主机上的容器化的应用，Kubernetes的目标是让部署容器化的应用简单并且高效（powerful）,Kubernetes提供了应用部署，规划，更新，维护的一种机制。

开源运维

1750

0

Drools

Drools是一款由JBoss组织提供的基于Java语言开发的开源规则引擎，可以将复杂且多变的业务规则从硬编码中解放出来，以规则脚本的形式存放在文件或数据库中，使得业务规则的变更不需要修改项目代码、重启服务器就可以在线上环境立即生效。

开源计算

巨人肩膀小编

1332

2

Java

功能强大且跨平台，适合复杂企业级应用开发。其面向对象特性便于代码组织与维护，丰富的类库助力高效开发。Java还具备出色的安全性和多线程处理能力，非常适合构建大型、安全、并发的系统。无论是金融应用、数据处理还是网络服务，Java都能提供稳定可靠的解决方案，特别是在大数据、云计算领域表现突出。因其强大的生态系统和广泛的应用场景，Java已成为软件开发的首选语言之一。

编程语言

巨人肩膀小编

1641

0

Calcite

Apache Calcite是一个动态数据管理框架，它提供了SQL解析、查询优化和执行的功能，旨在构建自定义的SQL处理管道，并能在各种数据源之间进行查询和转换。

开源计算

巨人肩膀小编

1312

1

大数据启示录

打造一个专注于传播和分享大数据技术圈子，提升个人核心竞争力的圈子。

大数据存储数据湖调度开源数采治理

2024年12月24日

1485

0

Ambari

Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。

Apache开源运维

1034

2

Git

Git是一个开源的分布式版本控制系统，可以有效、高速地处理从很小到非常大的项目版本管理。也是Linus Torvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。

DevOpt开源

巨人肩膀小编

1143

1

Elasticsearch

Elasticsearch是一个开源的高扩展的分布式全文检索引擎，它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理PB级别的数据。 Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性，从而让全文搜索变得简单。

数据库开源

巨人肩膀小编

1341

0

Celeborn

是大数据计算引擎（即ETL、OLAP和流式处理引擎）的中间数据服务，旨在提高性能、稳定性和灵活性。中间数据通常包括混洗数据和溢出数据。

开源计算

巨人肩膀小编

2024年07月05日

1334

0

HiDataPlus

一个可持续升级的免费Hadoop发行版。HidataPlus是由几个热爱开源软件的成员组成，因为Hortonworks和Cloudera合并等原因，原有的HDP版本不再更新，于是我们尝试进行了集成新的版本。

DevOpt开源行业

2024年08月15日

914

2

微信(交流/反馈)

巨人肩膀初心：站在巨人肩膀上，避免无谓的重复劳动。生产和汇聚行业技术、知识经验、工具组件、案例产品，提供相关环境，为开发者提高生产效率提供切实有效的支持和帮助。并在这一进程中实现多方共赢。

©2023-2026 - 巨人肩膀 - 粤ICP备2025395551号-1