大数据(DT)社区 | 信息(IT)社区 | 人工智能(AI)社区 | 物联网(IOT)社区 | 巨人肩膀

社区

最新最热推荐

maven

一个软件项目管理和理解工具。基于项目对象模型（POM）的概念，Maven可以从中心信息中管理项目的构建、报告和文档。

开源

2024年06月18日

543

0

Storm

Apache Storm是一个分布式的，可靠的，容错的数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理，spout把数据传递给bolt， bolt要么把数据保存到某种存储器，要么把数据传递给其它的bolt。一个Storm集群就是在一连串的bolt之间转换spout传过来的数据。

开源计算

巨人肩膀小编

337

1

网络安全

致力于提升公众网络安全意识、分享安全防护知识的平台。它汇聚专家、用户，共同防范网络威胁，通过教育、培训、交流等活动，增强社区成员的网络安全防护能力，构建安全、健康的网络环境。

2024年11月23日

536

0

Sentry

Sentry 是一个开源的错误追踪系统，它可以帮助开发人员监控和修复生产环境中的问题。Sentry 提供了实时警报、历史记录和协作功能，使开发团队能够快速响应和解决应用程序中的错误和异常。Sentry 可以与许多流行的编程语言和框架集成，包括 Python、JavaScript、Ruby、Java 和 PHP 等。

DevOpt开源

巨人肩膀小编

334

1

指标中台

指标中台是一个供组织集中管理、存储和访问关键指标的平台。它提供统一的业务模型、指标管理、指标加工和数据服务，为企业带来以指标为核心、数据驱动的管理体系。通过指标中台，企业可以降低数据使用的门槛，使业务团队能够更自主地利用数据进行决策，同时提升数据应用的开发效率，推动业务的敏捷性。

方法论

巨人肩膀小编

528

0

Cassandra

Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发，用于储存收件箱等简单格式数据，集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。

数据库开源

巨人肩膀小编

327

1

Grafana

Grafana是一个跨平台的开源可视化分析工具，主要应用于大规模指标数据的可视化展示。它支持Prometheus、Graphite、OpenTSDB、InfluxDB、MySQL、PostgreSQL、Microsoft SQL Server等多种数据源。Grafana的主要工作原理是提供一个仪表盘，对各种数据进行可视化。具体来说，它可以将你需要监控的数据输入到仪表盘中，然后生成各种可视化仪表。同时，Grafana还具有报警功能，可以在系统出现问题时通知你。

交互分析开源

巨人肩膀小编

327

1

Greenplum

Greenplum是一款由Greenplum公司开发的，基于数据仓库和商业智能领域的软件产品。它包括Greenplum DW/BI软件，可以在虚拟化x86服务器上运行无分享（shared-nothing）的大规模并行处理（MPP）架构。Greenplum在2003年成立，并在2006年推出了首款产品。

数据库

巨人肩膀小编

326

1

Debezium

Debezium是一种CDC（Change Data Capture）工具，工作原理类似大家所熟知的Canal, DataBus, Maxwell等，是通过抽取数据库日志来获取变更。

数采

巨人肩膀小编

521

0

Zabbix

Zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。Zabbix能监视各种网络参数，保证服务器系统的安全运营，并提供灵活的通知机制以让系统管理员快速定位和解决存在的各种问题。

开源运维

巨人肩膀小编

507

0

DataHub

一个可扩展的数据目录，支持数据发现、数据可观察性和联合治理，以帮助降低数据生态系统的复杂性。

开源治理

2024年07月17日

505

0

Impala

Apache Impala是一种开源的、原生的分析数据库，是Hadoop生态中的一个工具。它被设计成能够通过一个高效的、并行的查询引擎直接访问存储在Hadoop集群中的数据。Impala的特性包括低延迟、高并发，以及能够对大数据进行分析。Impala可以对存储在Hadoop上的数据进行实时的分析查询，这是它的一大优势。此外，Impala还支持SQL，易于使用，且与Hive等Hadoop生态系统中的工具集成。

数据库开源

巨人肩膀小编

431

0

Golang

Go 富有表现力、简洁、干净和高效。它的并发机制可以轻松编写程序，充分利用多核和联网机器，而其新颖的类型系统可以实现灵活和模块化的程序构建。Go 可以快速编译为机器代码，但具有垃圾收集的便利性和运行时反射的能力。

编程语言开源

巨人肩膀小编

2024年08月06日

426

0

Presto

快速可靠的数据分析SQL引擎和开放式Lakehouse

2024年06月28日

423

0

Superset

Apache Superset是一个基于Python的开源数据可视化工具。它提供了直观的界面和丰富的可视化选项，可对接各种数据源，包括关系型数据库、NoSQL数据库、文件系统等，并支持自定义仪表盘。用户可以在界面上对数据进行筛选、排序、聚合等操作，还可以使用SQL语言进行更复杂的数据处理，同时支持数据的缓存和预计算以提高性能和响应速度。

交互分析开源

巨人肩膀小编

411

0

Azkaban

Azkaban是由Linkedin公司推出的一个批量工作流任务调度器，主要用于在一个工作流内以一个特定的顺序运行一组工作和流程，它的配置是通过简单的key:value对的方式，通过配置中的dependencies来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流.

调度

巨人肩膀小编

402

0

Telegraf

Telegraf是一个基于插件的开源指标采集工具。本身是为InfluxDB（一款时序数据库）量身打造的数据收集器，但是它过于优秀，能够将抓取的数据写到很多地方，尤其在时序数据库领域，很多时序数据库都能够与它配合使用。通常，它每隔一段时间抓取一批指标数据（比如机器的CPU使用情况，磁盘的IO，网络情况，MySQL服务端的的会话数等等）并将他们发送到时序数据库、消息队列中或者自定义导出到某个地方。供下游的应用处理（比如报警）。Telegraf也能够对外提供一个服务，等待客户端推送数据。

时序数据库数采

巨人肩膀小编

394

0

Oracle

Oracle开发的关系数据库产品因性能卓越而闻名，Oracle数据库产品为财富排行榜上的前1000家公司所采用，许多大型网站也选用了Oracle系统，是世界最好的数据库产品。

数据库

巨人肩膀小编

385

0

Svn

SVN是subversion的缩写，是一个开放源代码的版本控制系统，通过采用分支管理系统的高效管理，简而言之就是用于多个人共同开发同一个项目，实现共享资源，实现最终集中式的管理。

DevOpt开源

巨人肩膀小编

383

0

Kudu

Apache Kudu是由 Cloudera开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。它是一个融合 HDFS和 HBase的功能的新组件，具备介于两者之间的新存储组件.Kudu支持水平扩展，并且与 Cloudera lmpala和 Apache Spark等当前流行的大数据查询和分析工具结合紧密。

数据库开源

巨人肩膀小编

373

0

MinIo

MinIO是一个开源的对象存储系统，专为云原生和容器化环境设计。是一个功能强大、灵活易用的开源对象存储系统，适用于各种云原生和容器化环境中的数据存储需求。

存储开源

巨人肩膀小编

372

0

Sqoop

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

开源数采

巨人肩膀小编

372

0

数智化

智化是一种将现实世界与数字世界紧密结合，并利用智能化技术推动社会进步和发展的重要趋势。随着技术的不断发展，数智化将在更多领域发挥更大的作用，为人们的生活和工作带来更多的便利和可能性。

巨人肩膀小编

366

0

Beam

Beam的主要目标是统一批处理和流处理的编程范式，为无限，乱序，web-scale的数据集处理提供简单灵活，功能丰富以及表达能力十分强大的SDK。Apache Beam项目重点在于数据处理的编程范式和接口定义，并不涉及具体执行引擎的实现，Apache Beam希望基于Beam开发的数据处理程序可以执行在任意的分布式计算引擎上。

DevOpt开源

巨人肩膀小编

365

0

Tez

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

开源计算

巨人肩膀小编

365

0

Airflow

Airflow是一个工作流调度系统，用于定义和自动执行持久化工作流。它由Airbnb开发，现在是一个开源项目。 Airflow提供了一个Web界面，用于创建和管理工作流，并查看工作流执行情况。它使用DAG（有向无环图）来表示工作流，每个DAG由一组任务组成。您可以使用Airflow指定任务之间的依赖关系，并在特定的时间或条件下自动调度任务。

调度开源

巨人肩膀小编

363

0

Maxwell

Maxwell是由美国 Zendesk 开源，用 Java 编写的 MySQL 实时抓取软件。实时读取MySQL 二进制日志 Binlog，并生成 JSON 格式的消息，作为生产者发送给 Kafka，Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。

开源数采

巨人肩膀小编

360

0

Pulsar

Pulsar是下一代云原生分布式消息流平台，集消息、存储、轻量化函数计算为一体，采用计算与存储分离架构设计，支持多租户、持久化存储、跨区域复制、具有强一致性、高吞吐、低延迟及高可扩展性等流数据存储特性。

开源计算

巨人肩膀小编

355

0

Filebeat

Filebeat是一种轻量型日志采集器，内置有多种模块（auditd、Apache、NGINX、System、MySQL 等等），可针对常见格式的日志大大简化收集、解析和可视化过程，只需一条命令即可。

数采

巨人肩膀小编

343

0

InfluxDB

InfluxDB是一种流行的开源时序数据库，专门设计用于处理时间序列数据。时序数据是按时间顺序排列的数据，通常用于表示传感器数据、应用程序指标、日志和事件等。InfluxDB具有高效存储和查询的能力，采用自适应压缩算法和特定的存储引擎，可以高效地存储大量的时序数据，并通过类似SQL的查询语言（InfluxQL）提供丰富的查询功能。它支持高并发写入，适用于处理实时数据流，并可定义数据保留策略自动删除旧数据以控制数据库大小。此外，InfluxDB拥有插件生态系统，可扩展其功能，并具备高可用性和容错性，支持数据复制和故障转移。

时序数据库数据库开源

巨人肩膀小编

332

0

Kylin

Apache Kylin是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，。它能在亚秒内查询巨大的Hive表。

数据库开源

巨人肩膀小编

331

0

Davinci

Davinci 是一个 DVaaS（Data Visualization as a Service）平台解决方案，面向业务人员/数据工程师/数据分析师/数据科学家，致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用，也可作为可视化插件集成到三方系统。用户只需在可视化 UI 上简单配置即可服务多种数据可视化应用，并支持高级交互/行业分析/模式探索/社交智能等可视化功能。

交互分析

巨人肩膀小编

319

0

书籍共享

书籍共享是一种将知识与他人分享的方式，在信息爆炸的时代，书籍依然是知识与智慧的重要载体。

大数据Apache编程语言管理数据湖数据库

2025年01月06日

251

0

隐语开源社区

隐语开源社区，带来隐私计算行业资讯、技术科普及最新隐语开源技术、案例、社区讯息

计算

隐私计算开源社区

2025年08月07日

247

0

微信(交流/反馈)

巨人肩膀初心：站在巨人肩膀上，避免无谓的重复劳动。生产和汇聚行业技术、知识经验、工具组件、案例产品，提供相关环境，为开发者提高生产效率提供切实有效的支持和帮助。并在这一进程中实现多方共赢。

©2023-2026 - 巨人肩膀 - 粤ICP备2025395551号-1