Ranger

Apache
一个提供集中式安全管理框架的开源项目,它通过对库表配置不同的访问策略,再赋权给用户,达到数据隔离的目的。Apache Ranger目前集成了Hadoop生态中众多不同的系统,已经覆盖了Hive、HDFS、Yarn、HBase、Kafka、Kudu、Solr等17类。Apache Ranger支持审计日志,可以记录各种操作的审计日志,提供统一的查询接口和界面。
开源治理

HiDataPlus

社区入驻
一个可持续升级的免费Hadoop发行版。HidataPlus是由几个热爱开源软件的成员组成,因为Hortonworks和Cloudera合并等原因,原有的HDP版本不再更新,于是我们尝试进行了集成新的版本。
DevOpt开源行业
188
2

Hbase

Apache
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
数据库开源

游戏

基于玩家所产生的海量数据,我们怎样去获取玩家的具体画像、他们的特点以及预测他们未来的一些行为以服务我们的运营、发行以及研发过程中的一些系统改造?
行业

Zookeeper

Apache
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
协调服务开源

SQLLineage

总是无法掌握SQL解析器的使用方法?SQLLineage 来了。给定一个SQL命令,SQLLineage会告诉你它的源表和目标表,而不用担心SQL解析器使用的令牌、关键字、标识符和所有jagons。
查询开源计算治理
367
1

嵌入式开发

在一定硬件条件下的系统化设计和软件研发,涵盖了软件、硬件的综合开发。
564
0

Kubernetes

kubernetes,简称K8s,是用8代替名字中间的8个字符“ubernete”而成的缩写。是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应用部署,规划,更新,维护的一种机制。
开源运维
556
0

Java

功能强大且跨平台,适合复杂企业级应用开发。其面向对象特性便于代码组织与维护,丰富的类库助力高效开发。Java还具备出色的安全性和多线程处理能力,非常适合构建大型、安全、并发的系统。无论是金融应用、数据处理还是网络服务,Java都能提供稳定可靠的解决方案,特别是在大数据、云计算领域表现突出。因其强大的生态系统和广泛的应用场景,Java已成为软件开发的首选语言之一。
编程语言

Gradle

Gradle是Java、Android和Kotlin开发人员首选的开源构建系统。从移动应用程序到微服务,从小型初创公司到大企业,它可以帮助团队更快地交付更好的软件。
开源
324
1

Python开发

一种高级编程语言。它语法简洁易读,支持面向对象编程,具有丰富的标准库和强大的可扩展性,能在多种平台上运行。Python适用于快速开发应用,广泛用于数据科学、Web开发等领域。
521
0

Dbeaver

DBeaver是一种免费和开源的通用数据库管理工具,为开发人员和数据库管理员提供了一个易于使用的数据库管理解决方案。它支持所有的主流数据库,包括MySQL、PostgreSQL、MariaDB、SQLite、Oracle、Db2、SQL Server、Sybase、MS Access、Teradata、Firebird、Derby等等。
交互分析开源

FineReport

FineReport是由帆软自主研发的一款纯Java编写的报表软件产品,集数据展示(报表)和数据录入(表单)功能于一身,能够制作复杂的报表,操作简单易用。针对软件开发商和系统集成商,用于快速构建企业信息系统的中国式Web报表软件。
交互分析商业

物流

在物流运作过程中产生的大量数据集合,它涵盖了运输、仓储、搬运装卸、包装及流通加工等物流环节的各类数据和信息。这些数据和信息经过分析和挖掘,可以揭示物流运作的规律,提高运输与配送效率,减少物流成本,更有效地满足客户服务要求。
行业

Nifi

Apache
NiFi的基本设计理念是基于数据流的编程Flow-Based Programming(FBP),应用是由处理器、连接器组成的网络。数据进入一个节点,由该节点对数据进行处理,根据不同的处理结果将数据路由到后续的其他节点进行处理。
开源数采

Canal

Canal是一个开源的数据同步工具,用于将数据从数据库同步到其他系统。它主要用于在数据库和其他系统之间同步数据,以便在这些系统之间共享数据。 Canal使用数据库的二进制日志(binlog)来同步数据,并且支持多种数据库,包括MySQL、MariaDB和AlibabaDB。它提供了一个命令行界面,可用于运行数据同步任务,也可以嵌入到其他程序中使用。
开源数采

Flume

Apache
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
开源数采

Tidb

一款同时支持在线事务处理与在线分析处理的融合型分布式数据库产品,具备水平扩容或者缩容、金融级高可用、实时 HTAP、云原生的分布式数据库、兼容 MySQL 5.7 协议和 MySQL 生态等重要特性。
数据库开源

Zeppelin

Apache
Apache Zeppelin是一个基于网页的交互式数据分析工具,它提供了数据可视化的框架,支持多种语言,包括SQL、Scala等,可以用来做出数据驱动的、交互、协作的文档。
交互分析开源

MQTT

MQTT(Message Queuing Telemetry Transport)是一种基于发布/订阅模式的轻量级消息传输协议,它被广泛用于物联网(IoT)场景,特别是那些需要低功耗、小数据包、不可靠或高延迟网络的环境。MQTT协议设计得简单、轻量,并且能够高效地传输消息。
协议

Nmon

Nmon是由IBM 提供、免费监控 AIX 系统与 Linux 系统资源的工具。该工具可将服务器系统资源耗用情况收集起来并输出一个特定的文件,并可利用 excel 分析工具(nmon analyser)进行数据的统计分析。
运维

Storm

Apache
Apache Storm是一个分布式的,可靠的,容错的数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理,spout把数据传递给bolt, bolt要么把数据保存到某种存储器,要么把数据传递给其它的bolt。一个Storm集群就是在一连串的bolt之间转换spout传过来的数据。
开源计算

Prometheus

Prometheus 是一款基于时序数据库的开源监控告警系统,非常适合Kubernetes集群的监控。Prometheus的基本原理是通过HTTP协议周期性抓取被监控组件的状态,任意组件只要提供对应的HTTP接口就可以接入监控。
时序数据库开源运维

Phoenix

Apache
Apache Phoenix(Apache Phoenix Query Server)是一个强大的 SQL 查询引擎,适用于快速查询和更新大规模结构化数据,可用于高并发的事务处理和实时查询,同时也提供了高级特性,如按行版本控制、倒排索引等,方便开发人员构建应用程序和进行数据分析。
查询开源

Sentry

Sentry 是一个开源的错误追踪系统,它可以帮助开发人员监控和修复生产环境中的问题。Sentry 提供了实时警报、历史记录和协作功能,使开发团队能够快速响应和解决应用程序中的错误和异常。Sentry 可以与许多流行的编程语言和框架集成,包括 Python、JavaScript、Ruby、Java 和 PHP 等。
DevOpt开源

Elasticsearch

Elasticsearch是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。 Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。
数据库开源

Hue

Hue 是运营和开发 Hadoop 应用的图形化用户界面。Hue 程序被整合到一个类似桌面的环境,以 web 程序的形式发布,对于单独的用户来说不需要额外的安装。
交互分析

Cassandra

Apache
Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。
数据库开源

Oozie

Apache
Oozie是一个基于工作流引擎的开源框架,提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务,多任务可以按照执行的逻辑顺序调度。
调度开源

Greenplum

Greenplum是一款由Greenplum公司开发的,基于数据仓库和商业智能领域的软件产品。它包括Greenplum DW/BI软件,可以在虚拟化x86服务器上运行无分享(shared-nothing)的大规模并行处理(MPP)架构。Greenplum在2003年成立,并在2006年推出了首款产品。
数据库

Grafana

Grafana是一个跨平台的开源可视化分析工具,主要应用于大规模指标数据的可视化展示。它支持Prometheus、Graphite、OpenTSDB、InfluxDB、MySQL、PostgreSQL、Microsoft SQL Server等多种数据源。Grafana的主要工作原理是提供一个仪表盘,对各种数据进行可视化。具体来说,它可以将你需要监控的数据输入到仪表盘中,然后生成各种可视化仪表。同时,Grafana还具有报警功能,可以在系统出现问题时通知你。
交互分析开源

Redis

作为您的NoSQL数据库,构建快速、可靠的应用程序,使“99999”的正常运行时间看起来很容易。
377
0

Datax

DataX是由阿里巴巴研发并开源的一个异构数据源离线同步工具,技术人员能够通过DataX实现不同数据源之间的同步。 这里所指的数据源既包括关系型数据库、NoSQL数据存储、无结构化数据存储、时间序列数据库,同时也包含了阿里的云数仓数据存储。 DataX是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS等各种异构数据源之间高效的数据同步功能.
开源数采

Celeborn

Apache
是大数据计算引擎(即ETL、OLAP和流式处理引擎)的中间数据服务,旨在提高性能、稳定性和灵活性。中间数据通常包括混洗数据和溢出数据。
开源计算
329
0

Druid

一个高性能的实时分析时序数据库,可以在一定规模和负载下对流式数据和批处理数据进行秒级查询。
时序数据库交互分析
323
0

Iceberg

Apache
Iceberg是一个基于大型分析型数据上的一个表格式,它允许将一些文件、数据集以表的形式提供给spark、trino、prestodb、flink、hive这些计算引擎。
数据湖开源

OpenMetadata

一个可供所有数据和所有数据从业者构建和管理高质量数据资产的地方。由Collate和Apache Hadoop、Apache Atlas和Uber Databook的创始人共同打造。
开源治理
303
0

巨人肩膀

本社区用于讨论巨人肩膀平台的功能需求、未来探索的创新方向以及如何通过技术升级与用户体验优化,进一步提升平台的实用价值与吸引力。
101
1

Kyuubi

Apache
一个分布式多租户网关,用于在数据仓库和Lakehouses上提供无服务器SQL。
开源计算
277
0

指标中台

指标中台是一个供组织集中管理、存储和访问关键指标的平台。它提供统一的业务模型、指标管理、指标加工和数据服务,为企业带来以指标为核心、数据驱动的管理体系。通过指标中台,企业可以降低数据使用的门槛,使业务团队能够更自主地利用数据进行决策,同时提升数据应用的开发效率,推动业务的敏捷性。
方法论

maven

一个软件项目管理和理解工具。基于项目对象模型(POM)的概念,Maven可以从中心信息中管理项目的构建、报告和文档。
开源
261
0

Superset

Apache
Apache Superset是一个基于Python的开源数据可视化工具。它提供了直观的界面和丰富的可视化选项,可对接各种数据源,包括关系型数据库、NoSQL数据库、文件系统等,并支持自定义仪表盘。用户可以在界面上对数据进行筛选、排序、聚合等操作,还可以使用SQL语言进行更复杂的数据处理,同时支持数据的缓存和预计算以提高性能和响应速度。
交互分析开源

数据湖

数据湖(Data Lake)是一个以自然格式存储数据的系统或存储库,它通常是一个集中式的数据存储,能够容纳所有形式的数据,包括结构化数据(如关系型数据库中的表)、半结构化数据(如日志文件、JSON、XML等)、非结构化数据(如图像、音频、视频等)以及二进制数据。数据湖的主要特点是容量大、数据多样性、灵活性以及相对较高的成本。
方法论

DataHub

一个可扩展的数据目录,支持数据发现、数据可观察性和联合治理,以帮助降低数据生态系统的复杂性。
开源治理
246
0

数据结构和算法

数据结构和算法是计算机科学的两大基石,数据结构关注数据的组织、存储和管理方式,以提高数据的访问和修改效率;而算法则研究解决问题的步骤和方法,旨在通过最有效的操作序列快速解决问题。两者相辅相成,是实现高效程序设计的关键。
240
0