Griffin

Apache
Griffin是一个开源的大数据数据质量监控方案,支持批处理和流处理两种模式。它提供了一个统一的过程由不同的角度来衡量数据质量,构建可信的数据资产。
开源治理

Linkis

Linkis 在上层应用程序和底层引擎之间构建了一层计算中间件。通过使用Linkis 提供的REST/WebSocket/JDBC 等标准接口,上层应用可以方便地连接访问MySQL/Spark/Hive/Presto/Flink 等底层引擎,同时实现统一变量、脚本、用户定义函数和资源文件等用户资源的跨上层应用互通,以及通过REST标准接口提供了数据源管理和数据源对应的元数据查询服务。 作为计算中间件,Linkis 提供了强大的连通、复用、编排、扩展和治理管控能力。通过将应用层和引擎层解耦,简化了复杂的网络调用关系,降低了整体复杂度,同时节约了整体开发和维护成本。
中间件

Kettle

Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,绿色无需安装,数据抽取高效稳定 (数据迁移工具)。Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。
开源数采

Datart

datart 是新一代数据可视化开放平台,支持各类企业数据可视化场景需求,如创建和使用报表、仪表板和大屏,进行可视化数据分析,构建可视化数据应用等。由原 davinci 主创团队出品,datart 更加开放、可塑和智能,并在数据与艺术之间寻求最佳平衡。。
交互分析开源

Python开发

一种高级编程语言。它语法简洁易读,支持面向对象编程,具有丰富的标准库和强大的可扩展性,能在多种平台上运行。Python适用于快速开发应用,广泛用于数据科学、Web开发等领域。
653
0

嵌入式开发

在一定硬件条件下的系统化设计和软件研发,涵盖了软件、硬件的综合开发。
653
0

MongoDB

MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。
数据库

Hbase

Apache
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
数据库开源

Zookeeper

Apache
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
协调服务开源

Ranger

Apache
一个提供集中式安全管理框架的开源项目,它通过对库表配置不同的访问策略,再赋权给用户,达到数据隔离的目的。Apache Ranger目前集成了Hadoop生态中众多不同的系统,已经覆盖了Hive、HDFS、Yarn、HBase、Kafka、Kudu、Solr等17类。Apache Ranger支持审计日志,可以记录各种操作的审计日志,提供统一的查询接口和界面。
开源治理

SQLLineage

总是无法掌握SQL解析器的使用方法?SQLLineage 来了。给定一个SQL命令,SQLLineage会告诉你它的源表和目标表,而不用担心SQL解析器使用的令牌、关键字、标识符和所有jagons。
查询开源计算治理
432
1

游戏

基于玩家所产生的海量数据,我们怎样去获取玩家的具体画像、他们的特点以及预测他们未来的一些行为以服务我们的运营、发行以及研发过程中的一些系统改造?
行业

Gradle

Gradle是Java、Android和Kotlin开发人员首选的开源构建系统。从移动应用程序到微服务,从小型初创公司到大企业,它可以帮助团队更快地交付更好的软件。
开源
403
1

Dbeaver

DBeaver是一种免费和开源的通用数据库管理工具,为开发人员和数据库管理员提供了一个易于使用的数据库管理解决方案。它支持所有的主流数据库,包括MySQL、PostgreSQL、MariaDB、SQLite、Oracle、Db2、SQL Server、Sybase、MS Access、Teradata、Firebird、Derby等等。
交互分析开源

Elasticsearch

Elasticsearch是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。 Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。
数据库开源

Canal

Canal是一个开源的数据同步工具,用于将数据从数据库同步到其他系统。它主要用于在数据库和其他系统之间同步数据,以便在这些系统之间共享数据。 Canal使用数据库的二进制日志(binlog)来同步数据,并且支持多种数据库,包括MySQL、MariaDB和AlibabaDB。它提供了一个命令行界面,可用于运行数据同步任务,也可以嵌入到其他程序中使用。
开源数采

Nifi

Apache
NiFi的基本设计理念是基于数据流的编程Flow-Based Programming(FBP),应用是由处理器、连接器组成的网络。数据进入一个节点,由该节点对数据进行处理,根据不同的处理结果将数据路由到后续的其他节点进行处理。
开源数采

MQTT

MQTT(Message Queuing Telemetry Transport)是一种基于发布/订阅模式的轻量级消息传输协议,它被广泛用于物联网(IoT)场景,特别是那些需要低功耗、小数据包、不可靠或高延迟网络的环境。MQTT协议设计得简单、轻量,并且能够高效地传输消息。
协议

FineReport

FineReport是由帆软自主研发的一款纯Java编写的报表软件产品,集数据展示(报表)和数据录入(表单)功能于一身,能够制作复杂的报表,操作简单易用。针对软件开发商和系统集成商,用于快速构建企业信息系统的中国式Web报表软件。
交互分析商业

物流

在物流运作过程中产生的大量数据集合,它涵盖了运输、仓储、搬运装卸、包装及流通加工等物流环节的各类数据和信息。这些数据和信息经过分析和挖掘,可以揭示物流运作的规律,提高运输与配送效率,减少物流成本,更有效地满足客户服务要求。
行业

Tidb

一款同时支持在线事务处理与在线分析处理的融合型分布式数据库产品,具备水平扩容或者缩容、金融级高可用、实时 HTAP、云原生的分布式数据库、兼容 MySQL 5.7 协议和 MySQL 生态等重要特性。
数据库开源

Flume

Apache
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
开源数采

Redis

作为您的NoSQL数据库,构建快速、可靠的应用程序,使“99999”的正常运行时间看起来很容易。
457
0

Zeppelin

Apache
Apache Zeppelin是一个基于网页的交互式数据分析工具,它提供了数据可视化的框架,支持多种语言,包括SQL、Scala等,可以用来做出数据驱动的、交互、协作的文档。
交互分析开源

Nmon

Nmon是由IBM 提供、免费监控 AIX 系统与 Linux 系统资源的工具。该工具可将服务器系统资源耗用情况收集起来并输出一个特定的文件,并可利用 excel 分析工具(nmon analyser)进行数据的统计分析。
运维

Prometheus

Prometheus 是一款基于时序数据库的开源监控告警系统,非常适合Kubernetes集群的监控。Prometheus的基本原理是通过HTTP协议周期性抓取被监控组件的状态,任意组件只要提供对应的HTTP接口就可以接入监控。
时序数据库开源运维

Storm

Apache
Apache Storm是一个分布式的,可靠的,容错的数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理,spout把数据传递给bolt, bolt要么把数据保存到某种存储器,要么把数据传递给其它的bolt。一个Storm集群就是在一连串的bolt之间转换spout传过来的数据。
开源计算

Sentry

Sentry 是一个开源的错误追踪系统,它可以帮助开发人员监控和修复生产环境中的问题。Sentry 提供了实时警报、历史记录和协作功能,使开发团队能够快速响应和解决应用程序中的错误和异常。Sentry 可以与许多流行的编程语言和框架集成,包括 Python、JavaScript、Ruby、Java 和 PHP 等。
DevOpt开源

Phoenix

Apache
Apache Phoenix(Apache Phoenix Query Server)是一个强大的 SQL 查询引擎,适用于快速查询和更新大规模结构化数据,可用于高并发的事务处理和实时查询,同时也提供了高级特性,如按行版本控制、倒排索引等,方便开发人员构建应用程序和进行数据分析。
查询开源

Hue

Hue 是运营和开发 Hadoop 应用的图形化用户界面。Hue 程序被整合到一个类似桌面的环境,以 web 程序的形式发布,对于单独的用户来说不需要额外的安装。
交互分析

Celeborn

Apache
是大数据计算引擎(即ETL、OLAP和流式处理引擎)的中间数据服务,旨在提高性能、稳定性和灵活性。中间数据通常包括混洗数据和溢出数据。
开源计算
428
0

Datax

DataX是由阿里巴巴研发并开源的一个异构数据源离线同步工具,技术人员能够通过DataX实现不同数据源之间的同步。 这里所指的数据源既包括关系型数据库、NoSQL数据存储、无结构化数据存储、时间序列数据库,同时也包含了阿里的云数仓数据存储。 DataX是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS等各种异构数据源之间高效的数据同步功能.
开源数采

Cassandra

Apache
Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。
数据库开源

Oozie

Apache
Oozie是一个基于工作流引擎的开源框架,提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务,多任务可以按照执行的逻辑顺序调度。
调度开源

Greenplum

Greenplum是一款由Greenplum公司开发的,基于数据仓库和商业智能领域的软件产品。它包括Greenplum DW/BI软件,可以在虚拟化x86服务器上运行无分享(shared-nothing)的大规模并行处理(MPP)架构。Greenplum在2003年成立,并在2006年推出了首款产品。
数据库

Grafana

Grafana是一个跨平台的开源可视化分析工具,主要应用于大规模指标数据的可视化展示。它支持Prometheus、Graphite、OpenTSDB、InfluxDB、MySQL、PostgreSQL、Microsoft SQL Server等多种数据源。Grafana的主要工作原理是提供一个仪表盘,对各种数据进行可视化。具体来说,它可以将你需要监控的数据输入到仪表盘中,然后生成各种可视化仪表。同时,Grafana还具有报警功能,可以在系统出现问题时通知你。
交互分析开源

巨人肩膀

本社区用于讨论巨人肩膀平台的功能需求、未来探索的创新方向以及如何通过技术升级与用户体验优化,进一步提升平台的实用价值与吸引力。
177
1

Iceberg

Apache
Iceberg是一个基于大型分析型数据上的一个表格式,它允许将一些文件、数据集以表的形式提供给spark、trino、prestodb、flink、hive这些计算引擎。
数据湖开源

Druid

一个高性能的实时分析时序数据库,可以在一定规模和负载下对流式数据和批处理数据进行秒级查询。
时序数据库交互分析
372
0

OpenMetadata

一个可供所有数据和所有数据从业者构建和管理高质量数据资产的地方。由Collate和Apache Hadoop、Apache Atlas和Uber Databook的创始人共同打造。
开源治理
354
0

数据结构和算法

数据结构和算法是计算机科学的两大基石,数据结构关注数据的组织、存储和管理方式,以提高数据的访问和修改效率;而算法则研究解决问题的步骤和方法,旨在通过最有效的操作序列快速解决问题。两者相辅相成,是实现高效程序设计的关键。
336
0

Kyuubi

Apache
一个分布式多租户网关,用于在数据仓库和Lakehouses上提供无服务器SQL。
开源计算
328
0

maven

一个软件项目管理和理解工具。基于项目对象模型(POM)的概念,Maven可以从中心信息中管理项目的构建、报告和文档。
开源
326
0

指标中台

指标中台是一个供组织集中管理、存储和访问关键指标的平台。它提供统一的业务模型、指标管理、指标加工和数据服务,为企业带来以指标为核心、数据驱动的管理体系。通过指标中台,企业可以降低数据使用的门槛,使业务团队能够更自主地利用数据进行决策,同时提升数据应用的开发效率,推动业务的敏捷性。
方法论

Amoro

Amoro 是湖仓管理系统,这里我们借鉴了数据库管理系统的叫法,可能很多同学乍一听会觉得管理系统会类似于实时计算、离线开发一类的工具平台,这里我稍稍做个澄清:工具的目标是帮助用户更高效、便利地执行某种流程,而Amoro 的目标是将一些流程向用户屏蔽,交给用户一个黑盒,他的定位更多是一个基础软件,所以 Amoro 的 MS 类似于 DBMS 中的 MS,我们经常讲一句话:build a box for lakehouse。
管理