数据平台架构

探讨与分享数据架构设计思考与实践。共学共进数据架构能力,实现数据驱动的业务增长,共创数据价值新篇章。
行业
950
2

数据湖

数据湖(Data Lake)是一个以自然格式存储数据的系统或存储库,它通常是一个集中式的数据存储,能够容纳所有形式的数据,包括结构化数据(如关系型数据库中的表)、半结构化数据(如日志文件、JSON、XML等)、非结构化数据(如图像、音频、视频等)以及二进制数据。数据湖的主要特点是容量大、数据多样性、灵活性以及相对较高的成本。
方法论

Clickhouse

一种面向列式数据库的管理系统。它支持高速读取和写入大数据量,并且可以通过水平扩展轻松地扩展到多个节点上。适用于各种类型的数据分析,包括实时和流数据分析,数据仓库,商业智能和在线事务处理。也是一种时序数据库。
时序数据库数据库

Calcite

Apache
Apache Calcite是一个动态数据管理框架,它提供了SQL解析、查询优化和执行的功能,旨在构建自定义的SQL处理管道,并能在各种数据源之间进行查询和转换。
开源计算

游戏

基于玩家所产生的海量数据,我们怎样去获取玩家的具体画像、他们的特点以及预测他们未来的一些行为以服务我们的运营、发行以及研发过程中的一些系统改造?
行业

Atlas

Apache
Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心功能。
开源治理

金融

通过收集、分析和利用大量的数据来提升金融服务和风险管理的效率与精准度。这些数据包括客户的交易信息、网络社区交流行为、资金流走向等,能够反映客户的消费习惯,从而帮助金融机构制定个性化的营销策略和信用评价。
行业

雷达视频设备应用

雷达视频技术爱好者、从业者和研究者的交流平台。社区汇聚行业资讯、技术教程、产品评测与实战案例,促进知识分享与合作创新,助力成员提升专业技能,共同推动雷达视频技术的发展与应用。
446
0

Ambari

社区入驻
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。
Apache开源运维

Hbase

Apache
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
数据库开源

物流

在物流运作过程中产生的大量数据集合,它涵盖了运输、仓储、搬运装卸、包装及流通加工等物流环节的各类数据和信息。这些数据和信息经过分析和挖掘,可以揭示物流运作的规律,提高运输与配送效率,减少物流成本,更有效地满足客户服务要求。
行业

HiDataPlus

社区入驻
一个可持续升级的免费Hadoop发行版。HidataPlus是由几个热爱开源软件的成员组成,因为Hortonworks和Cloudera合并等原因,原有的HDP版本不再更新,于是我们尝试进行了集成新的版本。
DevOpt开源行业
579
2

Amoro

Amoro 是湖仓管理系统,这里我们借鉴了数据库管理系统的叫法,可能很多同学乍一听会觉得管理系统会类似于实时计算、离线开发一类的工具平台,这里我稍稍做个澄清:工具的目标是帮助用户更高效、便利地执行某种流程,而Amoro 的目标是将一些流程向用户屏蔽,交给用户一个黑盒,他的定位更多是一个基础软件,所以 Amoro 的 MS 类似于 DBMS 中的 MS,我们经常讲一句话:build a box for lakehouse。
管理

Bigtop

社区入驻
面向基础设施工程师和数据科学家,寻求领先的开源大数据组件的全面打包、测试和配置方式。Bigtop支持广泛的组件/项目,包括但不限于Hadoop、HBase和Spark。
ApacheDevOpt
428
0

网络安全

致力于提升公众网络安全意识、分享安全防护知识的平台。它汇聚专家、用户,共同防范网络威胁,通过教育、培训、交流等活动,增强社区成员的网络安全防护能力,构建安全、健康的网络环境。
344
0

Datax

DataX是由阿里巴巴研发并开源的一个异构数据源离线同步工具,技术人员能够通过DataX实现不同数据源之间的同步。 这里所指的数据源既包括关系型数据库、NoSQL数据存储、无结构化数据存储、时间序列数据库,同时也包含了阿里的云数仓数据存储。 DataX是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS等各种异构数据源之间高效的数据同步功能.
开源数采

Iceberg

Apache
Iceberg是一个基于大型分析型数据上的一个表格式,它允许将一些文件、数据集以表的形式提供给spark、trino、prestodb、flink、hive这些计算引擎。
数据湖开源

指标中台

指标中台是一个供组织集中管理、存储和访问关键指标的平台。它提供统一的业务模型、指标管理、指标加工和数据服务,为企业带来以指标为核心、数据驱动的管理体系。通过指标中台,企业可以降低数据使用的门槛,使业务团队能够更自主地利用数据进行决策,同时提升数据应用的开发效率,推动业务的敏捷性。
方法论

巨人肩膀

本社区用于讨论巨人肩膀平台的功能需求、未来探索的创新方向以及如何通过技术升级与用户体验优化,进一步提升平台的实用价值与吸引力。
347
1

嵌入式开发

在一定硬件条件下的系统化设计和软件研发,涵盖了软件、硬件的综合开发。
881
0

规则系统

目前常见的大数据告警系统更多是基于SparkStreaming+Drools,其实时性是基于微批实现时延相对较高,不支持广播流告警规则的更新只能依赖于广播变量定时更新,且不支持状态计算将不得不引入外部存储如Redis因此降低了系统的吞吐量同时也增大了系统的复杂度。新一代的分布式处理引擎Flink是基于事件驱动且可进行状态计算,大大提高了数据处理能力和简化了平台的复杂度。
开源

SQLLineage

总是无法掌握SQL解析器的使用方法?SQLLineage 来了。给定一个SQL命令,SQLLineage会告诉你它的源表和目标表,而不用担心SQL解析器使用的令牌、关键字、标识符和所有jagons。
查询开源计算治理
628
1

Zookeeper

Apache
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
协调服务开源

Canal

Canal是一个开源的数据同步工具,用于将数据从数据库同步到其他系统。它主要用于在数据库和其他系统之间同步数据,以便在这些系统之间共享数据。 Canal使用数据库的二进制日志(binlog)来同步数据,并且支持多种数据库,包括MySQL、MariaDB和AlibabaDB。它提供了一个命令行界面,可用于运行数据同步任务,也可以嵌入到其他程序中使用。
开源数采

DataHub

一个可扩展的数据目录,支持数据发现、数据可观察性和联合治理,以帮助降低数据生态系统的复杂性。
开源治理
392
0

Dbeaver

DBeaver是一种免费和开源的通用数据库管理工具,为开发人员和数据库管理员提供了一个易于使用的数据库管理解决方案。它支持所有的主流数据库,包括MySQL、PostgreSQL、MariaDB、SQLite、Oracle、Db2、SQL Server、Sybase、MS Access、Teradata、Firebird、Derby等等。
交互分析开源

Debezium

Debezium是一种CDC(Change Data Capture)工具,工作原理类似大家所熟知的Canal, DataBus, Maxwell等,是通过抽取数据库日志来获取变更。
数采

Druid

一个高性能的实时分析时序数据库,可以在一定规模和负载下对流式数据和批处理数据进行秒级查询。
时序数据库交互分析
499
0

FineReport

FineReport是由帆软自主研发的一款纯Java编写的报表软件产品,集数据展示(报表)和数据录入(表单)功能于一身,能够制作复杂的报表,操作简单易用。针对软件开发商和系统集成商,用于快速构建企业信息系统的中国式Web报表软件。
交互分析商业

Golang

Go 富有表现力、简洁、干净和高效。它的并发机制可以轻松编写程序,充分利用多核和联网机器,而其新颖的类型系统可以实现灵活和模块化的程序构建。Go 可以快速编译为机器代码,但具有垃圾收集的便利性和运行时反射的能力。
编程语言开源
300
0

Griffin

Apache
Griffin是一个开源的大数据数据质量监控方案,支持批处理和流处理两种模式。它提供了一个统一的过程由不同的角度来衡量数据质量,构建可信的数据资产。
开源治理

Impala

Apache
Apache Impala是一种开源的、原生的分析数据库,是Hadoop生态中的一个工具。它被设计成能够通过一个高效的、并行的查询引擎直接访问存储在Hadoop集群中的数据。Impala的特性包括低延迟、高并发,以及能够对大数据进行分析。Impala可以对存储在Hadoop上的数据进行实时的分析查询,这是它的一大优势。此外,Impala还支持SQL,易于使用,且与Hive等Hadoop生态系统中的工具集成。
数据库开源

Kettle

Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,绿色无需安装,数据抽取高效稳定 (数据迁移工具)。Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。
开源数采

Kyuubi

Apache
一个分布式多租户网关,用于在数据仓库和Lakehouses上提供无服务器SQL。
开源计算
492
0

Linkis

Linkis 在上层应用程序和底层引擎之间构建了一层计算中间件。通过使用Linkis 提供的REST/WebSocket/JDBC 等标准接口,上层应用可以方便地连接访问MySQL/Spark/Hive/Presto/Flink 等底层引擎,同时实现统一变量、脚本、用户定义函数和资源文件等用户资源的跨上层应用互通,以及通过REST标准接口提供了数据源管理和数据源对应的元数据查询服务。 作为计算中间件,Linkis 提供了强大的连通、复用、编排、扩展和治理管控能力。通过将应用层和引擎层解耦,简化了复杂的网络调用关系,降低了整体复杂度,同时节约了整体开发和维护成本。
中间件

maven

一个软件项目管理和理解工具。基于项目对象模型(POM)的概念,Maven可以从中心信息中管理项目的构建、报告和文档。
开源
448
0

MongoDB

MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。
数据库

MQTT

MQTT(Message Queuing Telemetry Transport)是一种基于发布/订阅模式的轻量级消息传输协议,它被广泛用于物联网(IoT)场景,特别是那些需要低功耗、小数据包、不可靠或高延迟网络的环境。MQTT协议设计得简单、轻量,并且能够高效地传输消息。
协议

Nifi

Apache
NiFi的基本设计理念是基于数据流的编程Flow-Based Programming(FBP),应用是由处理器、连接器组成的网络。数据进入一个节点,由该节点对数据进行处理,根据不同的处理结果将数据路由到后续的其他节点进行处理。
开源数采

OpenMetadata

一个可供所有数据和所有数据从业者构建和管理高质量数据资产的地方。由Collate和Apache Hadoop、Apache Atlas和Uber Databook的创始人共同打造。
开源治理
531
0

物理围栏

地理围栏(Geo-fencing)/电子围栏是一种基于地理位置的技术,它使用虚拟的边界来围出一个特定的地理区域。当移动设备,如智能手机或汽车,进入或离开这个设定的区域时,可以自动接收通知或警告。这种技术在多个领域有广泛的应用。
开源

Presto

快速可靠的数据分析SQL引擎和开放式Lakehouse
323
0

Ranger

Apache
一个提供集中式安全管理框架的开源项目,它通过对库表配置不同的访问策略,再赋权给用户,达到数据隔离的目的。Apache Ranger目前集成了Hadoop生态中众多不同的系统,已经覆盖了Hive、HDFS、Yarn、HBase、Kafka、Kudu、Solr等17类。Apache Ranger支持审计日志,可以记录各种操作的审计日志,提供统一的查询接口和界面。
开源治理

隐语开源社区

社区入驻
隐语开源社区,带来隐私计算行业资讯、技术科普及最新隐语开源技术、案例、社区讯息
计算
141
0

StreamSets

Streamsets是一款大数据实时采集和ETL工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面,Streamsets可以轻松实现数据管道(Pipelines)的设计和定时任务调度。
数采