数据湖

数据湖(Data Lake)是一个以自然格式存储数据的系统或存储库,它通常是一个集中式的数据存储,能够容纳所有形式的数据,包括结构化数据(如关系型数据库中的表)、半结构化数据(如日志文件、JSON、XML等)、非结构化数据(如图像、音频、视频等)以及二进制数据。数据湖的主要特点是容量大、数据多样性、灵活性以及相对较高的成本。
方法论

Superset

Apache
Apache Superset是一个基于Python的开源数据可视化工具。它提供了直观的界面和丰富的可视化选项,可对接各种数据源,包括关系型数据库、NoSQL数据库、文件系统等,并支持自定义仪表盘。用户可以在界面上对数据进行筛选、排序、聚合等操作,还可以使用SQL语言进行更复杂的数据处理,同时支持数据的缓存和预计算以提高性能和响应速度。
交互分析开源

DataHub

一个可扩展的数据目录,支持数据发现、数据可观察性和联合治理,以帮助降低数据生态系统的复杂性。
开源治理
292
0

Debezium

Debezium是一种CDC(Change Data Capture)工具,工作原理类似大家所熟知的Canal, DataBus, Maxwell等,是通过抽取数据库日志来获取变更。
数采

Airflow

Apache
Airflow是一个工作流调度系统,用于定义和自动执行持久化工作流。它由Airbnb开发,现在是一个开源项目。 Airflow提供了一个Web界面,用于创建和管理工作流,并查看工作流执行情况。它使用DAG(有向无环图)来表示工作流,每个DAG由一组任务组成。您可以使用Airflow指定任务之间的依赖关系,并在特定的时间或条件下自动调度任务。
调度开源

MinIo

MinIO是一个开源的对象存储系统,专为云原生和容器化环境设计。是一个功能强大、灵活易用的开源对象存储系统,适用于各种云原生和容器化环境中的数据存储需求。
存储开源

Zabbix

Zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。Zabbix能监视各种网络参数,保证服务器系统的安全运营,并提供灵活的通知机制以让系统管理员快速定位和解决存在的各种问题。
开源运维

Azkaban

Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流.
调度

StreamSets

Streamsets是一款大数据实时采集和ETL工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面,Streamsets可以轻松实现数据管道(Pipelines)的设计和定时任务调度。
数采

数智化

智化是一种将现实世界与数字世界紧密结合,并利用智能化技术推动社会进步和发展的重要趋势。随着技术的不断发展,数智化将在更多领域发挥更大的作用,为人们的生活和工作带来更多的便利和可能性。

Kudu

Apache
Apache Kudu是由 Cloudera开源的 存储引擎,可以同时提供 低延迟的随机读写和高效的数据分析能力。它是一个融合 HDFS和 HBase的功能的新组件,具备介于两者之间的新存储组件.Kudu支持水平扩展,并且与 Cloudera lmpala和 Apache Spark等当前流行的大数据查询和分析工具结合紧密。
数据库开源

Sqoop

Apache
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
开源数采

Beam

Apache
Beam的主要目标是统一批处理和流处理的编程范式,为无限,乱序,web-scale的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的SDK。Apache Beam项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,Apache Beam希望基于Beam开发的数据处理程序可以执行在任意的分布式计算引擎上。
DevOpt开源

Tez

Apache
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
开源计算

Telegraf

Telegraf是一个基于插件的开源指标采集工具。本身是为InfluxDB(一款时序数据库)量身打造的数据收集器,但是它过于优秀,能够将抓取的数据写到很多地方,尤其在时序数据库领域,很多时序数据库都能够与它配合使用。通常,它每隔一段时间抓取一批指标数据(比如机器的CPU使用情况,磁盘的IO,网络情况,MySQL服务端的的会话数等等)并将他们发送到时序数据库、消息队列中或者自定义导出到某个地方。供下游的应用处理(比如报警)。Telegraf也能够对外提供一个服务,等待客户端推送数据。
时序数据库数采

Oracle

Oracle开发的关系数据库产品因性能卓越而闻名,Oracle数据库产品为财富排行榜上的前1000家公司所采用,许多大型网站也选用了Oracle系统,是世界最好的数据库产品。
数据库

Kylin

Apache
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,。它能在亚秒内查询巨大的Hive表。
数据库开源

Maxwell

Maxwell是由美国 Zendesk 开源,用 Java 编写的 MySQL 实时抓取软件。 实时读取MySQL 二进制日志 Binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。
开源数采

Davinci

Davinci 是一个 DVaaS(Data Visualization as a Service)平台解决方案,面向业务人员/数据工程师/数据分析师/数据科学家,致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用,也可作为可视化插件集成到三方系统。用户只需在可视化 UI 上简单配置即可服务多种数据可视化应用,并支持高级交互/行业分析/模式探索/社交智能等可视化功能。
交互分析

Pulsar

Apache
Pulsar是下一代云原生分布式消息流平台,集消息、存储、轻量化函数计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、跨区域复制、具有强一致性、高吞吐、低延迟及高可扩展性等流数据存储特性。
开源计算

Impala

Apache
Apache Impala是一种开源的、原生的分析数据库,是Hadoop生态中的一个工具。它被设计成能够通过一个高效的、并行的查询引擎直接访问存储在Hadoop集群中的数据。Impala的特性包括低延迟、高并发,以及能够对大数据进行分析。Impala可以对存储在Hadoop上的数据进行实时的分析查询,这是它的一大优势。此外,Impala还支持SQL,易于使用,且与Hive等Hadoop生态系统中的工具集成。
数据库开源

大数据启示录

博主入驻
打造一个专注于传播和分享大数据技术圈子,提升个人核心竞争力的圈子。
大数据存储数据湖调度开源数采治理
232
0

Filebeat

Filebeat是一种轻量型日志采集器,内置有多种模块(auditd、Apache、NGINX、System、MySQL 等等),可针对常见格式的日志大大简化收集、解析和可视化过程,只需一条命令即可。
数采

Svn

Apache
SVN是subversion的缩写,是一个开放源代码的版本控制系统,通过采用分支管理系统的高效管理,简而言之就是用于多个人共同开发同一个项目,实现共享资源,实现最终集中式的管理。
DevOpt开源

Presto

快速可靠的数据分析SQL引擎和开放式Lakehouse
221
0

雷达视频设备应用

雷达视频技术爱好者、从业者和研究者的交流平台。社区汇聚行业资讯、技术教程、产品评测与实战案例,促进知识分享与合作创新,助力成员提升专业技能,共同推动雷达视频技术的发展与应用。
209
0

InfluxDB

InfluxDB是一种流行的开源时序数据库,专门设计用于处理时间序列数据。时序数据是按时间顺序排列的数据,通常用于表示传感器数据、应用程序指标、日志和事件等。InfluxDB具有高效存储和查询的能力,采用自适应压缩算法和特定的存储引擎,可以高效地存储大量的时序数据,并通过类似SQL的查询语言(InfluxQL)提供丰富的查询功能。它支持高并发写入,适用于处理实时数据流,并可定义数据保留策略自动删除旧数据以控制数据库大小。此外,InfluxDB拥有插件生态系统,可扩展其功能,并具备高可用性和容错性,支持数据复制和故障转移。
时序数据库数据库开源

Bigtop

社区入驻
面向基础设施工程师和数据科学家,寻求领先的开源大数据组件的全面打包、测试和配置方式。Bigtop支持广泛的组件/项目,包括但不限于Hadoop、HBase和Spark。
ApacheDevOpt
182
0

Golang

Go 富有表现力、简洁、干净和高效。它的并发机制可以轻松编写程序,充分利用多核和联网机器,而其新颖的类型系统可以实现灵活和模块化的程序构建。Go 可以快速编译为机器代码,但具有垃圾收集的便利性和运行时反射的能力。
编程语言开源
160
0

提示词工程

以“精准指令激发无限可能”为理念。一个专注于AI智能应用与创意表达汇聚工程师、设计师、文字创作者及科技爱好者的开放社区。
智能体LLM
147
0

网络安全

致力于提升公众网络安全意识、分享安全防护知识的平台。它汇聚专家、用户,共同防范网络威胁,通过教育、培训、交流等活动,增强社区成员的网络安全防护能力,构建安全、健康的网络环境。
121
0

书籍共享

书籍共享是一种将知识与他人分享的方式,在信息爆炸的时代,书籍依然是知识与智慧的重要载体。
大数据Apache编程语言管理数据湖数据库
55
0