社区
最新
最热
推荐
社区
Airflow
Apache
Airflow是一个工作流调度系统,用于定义和自动执行持久化工作流。它由Airbnb开发,现在是一个开源项目。 Airflow提供了一个Web界面,用于创建和管理工作流,并查看工作流执行情况。它使用DAG(有向无环图)来表示工作流,每个DAG由一组任务组成。您可以使用Airflow指定任务之间的依赖关系,并在特定的时间或条件下自动调度任务。
调度
开源
巨人肩膀小编
317
0
Azkaban
Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流.
调度
巨人肩膀小编
345
0
Beam
Apache
Beam的主要目标是统一批处理和流处理的编程范式,为无限,乱序,web-scale的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的SDK。Apache Beam项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,Apache Beam希望基于Beam开发的数据处理程序可以执行在任意的分布式计算引擎上。
DevOpt
开源
巨人肩膀小编
295
0
书籍共享
书籍共享是一种将知识与他人分享的方式,在信息爆炸的时代,书籍依然是知识与智慧的重要载体。
大数据
Apache
编程语言
管理
数据湖
数据库
久安
01月06日
158
0
Cassandra
Apache
Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。
数据库
开源
巨人肩膀小编
277
1
Datart
datart 是新一代数据可视化开放平台,支持各类企业数据可视化场景需求,如创建和使用报表、仪表板和大屏,进行可视化数据分析,构建可视化数据应用等。由原 davinci 主创团队出品,datart 更加开放、可塑和智能,并在数据与艺术之间寻求最佳平衡。。
交互分析
开源
巨人肩膀小编
543
1
Davinci
Davinci 是一个 DVaaS(Data Visualization as a Service)平台解决方案,面向业务人员/数据工程师/数据分析师/数据科学家,致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用,也可作为可视化插件集成到三方系统。用户只需在可视化 UI 上简单配置即可服务多种数据可视化应用,并支持高级交互/行业分析/模式探索/社交智能等可视化功能。
交互分析
巨人肩膀小编
286
0
Filebeat
Filebeat是一种轻量型日志采集器,内置有多种模块(auditd、Apache、NGINX、System、MySQL 等等),可针对常见格式的日志大大简化收集、解析和可视化过程,只需一条命令即可。
数采
巨人肩膀小编
304
0
Flume
Apache
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
开源
数采
巨人肩膀小编
342
1
Grafana
Grafana是一个跨平台的开源可视化分析工具,主要应用于大规模指标数据的可视化展示。它支持Prometheus、Graphite、OpenTSDB、InfluxDB、MySQL、PostgreSQL、Microsoft SQL Server等多种数据源。Grafana的主要工作原理是提供一个仪表盘,对各种数据进行可视化。具体来说,它可以将你需要监控的数据输入到仪表盘中,然后生成各种可视化仪表。同时,Grafana还具有报警功能,可以在系统出现问题时通知你。
交互分析
开源
巨人肩膀小编
266
1
Greenplum
Greenplum是一款由Greenplum公司开发的,基于数据仓库和商业智能领域的软件产品。它包括Greenplum DW/BI软件,可以在虚拟化x86服务器上运行无分享(shared-nothing)的大规模并行处理(MPP)架构。Greenplum在2003年成立,并在2006年推出了首款产品。
数据库
巨人肩膀小编
282
1
Hue
Hue 是运营和开发 Hadoop 应用的图形化用户界面。Hue 程序被整合到一个类似桌面的环境,以 web 程序的形式发布,对于单独的用户来说不需要额外的安装。
交互分析
巨人肩膀小编
317
1
InfluxDB
InfluxDB是一种流行的开源时序数据库,专门设计用于处理时间序列数据。时序数据是按时间顺序排列的数据,通常用于表示传感器数据、应用程序指标、日志和事件等。InfluxDB具有高效存储和查询的能力,采用自适应压缩算法和特定的存储引擎,可以高效地存储大量的时序数据,并通过类似SQL的查询语言(InfluxQL)提供丰富的查询功能。它支持高并发写入,适用于处理实时数据流,并可定义数据保留策略自动删除旧数据以控制数据库大小。此外,InfluxDB拥有插件生态系统,可扩展其功能,并具备高可用性和容错性,支持数据复制和故障转移。
时序数据库
数据库
开源
巨人肩膀小编
255
0
Kudu
Apache
Apache Kudu是由 Cloudera开源的 存储引擎,可以同时提供 低延迟的随机读写和高效的数据分析能力。它是一个融合 HDFS和 HBase的功能的新组件,具备介于两者之间的新存储组件.Kudu支持水平扩展,并且与 Cloudera lmpala和 Apache Spark等当前流行的大数据查询和分析工具结合紧密。
数据库
开源
巨人肩膀小编
316
0
Kylin
Apache
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,。它能在亚秒内查询巨大的Hive表。
数据库
开源
巨人肩膀小编
293
0
Maxwell
Maxwell是由美国 Zendesk 开源,用 Java 编写的 MySQL 实时抓取软件。 实时读取MySQL 二进制日志 Binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。
开源
数采
巨人肩膀小编
296
0
MinIo
MinIO是一个开源的对象存储系统,专为云原生和容器化环境设计。是一个功能强大、灵活易用的开源对象存储系统,适用于各种云原生和容器化环境中的数据存储需求。
存储
开源
巨人肩膀小编
330
0
Nmon
Nmon是由IBM 提供、免费监控 AIX 系统与 Linux 系统资源的工具。该工具可将服务器系统资源耗用情况收集起来并输出一个特定的文件,并可利用 excel 分析工具(nmon analyser)进行数据的统计分析。
运维
巨人肩膀小编
317
1
Oozie
Apache
Oozie是一个基于工作流引擎的开源框架,提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务,多任务可以按照执行的逻辑顺序调度。
调度
开源
巨人肩膀小编
293
1
Oracle
Oracle开发的关系数据库产品因性能卓越而闻名,Oracle数据库产品为财富排行榜上的前1000家公司所采用,许多大型网站也选用了Oracle系统,是世界最好的数据库产品。
数据库
巨人肩膀小编
335
0
Phoenix
Apache
Apache Phoenix(Apache Phoenix Query Server)是一个强大的 SQL 查询引擎,适用于快速查询和更新大规模结构化数据,可用于高并发的事务处理和实时查询,同时也提供了高级特性,如按行版本控制、倒排索引等,方便开发人员构建应用程序和进行数据分析。
查询
开源
巨人肩膀小编
322
1
Prometheus
Prometheus 是一款基于时序数据库的开源监控告警系统,非常适合Kubernetes集群的监控。Prometheus的基本原理是通过HTTP协议周期性抓取被监控组件的状态,任意组件只要提供对应的HTTP接口就可以接入监控。
时序数据库
开源
运维
巨人肩膀小编
326
1
Pulsar
Apache
Pulsar是下一代云原生分布式消息流平台,集消息、存储、轻量化函数计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、跨区域复制、具有强一致性、高吞吐、低延迟及高可扩展性等流数据存储特性。
开源
计算
巨人肩膀小编
303
0
Sentry
Sentry 是一个开源的错误追踪系统,它可以帮助开发人员监控和修复生产环境中的问题。Sentry 提供了实时警报、历史记录和协作功能,使开发团队能够快速响应和解决应用程序中的错误和异常。Sentry 可以与许多流行的编程语言和框架集成,包括 Python、JavaScript、Ruby、Java 和 PHP 等。
DevOpt
开源
巨人肩膀小编
305
1
数智化
智化是一种将现实世界与数字世界紧密结合,并利用智能化技术推动社会进步和发展的重要趋势。随着技术的不断发展,数智化将在更多领域发挥更大的作用,为人们的生活和工作带来更多的便利和可能性。
巨人肩膀小编
318
0
Sqoop
Apache
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
开源
数采
巨人肩膀小编
328
0
Storm
Apache
Apache Storm是一个分布式的,可靠的,容错的数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理,spout把数据传递给bolt, bolt要么把数据保存到某种存储器,要么把数据传递给其它的bolt。一个Storm集群就是在一连串的bolt之间转换spout传过来的数据。
开源
计算
巨人肩膀小编
298
1
Superset
Apache
Apache Superset是一个基于Python的开源数据可视化工具。它提供了直观的界面和丰富的可视化选项,可对接各种数据源,包括关系型数据库、NoSQL数据库、文件系统等,并支持自定义仪表盘。用户可以在界面上对数据进行筛选、排序、聚合等操作,还可以使用SQL语言进行更复杂的数据处理,同时支持数据的缓存和预计算以提高性能和响应速度。
交互分析
开源
巨人肩膀小编
357
0
Svn
Apache
SVN是subversion的缩写,是一个开放源代码的版本控制系统,通过采用分支管理系统的高效管理,简而言之就是用于多个人共同开发同一个项目,实现共享资源,实现最终集中式的管理。
DevOpt
开源
巨人肩膀小编
318
0
Telegraf
Telegraf是一个基于插件的开源指标采集工具。本身是为InfluxDB(一款时序数据库)量身打造的数据收集器,但是它过于优秀,能够将抓取的数据写到很多地方,尤其在时序数据库领域,很多时序数据库都能够与它配合使用。通常,它每隔一段时间抓取一批指标数据(比如机器的CPU使用情况,磁盘的IO,网络情况,MySQL服务端的的会话数等等)并将他们发送到时序数据库、消息队列中或者自定义导出到某个地方。供下游的应用处理(比如报警)。Telegraf也能够对外提供一个服务,等待客户端推送数据。
时序数据库
数采
巨人肩膀小编
331
0
Tez
Apache
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
开源
计算
巨人肩膀小编
315
0
Tidb
一款同时支持在线事务处理与在线分析处理的融合型分布式数据库产品,具备水平扩容或者缩容、金融级高可用、实时 HTAP、云原生的分布式数据库、兼容 MySQL 5.7 协议和 MySQL 生态等重要特性。
数据库
开源
巨人肩膀小编
348
1
Zabbix
Zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。Zabbix能监视各种网络参数,保证服务器系统的安全运营,并提供灵活的通知机制以让系统管理员快速定位和解决存在的各种问题。
开源
运维
巨人肩膀小编
388
0
Zeppelin
Apache
Apache Zeppelin是一个基于网页的交互式数据分析工具,它提供了数据可视化的框架,支持多种语言,包括SQL、Scala等,可以用来做出数据驱动的、交互、协作的文档。
交互分析
开源
巨人肩膀小编
300
1
1
2
3