Flink

Apache
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。
开源计算

Doris

Apache
Apache Doris是一个现代化的MPP (Massively Parallel Processing,即大规模并行处理)分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。 Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。
数据库开源

车联网

热门行业
车联网大数据是指在车联网环境中,通过车辆传感器、智能终端、云计算等技术手段,收集、传输、处理和利用的大量数据。这些数据涵盖了车辆运行状态、驾驶员行为、车辆位置、交通情况等多个方面,对于提升车辆安全性、优化交通效率、改进车辆性能等方面具有重要意义。
行业

用户画像

社区项目
用户画像(User Persona)是通过对用户数据、行为、偏好等信息的综合分析和归纳,形成的一个虚拟的、具有代表性的用户模型。它可以帮助企业更深入地了解目标用户,从而制定更为精准的市场策略和产品方案。
开源

Agile Query

官方入驻
Agile Query 是一款商业智能数据分析平台,旨在让用户能够以更直观、更高效的方式利用数据做出决策。它通过强大的SQL 编译器、 搜索驱动的数据分析以及即时查询性能,让用户无需专业技能即可探索、理解和分享数据。
交互分析商业

数据分析

定期分享数据分析领域的最新动态、实战案例、技术工具评测、数据可视化技巧以及行业洞察报告,旨在打造一个集学习、交流与成长为一体的数据分析爱好者社群。

Hadoop

Apache
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
存储开源

Kafka

Apache
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。
开源数采

StarRocks

StarRocks 是一款极速统一的Lakehouse产品,具备水平在线扩缩容,金融级高可用,兼容 MySQL 5.7 协议和 MySQL 生态,提供全面向量化引擎与多种数据源联邦查询等重要特性。StarRocks 致力于在全场景 OLAP 业务上为用户提供统一的解决方案,适用于对性能,实时性,并发能力和灵活性有较高要求的各类应用场景。
数据库

Streampark

Apache
Streampark(原名为StreamX)是一个简单易用的流处理应用开发框架和操作管理平台。它的目标是让流处理更简单,轻松构建和管理流处理应用程序。它不仅提供使用 ApacheFlink 和 Apache Spark 编写流处理应用程序的开发框架,未来还计划支持更多其他引擎。
DevOpt开源计算

Dolphinscheduler

Apache
DolphinScheduler (海豚) 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。
调度开源

物理围栏

社区项目
地理围栏(Geo-fencing)/电子围栏是一种基于地理位置的技术,它使用虚拟的边界来围出一个特定的地理区域。当移动设备,如智能手机或汽车,进入或离开这个设定的区域时,可以自动接收通知或警告。这种技术在多个领域有广泛的应用。
开源

智能制造

智能制造大数据是指利用大数据技术来支撑智能制造的实现。智能制造是基于新一代信息通信技术与先进制造技术深度融合,具有自感知、自学习、自决策、自执行、自适应等功能的新型生产方式。而大数据技术则能够处理海量的数据,挖掘出有价值的信息,为智能制造提供数据支持和决策依据。

SeaTunnel

Apache
SeaTunnel是一个简单易用的数据集成框架,在企业中,由于开发时间或开发部门不通用,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行。数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
开源数采

Atlas

Apache
Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心功能。
开源治理

Linux

Linux 系统已经渗透到 IT 领域的各个角落,不管你是专注于编程,还是专注于运维,都应该对 Linux 有所了解,甚至还要深入学习,掌握核心原理。Shell 是 Linux 的一部分,学习 Linux 一般也要学习 Shell。
开源运维

规则系统

社区项目
目前常见的大数据告警系统更多是基于SparkStreaming+Drools,其实时性是基于微批实现时延相对较高,不支持广播流告警规则的更新只能依赖于广播变量定时更新,且不支持状态计算将不得不引入外部存储如Redis因此降低了系统的吞吐量同时也增大了系统的复杂度。新一代的分布式处理引擎Flink是基于事件驱动且可进行状态计算,大大提高了数据处理能力和简化了平台的复杂度。
开源

新零售

热门行业
新零售大数据是指在新零售背景下,通过对海量数据的收集、处理和分析,挖掘出消费者的需求和行为特征,以实现精准营销、精细化运营和提高用户体验的一种数据驱动的零售模式。。
行业

Java

功能强大且跨平台,适合复杂企业级应用开发。其面向对象特性便于代码组织与维护,丰富的类库助力高效开发。Java还具备出色的安全性和多线程处理能力,非常适合构建大型、安全、并发的系统。无论是金融应用、数据处理还是网络服务,Java都能提供稳定可靠的解决方案,特别是在大数据、云计算领域表现突出。因其强大的生态系统和广泛的应用场景,Java已成为软件开发的首选语言之一。
编程语言

Hive

Apache
Apache Hive是一个基于Hadoop的数据仓库工具,它可以将结构化数据文件映射为一张数据库表,并提供类SQL查询功能。Hive的本质是将SQL转换为MapReduce程序。它主要用于离线数据分析,比直接使用MapReduce开发效率更高。
数据库开源计算

Nifi

Apache
NiFi的基本设计理念是基于数据流的编程Flow-Based Programming(FBP),应用是由处理器、连接器组成的网络。数据进入一个节点,由该节点对数据进行处理,根据不同的处理结果将数据路由到后续的其他节点进行处理。
开源数采

Clickhouse

一种面向列式数据库的管理系统。它支持高速读取和写入大数据量,并且可以通过水平扩展轻松地扩展到多个节点上。适用于各种类型的数据分析,包括实时和流数据分析,数据仓库,商业智能和在线事务处理。也是一种时序数据库。
时序数据库数据库

数据仓库/中台

数据仓库(Data Warehouse,简称DW或DWH)是为企业所有级别的决策制定过程提供所有类型数据支持的战略集合。数据仓库通过集成、处理、存储和管理各种数据源的数据,为企业提供统一、稳定、高质量的数据环境,支持企业的业务分析和决策。
方法论

Gravitino

它可以管理来自不同来源、类型和地区的元数据,支持多种类型的数据目录,如 Apache Hive 元存储、Apache Iceberg 表、关系存储、文件集、Apache Kafka 等消息系统,以及对 Trino、Apache Spark 和 Apache Flink 的多引擎支持。
治理

MySQL

MySQL是一个开源的关系型数据库管理系统(RDBMS)。它使用了一种名为Structured Query Language(SQL)的语言进行数据操作和管理。MySQL由瑞典公司MySQL AB开发,后来被Sun Microsystems收购,最终被甲骨文公司(Oracle Corporation)收购。MySQL是一个广泛应用于Web开发的数据库系统,它可以与许多编程语言(如PHP、Python、Java等)配合使用,并且支持大量的并发用户连接。
数据库开源

AI应用开发

利用人工智能技术,设计、构建和维护软件应用程序,通过大语言模型等应用平台,快速搭建生产级的生成式AI应用,以提高工作效率、减少重复性劳动,并推动个人和企业的发展。

Docker

Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux或Windows操作系统的机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。
开源运维

Spark

Apache
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
开源计算

数据治理

数据治理是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。数据治理的最终目标是提升数据的价值,它是一个管理体系,包括组织、制度、流程、工具。
方法论

游戏

热门行业
基于玩家所产生的海量数据,我们怎样去获取玩家的具体画像、他们的特点以及预测他们未来的一些行为以服务我们的运营、发行以及研发过程中的一些系统改造?
行业

Nuxt

Nuxt.js 是一个基于 Vue.js 的服务器端渲染 (SSR) 应用框架,它使得开发通用应用(即同时支持客户端和服务器端渲染)变得更加简单和直观。Nuxt.js 为我们提供了很多开箱即用的功能,例如路由、状态管理、中间件支持等,这些功能可以帮助我们更高效地开发复杂的单页应用 (SPA) 或服务器端渲染 (SSR) 应用。
VueJs

金融

热门行业
通过收集、分析和利用大量的数据来提升金融服务和风险管理的效率与精准度。这些数据包括客户的交易信息、网络社区交流行为、资金流走向等,能够反映客户的消费习惯,从而帮助金融机构制定个性化的营销策略和信用评价。
行业

Linkis

Linkis 在上层应用程序和底层引擎之间构建了一层计算中间件。通过使用Linkis 提供的REST/WebSocket/JDBC 等标准接口,上层应用可以方便地连接访问MySQL/Spark/Hive/Presto/Flink 等底层引擎,同时实现统一变量、脚本、用户定义函数和资源文件等用户资源的跨上层应用互通,以及通过REST标准接口提供了数据源管理和数据源对应的元数据查询服务。 作为计算中间件,Linkis 提供了强大的连通、复用、编排、扩展和治理管控能力。通过将应用层和引擎层解耦,简化了复杂的网络调用关系,降低了整体复杂度,同时节约了整体开发和维护成本。
中间件

Drools

Drools是一款由JBoss组织提供的基于Java语言开发的开源规则引擎,可以将复杂且多变的业务规则从硬编码中解放出来,以规则脚本的形式存放在文件或数据库中,使得业务规则的变更不需要修改项目代码、重启服务器就可以在线上环境立即生效。
开源计算

Zookeeper

Apache
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
协调服务开源

Ranger

Apache
一个提供集中式安全管理框架的开源项目,它通过对库表配置不同的访问策略,再赋权给用户,达到数据隔离的目的。Apache Ranger目前集成了Hadoop生态中众多不同的系统,已经覆盖了Hive、HDFS、Yarn、HBase、Kafka、Kudu、Solr等17类。Apache Ranger支持审计日志,可以记录各种操作的审计日志,提供统一的查询接口和界面。
开源治理

Magic-api

一个基于Java的接口快速开发框架,通过magic-api提供的UI界面完成编写接口,无需定义Controller、Service、Dao、Mapper、XML、VO等Java对象即可完成常见的HTTP API接口开发
开源治理

MongoDB

MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。
数据库

Dbeaver

DBeaver是一种免费和开源的通用数据库管理工具,为开发人员和数据库管理员提供了一个易于使用的数据库管理解决方案。它支持所有的主流数据库,包括MySQL、PostgreSQL、MariaDB、SQLite、Oracle、Db2、SQL Server、Sybase、MS Access、Teradata、Firebird、Derby等等。
交互分析开源

Kettle

Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,绿色无需安装,数据抽取高效稳定 (数据迁移工具)。Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。
开源数采

Datart

datart 是新一代数据可视化开放平台,支持各类企业数据可视化场景需求,如创建和使用报表、仪表板和大屏,进行可视化数据分析,构建可视化数据应用等。由原 davinci 主创团队出品,datart 更加开放、可塑和智能,并在数据与艺术之间寻求最佳平衡。。
交互分析开源

Dinky

Dinky是一个开源项目,它基于Apache Flink进行扩展,增强Flink的应用与体验,探索流式数仓。Dinky致力于实时计算平台建设,让Flink SQL纵享丝滑。Dinky(原Dlink)原意为“小巧而精致的”,直观地表明了它的特征:轻量级但又具备复杂的大数据开发能力。“Data Integrate No Knotty”的首字母组合,寓意“数据整合不难”,易于建设批流一体平台及应用。Dinky由Apache Flink社区的贡献者创建,它的目标是站在巨人肩膀上创新与实践,在未来批流一体的发展趋势下潜力无限。
DevOpt开源计算

Hudi

Apache
Hudi 是一个通用的大数据存储系统,主要特性:摄取和查询引擎之间的快照隔离,包括 Apache Hive、Presto 和 Apache Spark;支持回滚和存储点,可以恢复数据集;自动管理文件大小和布局,以优化查询性能和目录清单;准实时摄取,为查询提供最新数据; 实时数据和列数据的异步压缩。
数据湖开源

Git

Git是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。 也是Linus Torvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。
DevOpt开源

嵌入式开发

在一定硬件条件下的系统化设计和软件研发,涵盖了软件、硬件的综合开发。