大数据(DT)社区 | 信息(IT)社区 | 人工智能(AI)社区 | 物联网(IOT)社区 | 巨人肩膀

社区

最新最热推荐

提示词工程

以“精准指令激发无限可能”为理念。一个专注于AI智能应用与创意表达汇聚工程师、设计师、文字创作者及科技爱好者的开放社区。

智能体LLM

2025年01月26日

1276

0

智能制造

智能制造大数据是指利用大数据技术来支撑智能制造的实现。智能制造是基于新一代信息通信技术与先进制造技术深度融合，具有自感知、自学习、自决策、自执行、自适应等功能的新型生产方式。而大数据技术则能够处理海量的数据，挖掘出有价值的信息，为智能制造提供数据支持和决策依据。

巨人肩膀小编

1071

1

小阳杂说

欢迎光临 FlinkSQL 专栏，这里是你探索 Apache Flink 和 Flink SQL 的神秘宝藏！最佳实践和精彩的实战案例。无论你是初出茅庐的小白还是身经百战的老手，都会找到自都会找到自己的学习乐趣。

后端大数据

2024年08月06日

645

3

金融

通过收集、分析和利用大量的数据来提升金融服务和风险管理的效率与精准度。这些数据包括客户的交易信息、网络社区交流行为、资金流走向等，能够反映客户的消费习惯，从而帮助金融机构制定个性化的营销策略和信用评价。

行业

巨人肩膀小编

1028

1

数据结构和算法

数据结构和算法是计算机科学的两大基石，数据结构关注数据的组织、存储和管理方式，以提高数据的访问和修改效率；而算法则研究解决问题的步骤和方法，旨在通过最有效的操作序列快速解决问题。两者相辅相成，是实现高效程序设计的关键。

2024年06月20日

1220

0

Redis

作为您的NoSQL数据库，构建快速、可靠的应用程序，使“99999”的正常运行时间看起来很容易。

2024年06月19日

1219

0

物理围栏

地理围栏（Geo-fencing）/电子围栏是一种基于地理位置的技术，它使用虚拟的边界来围出一个特定的地理区域。当移动设备，如智能手机或汽车，进入或离开这个设定的区域时，可以自动接收通知或警告。这种技术在多个领域有广泛的应用。

开源

巨人肩膀小编

980

1

规则系统

目前常见的大数据告警系统更多是基于SparkStreaming+Drools,其实时性是基于微批实现时延相对较高，不支持广播流告警规则的更新只能依赖于广播变量定时更新，且不支持状态计算将不得不引入外部存储如Redis因此降低了系统的吞吐量同时也增大了系统的复杂度。新一代的分布式处理引擎Flink是基于事件驱动且可进行状态计算，大大提高了数据处理能力和简化了平台的复杂度。

开源

巨人肩膀小编

936

1

嵌入式开发

在一定硬件条件下的系统化设计和软件研发，涵盖了软件、硬件的综合开发。

2024年06月20日

1079

0

Dbeaver

DBeaver是一种免费和开源的通用数据库管理工具，为开发人员和数据库管理员提供了一个易于使用的数据库管理解决方案。它支持所有的主流数据库，包括MySQL、PostgreSQL、MariaDB、SQLite、Oracle、Db2、SQL Server、Sybase、MS Access、Teradata、Firebird、Derby等等。

交互分析开源

巨人肩膀小编

1076

0

Hbase

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

数据库开源

巨人肩膀小编

841

1

SQLLineage

总是无法掌握SQL解析器的使用方法？SQLLineage 来了。给定一个SQL命令，SQLLineage会告诉你它的源表和目标表，而不用担心SQL解析器使用的令牌、关键字、标识符和所有jagons。

查询开源计算治理

巨人肩膀小编

2024年07月17日

835

1

Gradle

Gradle是Java、Android和Kotlin开发人员首选的开源构建系统。从移动应用程序到微服务，从小型初创公司到大企业，它可以帮助团队更快地交付更好的软件。

开源

2024年06月18日

801

1

游戏

基于玩家所产生的海量数据，我们怎样去获取玩家的具体画像、他们的特点以及预测他们未来的一些行为以服务我们的运营、发行以及研发过程中的一些系统改造？

行业

巨人肩膀小编

785

1

Kettle

Kettle 是一款国外开源的 ETL 工具，纯 Java 编写，绿色无需安装，数据抽取高效稳定 (数据迁移工具)。Kettle 中有两种脚本文件，transformation 和 job，transformation 完成针对数据的基础转换，job 则完成整个工作流的控制。

开源数采

巨人肩膀小编

776

1

Linkis

Linkis 在上层应用程序和底层引擎之间构建了一层计算中间件。通过使用Linkis 提供的REST/WebSocket/JDBC 等标准接口，上层应用可以方便地连接访问MySQL/Spark/Hive/Presto/Flink 等底层引擎，同时实现统一变量、脚本、用户定义函数和资源文件等用户资源的跨上层应用互通，以及通过REST标准接口提供了数据源管理和数据源对应的元数据查询服务。作为计算中间件，Linkis 提供了强大的连通、复用、编排、扩展和治理管控能力。通过将应用层和引擎层解耦，简化了复杂的网络调用关系，降低了整体复杂度，同时节约了整体开发和维护成本。

中间件

巨人肩膀小编

762

1

Griffin

Griffin是一个开源的大数据数据质量监控方案，支持批处理和流处理两种模式。它提供了一个统一的过程由不同的角度来衡量数据质量，构建可信的数据资产。

开源治理

巨人肩膀小编

542

2

Zookeeper

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

协调服务开源

巨人肩膀小编

726

1

Nifi

NiFi的基本设计理念是基于数据流的编程Flow-Based Programming（FBP），应用是由处理器、连接器组成的网络。数据进入一个节点，由该节点对数据进行处理，根据不同的处理结果将数据路由到后续的其他节点进行处理。

开源数采

巨人肩膀小编

916

0

Ranger

一个提供集中式安全管理框架的开源项目，它通过对库表配置不同的访问策略，再赋权给用户，达到数据隔离的目的。Apache Ranger目前集成了Hadoop生态中众多不同的系统，已经覆盖了Hive、HDFS、Yarn、HBase、Kafka、Kudu、Solr等17类。Apache Ranger支持审计日志，可以记录各种操作的审计日志，提供统一的查询接口和界面。

开源治理

巨人肩膀小编

707

1

MongoDB

MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。

数据库

巨人肩膀小编

687

1

Datax

DataX是由阿里巴巴研发并开源的一个异构数据源离线同步工具，技术人员能够通过DataX实现不同数据源之间的同步。这里所指的数据源既包括关系型数据库、NoSQL数据存储、无结构化数据存储、时间序列数据库，同时也包含了阿里的云数仓数据存储。 DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS等各种异构数据源之间高效的数据同步功能.

开源数采

巨人肩膀小编

878

0

物流

在物流运作过程中产生的大量数据集合，它涵盖了运输、仓储、搬运装卸、包装及流通加工等物流环节的各类数据和信息。这些数据和信息经过分析和挖掘，可以揭示物流运作的规律，提高运输与配送效率，减少物流成本，更有效地满足客户服务要求。

行业

巨人肩膀小编

640

1

Canal

Canal是一个开源的数据同步工具，用于将数据从数据库同步到其他系统。它主要用于在数据库和其他系统之间同步数据，以便在这些系统之间共享数据。 Canal使用数据库的二进制日志（binlog）来同步数据，并且支持多种数据库，包括MySQL、MariaDB和AlibabaDB。它提供了一个命令行界面，可用于运行数据同步任务，也可以嵌入到其他程序中使用。

开源数采

巨人肩膀小编

637

1

Datart

datart 是新一代数据可视化开放平台，支持各类企业数据可视化场景需求，如创建和使用报表、仪表板和大屏，进行可视化数据分析，构建可视化数据应用等。由原 davinci 主创团队出品，datart 更加开放、可塑和智能，并在数据与艺术之间寻求最佳平衡。。

交互分析开源

巨人肩膀小编

583

1

MQTT

MQTT（Message Queuing Telemetry Transport）是一种基于发布/订阅模式的轻量级消息传输协议，它被广泛用于物联网（IoT）场景，特别是那些需要低功耗、小数据包、不可靠或高延迟网络的环境。MQTT协议设计得简单、轻量，并且能够高效地传输消息。

协议

巨人肩膀小编

575

1

FineReport

FineReport是由帆软自主研发的一款纯Java编写的报表软件产品，集数据展示（报表）和数据录入(表单)功能于一身，能够制作复杂的报表，操作简单易用。针对软件开发商和系统集成商，用于快速构建企业信息系统的中国式Web报表软件。

交互分析商业

巨人肩膀小编

554

1

Iceberg

Iceberg是一个基于大型分析型数据上的一个表格式，它允许将一些文件、数据集以表的形式提供给spark、trino、prestodb、flink、hive这些计算引擎。

数据湖开源

巨人肩膀小编

754

0

雷达视频设备应用

雷达视频技术爱好者、从业者和研究者的交流平台。社区汇聚行业资讯、技术教程、产品评测与实战案例，促进知识分享与合作创新，助力成员提升专业技能，共同推动雷达视频技术的发展与应用。

2024年11月09日

742

0

Amoro

Amoro 是湖仓管理系统，这里我们借鉴了数据库管理系统的叫法，可能很多同学乍一听会觉得管理系统会类似于实时计算、离线开发一类的工具平台，这里我稍稍做个澄清：工具的目标是帮助用户更高效、便利地执行某种流程，而Amoro 的目标是将一些流程向用户屏蔽，交给用户一个黑盒，他的定位更多是一个基础软件，所以 Amoro 的 MS 类似于 DBMS 中的 MS，我们经常讲一句话：build a box for lakehouse。

管理

巨人肩膀小编

709

0

数据湖

数据湖（Data Lake）是一个以自然格式存储数据的系统或存储库，它通常是一个集中式的数据存储，能够容纳所有形式的数据，包括结构化数据（如关系型数据库中的表）、半结构化数据（如日志文件、JSON、XML等）、非结构化数据（如图像、音频、视频等）以及二进制数据。数据湖的主要特点是容量大、数据多样性、灵活性以及相对较高的成本。

方法论

巨人肩膀小编

683

0

Kyuubi

一个分布式多租户网关，用于在数据仓库和Lakehouses上提供无服务器SQL。

开源计算

巨人肩膀小编

2024年07月05日

665

0

OpenMetadata

一个可供所有数据和所有数据从业者构建和管理高质量数据资产的地方。由Collate和Apache Hadoop、Apache Atlas和Uber Databook的创始人共同打造。

开源治理

2024年07月17日

664

0

巨人肩膀

本社区用于讨论巨人肩膀平台的功能需求、未来探索的创新方向以及如何通过技术升级与用户体验优化，进一步提升平台的实用价值与吸引力。

巨人肩膀小编

2024年11月24日

453

1

Druid

一个高性能的实时分析时序数据库，可以在一定规模和负载下对流式数据和批处理数据进行秒级查询。

时序数据库交互分析

巨人肩膀小编

2024年06月20日

643

0

Bigtop

面向基础设施工程师和数据科学家，寻求领先的开源大数据组件的全面打包、测试和配置方式。Bigtop支持广泛的组件/项目，包括但不限于Hadoop、HBase和Spark。

ApacheDevOpt

我擦咧什么鬼

2024年08月16日

623

0

Flume

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

开源数采

巨人肩膀小编

417

1

Nmon

Nmon是由IBM 提供、免费监控 AIX 系统与 Linux 系统资源的工具。该工具可将服务器系统资源耗用情况收集起来并输出一个特定的文件,并可利用 excel 分析工具（nmon analyser）进行数据的统计分析。

运维

巨人肩膀小编

404

1

Hue

Hue 是运营和开发 Hadoop 应用的图形化用户界面。Hue 程序被整合到一个类似桌面的环境，以 web 程序的形式发布，对于单独的用户来说不需要额外的安装。

交互分析

巨人肩膀小编

399

1

Phoenix

Apache Phoenix（Apache Phoenix Query Server）是一个强大的 SQL 查询引擎，适用于快速查询和更新大规模结构化数据，可用于高并发的事务处理和实时查询，同时也提供了高级特性，如按行版本控制、倒排索引等，方便开发人员构建应用程序和进行数据分析。

查询开源

巨人肩膀小编

398

1

Tidb

一款同时支持在线事务处理与在线分析处理的融合型分布式数据库产品，具备水平扩容或者缩容、金融级高可用、实时 HTAP、云原生的分布式数据库、兼容 MySQL 5.7 协议和 MySQL 生态等重要特性。

数据库开源

巨人肩膀小编

387

1

Prometheus

Prometheus 是一款基于时序数据库的开源监控告警系统，非常适合Kubernetes集群的监控。Prometheus的基本原理是通过HTTP协议周期性抓取被监控组件的状态，任意组件只要提供对应的HTTP接口就可以接入监控。

时序数据库开源运维

巨人肩膀小编

380

1

网络安全

致力于提升公众网络安全意识、分享安全防护知识的平台。它汇聚专家、用户，共同防范网络威胁，通过教育、培训、交流等活动，增强社区成员的网络安全防护能力，构建安全、健康的网络环境。

2024年11月23日

572

0

Oozie

Oozie是一个基于工作流引擎的开源框架，提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。

调度开源

巨人肩膀小编

363

1

StreamSets

Streamsets是一款大数据实时采集和ETL工具，可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面，Streamsets可以轻松实现数据管道(Pipelines)的设计和定时任务调度。

数采

巨人肩膀小编

560

0

微信(交流/反馈)

巨人肩膀初心：站在巨人肩膀上，避免无谓的重复劳动。生产和汇聚行业技术、知识经验、工具组件、案例产品，提供相关环境，为开发者提高生产效率提供切实有效的支持和帮助。并在这一进程中实现多方共赢。

©2023-2026 - 巨人肩膀 - 粤ICP备2025395551号-1