无匹配社区

博客园

请选择社区

iceberg学习之旅1基本概述

本文介绍了Iceberg表格式的概念,包括其特性如隐藏分区、模式演化等,数据类型和存储结构。同时探讨了表版本说明和Table format的核心特性和元数据组成。通过Table format,可以实现结构自由、读写自由、流批同源和引擎平权等功能。
大数据启示录
头像
滴滴 发布于 01月11日
105浏览

Flink几道经典编程场景

基于Flink实时计算程序,处理用户行为数据计算商品点击量,包括分组、窗口划分、增量聚合和排序等步骤。
大数据启示录
头像
滴滴 发布于 01月11日
159浏览1点赞

开源了AI一键生成证件照

本文介绍了三个开源项目:HivisionIDPhotos快速生成证件照、AppFlowy实现团队协作和Kotaemon文档交互工具。这些项目利用AI技术提高工作效率和用户体验。
头像
忆往昔 发布于 01月11日
49浏览

AI算法在大数据治理中的应用

针对大数据SQL查询任务,不同执行引擎适合不同场景。为提高查询效率和资源利用率,需智能选择执行引擎。通过模型学习历史任务数据,推荐最适合的引擎,提高查询效率和资源利用率。
DorisFlink
头像
忆往昔 发布于 01月10日
48浏览

一文读懂如何处理缓慢变化的维度SCD

本文主要介绍了使用DeltaLake框架实现缓慢变化的维度的三种方法:SCDType1、SCDType2和SCDType3。每种方法都有其特点和适用场景,其中SCDType2和SCDType3能够更好地处理维度数据的变更,同时保留历史记录。文章详细解释了每种方法的实现过程和优缺点。
DorisFlink
头像
忆往昔 发布于 01月10日
56浏览

ChatGPT剖析技术优化到AGI体系化工程化

本次分享讲解了ChatGPT的技术剖析、工程应用到可工程化AGI的过程,包括认知模型、模型即服务、前端应用、内部结构、对外接口等方面。同时介绍了ChatGPT在工程化方面的能力提升策略,以及通用人工智能(AGI)的产业化和工程化展望。
DorisFlink
头像
忆往昔 发布于 01月10日
36浏览

面试官最爱问Doris如何通过表模型设计提升查询性能100倍

本文介绍了Apache Doris中不同表模型的应用场景及选择指南。通过明细模型、主键模型和聚合模型的详细解析,帮助读者理解各种模型的特点和适用场景。同时提供了模型选择思路和实际应用技巧,并欢迎读者分享心得和投稿。一臻数据还提供了Apache Doris知识库的免费领取方式。
DorisFlink
头像
忆往昔 发布于 01月10日
72浏览

一个一键即可生成SSL证书的工具零配置从此告别繁琐Star46K

mkcert是一个生成本地HTTPS加密证书的工具,只需一个命令即可生成证书,无需任何配置。通过mkcert可以轻松创建自签证书,实现HTTPS访问。本文介绍了mkcert的安装和使用方法,包括生成证书、配置nginx和安装CA证书等步骤。
有趣的开源集市
头像
车车 发布于 01月10日
107浏览

一个一键制作证件照项目简单高效再也不用为临时准备证件照发愁了2天暴涨5KStar

相信每个人都遇到过急需证件照,但手头还没有的尴尬处境。前段时间,我有个项目突然急需个人证件照,而且点名需要1寸的。去实体店拍摄证件照是件麻烦的事。为了制作证件照,很多时候我们都是寻找各种在线证件照制作工具。但往往发现效果不咋地,还一堆广告,要不就必须开通会员才能去水印或者下载。最后无奈,只能手动PS...
有趣的开源集市
头像
车车 发布于 01月10日
90浏览

一个PDF转Markdown工具高精准识别自动去干扰元素和LLM更配哦Star15K

Marker是一个开源的PDF转换Markdown工具,利用深度学习技术高精度转换PDF为Markdown格式。它支持多种语言,自动去除页眉页脚等非内容元素,并能处理表格、代码块和图像。本文介绍了Marker的安装、配置和使用方法,并展示了其实际效果。测试结果显示,Marker能够高效地将PDF转换为Markdown格式,提高文档的可读性和使用效率。
有趣的开源集市
头像
车车 发布于 01月10日
149浏览

【HarmonyOS NEXT】一多开发介绍(断点、媒体查询、栅格布局)

鸿蒙
头像
能不忆江南 发布于 01月09日
92浏览

Cursor安装教程(2025年最新Cursor使用教程)

Cursor是一款强大的代码编辑器,支持Windows、macOS和Linux系统安装。本文介绍了Cursor的安装教程和使用教程,包括安装步骤、设置中文、使用注记等。购买Cursor pro会员可以享受更好的使用体验。
AI编程AI大世界
头像
随风 发布于 01月09日
990浏览

什么是数据标准?如何做好数据标准管理落地?

本文介绍了数据标准的概念和管理对象分类,阐述了数据标准管理的重要性,构建了数据标准的组织架构,并探讨了数据标准的落地实施问题。通过实例说明,建立数据标准体系框架对于提升数据质量、促进数据共享和流通具有重要意义。
数据治理
头像
滴滴 发布于 01月08日
93浏览

数据治理连载漫画:数据标准如何落地?

本文介绍了数据治理中数据标准落地的挑战和解决方案,包括优化信息系统开发流程、建设指标库、利用数据质量提升驱动数据标准化等。同时提出了数据标准落地的契机和融入日常工作过程的方法,包括厘清职责、平台对接联动、数据标准闭环管理机制和标准落地的文化宣贯等。最终实现数据标准的切实落地,满足监管要求,减轻业务报送工作,促进数据共享和实现数据价值。
数据治理
头像
滴滴 发布于 01月08日
40浏览

什么是数据资产入表?

数据资产入表是将企业数据资源以资产形式纳入财务报表的管理和计量过程。有助于提升企业的数据资产运营和变现能力,促进数据流通和使用,展现数字经济实力。通过数据资产清点、分类、评估、治理、管理和利用等步骤实现。数据资产入表有助于企业更好地了解自身数据规模、质量和价值,制定更合理的数据策略,挖掘数据价值。
数据治理
头像
滴滴 发布于 01月08日
34浏览

数据资产入表全流程操作指南

数据资产入表是企业将数据资源纳入财务报表管理和计量的过程,有助于提升数据资产运营和变现能力。实施数据治理是激活数据要素价值的基础工程。本文介绍了数据资产入表的相关概念、实施准备、数据治理的流程和要点,包括顶层设计、技术体系、数据服务和洞察等方面,旨在为企业提供方法论和思路参考。
数据治理
头像
滴滴 发布于 01月08日
25浏览

Apache Celeborn 在多点 DMALL 的云原生实践

本文介绍了多点DMALL在大数据架构变迁中引入Apache Celeborn的过程和升级演化。通过引入Celeborn解决Shuffle数据处理问题,采用存算分离方案构建云原生大数据集群。文章还提到了版本跟踪升级、从on Premises到on Kubernetes的转型、从Hostpath到PVC的过渡以及BestEffort带来的不稳定问题等解决方案。
Celeborn
头像
滴滴 发布于 01月08日
92浏览

BigDecimal多线程做除法异常

本文介绍了BigDecimal除法运算中精度的正确设置方式,并演示了不同处理方式在多线程环境下的影响,强调了异常处理的必要性。
Java
头像
图南 发布于 01月08日
35浏览1点赞

CentOs7.x安装部署SeaTunnelWeb遇到的坑

本文介绍了在CentOs7.x虚拟机上安装Java15和MySQL8.0.28环境后,如何安装部署SeaTunnel。包括下载安装包、设置环境变量、安装连接器插件、启动命令等步骤,并提供了执行官方client提交任务demo的过程和结果。
SeaTunnel
头像
蛇年大吉 发布于 01月08日
52浏览

Apache Seatunnel本地源码构建编译运行调试

本文介绍了在Windows 10环境下,Apache Seatunnel的源码包下载、环境准备、项目配置、源码编译运行以及MySQL数据库之间的单表数据同步的详细步骤。包括遇到问题的解决方案。
SeaTunnel
头像
蛇年大吉 发布于 01月08日
88浏览
1 202122232473

微信(交流/反馈)

巨人肩膀初心:站在巨人肩膀上,避免无谓的重复劳动。 生产和汇聚行业技术、 知识经验、 工具组件 、案例产品,提供相关环境,为开发者提高生产效率提供切实有效的支持和帮助。并在这一进程中实现多方共赢。

由 深圳数智领航科技有限公司 提供动力 - 数智化领航者。

©2023-2025 - 巨人肩膀 - 粤ICP备2025395551号-1