阿里巴巴开源离线同步工具 DataX3.0 介绍 - OSCHINA - 中文开源技术交流社区


本站和网页 https://www.oschina.net/news/76468/datax-3-0?_t_t_t=0.5396898166724515 的作者无关,不对其内容负责。快照谨为网络故障时之索引,不代表被搜索网站的即时页面。

阿里巴巴开源离线同步工具 DataX3.0 介绍 - OSCHINA - 中文开源技术交流社区
首页
资讯
摸鱼
专区
问答
GOTC2023
活动
开源活动
开源创新大赛
软件库
2022年度评选
Tool
博客
Gitee
首页
资讯
摸鱼
专区
问答
GOTC2023
活动
开源活动
开源创新大赛
软件库
2022年度评选
Tool
博客
Gitee
OSCHINA 小程序 —— 关注技术领域的头条文章
聚合全网技术文章,根据你的阅读喜好进行个性推荐
登录
注册
开源资讯
投递新闻
开源资讯
DataX
正文
阿里巴巴开源离线同步工具 DataX3.0 介绍
来源: 投稿
作者: 凝小紫
2016-08-24 00:00:00
27
一. DataX3.0概览
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
设计理念
为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。
当前使用现状
DataX在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已持续稳定运行了6年之久。目前每天完成同步8w多道作业,每日传输数据量超过300TB。
此前已经开源DataX1.0版本,此次介绍为阿里巴巴开源全新版本DataX3.0,有了更多更强大的功能和更好的使用体验。Github主页地址:https://github.com/alibaba/DataX。
二、DataX3.0框架设计
DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。
Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。
Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。
Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。
三. DataX3.0插件体系
经过几年积累,DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。DataX目前支持数据如下:
DataX Framework提供了简单的接口与插件交互,提供简单的插件接入机制,只需要任意加上一种插件,就能无缝对接其他数据源。详情请看:DataX数据源指南
四、DataX3.0核心架构
DataX 3.0 开源版本支持单机多线程模式完成同步作业运行,本小节按一个DataX作业生命周期的时序图,从整体架构设计非常简要说明DataX各个模块相互关系。
核心模块介绍:
DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。
DataXJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作。
切分多个Task之后,DataX Job会调用Scheduler模块,根据配置的并发数据量,将拆分成的Task重新组合,组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task,默认单个任务组的并发数量为5。
每一个Task都由TaskGroup负责启动,Task启动后,会固定启动Reader—>Channel—>Writer的线程来完成任务
出处:云栖社区
展开阅读全文
相关链接
DataX 的详细介绍:点击查看
DataX 的下载地址:点击下载
本站新闻禁止未经授权转载,违者依法追究相关法律责任。授权请联系:oscbianji#oschina.cn
本文标题:阿里巴巴开源离线同步工具 DataX3.0 介绍
本文地址:https://www.oschina.net/news/76468/datax-3-0
点击加入讨论🔥(27)
取消
发布
精彩评论
微野
AboutDataX集成可视化页面,选择数据源即可一键生成数据同步任务,支持批量创建RDBMS数据同步任务,集成开源调度系统,支持分布式、增量同步数据、实时查看运行日志、监控执行器资源、KILL运行进程、数据源信息加密等
2020-07-15 22:08
1 赞
举报
热门文章
Linus 批评英特尔的 LAM 代码,拒绝将其合并到内核
OBS Studio 即将支持 WebRTC,采用 Rust 实现
马斯克发起投票:我是否应该辞去推特负责人一职
Rust 1.66.0 发布
304 收藏
微信
QQ
微博
分享
其他人还在看
更多精彩内容
OCaml 5.0.0 正式发布
OCaml 是一个函数式、指令式、模块化、面向对象的通用的编程语言,源自 ML (Meta Language) 语言家族。 OCaml 5.0.0 近日已正式发布,主要更新亮点是引入了全新的运行时环境,支持共享的内存并行性和效果处理程序。 所谓共享的内存并行性是指 Multicore OCaml。它通过 domain 增加了对并行共享内存的支持,并通过 effect...
微软工程师展望 Rust 2023:重写编译器、解决管理问题
Nick Cameron 是就职于微软负责 Rust 开发的首席工程师,此前是 Rust 核心开发团队的成员。他在 3 个月前发表文章:“Rust 面临的十大挑战”,称这是 Rust 应该在 2023 年要解决的问题。 上周他又发表了文章:“Rust in 2023”,表达对 Rust 和 Rust 社区在 2023 年的展望,比如优先要做的工作,以及 Rust 值得着手改进的...
Spring Cloud 2022.0.0 正式发布,代号"Kilburn"
Spring Cloud 2022.0.0 已正式发布。 获取地址:Maven Spring Cloud 为开发人员提供了工具,以快速构建分布式系统中的某些常见模式(例如:配置管理、服务发现、智能路由、微代理、控制总线、一次性令牌、全局锁、分布式会话、群集状态等)。架构如下: Spring Cloud 2022.0.0 是基于 Spring Framework 6.x 和 Spring B...
22
Linux 6.2 内核合并了新的 Zstd 实现
基于 Zstd v1.5 上游的新 Zstd 内核实现已合并到正在开发的 Linux 6.2 中,以便为从压缩固件到透明文件系统压缩的 Zstd 压缩/解压缩用例提供更好的性能和可靠性。 Linux 内核已在多个模块使用了 Zstd,从透明文件系统压缩与 Btrfs 之类的数据压缩,到允许内核模块使用 Zstandard 算法进行压缩。 据称,Linux 内核中的 Zs...
IntelliJ IDEA 2022.3.1 现已发布
IntelliJ IDEA 2022.3.1 已发布,这是对 2022.3 版本的第一个错误修复更新,主要修复了下面的问题。 在新 UI 中提供了在多行上显示编辑器选项卡的选项 [ IDEA-29509 ] 保存操作再次按预期工作。[ IDEA-307368 ] 提取方法操作 ( Ctrl +Alt+M/⌥⌘M ) 不再阻止用户创建非静态方法。[ IDEA-298640 ] 使用 Extract Method 重...
MariaDB 公司正式在纽交所上市
今年 2 月,开源数据库 MariaDB 公司完成了 1.04 亿美元的 D 轮融资,并表示计划在 Angel Pond 公司的帮助下成为一家上市公司。 12 月 19 日,MariDB 公司宣布,它通过与 SPAC 公司 Angel Pond Holdings 合并,已正式在纽交所挂牌上市 (NYSE:MRDB)。公司正式名称更改为"MariaDB plc",成为新一代的云数据库公司。 MariaD...
招募不到维护者,Go 语言 Web 工具包 Gorilla 归档
流行的开源 Go 语言 Web 工具包 Gorilla 宣布已正式归档,目前已进入只读模式。“它发出的信号是,这些库在未来将不会有任何发展。” 根据介绍,Gorilla Web Toolkit 是一个用于基于 Web 的应用程序的流行开源 Go 工具包,由一些增强 Go 基础库以添加重要功能(例如参数化路由和会话管理)的包组成。其中,尤其是它的 We...
Knife4j 4.0正式发布,新征程!!!
该版本处理了近12个月以来Gitee、GitHub两大平台积压的近300多个issue 同时也带来了一些新的特性。 主要更新亮点: 🆕统一各个组件版本号,使用Knife4j时开发者根据需要自行引用,artifactId发生了变化 💯支持Spring Boot 3 🌼兼容适配springdoc-openapi底层框架,全面迁移到OpenAPI3的规范支持 🌿针对O...
25
开源被列为重要衡量维度!工信部印发中国软件名城(园)管理办法
近日,工业和信息化部印发《中国软件名城管理办法》与《中国软件名园管理办法》,用于规范和加强中国软件名城、名园管理工作,发挥示范带动效应,促进我国软件和信息技术服务业高质量发展。“办法”明确,中国软件名城创建优先支持工业稳增长和转型升级成效明显市(州)、建设信息基础设施和推进产业数字化成效明显市(州...
14
VS Code Go v0.37 发布
VS Code Go 是 Golang 团队官方推出的一个 VS Code 扩展,为 Go 编程语言提供了丰富的语言支持。 VS Code Go v0.37 近日正式发布,这个版本包括新的静态分析功能,可以报告依赖项中的已知漏洞。这些 vulncheck 分析工具由 Go 的漏洞数据库和 Go 语言服务器的govulncheck集成支持。 变化 新的 “Go:Toggle Vulncheck” ...
查看更多
加载更多
精彩专栏
高手问答
往期
软件研发效能提升:从“内卷”中彻底解脱
Python下如何利用FastAPI框架开发实用、快捷的Web商业系统?
用 Rust 语言设计并开发领域编程语言
软件快讯
更多
Dante Cloud 2.7.7.0 发布,企业级技术中台微服务架构
JavaWeb 敏捷开发框架 Layui 版本 v1.3.1 发布
RXThinkCMF 敏捷开发框架 Laravel9.x+EleVue 版本 v1.0.2 发布
每日一博
更多
8000字详解Thread Pool Executor
分布式注册服务中心etcd在云原生引擎中的实践
广告倒排服务极致优化
一周热点
更多
Java 16、PHP协程提案激辩 | Docker获融资、SUSE准备IPO、“开源”进入“十四五”
JB出了远程IDE工具、7-Zip出了Linux版 | 吴晟成首位中国人ASF董事
Flutter 2发布 | 个人搞开源怎么赚钱
源创计划
立即入驻
自媒体入驻开源社区,
获百万流量,打造个人技术品牌
新闻投递
立即投递
欢迎投递软件、IT 行业
相关新闻。
推荐关注
换一批
AKShare
文章 762
访问 14.2W
杨彬Lennon
文章 14
访问 10.3W
Wanzikun
文章 1
访问 114
RainyCRH
文章 3
访问 3.4W
得是想乃打
文章 1
访问 1K
27 评论
304 收藏
微信
QQ
微博
分享
OSCHINA 社区
关于我们
联系我们
加入我们
合作伙伴
Open API
在线工具
Gitee.com
企业研发管理
CopyCat-代码克隆检测
实用在线工具
国家反诈中心APP下载
攻略
项目运营
Awesome 软件(持续更新中)
QQ群
530688128
公众号
视频号
OSCHINA 小程序
聚合全网技术文章,根据你的阅读喜好进行个性推荐
OSC小程序
©OSCHINA(OSChina.NET)
工信部
开源软件推进联盟
指定官方社区
社区规范
深圳市奥思网络科技有限公司版权所有
粤ICP备12009483号
顶部