Rss订阅

首页 »Java教程 » kettleetl:开源ETL工具kettle系列的常见问题(图) »正文

kettleetl:开源ETL工具kettle系列的常见问题(图)

来源: 发布时间:星期四, 2008年12月18日浏览:3次评论:0

摘要:本文主要介绍使用kettle设计

些ETL任务时

些常见问题

这些问题大部分都不在官方FAQ上

你可以在kettle

论坛上找到

些问题

答案

1. Join
我得到A 数据流(不管是基于文件或数据库)

A包含field1 , field2 , field3 字段

然后我还有

个B数据流

B包含field4 , field5 , field6 , 我现在想把它们 ‘加’ 起来, 应该如何样做.
这是新手最容易犯错

个地方

A数据流跟B数据流能够Join

肯定是它们包含join key ,join key 可以是

个字段也可以是多个字段

如果两个数据流没有join key ,那么它们就是在做笛卡尔积

般很少会这样

比如你现在需要列出

个员工

姓名和他所在部门

姓名

如果这是在同

个数据库

大家都知道会在

个sql 里面加上where 限定条件

但是如果员工表和部门表在两个区别

数据流里面

尤其是数据源

来源是多个数据库

情况

我们

般是要使用Database Join 操作

然后用两个database table input 来表示输入流

个输入是部门表

姓名

另

个是员工表

姓名

然后我们认为这两个表就可以 ”Join” 了

我们需要

输出

确是这两个字段

但是这两个字段

输出并不代表只需要这两个字段

输入

它们的间肯定是需要

个约束关系存在

另外

无论是在做 Join , Merge , Update , Delete 这些常规操作

时候

都是先需要做

个compare 操作

这个compare 操作都是针对compare key

无论两个表结构是不是

样

比如employee 表和department 表

它们比较

依据就是employee

外键department_id , 没有这个compare key 这两个表是不可能连接

起来

.. 对于两个表可能还有人知道是直接sql 来做连接

如果是多个输入数据源

然后是 3个表

有人就开始迷茫了

A表

个字段

B表

个字段

C表

个字段

然后就连Join操作都没有

直接 database table output , 然后开始报错

报完错就到处找高手问

他们

数据库原理老师已经在吐血了

如果是 3个表连接

个sql 不能搞定

就需要先两个表两个表

连接

通过两次compare key 连接的后得到你

输出

记住

你

输出并不能代表你

输入. 下面整理总结

下:
1. 单数据源输入

直接用sql 做连接
2. 多数据源输入

(可能是文本或是两个以上源数据库)

用database join 操作.
3. 3个表以上

多字段输出.

2. Kettle

数据库连接模式
Kettle

数据库连接是

个步骤里面控制

个单数据库连接

所以kettle

连接有数据库连接池

你可以在指定

数据库连接里面指定

开始连接池里面放多少个数据库连接

在创建数据库连接

时候就有Pooling 选项卡

里面可以指定最大连接数和

连接数

这可以

定程度上提高速度.

3. transaction
我想在步骤A执行

个操作(更新或者插入)

然后在经过若干个步骤的后

如果我发现某

个条件成立

我就提交所有

操作

如果失败

我就回滚

kettle提供这种事务性

操作吗？
Kettle 里面是没有所谓事务

概念

每个步骤都是自己管理自己

连接

在这个步骤开始

时候打开数据库连接

在结束

时候关闭数据库连接

个步骤是肯定不会跨session

(数据库里面

session), 另外

由于kettle是并行执行

所以不可能把

个数据库连接打开很长时间不放

这样可能会造成锁出现

虽然不

定是死锁

但是对性能还是影响太大了

ETL中

事务对性能影响也很大

所以不应该设计

种依赖和事务方式

ETL执行顺序

毕竟这不是OLTP

你可能

次需要提交

数据量是几百 GB都有可能

任何

种数据库维持

个几百GB

回滚段性能都是会不大幅下降

.

4. 我真

需要transaction 但又不想要

个很复杂

设计

能不能提供

个简单

点

方式
Kettle 在3.0.2GA版中将推出

种新功能

在

个table output 步骤中有

个Miscellaneous 选项卡

其中有

个Use unique connections

选项

如果你选中

话就可以得到

个transaction

简单版

由于是使用

单数据库连接

所以可以有

时候回滚事务

不过要提醒

点是这种方式是以牺牲非常大

性能为前提条件

对于太大

数据量是不适合

(个人仍然不建议使用这种方式)

5. temporary 表如何使用
我要在ETL过程中创建

个中间表

当某个条件成立

时候

我要把中间表

数据进行转换

当另

条件成立

时候我要对中间表进行另

个操作

我想使用数据库

临时表来操作

应该用什么步骤

首先从temp 表

生命周期来分

temp分为事务临时表和会话临时表

前面已经解释过了

kettle是没有所谓事务

概念

所以自然也没有所谓

事务临时表

Kettle

每个步骤管理自己

数据库连接

连接

结束

kettle也就自然丢掉了这个连接

session

handler , 没有办法可以在其他步骤拿回这个session

handler , 所以也就不能使用所谓

会话临时表

当你尝试再开

个连接

时候

你可以连上这个临时表

但是你想要

临时表里面

数据都已经是空

(数据不

定被清除了

但是你连不上了)

所以不要设计

个需要使用临时表

转换
的所以会使用临时表

其实跟需要 ”事务” 特性有

点类似

都是希望在ETL过程中提供

种缓冲

临时表很多时候都不是某

个源表

全部数据

镜像

很多时候临时表都是很小

部分结果集

可能经过了某种计算过程

你需要临时表无非是基于下面 3个特性:
1. 表结构固定

用

个固定

表来接受

部分数据

2. 每次连接

时候里面没有数据

你希望它接受数据

但是不保存

每次都好像执行了truncate table 操作

样
3. 区别

时候连接临时表用同

个名字

你不想使用多个连接

时候用类似和temp1 , temp2 , temp3 , temp4 这种名字

应为它们表结构

样

既然临时表不能用

应该如何设计ETL过程呢？(可以用某种诡异

操作搞出临时表

不过不建议这样做罢了)
如果你

ETL过程比较

单线程性

也就是你清楚

知道同

时间只有

个这样

表需要

你可以创建

个普通

表

每次连接

时候都执行truncate 操作

不论是通过table output

truncate table 选项

还是通过手工执行truncate table sql 语句(在execute sql script 步骤)都可以达到目

(基于上面

2 特性)
如果你

ETL操作比较

多线程性

同

时间可能需要多个表结构

样并且里面都是为空

表(基于上面1

3特性)

你可以创建

个 “

串+序列”

模式

每次需要

时候

就创建这样

表

用完的后就删除

你自己不

定知道你需要多少个这种类型

表

所以删除会比truncate 好

些

下面举个例子如何创建这种表:
你可以使用某种约定

表名比如department_temp 作为department

临时表

或者
把argument 传到表名

使用 department_${argument}

语法

如果你需要多个这种表

使用

个sequence 操作+execute sql script 操作

execute sql script 就下面这种模式
Create table_? (…………..)
在表

名字上加参数

前面接受

个sequence 或类似

输入操作.
需要注意

是这种参数表名包括database table input 或者execute sql script

只要是参数作为表名

情况前面

输入不能是从数据库来

,应为没有办法执行这种preparedStatement 语句

从数据库来

值后面

操作是 “值操作” ,而不是

串替换

只有argument 或者sequence 操作当作参数才是

串替换. (这

点官方FAQ也有提到)

6. update table 和execute sql script 里面执行update

区别
执行update table 操作是比较慢

它会

条

条基于compare key 对比数据

然后决定是不是要执行update sql , 如果你知道你要如何更新数据尽可能

使用execute sql script 操作

在里面手写update sql (注意源数据库和目标数据库在哪)

这种多行执行方式(update sql)肯定比单行执行方式(update table 操作)快

多

另

个区别是execute sql script 操作是可以接受参数

输入

它前面可以是

个跟它完全不关

表

个sql :
select field1, field2 field3 from tableA
后面执行另

个表

更新操作:
update tableB

field4 = ? where field5=? And field6=?
然后选中execute sql script

execute for each row .注意参数是

对应

.(field4 对应field1

值

field5 对应field2

值

field6 对应field3

值)

7. kettle

性能
kettle本身

性能绝对是能够应对大型应用

般

基于平均行长150

条记录

假设源数据库

目标数据库以及kettle都分别在几台机器上(最常见

桌面工作模式

双核

1G内存)

速度大概都可以到5000 行每秒左右

如果把硬件提高

些

性能还可以提升 , 但是ETL 过程中难免遇到性能问题

下面

些通用

步骤也许能给你

些帮助.
尽量使用数据库连接池
尽量提高批处理

commit size
尽量使用缓存Cache

缓存Cache尽量大

些(主要是文本文件和数据流)
Kettle 是Java 做

尽量用大

点

内存参数启动Kettle.
可以使用sql 来做

些操作尽量用sql
Group , merge , stream lookup ,split field 这些操作都是比较慢

想办法避免他们.

能用sql 就用sql
插入大量数据

时候尽量把索引删掉
尽量避免使用update , delete 操作

尤其是update , 如果可以把update 变成先delete , 后insert .
能使用truncate table

时候

就不要使用delete all row 这种类似sql
合理

分区
如果删除操作是基于某

个分区

就不要使用delete row 这种方式(不管是delete sql 还是delete 步骤),直接把分区drop 掉

再重新创建
尽量缩小输入

数据集

大小(增量更新也是为了这个目

)
尽量使用数据库原生

方式装载文本文件(Oracle

sqlloader , mysql

bulk loader 步骤)
尽量不要用kettle

calculate 计算步骤

能用数据库本身

sql 就用sql ,不能用sql 就尽量想办法用procedure , 实在不行才是calculate 步骤.
要知道你

性能瓶颈在哪

可能有时候你使用了不恰当

方式

导致整个操作都变慢

观察kettle log 生成

方式来了解你

ETL操作最慢

地方

远程数据库用文件+FTP

方式来传数据

文件要压缩

(只要不是局域网都可以认为是远程连接)

8. 描述物理环境
源数据库

操作系统

硬件环境

是单数据源还是多数据源

数据库如何分布

做ETL

那台机器放在哪

操作系统和硬件环境是什么

目标数据仓库

数据库是什么

操作系统

硬件环境

数据库

集如何选

数据传输方式是什么

开发环境

测试环境和实际

生产环境有什么区别

是不是需要

个中间数据库(staging 数据库)

源数据库

数据库版本号是多少

测试数据库

版本号是多少

真正

目标数据库

版本号是多少……. 这些信息也许很零散

但是都需要

份专门

文档来描述这些信息

无论是你遇到问题需要别人帮助

时候描述问题本身

还是发现测试环境跟目标数据库

版本号不

致,这份专门

文档都能提供

些基本

信息

9. procedure
为什么我不能触发procedure?
这个问题在官方FAQ里面也有提到

触发procedure 和 http client 都需要

个类似和触发器

条件

你可以使用generate row 步骤产生

个空

row ,然后把这条记录连上procedure 步骤

这样就会使这条没有记录

空行触发这个procedure (如果你打算使用无条件

单次触发)

当然procedure 也可以象table input 里面

步骤那样传参数并且多次执行.
另外

个建议是不要使用复杂

procedure 来完成本该ETL任务完成

任务

比如创建表

填充数据

创建物化视图等等.

10.

集
Kettle使用Java 通常使用

UTF8 来传输

集

所以无论你使用何种数据库

任何数据库种类

集

kettle 都是支持

如果你遇到了

集问题

也许下面这些提示可以帮助你:
1. 单数据库到单数据库是绝对不会出现乱码问题

不管原数据库和目标数据库是何种种类

何种

集
2. 多种区别

集

原数据库到

个目标数据库

你首先需要确定多种源数据库

集

最大兼容

集是什么

如果你不清楚

最好

办法就是使用UTF8来创建数据库.
3. 不要以你工作

环境来判断

集:现在某

个测试人员手上有

个oracle

基于xxx

集

已经存在

数据库

并且非常不幸

是xxx

集不是utf8 类型

于是他把另

个基于yyy

集

oracle 数据库要经过某

个ETL过程转换到oracle , 后来他发现无论如何样设置都会出现乱码

这是

你

数据库本身

集不支持

无论你如何设置都是没用

. 测试

数据库不代表最后产品运行

数据库

尤其是有时候为了省事把多个区别

项目

不相关

数据库装在同

台机器上

测试

时候又没有分析清楚这种环境

所以也再次强调描述物理环境

重要性.
4. 你所看到

不

定代表实际储存

:mysql 处理

集

时候是要在jdbc 连接

参数里面加上

集参数

而oracle 则是需要服务器端和客户端使用同

种

集才能正确显示

所以你要明确你所看到

集乱码不

定代表真

就是

集乱码

这需要你检查在转换的前

集是否会出现乱码和转换的后是否出现乱码

你

桌面环境可能需要变动

些参数来适应这种变动
5. 不要在

个转换中使用多个

集做为数据源.

11. 预定义时间维
Kettle提供了

个小工具帮助我们预填充时间维

这个工具在kettle_home / samples / transformations / General – populate date dimension. 这个举例产生

数据不

定能满足各种需要

不过你可以通过修改这个举例来满足自己

需求.

12. SQL tab 和 Options tab
在你创建

个数据库连接

时候除了可以指定你

次需要

化

连接池参数的外(在 Pooling 选项卡下面)

还包括

个Options 选项卡和

个 SQL 选项卡, Options 选项卡里面主要设置

些连接时

参数

比如autocommit 是on 还是off , defaultFetchSize , useCursorFetch (mysql 默认支持

)

oracle 还支持比如defaultExecuteBatch , oracle.jdbc.StreamBufferSize, oracle.jdbc.FreeMemoryOnEnterImplicitCache ,你可以查阅对应数据库所支持

连接参数

另外

个小提示:在创建数据库连接

时候

选择你

数据库类型

然后选到Options 选项卡

下面有

个Show help text _disibledevent="_blank">Kettle

标签：kettle的意思 kettle 开源etl kettleetl

下载文章的 PDF文档电子版离线看

顶一下

读者评论

共0条分0页

专注于互联网--专注于架构

首页 »Java教程 » kettleetl:开源ETL工具kettle系列的常见问题(图) »正文

kettleetl:开源ETL工具kettle系列的常见问题(图)

相关文章

读者评论

发表评论

热门标签

精华推荐

Dig排行

阅读排行

评论排行