专注于互联网--专注于架构

最新标签
网站地图
文章索引
Rss订阅
  ETL中增量更新是个比较依赖和工具和设计思路方法过程Kettle中主要提供Insert / Update 步骤Delete 步骤和Database Lookup 步骤来支持增量更新增量更新设计思路方法也是根据应用场景来选取虽然本文讨论是Kettle实现方式但也许对其他工具也有些帮助本文不可能涵盖所有情况欢迎大家讨论 应用场景增量更新按照数据种类区别大概可以分成:1. 只增加不更新2. 只更新不增加3. 即增加也更新4. 有删除有增加有更新其中1 2 3种大概都是相同思路使用步骤可能略有区别通用思路方法是在原数据库增加个时间戳然后在转 [阅读全文] [PDF]
摘要:本文主要讨论使用Kettle来设计些较为复杂和动态转换可能使用到些窍门技巧这些窍门技巧可能会让你在使用Kettle时候更加容易设计更强大ETL任务 动态参数传递Kettle 在处理运行时输入参数可以使用JavaScript 来实现大部分工作只是按照个模板来处理动态参数传递主要使用在像数据清理调式测试完成复杂条件过滤等等这种方式般不会在产品已经运行稳定了段时间的后使用我们般仍然是做定时任务来自动转换数据所以在开始介绍如何使用动态参数的前希望大家能明白不要在产品数据库上做实验即使你已经知道你转换有什么影响并且做了备份这种思路方法是不可能自动执行Kettle有两种动态参数传递思路方法种是 [阅读全文] [PDF]
摘要:本文主要介绍使用kettle设计些ETL任务时些常见问题这些问题大部分都不在官方FAQ上你可以在kettle论坛上找到些问题答案 1. Join我得到A 数据流(不管是基于文件或数据库)A包含field1 , field2 , field3 字段然后我还有个B数据流B包含field4 , field5 , field6 , 我现在想把它们 ‘加’ 起来, 应该如何样做.这是新手最容易犯错个地方A数据流跟B数据流能够Join肯定是它们包含join key ,join key 可以是个字段也可以是多个字段如果两个数据流没有join key ,那么它们就是在做笛卡尔积般很少 [阅读全文] [PDF]
1 共3条 分1页