最新DataStage常见面试题及其答案

下面列出了最常见的DataStage面试问题和答案。

1)什么是IBM DataStage？

DataStage是功能最强大的ETL工具之一。它具有用于数据集成的图形化可视化功能。它从源提取, 转换并将数据加载到目标。

DataStage是用于设计, 开发, 运行, 编译和管理应用程序的一组集成工具。它可以从一个或多个数据源中提取数据, 实现数据的多部分转换, 并使用结果数据加载一个或多个目标文件或数据库。

2)描述DataStage的体系结构？

DataStage遵循客户端-服务器模型。对于不同版本的DataStage, 它具有不同类型的客户端-服务器体系结构。

DataStage体系结构包含以下组件。

专案
工作
阶段
伺服器
客户端组件

3)解释DataStage并行扩展器(PX)或企业版(EE)？

DataStage PX是IBM数据集成工具。它是数据仓库行业中使用最广泛的提取, 转换和加载(ETL)工具之一。该工具从各种来源收集信息, 以根据业务需求执行转换并将数据加载到相应的数据仓库中。

DataStage PX也称为DataStage企业版。

4)描述DataStage的主要功能？

DataStage的主要功能如下。

DataStage提供了分区和并行处理技术, 这些技术使DataStage作业可以更快地处理大量数据。
它具有企业级网络。
它是IBM InfoSphere Information Server的数据集成组件。
这是一个基于GUI的工具。
在DataStage中, 我们需要拖放DataStage对象, 也可以将其转换为DataStage代码。
DataStage用于执行各种ETL操作(提取, 转换, 加载)
它同时提供与不同来源和多个目标的连接

5)DataStage有哪些先决条件？

对于DataStage, 必须进行以下设置。

InfoSphere
DataStage Server 9.1.2或更高版本
Microsoft Visual Studio .NET 2010 Express Edition C ++
Oracle客户端(完整客户端, 不是即时客户端)(如果连接到Oracle数据库)
DB2客户端(如果连接到DB2数据库)

6)如果文件具有相同的元数据, 如何使用单个DataStage作业读取多个文件？

搜索文件的元数据是否不同或相同, 然后在顺序阶段指定文件名。
在元数据的属性中按顺序附加该元数据。
选择”读取方法”作为”特定文件”, 然后通过从”要添加的可用属性”中选择”文件”属性来添加所有文件。

它看起来像：

File= /home/myFile1.txt
File= /home/myFile2.txt
File= /home/myFile3.txt
Read Method= Specific file(s) fcec

7)解释IBM InfoSphere Information Server并突出其主要功能？

IBM InfoSphere Information Server是领先的数据集成平台, 其中包含使你能够理解, 过滤, 监视, 转换和交付数据的一组产品。可扩展的解决方案具有大规模并行处理功能, 可帮助你管理海量数据。它可帮助你将可靠的信息转发到你的关键业务目标, 例如大数据和分析, 数据仓库现代化以及主数据管理。

IBM InfoSphere Information Server的功能

IBM InfoSphere可以连接多个源系统, 并可以写入各种目标系统。它充当数据集成的单个平台。
它基于集中层。套装的所有模块都可以共享套件的基准架构。
它具有用于统一存储库, 集成元数据服务以及共享并行引擎的一些附加层。
它具有用于分析, 监视, 清理, 转换和传递数据的工具。
它具有极高的并行处理能力, 可提供高速处理。

8)什么是IBM DataStage Flow Designer？

IBM DataStage Flow Designer允许你在DataStage中创建, 编辑, 装入和运行作业。 DFD是DataStage的基于Web的瘦客户端版本。它是DataStage的基于Web的UI, 而不是DataStage Designer, 后者是基于Window的胖客户端。

9)如何从命令行运行DataStage作业？

要运行DataStage作业, 请使用命令” dsjob”命令, 如下所示。

'dsjob -run -jobstatus projectname jobname

10)与” dsjob”相关的其他一些替代命令是什么？

许多替代的可选命令可以与dsjob命令一起使用以执行任何特定任务。这些命令以以下格式使用。

$dsjob -run alternative command

下面列出了dsjob命令的常用替代选项。

停止：用于停止正在运行的作业

Lprojects：用于列出项目

ljobs：用于列出项目中的作业

lparams：用于列出作业中的参数

paraminfo：返回参数信息

Linkinfo：返回链接信息

Logdetail：用于显示详细信息, 例如event_id, 时间和消息

Lognewest：用于显示最新的日志ID。

日志：用于添加短信进行日志记录。

Logsum：用于显示日志。

lstages：用于列出作业中存在的阶段。

Llinks：用于列出链接。

Projectinfo：返回项目信息(主机名和项目名称)

Jobinfo：返回作业信息(作业状态, 作业运行时间, 结束时间等)

Stageinfo：它返回阶段名称, 阶段类型, 输入行等)

报告：用于显示包含生成时间, 开始时间, 经过时间, 状态等的报告。

Jobid：用于提供Job ID信息。

11)什么是DataStage工具的质量阶段？

质量阶段有助于整合来自多个来源的不同类型的数据。

它也被称为完整性阶段。

12)在DataStage中杀死工作的过程是什么？

要取消工作, 你必须销毁特定的处理ID。

13)什么是DS设计器？

DataStage Designer用于设计作业。它还开发了工作区域并为其添加了各种链接。

14)DataStage的阶段是什么？

阶段是InfoSphere DataStage中的基本结构块。它提供了丰富, 独特的功能集, 可以执行高级或直接的数据集成任务。阶段保留并表示将对数据执行的处理步骤。

15)什么是DataStage中的运算符？

并行作业阶段由操作员完成。一个阶段可能属于一个操作员或多个操作员。运算符的数量取决于你设置的属性。在编译期间, InfoSphere DataStage会估算你的工作设计, 有时还会优化操作员。

16)解释DataStage与DataSources之间的连接性吗？

IBM InfoSphere Information Server支持连接器并启用作业, 以在InfoSphere Information Server和数据源之间进行数据传输。

IBM InfoSphere DataStage和QualityStage作业可以访问来自企业应用程序和数据源的数据, 例如：

关系数据库
大型机数据库
企业资源计划(ERP)或客户关系管理(CRM)数据库
在线分析处理(OLAP)或绩效管理数据库
业务和分析应用程序

17)描述流连接器？

流连接器允许在流和DataStage之间进行集成。 InfoSphere Stream连接器用于将数据从DataStage作业发送到Stream作业, 反之亦然。

InfoSphere Streams可以与将数据加载到数据仓库中并行地执行接近实时的分析处理。或者, InfoSphere Streams作业执行RTAP处理。经过RTAP处理后, 它将数据转发到InfoSphere DataStage以转换, 丰富和存储详细信息以用于存档。

18)在DataStage的Transformer阶段, HoursFromTime()函数有什么用？

HoursFromTime函数用于返回时间的小时部分。它的输入是时间, 输出是小时(int8)。

示例：如果myexample1.time包含时间22:30:00, 则以下两个函数等效, 并返回整数值22。

HoursFromTime(myexample1.time)
HoursFromTime("22:30:00")

19)Informatica和DataStage有什么区别？

DataStage和Informatica都是强大的ETL工具。两种工具以几乎相同的方式完成几乎相同的工作。在这两种工具中, 性能, 可维护性和学习曲线都是相似且可比的。以下是这两种工具之间的一些区别。

Parameter	DataStage	Informatica
DataStage的管道分区使用多个分区。	Informatica提供了作为动态分区的分区。
DataStage提供3个GUI IBM DataStage Designer作业序列设计器(工作流程设计)Director(用于监视)	Informatica提供4个GUI Informatica PowerDesigner存储库管理器工作流设计器工作流管理器。
在到达DataStage Server之前, 需要进行数据加密。	Informatica允许在PowerCenter Designer中进行”数据屏蔽转换”作为单独的转换。
通过使用函数(Oconv和IConv)和例程, DataStage成为强大的转换引擎。它提供了大约40个数据转换阶段/对象。几乎所有的转换都可以在DataStage中执行。	Informatica允许进行大约30次必要的转换以处理传入的数据。
通过使用容器(本地和共享), 我们可以在DataStage中实现作业的可重用性。要重新使用作业序列, 你将必须进行复制, 编译并运行。	它提供了通过Mapplet和Worklets进行重用的访问, 以重用映射和工作流。可重用性提高了性能。

20)我们如何将服务器作业转换为并行作业？

我们可以使用Link Collector和IPC Collector将服务器作业转换为并行作业。

21)信息服务器体系结构中有哪些不同层？

信息服务器体系结构的不同层如下。

统一的用户界面
共同服务
统一并行处理
统一元数据
通用连接

22)如果你想在不同的工作中使用同一段代码, 你将如何实现？

DataStage具有称为共享容器的功能, 该功能允许为不同的工作共享同一段代码。共享容器是为了可重用。共享容器由阶段和链接的可重用作业元素组成。与DataStage作业不同, 我们可以在其中调用共享容器。

23)DataStage有多少种排序方法可用？

DataStage中有两种类型的排序方法可用于并行作业。

链接排序
独立排序阶段

24)描述链接排序？

链接排序比其他排序支持较少的选项。在DataStage作业中, 维护很容易, 因为DataStage作业画布中只有几个阶段。

除非在”排序阶段”上需要特定选项, 否则将使用链接排序。通常, “排序”阶段用于为部分排序指定”排序键”模式。

输入/分区阶段选项上提供了”按链接排序”选项。如果使用自动分区方法, 则无法指定键控分区。

25)哪些命令用于导入和导出DataStage作业？

对于给定的操作, 我们使用以下命令。

对于导入：我们使用dsimport.exe命令

对于导出, 我们使用dsexport.exe命令

26)描述DataStage中的例程吗？征集各种类型的例程。

例行程序是DS管理器定义的一组任务。它通过变压器阶段运行。

有三种例程

并行例程
大型机例程
服务器例程

27)DataStage中有哪些不同类型的作业？

DataStage有两种类型的作业

服务器作业：这些作业按顺序运行
并行作业：这些作业以并行方式执行

28)陈述Operational DataStage和数据仓库之间的区别？

可以将Operational DataStage视为用户处理和实时分析的演示区域。因此, 可操作的DataStage是一个临时存储库。数据仓库用于满足持久数据存储需求, 并可以存储整个业务的完整数据。

29)异常活动在DataStage中的重要性是什么？

异常活动之所以重要, 是因为在作业执行期间, 异常活动会处理所有不熟悉的错误活动。

30)什么是”致命错误/ RDBMS代码3996″错误？

在Teradata 13到14升级期间测试DataStage 8.5中的作业时, 会发生此错误。

这是因为用户试图将较长的字符串分配给较短的字符串目标, 有时是因为RANGE_N函数中一个或多个范围边界的长度是长度大于测试值的字符串文字。

工作/人力资源面试问题

jQuery面试问题

Java OOP面试问题

JSP面试问题

休眠面试问题

SQL面试题

Android面试题

MySQL面试问题

多个分区

用户界面

数据加密

转换_

可重用性

面试技巧

JavaScript面试问题

Java基础面试问题

Servlet面试问题

春季面试问题

PL / SQL面试问题

Oracle面试问题

SQL Server面试问题

1)什么是IBM DataStage？

2)描述DataStage的体系结构？

3)解释DataStage并行扩展器(PX)或企业版(EE)？

4)描述DataStage的主要功能？

5)DataStage有哪些先决条件？

6)如果文件具有相同的元数据, 如何使用单个DataStage作业读取多个文件？

7)解释IBM InfoSphere Information Server并突出其主要功能？

8)什么是IBM DataStage Flow Designer？

9)如何从命令行运行DataStage作业？

10)与” dsjob”相关的其他一些替代命令是什么？

11)什么是DataStage工具的质量阶段？

12)在DataStage中杀死工作的过程是什么？

13)什么是DS设计器？

14)DataStage的阶段是什么？

15)什么是DataStage中的运算符？

16)解释DataStage与DataSources之间的连接性吗？

17)描述流连接器？

18)在DataStage的Transformer阶段, HoursFromTime()函数有什么用？

19)Informatica和DataStage有什么区别？

20)我们如何将服务器作业转换为并行作业？

21)信息服务器体系结构中有哪些不同层？

22)如果你想在不同的工作中使用同一段代码, 你将如何实现？

23)DataStage有多少种排序方法可用？

24)描述链接排序？

25)哪些命令用于导入和导出DataStage作业？

26)描述DataStage中的例程吗？征集各种类型的例程。

27)DataStage中有哪些不同类型的作业？

28)陈述Operational DataStage和数据仓库之间的区别？

29)异常活动在DataStage中的重要性是什么？

30)什么是”致命错误/ RDBMS代码3996″错误？

相关推荐

评论抢沙发

评论前必须登录！

猜你喜欢

热门标签

回顶部

1)什么是IBM DataStage？

2)描述DataStage的体系结构？

3)解释DataStage并行扩展器(PX)或企业版(EE)？

4)描述DataStage的主要功能？

5)DataStage有哪些先决条件？

6)如果文件具有相同的元数据, 如何使用单个DataStage作业读取多个文件？

7)解释IBM InfoSphere Information Server并突出其主要功能？

8)什么是IBM DataStage Flow Designer？

9)如何从命令行运行DataStage作业？

10)与” dsjob”相关的其他一些替代命令是什么？

11)什么是DataStage工具的质量阶段？

12)在DataStage中杀死工作的过程是什么？

13)什么是DS设计器？

14)DataStage的阶段是什么？

15)什么是DataStage中的运算符？

16)解释DataStage与DataSources之间的连接性吗？

17)描述流连接器？

18)在DataStage的Transformer阶段, HoursFromTime()函数有什么用？

19)Informatica和DataStage有什么区别？

20)我们如何将服务器作业转换为并行作业？

21)信息服务器体系结构中有哪些不同层？

22)如果你想在不同的工作中使用同一段代码, 你将如何实现？

23)DataStage有多少种排序方法可用？

24)描述链接排序？

25)哪些命令用于导入和导出DataStage作业？

26)描述DataStage中的例程吗？征集各种类型的例程。

27)DataStage中有哪些不同类型的作业？

28)陈述Operational DataStage和数据仓库之间的区别？

29)异常活动在DataStage中的重要性是什么？

30)什么是”致命错误/ RDBMS代码3996″错误？

相关推荐

评论 抢沙发

评论前必须登录！

猜你喜欢

热门标签

回顶部

评论抢沙发