个性化阅读
专注于IT技术分析

最新DataStage常见面试题及其答案

下面列出了最常见的DataStage面试问题和答案。


1)什么是IBM DataStage?

DataStage是功能最强大的ETL工具之一。它具有用于数据集成的图形化可视化功能。它从源提取, 转换并将数据加载到目标。

DataStage是用于设计, 开发, 运行, 编译和管理应用程序的一组集成工具。它可以从一个或多个数据源中提取数据, 实现数据的多部分转换, 并使用结果数据加载一个或多个目标文件或数据库。


2)描述DataStage的体系结构?

DataStage遵循客户端-服务器模型。对于不同版本的DataStage, 它具有不同类型的客户端-服务器体系结构。

DataStage体系结构包含以下组件。

  • 专案
  • 工作
  • 阶段
  • 伺服器
  • 客户端组件
DataStage面试问题1

3)解释DataStage并行扩展器(PX)或企业版(EE)?

DataStage PX是IBM数据集成工具。它是数据仓库行业中使用最广泛的提取, 转换和加载(ETL)工具之一。该工具从各种来源收集信息, 以根据业务需求执行转换并将数据加载到相应的数据仓库中。

DataStage PX也称为DataStage企业版。


4)描述DataStage的主要功能?

DataStage的主要功能如下。

  • DataStage提供了分区和并行处理技术, 这些技术使DataStage作业可以更快地处理大量数据。
  • 它具有企业级网络。
  • 它是IBM InfoSphere Information Server的数据集成组件。
  • 这是一个基于GUI的工具。
  • 在DataStage中, 我们需要拖放DataStage对象, 也可以将其转换为DataStage代码。
  • DataStage用于执行各种ETL操作(提取, 转换, 加载)
  • 它同时提供与不同来源和多个目标的连接

5)DataStage有哪些先决条件?

对于DataStage, 必须进行以下设置。

  • InfoSphere
  • DataStage Server 9.1.2或更高版本
  • Microsoft Visual Studio .NET 2010 Express Edition C ++
  • Oracle客户端(完整客户端, 不是即时客户端)(如果连接到Oracle数据库)
  • DB2客户端(如果连接到DB2数据库)

6)如果文件具有相同的元数据, 如何使用单个DataStage作业读取多个文件?

  • 搜索文件的元数据是否不同或相同, 然后在顺序阶段指定文件名。
  • 在元数据的属性中按顺序附加该元数据。
  • 选择”读取方法”作为”特定文件”, 然后通过从”要添加的可用属性”中选择”文件”属性来添加所有文件。

它看起来像:

File= /home/myFile1.txt
File= /home/myFile2.txt
File= /home/myFile3.txt
Read Method= Specific file(s) fcec

7)解释IBM InfoSphere Information Server并突出其主要功能?

IBM InfoSphere Information Server是领先的数据集成平台, 其中包含使你能够理解, 过滤, 监视, 转换和交付数据的一组产品。可扩展的解决方案具有大规模并行处理功能, 可帮助你管理海量数据。它可帮助你将可靠的信息转发到你的关键业务目标, 例如大数据和分析, 数据仓库现代化以及主数据管理。

IBM InfoSphere Information Server的功能

  • IBM InfoSphere可以连接多个源系统, 并可以写入各种目标系统。它充当数据集成的单个平台。
  • 它基于集中层。套装的所有模块都可以共享套件的基准架构。
  • 它具有用于统一存储库, 集成元数据服务以及共享并行引擎的一些附加层。
  • 它具有用于分析, 监视, 清理, 转换和传递数据的工具。
  • 它具有极高的并行处理能力, 可提供高速处理。

8)什么是IBM DataStage Flow Designer?

IBM DataStage Flow Designer允许你在DataStage中创建, 编辑, 装入和运行作业。 DFD是DataStage的基于Web的瘦客户端版本。它是DataStage的基于Web的UI, 而不是DataStage Designer, 后者是基于Window的胖客户端。


9)如何从命令行运行DataStage作业?

要运行DataStage作业, 请使用命令” dsjob”命令, 如下所示。

'dsjob -run -jobstatus projectname jobname

10)与” dsjob”相关的其他一些替代命令是什么?

许多替代的可选命令可以与dsjob命令一起使用以执行任何特定任务。这些命令以以下格式使用。

$dsjob -run alternative command

下面列出了dsjob命令的常用替代选项。

停止:用于停止正在运行的作业

Lprojects:用于列出项目

ljobs:用于列出项目中的作业

lparams:用于列出作业中的参数

paraminfo:返回参数信息

Linkinfo:返回链接信息

Logdetail:用于显示详细信息, 例如event_id, 时间和消息

Lognewest:用于显示最新的日志ID。

日志:用于添加短信进行日志记录。

Logsum:用于显示日志。

lstages:用于列出作业中存在的阶段。

Llinks:用于列出链接。

Projectinfo:返回项目信息(主机名和项目名称)

Jobinfo:返回作业信息(作业状态, 作业运行时间, 结束时间等)

Stageinfo:它返回阶段名称, 阶段类型, 输入行等)

报告:用于显示包含生成时间, 开始时间, 经过时间, 状态等的报告。

Jobid:用于提供Job ID信息。


11)什么是DataStage工具的质量阶段?

质量阶段有助于整合来自多个来源的不同类型的数据。

它也被称为完整性阶段。


12)在DataStage中杀死工作的过程是什么?

要取消工作, 你必须销毁特定的处理ID。


13)什么是DS设计器?

DataStage Designer用于设计作业。它还开发了工作区域并为其添加了各种链接。


14)DataStage的阶段是什么?

阶段是InfoSphere DataStage中的基本结构块。它提供了丰富, 独特的功能集, 可以执行高级或直接的数据集成任务。阶段保留并表示将对数据执行的处理步骤。


15)什么是DataStage中的运算符?

并行作业阶段由操作员完成。一个阶段可能属于一个操作员或多个操作员。运算符的数量取决于你设置的属性。在编译期间, InfoSphere DataStage会估算你的工作设计, 有时还会优化操作员。


16)解释DataStage与DataSources之间的连接性吗?

IBM InfoSphere Information Server支持连接器并启用作业, 以在InfoSphere Information Server和数据源之间进行数据传输。

IBM InfoSphere DataStage和QualityStage作业可以访问来自企业应用程序和数据源的数据, 例如:

  • 关系数据库
  • 大型机数据库
  • 企业资源计划(ERP)或客户关系管理(CRM)数据库
  • 在线分析处理(OLAP)或绩效管理数据库
  • 业务和分析应用程序

17)描述流连接器?

流连接器允许在流和DataStage之间进行集成。 InfoSphere Stream连接器用于将数据从DataStage作业发送到Stream作业, 反之亦然。

InfoSphere Streams可以与将数据加载到数据仓库中并行地执行接近实时的分析处理。或者, InfoSphere Streams作业执行RTAP处理。经过RTAP处理后, 它将数据转发到InfoSphere DataStage以转换, 丰富和存储详细信息以用于存档。


18)在DataStage的Transformer阶段, HoursFromTime()函数有什么用?

HoursFromTime函数用于返回时间的小时部分。它的输入是时间, 输出是小时(int8)。

示例:如果myexample1.time包含时间22:30:00, 则以下两个函数等效, 并返回整数值22。

HoursFromTime(myexample1.time)
HoursFromTime("22:30:00")

19)Informatica和DataStage有什么区别?

DataStage和Informatica都是强大的ETL工具。两种工具以几乎相同的方式完成几乎相同的工作。在这两种工具中, 性能, 可维护性和学习曲线都是相似且可比的。以下是这两种工具之间的一些区别。

Parameter DataStage Informatica
DataStage的管道分区使用多个分区。 Informatica提供了作为动态分区的分区。
DataStage提供3个GUI IBM DataStage Designer作业序列设计器(工作流程设计)Director(用于监视) Informatica提供4个GUI Informatica PowerDesigner存储库管理器工作流设计器工作流管理器。
在到达DataStage Server之前, 需要进行数据加密。 Informatica允许在PowerCenter Designer中进行”数据屏蔽转换”作为单独的转换。
通过使用函数(Oconv和IConv)和例程, DataStage成为强大的转换引擎。它提供了大约40个数据转换阶段/对象。几乎所有的转换都可以在DataStage中执行。 Informatica允许进行大约30次必要的转换以处理传入的数据。
通过使用容器(本地和共享), 我们可以在DataStage中实现作业的可重用性。要重新使用作业序列, 你将必须进行复制, 编译并运行。 它提供了通过Mapplet和Worklets进行重用的访问, 以重用映射和工作流。可重用性提高了性能。

20)我们如何将服务器作业转换为并行作业?

我们可以使用Link Collector和IPC Collector将服务器作业转换为并行作业。


21)信息服务器体系结构中有哪些不同层?

信息服务器体系结构的不同层如下。

  • 统一的用户界面
  • 共同服务
  • 统一并行处理
  • 统一元数据
  • 通用连接

22)如果你想在不同的工作中使用同一段代码, 你将如何实现?

DataStage具有称为共享容器的功能, 该功能允许为不同的工作共享同一段代码。共享容器是为了可重用。共享容器由阶段和链接的可重用作业元素组成。与DataStage作业不同, 我们可以在其中调用共享容器。


23)DataStage有多少种排序方法可用?

DataStage中有两种类型的排序方法可用于并行作业。

  • 链接排序
  • 独立排序阶段

24)描述链接排序?

链接排序比其他排序支持较少的选项。在DataStage作业中, 维护很容易, 因为DataStage作业画布中只有几个阶段。

除非在”排序阶段”上需要特定选项, 否则将使用链接排序。通常, “排序”阶段用于为部分排序指定”排序键”模式。

输入/分区阶段选项上提供了”按链接排序”选项。如果使用自动分区方法, 则无法指定键控分区。


25)哪些命令用于导入和导出DataStage作业?

对于给定的操作, 我们使用以下命令。

对于导入:我们使用dsimport.exe命令

对于导出, 我们使用dsexport.exe命令


26)描述DataStage中的例程吗?征集各种类型的例程。

例行程序是DS管理器定义的一组任务。它通过变压器阶段运行。

有三种例程

  • 并行例程
  • 大型机例程
  • 服务器例程

27)DataStage中有哪些不同类型的作业?

DataStage有两种类型的作业

  • 服务器作业:这些作业按顺序运行
  • 并行作业:这些作业以并行方式执行

28)陈述Operational DataStage和数据仓库之间的区别?

可以将Operational DataStage视为用户处理和实时分析的演示区域。因此, 可操作的DataStage是一个临时存储库。数据仓库用于满足持久数据存储需求, 并可以存储整个业务的完整数据。


29)异常活动在DataStage中的重要性是什么?

异常活动之所以重要, 是因为在作业执行期间, 异常活动会处理所有不熟悉的错误活动。


30)什么是”致命错误/ RDBMS代码3996″错误?

在Teradata 13到14升级期间测试DataStage 8.5中的作业时, 会发生此错误。

这是因为用户试图将较长的字符串分配给较短的字符串目标, 有时是因为RANGE_N函数中一个或多个范围边界的长度是长度大于测试值的字符串文字。

工作/人力资源面试问题
jQuery面试问题
Java OOP面试问题
JSP面试问题
休眠面试问题
SQL面试题
Android面试题
MySQL面试问题

多个分区

用户界面

数据加密

转换_

可重用性

面试技巧

JavaScript面试问题

Java基础面试问题

Servlet面试问题

春季面试问题

PL / SQL面试问题

Oracle面试问题

SQL Server面试问题

赞(0) 打赏
未经允许不得转载:srcmini » 最新DataStage常见面试题及其答案
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

觉得文章有用就打赏一下文章作者

微信扫一扫打赏