推荐！Python Pandas面试题和答案详解 - 面试题

以下列出了最常见的Python Pandas面试问题和答案。

1)定义熊猫/ Python熊猫？

Pandas被定义为一个开源库, 可在Python中提供高性能的数据处理。熊猫的名称源自”面板数据”一词, 这意味着来自多维数据的计量经济学。它可以用于Python中的数据分析, 并由Wes McKinney在2008年开发。它可以执行五个重要的步骤, 这些步骤不管数据的来源如何, 即对数据的处理和分析, 即加载, 操作, 准备, 建模, 和分析。

2)提到熊猫中不同类型的数据结构？

熊猫提供了两种数据结构, 而熊猫库均支持这两种数据结构：Series和DataFrames。这两个数据结构都建立在NumPy之上。

系列是熊猫中的一维数据结构, 而数据帧是熊猫中的二维数据结构。

3)在熊猫中定义系列？

系列被定义为能够存储各种数据类型的一维数组。系列的行标签称为索引。通过使用”系列”方法, 我们可以轻松地将列表, 元组和字典转换为系列。系列不能包含多个列。

4)如何计算系列的标准偏差？

Pandas std()被定义为用于计算给定数字集, DataFrame, 列和行的标准偏差的函数。

Series.std(轴=无, skipna =无, 级别=无, ddof = 1, numeric_only =无, **扭曲)

5)在熊猫中定义DataFrame？

DataFrame是广泛使用的熊猫数据结构, 可与带有标记轴(行和列)的二维数组一起使用.DataFrame被定义为存储数据的标准方式, 并具有两个不同的索引, 即行索引和列索引。它包含以下属性：

这些列可以是异构类型, 例如int和bool。
它可以看作是Series结构的字典, 其中行和列都被索引了。对于列, 它表示为”列”, 对于行, 则表示为”索引”。

6)大熊猫图书馆有哪些重要功能？

熊猫库的主要功能如下：

高效记忆
数据对齐
重塑
合并并加入
时间序列

7)解释在熊猫中重新索引吗？

重新索引用于通过可选的填充逻辑使DataFrame符合新索引。它将NA / NaN放置在先前索引中不存在值的位置。除非产生与当前索引相等的新索引, 否则它将返回一个新对象, 并且copy的值变为False。它用于更改DataFrame的行和列的索引。

8)用于创建散布图矩阵的熊猫库工具的名称是什么？

Scatter_matrix

9)定义可以在熊猫中创建DataFrame的不同方式吗？

我们可以使用以下方式创建一个DataFrame：

清单
ndarrays的字典

示例1：使用列表创建一个DataFrame：

import pandas as pd  
# a list of strings  
a = ['Python', 'Pandas']  
# Calling DataFrame constructor on list  
info = pd.DataFrame(a)  
print(info)

输出

0
0   Python
1   Pandas

示例2：根据ndarrays的字典创建一个DataFrame：

import pandas as pd  
info = {'ID' :[101, 102, 103], 'Department' :['B.Sc', 'B.Tech', 'M.Tech', ]}  
info = pd.DataFrame(info)  
print (info)

输出

ID      Department
0      101        B.Sc
1      102        B.Tech
2      103        M.Tech

10)解释熊猫中的分类数据吗？

分类数据被定义为与统计中的分类变量相对应的Pandas数据类型。类别变量通常用于获取有限且通常为固定数量的可能值。例如：性别, 国家所属, 血型, 社会阶层, 观察时间或通过李克特量表进行的评分。分类数据的所有值都在类别或np.nan中。

在以下情况下, 此数据类型很有用：

对于仅包含几个不同值的字符串变量很有用。如果要节省一些内存, 可以将字符串变量转换为分类变量。
对于与逻辑顺序不同的变量的词法顺序(“一个”, “两个”, “三个”)很有用, 方法是转换为分类并指定类别的顺序, 排序和最小/最大负责使用逻辑顺序而不是词汇顺序。
这对于向其他Python库发出信号很有用, 因为此列应被视为分类变量。

11)你将如何根据熊猫中的字典创建系列？

系列被定义为能够存储各种数据类型的一维数组。

我们可以从Dictionary创建一个Pandas系列：

根据字典创建系列：

我们也可以根据字典创建系列。如果将字典对象作为输入传递而未指定索引, 则按排序顺序获取字典键以构造索引。

如果传递了索引, 则将从字典中提取与索引中特定标签相对应的值。

import pandas as pd  
import numpy as np  
info = {'x' : 0., 'y' : 1., 'z' : 2.}  
a = pd.Series(info)  
print (a)

输出

x     0.0
y     1.0
z     2.0
dtype: float64

12)我们如何在熊猫中创建系列的副本？

我们可以使用以下语法创建系列的副本：

熊猫系列

Series.copy(deep = True)

上面的语句构成了一个深层副本, 其中包含数据和索引的副本。如果将deep的值设置为False, 它将既不会复制索引也不会复制数据。

注意：如果设置deep = True, 将复制数据, 并且不会递归复制实际的python对象, 仅复制对该对象的引用。

13)你将如何在Pandas中创建一个空的DataFrame？

DataFrame是熊猫的一种广泛使用的数据结构, 可与带有标记轴(行和列)的二维数组一起使用.DataFrame被定义为存储数据的标准方式, 并具有两个不同的索引, 即行索引和列索引。

创建一个空的DataFrame：

下面的代码显示了如何在Pandas中创建一个空的DataFrame：

# importing the pandas library  
import pandas as pd  
info = pd.DataFrame()  
print (info)

输出

Empty DataFrame
Columns: []
Index: []

14)如何将一列添加到pandas DataFrame？

我们可以将任何新列添加到现有DataFrame中。以下代码演示了如何将任何新列添加到现有DataFrame中：

# importing the pandas library  
import pandas as pd    
info = {'one' : pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e']), 'two' : pd.Series([1, 2, 3, 4, 5, 6], index=['a', 'b', 'c', 'd', 'e', 'f'])}  
 
info = pd.DataFrame(info)  
  
# Add a new column to an existing DataFrame object   
  
print ("Add new column by passing series")  
info['three']=pd.Series([20, 40, 60], index=['a', 'b', 'c'])  
print (info)  
print ("Add new column using existing DataFrame columns")  
info['four']=info['one']+info['three']  
print (info)

输出

Add new column by passing series
      one     two      three
a     1.0      1        20.0
b     2.0      2        40.0
c     3.0      3        60.0
d     4.0      4        NaN
e     5.0      5        NaN
f     NaN      6        NaN

Add new column using existing DataFrame columns
       one      two       three      four
a      1.0       1         20.0      21.0
b      2.0       2         40.0      42.0
c      3.0       3         60.0      63.0
d      4.0       4         NaN      NaN
e      5.0       5         NaN      NaN
f      NaN       6        NaN      NaN

15)如何在Pandas DataFrame中添加索引, 行或列？

向数据框添加索引

如果你创建DataFrame, 则熊猫可以将输入添加到index参数。它将确保你具有所需的索引。如果未指定输入, 则默认情况下, DataFrame包含一个数值索引, 该索引从0开始并在DataFrame的最后一行结束。

向数据框添加行

我们可以使用.loc, iloc和ix在DataFrame中插入行。

loc基本上适用于我们索引的标签。可以理解为好像我们插入loc [4]一样, 这意味着我们正在寻找索引为4的DataFrame值。
iloc基本上适用于索引中的位置。可以理解为好像我们插入了iloc [4]一样, 这意味着我们正在寻找索引’4’上存在的DataFrame的值。
ix是一个复杂的情况, 因为如果索引是基于整数的, 我们将标签传递给ix。 ix [4]意味着我们正在DataFrame中查找索引标记为4的那些值。但是, 如果索引不仅基于整数, 则ix将把位置视为iloc。

将列添加到DataFrame

如果要将列添加到DataFrame, 则可以使用loc或iloc轻松地执行与向DataFrame添加索引相同的过程。

16)如何从熊猫数据框中删除索引, 行或列？

从你的DataFrame中删除索引

如果要从DataFrame中删除索引, 则必须执行以下操作：

重置DataFrame的索引。

执行del df.index.name删除索引名称。

通过重置索引来删除重复的索引值, 然后从索引列中删除重复的值。

删除一行索引。

从你的DataFrame中删除列

你可以使用drop()方法从DataFrame中删除列。

传递给drop()方法的axis参数如果表示行则为0, 如果删除列则为1。

你可以就地传递参数并将其设置为True, 以在不重新分配DataFrame的情况下删除列。

你还可以使用drop_duplicates()方法从列中删除重复的值。

从数据框中删除一行

通过使用df.drop_duplicates(), 我们可以从DataFrame中删除重复的行。

你可以使用drop()方法来指定要从DataFrame中删除的行的索引。

17)如何重命名Pandas DataFrame的索引或列？

你可以使用.rename方法为DataFrame的列或索引值赋予不同的值。

18)如何遍历Pandas DataFrame？

你可以通过将for循环与DataFrame上的iterrows()调用结合使用来遍历DataFrame的行。

19)如何获得系列B中不存在的系列A的物品？

我们可以使用isin()方法从p1中删除p2中存在的项目。

import pandas as pd
p1 = pd.Series([2, 4, 6, 8, 10])
p2 = pd.Series([8, 10, 12, 14, 16])
p1[~p1.isin(p2)]

解

0    2
1    4
2    6
dtype: int64

20)如何获得A系列和B系列都不通用的物品？

通过下面的示例, 我们得到p1和p2都不相同的所有项目：

import pandas as pd
import numpy as np
p1 = pd.Series([2, 4, 6, 8, 10])
p2 = pd.Series([8, 10, 12, 14, 16])
p1[~p1.isin(p2)]
p_u = pd.Series(np.union1d(p1, p2))  # union
p_i = pd.Series(np.intersect1d(p1, p2))  # intersect
p_u[~p_u.isin(p_i)]

输出

0     2
1     4
2     6
5    12
6    14
7    16
dtype: int64

21)如何获得数值序列的最小值, 第25个百分位数, 中位数, 第75个和最大值？

我们可以计算p的最小值, 第25个百分点, 中位数, 第75个和最大值, 如下例所示：

import pandas as pd
import numpy as np
p = pd.Series(np.random.normal(14, 6, 22))
state = np.random.RandomState(120)
p = pd.Series(state.normal(14, 6, 22))
np.percentile(p, q=[0, 25, 50, 75, 100])

输出

array([ 4.61498692, 12.15572753, 14.67780756, 17.58054104, 33.24975515])

22)如何获得系列中唯一项目的频率计数？

我们可以计算每个唯一值p的频率计数, 如下例所示：

import pandas as pd
import numpy as np
p= pd.Series(np.take(list('pqrstu'), np.random.randint(6, size=17)))
p = pd.Series(np.take(list('pqrstu'), np.random.randint(6, size=17)))
p.value_counts()

输出

23)如何将numpy数组转换为给定形状的数据框？

我们可以将序列p整形为具有6行2列的数据帧, 如下例所示：

import pandas as pd
import numpy as np
p = pd.Series(np.random.randint(1, 7, 35))
# Input
p = pd.Series(np.random.randint(1, 7, 35))
info = pd.DataFrame(p.values.reshape(7, 5))
print(info)

输出

0  1  2  3  4
0  3  2  5  5  1
1  3  2  5  5  5
2  1  3  1  2  6
3  1  1  1  2  2
4  3  5  3  3  3
5  2  5  3  6  4
6  3  6  6  6  5

24)如何将系列转换为DataFrame？

Pandas Series.to_frame()函数用于将系列对象转换为DataFrame。

Series.to_frame(name=None)

名称：指对象。其默认值为无。如果有一个值, 则将使用传递的名称代替系列名称。

s = pd.Series(["a", "b", "c"], name="vals")  
s.to_frame()

输出

vals
0          a
1          b
2          c

25)什么是Pandas NumPy数组？

数值Python(Numpy)被定义为Python软件包, 用于执行多维和一维数组元素的各种数值计算和处理。使用Numpy数组的计算比普通的Python数组快。

26)如何将DataFrame转换为NumPy数组？

为了执行一些高级数学函数, 我们可以将Pandas DataFrame转换为numpy数组。它使用DataFrame.to_numpy()函数。

DataFrame.to_numpy()函数应用于返回numpy ndarray的DataFrame。

DataFrame.to_numpy(dtype=None, copy=False)

27)如何将DataFrame转换为Excel文件？

我们可以使用to_excel()函数将DataFrame导出到excel文件。

要将单个对象写入excel文件, 我们必须指定目标文件名。如果要写入多个工作表, 则需要创建一个具有目标文件名的ExcelWriter对象, 还需要在必须写入的文件中指定工作表。

28)我们如何排序DataFrame？

我们可以通过以下几种有效地在DataFrame中执行排序：

按标签
按实际值

按标签

可以使用sort_index()方法对DataFrame进行排序。可以通过传递轴参数和排序顺序来完成。默认情况下, 按升序对行标签进行排序。

按实际值

这是另一种可以在DataFrame中执行排序的方法。与索引排序类似, sort_values()是一种用于对值进行排序的方法。

它还提供了一项功能, 我们可以在其中指定要对值进行排序的DataFrame的列名。通过传递” by”参数来完成。

29)什么是熊猫时间序列？

时间序列数据被定义为信息的重要来源, 该信息提供了可用于各种业务的策略。从传统的金融行业到教育行业, 它包含许多有关时间的细节。

时间序列预测是一种处理时间序列数据的机器学习模型, 用于通过时间序列建模预测未来值。

30)什么是时间偏移？

偏移量指定一组符合DateOffset的日期。我们可以创建DateOffsets将日期向前移动到有效日期。

31)定义时间段？

时间段表示时间跨度, 例如, 天, 年, 季度或月等。它被定义为允许我们将频率转换为时间段的类。

32)如何将字符串转换为日期？

以下代码演示了如何将字符串转换为日期：

fromdatetime import datetime  
  
# Define dates as the strings     
dmy_str1 = 'Wednesday, July 14, 2018'  
dmy_str2 = '14/7/17'  
dmy_str3 = '14-07-2017'  
  
# Define dates as the datetime objects  
dmy_dt1 = datetime.strptime(date_str1, '%A, %B %d, %Y')  
dmy_dt2 = datetime.strptime(date_str2, '%m/%d/%y')  
dmy_dt3 = datetime.strptime(date_str3, '%m-%d-%Y')  
  
#Print the converted dates  
print(dmy_dt1)  
print(dmy_dt2)  
print(dmy_dt3)

输出

2017-07-14 00:00:00
2017-07-14 00:00:00
2018-07-14 00:00:00

33)什么是数据聚合？

数据聚合的主要任务是将某种聚合应用于一个或多个列。它使用以下内容：

sum：用于返回所请求轴的值之和。
min：用于返回所请求轴的最小值。
max：用于返回所请求轴的最大值。

34)什么是熊猫指数？

熊猫索引被定义为从DataFrame中选择特定行和列数据的重要工具。它的任务是组织数据并提供对数据的快速访问。也可以称为子集选择。

35)定义多个索引？

多重索引被定义为必不可少的索引, 因为它处理数据分析和处理, 尤其是处理高维数据时。它还使我们能够在Series和DataFrame等较低维度的数据结构中存储和处理任意数量的维度的数据。

36)定义重新索引？

重新索引用于更改DataFrame的行和列的索引。我们可以使用reindex()方法为单行或多行重新索引。如果DataFrame中不存在默认索引, 则为新索引中的默认值分配NaN。

DataFrame.reindex(labels = None, index = None, column = None, axis = None, method = None, copy = True, level = None, fill_value = nan, limit = None, 公差= None)

37)如何设置索引？

我们可以在制作数据框时设置索引列。但是有时, 一个数据帧是由两个或多个数据帧组成的, 然后可以使用此方法更改索引。

38)如何重置索引？

DataFrame的Reset index用于通过使用’reset_index’命令来重置索引。如果DataFrame具有MultiIndex, 则此方法可以删除一个或多个级别。

39)描述熊猫的数据操作？

在Pandas中, DataFrame有不同的有用数据操作, 如下所示：

行和列选择

我们可以通过传递行和列的名称来选择DataFrame的任何行和列。当你从DataFrame中选择它时, 它将变为一维并被视为Series。

筛选资料

我们可以通过在DataFrame中提供一些布尔表达式来过滤数据。

空值

当没有数据提供给项目时, 将出现Null值。各个列可能不包含任何值, 通常以NaN表示。

40)在熊猫中定义GroupBy？

在熊猫中, groupby()函数允许我们通过在实际数据集上利用它们来重新排列数据。它的主要任务是将数据分成不同的组。这些组基于一些标准进行分类。可以从任何轴划分对象。

DataFrame.groupby(by = None, axis = 0, level = None, as_index = True, sort = True, group_keys = True, squeeze = False, ** kwargs)

工作/人力资源面试问题

JavaScript面试问题

Java OOP面试问题

JSP面试问题

休眠面试问题

SQL面试题

Android面试题

MySQL面试问题

面试技巧

公司面试问题与程序

Java基础面试问题

Servlet面试问题

春季面试问题

PL / SQL面试问题

Oracle面试问题

jQuery面试问题