22秋《大数据技术与应用》作业_1

未知 试卷 2022-11-07 714

摘要:1、[判断题] KNN分类器随着参数k的变化,样本的分类结果不会发生变化A、TB、F 2、[多选题] 以下哪些是数据可视化图表A、柱状图B、折线图C、饼图D、散点图 3、[单选题] 以下不是数据可视化工具库的是()A、pandasB、matplotlibC、matlabD、sea...

1、[判断题] KNN分类器随着参数k的变化,样本的分类结果不会发生变化

A、T

B、F

 2、[多选题] 以下哪些是数据可视化图表

A、柱状图

B、折线图

C、饼图

D、散点图

 3、[单选题] 以下不是数据可视化工具库的是()

A、pandas

B、matplotlib

C、matlab

D、seaborn

 4、[单选题] :from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表示

A、训练数据集

B、测试数据集

C、训练数据的类别标签数组

D、测试数据的类别标签数组

 5、[多选题] 数据离散程度分析的常用指标包括

A、极差

B、标准差

C、四分位差

D、离散系数

 6、[判断题] 数据挖掘主要探索的是已知的规律

A、T

B、F

 7、[单选题] 在pandas中脏数据的典型表示有()

A、np.nan

B、*

C、?

D、no

 8、[单选题] 数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为

A、2

B、4

C、6

D、8

 9、[判断题] 数据类型等级最高的是定类数据

A、T

B、F

 10、[单选题] 关联规则最基础的元素是

A、项

B、项集

C、超项集

D、子项集

 11、[单选题] 利用Sklearn构建KNN分类器,用于KNN分类器训练的程序为

A、knn.fit(X_train,y_train)

B、y_pred=knn.predict(X_test)

C、knn=KNeighborsClassifier(n_neighbors=k)

D、以上都不对

 12、[判断题] 平均值能够有效抑制数据极值的影响,不容易出现偏差

A、T

B、F

 13、[单选题] 局部异常因子(LOF)算法属于

A、基于统计的异常值检测方法

B、基于密度的异常检测方法

C、基于聚类的异常值检测

D、基于决策树的异常检测

 14、[多选题] 可用于实现数据one-hot编码的方法包括

A、Pandas的head

B、Pandas的get_dummies

C、sklearn.preprocessing.OneHotEncoder方法

D、Pandas的tail

 15、[判断题] 两个或多个事物之间无论存在多强的关联关系,其中一个事物也无法通过其他事务预测到

A、T

B、F

 16、[判断题] K均值聚类方法输出结果为各个样本的类簇归属,可能存在一个样本同时属于多个类簇的情况

A、T

B、F

 17、[单选题] 创建孤立森林isolation forest实例的语句是

A、from sklean.ensemble import IsolationForest

B、LocalOutlierFactor

C、clf= IsolationForest(max_samples=100,random_state=0)

D、clf.fit(X_train)

E、y_pred=clf.fit_predict(X)

F、y_pred_test = clf.predict(X_test)

 18、[判断题] 逻辑回归logistic regression方法顾名思义属于回归方法

A、T

B、F

 19、[判断题] 离散系数是数据集中趋势分析常用指标之一

A、T

B、F

 20、[单选题] 利用pandas处理数据缺失值时,用于丢弃缺失值的函数为

A、isnull

B、head

C、tail

D、dropna

 21、[单选题] 用训练好的孤立森林isolation forest实例对数据进行异常值检测的语句是

A、from sklean.ensemble import IsolationForest

B、LocalOutlierFactor

C、clf= IsolationForest(max_samples=100,random_state=0)

D、clf.fit(X_train)

E、y_pred=clf.fit_predict(X)

F、y_pred_test = clf.predict(X_test)

 22、[判断题] 高层次数据无法向低层次转化,会出现F

A、T

B、F

 23、[多选题] 分箱法包括

A、等深分箱

B、众数分箱

C、等宽分箱

D、以上都不对

 24、[多选题] 决策树的关键点包括

A、采用Bagging框架

B、采用随机特征选择生成每个决策树的训练数据特征子集

C、采用采样数据集的特征子集训练对应决策树

D、以上都不对

 25、[判断题] 低层次数据可以向高层次转化,代价是损失部分数据信息

A、T

B、F

 
相关推荐

评论列表
友情链接
关闭

用微信“扫一扫”