1、[单选题] 训练随机森林模型实例的语句是摘要:1、[单选题] 训练随机森林模型实例的语句是A、from sklearn.tree import DecisionTreetClassifierB、clf=DecisionTreetClassifier()C、clf.fit(Xtrain,Ytrain)D、predictions=clf.predi...
A、from sklearn.tree import DecisionTreetClassifier
B、clf=DecisionTreetClassifier()
C、clf.fit(Xtrain,Ytrain)
D、predictions=clf.predict(Xtest)
2、[单选题] 创建随机森林模型实例的语句是A、from sklearn.ensemble import RandomForestClassifier
B、rf.fit(Xtrain,Ytrain)
C、predictions=rf.predict(Xtest)
3、[判断题] 经过z分数标准化处理后,数据的绝对值可以大于1A、T
B、F
4、[判断题] 数据按照从小到大的顺序排列后,当数据个数为奇数时,中位数为中间三个数的平均值A、T
B、F
5、[多选题] 数据挖掘解决的问题包括A、数据预测
B、发现数据内在结构
C、发现关联性
D、模式甄别
6、[判断题] 经过z分数标准化处理后,数据均值为原数据平均值, 标准差为原数据标准差A、T
B、F
7、[单选题] 以下不是数据清洗的评价标准()A、数据的可信性
B、数据的可用性
C、数据清洗的代价
D、数据准确性
8、[判断题] 众数在一组数据中只有一个A、T
B、F
9、[单选题] 关联规则 X→Y 表示中X称为A、前件
B、后件
C、中间件
D、以上都不对
10、[判断题] 经过z分数标准化处理后,数据的绝对值都小于等于1A、T
B、F
11、[判断题] 数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据A、T
B、F
12、[单选题] 数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22}的下四分位数为A、2
B、4
C、6
D、8
13、[判断题] 定量数据包括无序数据和有序数据A、T
B、F
14、[多选题] 数据挖掘要解决的主要任务包括A、预测建模
B、关联分析
C、聚类分析
D、异常检测
15、[单选题] 决策树生成过程中,以信息增益率作为特征选择准则生成决策树的算法是A、ID3
B、C4.5
C、CART
D、以上都不对
16、[多选题] 属于基于聚类的异常值检测方法包括A、MA滑动评价法
B、3-Sigma方法
C、One-Class SVM
D、基于K-Means聚类的异常检测
17、[判断题] 分箱法是针对连续的数值型数据中噪声进行处理A、T
B、F
18、[单选题] 处理缺失值的方法有删除和()A、替换
B、复制
C、修改
D、屏蔽
19、[单选题] from sklearn.neighbors import LocalOutlierFactor nclf = LocalOutlierFactor(n_neighbors=20) n从上面语句可以看出LOF实例的参数k取值为A、10
B、20
C、30
D、40
20、[多选题] 聚类分析可以用于A、顾客分组
B、分类
C、回归
D、找出显著影响
21、[判断题] 下四分位数是指 数据从大到小排列排在第25%位置的数字,即最小的四分位数(下四分位数)A、T
B、F
22、[判断题] 决策树每个“内部结点”对应于整体属性“测试”(test)A、T
B、F
23、[单选题] 关联规则 X→Y 表示中Y称为A、前件
B、后件
C、中间件
D、以上都不对
24、[多选题] 数据挖掘(Data Mining)则是知识发现(KDD)的核心部分,它指的是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为A、规则
B、概念
C、规律
D、模式
25、[单选题] 创建模糊C均值聚类算法实例的语句是A、from fcmeans import FCM
B、fcm=FCM(n_clusters=3)
C、fcm.fit(X)
D、fcm_labels=fcm.u.argmax(axis=1)

