1、[判断题] 上四分位数是指数据从大到小排列排在第75%位置的数字,即最大的四分位数(上四分位数)摘要:1、[判断题] 上四分位数是指数据从大到小排列排在第75%位置的数字,即最大的四分位数(上四分位数)A、TB、F 2、[判断题] 盖帽法是将某连续变量均值上下三倍标准差范围外的数值全部删除A、TB、F 3、[多选题] 常用的描述统计分析方法包括A、对比分析法B、平均分析法C、交叉...
A、T
B、F
2、[判断题] 盖帽法是将某连续变量均值上下三倍标准差范围外的数值全部删除A、T
B、F
3、[多选题] 常用的描述统计分析方法包括A、对比分析法
B、平均分析法
C、交叉分析法
D、以上都不对
4、[单选题] 训练孤立森林isolation forest实例的语句是A、from sklean.ensemble import IsolationForest
B、LocalOutlierFactor
C、clf= IsolationForest(max_samples=100,random_state=0)
D、clf.fit(X_train)
E、y_pred=clf.fit_predict(X)
F、y_pred_test = clf.predict(X_test)
5、[单选题] 利用pandas处理数据缺失值时,用于填充缺失值的函数为A、isnull
B、head
C、fillna
D、dropna
6、[单选题] 从软件库中导入孤立森林isolation forest算法类的语句是A、from sklean.ensemble import IsolationForest
B、LocalOutlierFactor
C、clf= IsolationForest(max_samples=100,random_state=0)
D、clf.fit(X_train)
E、y_pred=clf.fit_predict(X)
F、y_pred_test = clf.predict(X_test)
7、[多选题] 决策树结构包括A、根结点
B、分支
C、内部节点
D、叶结点
8、[判断题] 数据按照从小到大的顺序排列后,当数据个数为偶数时,中位数为中间两个数任选一个A、T
B、F
9、[单选题] 以下不属于大数据分析方法的是()A、统计分析
B、数学模型
C、机器学习
D、人工智能
10、[单选题] 项集 S ={尿布,啤酒,牛奶,可乐},则项集S称为A、1项集
B、2项集
C、3项集
D、4项集
11、[单选题] 数据等级排序T的是A、定距等级>定比等级>定类等级>定序等级
B、定比等级>定序等级>定距等级>定类等级
C、定比等级>定距等级>定序等级>定类等级
D、定比等级>定类等级>定序等级>定距等级
12、[单选题] pandas中用于合并表的方法为A、Pandas中的merge方法
B、Pandas中的head方法
C、Pandas的tail
D、以上都不对
13、[判断题] z分数标准化是对离散数据进行标准化的方法A、T
B、F
14、[判断题] 等深分箱方法是指每个分箱中样本取值范围一致A、T
B、F
15、[单选题] 数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的上四分位数为A、20
B、22
C、20.5
D、28
16、[判断题] 定性数据包括离散数据和连续数据A、T
B、F
17、[多选题] 大数据产生和发展条件()A、收集
B、处理
C、分析
D、应用
18、[判断题] 数据挖掘的过程都是有统一一致的步骤的A、T
B、F
19、[单选题] from fcmeans import FCMnfcm = FCM(n_clusters=4)n从上面代码可以判断模糊C均值聚类的聚类数为A、1
B、2
C、3
D、4
20、[判断题] 定序数据层次比定距数据高A、T
B、F
21、[单选题] 以下不是大数据的特征()A、大量
B、多样
C、高速
D、实时
22、[判断题] min-max标准化是对离散数据进行标准化的方法A、T
B、F
23、[多选题] 定量数据包括A、连续数据
B、离散数据
C、定距等级数据
D、定比等级数据
24、[多选题] 常用的分类方法包括A、朴素贝叶斯分类器
B、决策树
C、KNN
D、以上都不对
25、[判断题] Apriori算法中频繁2项集的每个项集长度均为2,但并非都是频繁的A、T
B、F

