1、[判断题] 描述性统计分析对调查对象局部变量的有关数据做统计性描述即可摘要:1、[判断题] 描述性统计分析对调查对象局部变量的有关数据做统计性描述即可A、TB、F 2、[单选题] 人工录入的数据可能都需要进行一些必要的变换,以下不是变换的是()A、错别字B、英文单词时大小写的不统一C、输入了额外的空格D、中英文混写 3、[单选题] 用训练好的随机森林对样...
A、T
B、F
2、[单选题] 人工录入的数据可能都需要进行一些必要的变换,以下不是变换的是()A、错别字
B、英文单词时大小写的不统一
C、输入了额外的空格
D、中英文混写
3、[单选题] 用训练好的随机森林对样本进行类别预测的语句是A、from sklearn.tree import DecisionTreetClassifier
B、clf=DecisionTreetClassifier()
C、clf.fit(Xtrain,Ytrain)
D、predictions=clf.predict(Xtest)
4、[判断题] 描述性数据分析属于比较高级复杂的数据分析手段A、T
B、F
5、[单选题] 决策树生成过程的停止条件A、当前结点包含的样本全属于同一类别,无需划分
B、当前属性集为空,或是所有样本在所有属性上取值相同,无法划分
C、当前结点包含的样本集合为空,不能划分
D、以上都不对
6、[判断题] 回归算法的输出为离散数据A、T
B、F
7、[判断题] 3-Sigma方法异常检测算法假设数据服从泊松分布A、T
B、F
8、[多选题] 定性数据包括A、有序数据
B、无序数据
C、定类等级数据
D、定性等级数据
9、[判断题] 因为 Bayes 理论能够帮助理解基于概率估计的复杂现况,所以它成为了数据挖掘和概率论的基础A、T
B、F
10、[多选题] 异常检测的应用范围包括A、网络入侵检测
B、系统健康性检测
C、信用卡交易欺诈检测
D、设备故障检测
11、[单选题] 逻辑回归中的“逻辑”是指A、规则
B、Sigmoid函数
C、学者名字
D、以上都不对
12、[判断题] 众数是数据离散程度分析常用指标之一A、T
B、F
13、[判断题] 等宽分箱方法是指每个分箱中样本数量一致A、T
B、F
14、[单选题] 不包含任何项的项集是指A、项
B、空集
C、超项集
D、子项集
15、[多选题] 属于基于统计的异常值检测方法包括A、MA滑动评价法
B、3-Sigma方法
C、LOF法
D、聚类法
16、[单选题] 数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22}的上四分位数为A、12
B、14
C、16
D、18
17、[多选题] 大数据收集的途径包括()A、互联网
B、移动互联网
C、物联网传感器
D、手动
18、[判断题] 回归可看成从一个数据集到一组预先定义的非交叠类别的映射过程,属于监督学习A、T
B、F
19、[单选题] 利用pandas处理数据缺失值时,用于发现重复值的函数为A、isnull
B、duplicated
C、fillna
D、dropna
20、[单选题] from sklearn.ensemble import IsolationForest nclf = IsolationForest(max_samples=100, random_state=0)n从上面语句可以看出孤立森林中孤立树模型的数目为A、100
B、200
C、300
D、400
21、[多选题] 描述性统计分析方法包括A、数据的频数分析
B、数据的集中趋势分析
C、数据离散程度分析
D、数据的分布分析
22、[判断题] 数据挖掘(Data Mining)则是知识发现(KDD)的核心部分,它指的是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程A、T
B、F
23、[单选题] from sklearn.neighbors import KNeighborsClassifiernknn = KNeighborsClassifier(n_neighbors=3) n上面代码中可以看出,KNN分类器的k值设置为A、1
B、2
C、3
D、4
24、[单选题] 从软件库中导入模糊C均值聚类算法类的语句是A、from fcmeans import FCM
B、fcm=FCM(n_clusters=3)
C、fcm.fit(X)
D、fcm_labels=fcm.u.argmax(axis=1)
25、[判断题] 分类算法的目的是找到数据的最优拟合A、T
B、F

