Python 机器学习面试题阅读指南(必看)

大家好,我是帅地。 为了方便大家复习,这些面试题的展示采取了右边面试题目,左边答案的方式,方便大家按需查看。 由于手机端不支持这种展示方式,当然,为了手机方便阅读,下面会贴出所有面试题答案链接,不过大家最好在 PC 电脑端阅读哈,相关面试题还会持续更新,尽量补充完善起来,建议收藏帅地的网站哦。

面试题链接汇总

1. 什么是机器学习

2. 机器学习与数据挖掘的区别?

3. 什么是机器学习的过度拟合现象?过度拟合产生的原因?如何避免过拟合问题?

4. 什么是机器学习的欠拟合?如何避免欠拟合问题?

5. 解释有监督和无监督机器学习之间的区别?

6. 偏差和方差之间的权衡是什么?

7. 解释 KNN 和 k-means 聚类之间的区别?

8. 什么是贝叶斯定理?我们为什么用它?

9. 什么是朴素贝叶斯分类器?我们为什么要使用它们?

10. 判别模型和生成模型之间有什么区别?

11. 什么是参数模型?提供一个例子

12. 如何根据训练集大小选择分类器?

13. 解释ROC曲线和AUC?

14. 如何确保您不会过度拟合模型?

15. 说明如何处理数据集中的丢失或损坏的数据?

16. 解释如何开发数据管道?

17. 如何解决模型中的高方差?

18. 什么是超参数?它们与模型参数有何不同?

19. 你正在处理数据集。如何选择重要变量?

20. 为什么 XGBoost 的性能优于 SVM?

21. 以下混淆矩阵的召回率,特异性和精确度是多少?

22. 使用 scikit-learn 时,是否确实需要在特征值变化很大时调整特征值?

23. 你的数据集有 50 个变量,但是8个变量的缺失值高于 30%。如何解决这个问题?

24. 协方差和相关性有什么区别?

25. 你认为把分类变量当成连续型变量会得到一个更好的预测模型吗?

26. 在 K-means 或者 KNN,我们是用欧氏距离来计算最近的邻居之间的距离,为什么不用曼哈顿距离?

27. 给你一个数据集,这个数据集有缺失值,且这些缺失值分布在高中值有1一个标准偏差的的范围内,百分之多少的数据不会受到影响?为什么?

28. 线程分类器与非线性分类器的区别以及优劣?

29. 文本中的余弦距离是什么,有哪些作用?

30. 什么是数据埋点?

31. 请简要说说一个完整的机器学习项目流程

32. 我们知道,独热编码(OneHotEncoder)会增加数据集的维度。但是标签编码(LabelEncoder)不会。为什么?

发表评论

后才能评论