机器学习/数据挖掘校招知识点整理

机器学习校招知识点整理

hello hello,想必大家都是从小红书因为这一篇来到我的主页的,我就置顶了,这是我2021年校招的时候和同学一起总结的知识点,也算是帮助了很多线上线下的同学,非常荣幸!

https://github.com/Biofrostyy/Biofrostyy.github.io/blob/master/REVIEW%20DOCUMENT%20-%20Google%20Docs.pdf

REVIEW DOCUMENT - Google Docs.pdf

共127页 每一块都有知识点及针对性的笔面试模拟题,文档较大建议直接下载 image

目录

1. 数据准备

  • 缺失值处理
    • 缺失机制:MCAR、MAR、NNAR
    • 处理方法:
      • 删除:简单删除法、权重法
      • 填补:均值填充、特殊值填充、同类均值插补、K近邻、回归、多重插补等
    • 各种插补方法的比较(优点、缺点、适用环境)
  • 异常值处理
    • 判断方法:简单统计分析、3σ原则、箱型图分析
    • 处理方法:删除、视为缺失值、平均值修正、不处理
  • 样本不平衡问题
    • 影响:过拟合、评估指标不理想
    • 解决方法:
      • 数据层面:欠采样、过采样、SMOTE算法
      • 算法层面:转化为异常值识别、调整分类算法、加权惩罚等

2. 机器学习模型

  • 线性回归
    • 基本概念与损失函数
    • 正则化:L1(Lasso)、L2(Ridge)
    • 优缺点
  • 逻辑回归
    • Sigmoid函数与概率建模
    • 损失函数:极大似然估计、交叉熵
    • 多分类问题:Softmax函数
    • 正则化与过拟合
    • 优缺点
  • 决策树
    • ID3:信息增益
    • C4.5:信息增益比
    • CART:基尼系数、回归树
    • 剪枝策略
  • 集成学习
    • Bagging:随机森林
    • Boosting:AdaBoost、GBDT、XGBoost、LightGBM
    • 优缺点对比
  • 聚类分析
    • K-means:算法流程、K值选择、优缺点
    • EM算法与GMM
    • 层次聚类:分裂法、凝聚法
  • 朴素贝叶斯
    • 基本思想与公式
    • 拉普拉斯平滑
    • 优缺点

3. 模型评估

  • 交叉验证
    • LOOCV(留一法)
    • K折交叉验证
  • 混淆矩阵
    • TP、FP、FN、TN
    • 准确率、精确率、召回率、F1值
  • ROC曲线与AUC
    • TPR与FPR
    • 多分类问题的ROC

4. 统计基础

  • 概率分布
    • 正态分布、卡方分布、t分布、F分布
    • 二项分布、泊松分布、指数分布、几何分布、超几何分布
  • 假设检验
    • 单总体检验、双总体检验
    • 类型I错误与类型II错误
  • 置信区间与假设检验
    • 类型 I 错误与类型 II 错误
    • 效应量与样本量的关系
  • 概率论
    • 朴素贝叶斯法
      • 公式与应用示例
      • 拉普拉斯平滑
      • 优缺点
    • 常见概率问题
      • 汽车颜色识别问题
      • 小偷失窃概率问题

5. 业务分析

  • A/B 测试
  • CRISP-DM 模型
    • Business Understanding
    • Data Understanding
    • Data Preparation
    • Modelling
    • Business Validation
    • Deployment
  • 数据化管理
    • 管理层次
    • 业务逻辑
  • AARRR 模型
    • Acquisition(获取用户)
    • Activation(提高活跃度)
    • Retention(提高留存率)
    • Revenue(获取收入)
    • Refer(自传播)

6. 电商分析

  • 分析方向
    • 流量分析(PV、UV、跳出率)
    • 用户分析(行为漏斗、复购率、留存率)
    • 商品分析(类目、转化率)
  • RFM 用户价值模型
  • 案例分析
    • GMV 下滑分析
    • 用户流失分析

7. 大数据技术

  • Linux 基础操作
  • Hive
    • 基本概念与数据类型
    • 内部表与外部表
    • 数据导入导出
    • Hive 优化
  • Spark
    • 特点与优势(与 Hadoop 对比)
    • 运行架构

8. 商业案例分析

  • 费米估算
    • 加油站数量估算
    • 星巴克营业额估算
  • 产品改版效果评估
  • 恶意刷单检测
  • 社交电商分析
    • 拼多多、小红书等平台特点
    • 微信生态对电商的影响
  • 指标体系搭建
    • 关键指标选取
    • AARRR 模型应用
    • 功能模块指标监控

推荐算法发展路径

还有一部分小伙伴是荐算法的发展总结图的帖子过来的,大家自取~ image