机器学习校招知识点整理
hello hello,想必大家都是从小红书因为这一篇来到我的主页的,我就置顶了,这是我2021年校招的时候和同学一起总结的知识点,也算是帮助了很多线上线下的同学,非常荣幸!
REVIEW DOCUMENT - Google Docs.pdf
共127页 每一块都有知识点及针对性的笔面试模拟题,文档较大建议直接下载
目录
1. 数据准备
- 缺失值处理
- 缺失机制:MCAR、MAR、NNAR
- 处理方法:
- 删除:简单删除法、权重法
- 填补:均值填充、特殊值填充、同类均值插补、K近邻、回归、多重插补等
- 各种插补方法的比较(优点、缺点、适用环境)
- 异常值处理
- 判断方法:简单统计分析、3σ原则、箱型图分析
- 处理方法:删除、视为缺失值、平均值修正、不处理
- 样本不平衡问题
- 影响:过拟合、评估指标不理想
- 解决方法:
- 数据层面:欠采样、过采样、SMOTE算法
- 算法层面:转化为异常值识别、调整分类算法、加权惩罚等
2. 机器学习模型
- 线性回归
- 基本概念与损失函数
- 正则化:L1(Lasso)、L2(Ridge)
- 优缺点
- 逻辑回归
- Sigmoid函数与概率建模
- 损失函数:极大似然估计、交叉熵
- 多分类问题:Softmax函数
- 正则化与过拟合
- 优缺点
- 决策树
- ID3:信息增益
- C4.5:信息增益比
- CART:基尼系数、回归树
- 剪枝策略
- 集成学习
- Bagging:随机森林
- Boosting:AdaBoost、GBDT、XGBoost、LightGBM
- 优缺点对比
- 聚类分析
- K-means:算法流程、K值选择、优缺点
- EM算法与GMM
- 层次聚类:分裂法、凝聚法
- 朴素贝叶斯
- 基本思想与公式
- 拉普拉斯平滑
- 优缺点
3. 模型评估
- 交叉验证
- LOOCV(留一法)
- K折交叉验证
- 混淆矩阵
- TP、FP、FN、TN
- 准确率、精确率、召回率、F1值
- ROC曲线与AUC
- TPR与FPR
- 多分类问题的ROC
4. 统计基础
- 概率分布
- 正态分布、卡方分布、t分布、F分布
- 二项分布、泊松分布、指数分布、几何分布、超几何分布
- 假设检验
- 单总体检验、双总体检验
- 类型I错误与类型II错误
- 置信区间与假设检验
- 类型 I 错误与类型 II 错误
- 效应量与样本量的关系
- 概率论
- 朴素贝叶斯法
- 公式与应用示例
- 拉普拉斯平滑
- 优缺点
- 常见概率问题
- 汽车颜色识别问题
- 小偷失窃概率问题
- 朴素贝叶斯法
5. 业务分析
- A/B 测试
- CRISP-DM 模型
- Business Understanding
- Data Understanding
- Data Preparation
- Modelling
- Business Validation
- Deployment
- 数据化管理
- 管理层次
- 业务逻辑
- AARRR 模型
- Acquisition(获取用户)
- Activation(提高活跃度)
- Retention(提高留存率)
- Revenue(获取收入)
- Refer(自传播)
6. 电商分析
- 分析方向
- 流量分析(PV、UV、跳出率)
- 用户分析(行为漏斗、复购率、留存率)
- 商品分析(类目、转化率)
- RFM 用户价值模型
- 案例分析
- GMV 下滑分析
- 用户流失分析
7. 大数据技术
- Linux 基础操作
- Hive
- 基本概念与数据类型
- 内部表与外部表
- 数据导入导出
- Hive 优化
- Spark
- 特点与优势(与 Hadoop 对比)
- 运行架构
8. 商业案例分析
- 费米估算
- 加油站数量估算
- 星巴克营业额估算
- 产品改版效果评估
- 恶意刷单检测
- 社交电商分析
- 拼多多、小红书等平台特点
- 微信生态对电商的影响
- 指标体系搭建
- 关键指标选取
- AARRR 模型应用
- 功能模块指标监控
推荐算法发展路径
还有一部分小伙伴是荐算法的发展总结图的帖子过来的,大家自取~