NoteAI
Main Navigation
invisible
书架
标签
免责声明
关于
机器学习笔记 -- 机器学习资源(进行中)
Posted on July 26, 2025 (珠海)
机器学习
机器学习资源
一、特征工程
(一)特征预处理
标准化、归一化、异常特征清洗、不平衡数据
不平衡数据的处理方法
(二)特征表达
缺失值、特殊特征 (eg. 时间 )、离散特征、连续特征
连续特征离散化的好处
什么样的模型对缺失值更敏感?
(三)特征选择
过滤法、包装法、嵌入法
Kaggle 中的代码实战
二、算法基础
(一)评价指标
PR 曲线和 F1 & ROC 曲线和 AUC
AUC & GAUC
(二)正则项
正则化与数据先验分布的关系
L1 在 0 点处不可导怎么办?
可采用坐标轴下降、最小角回归法
L1 为什么比 L2 的解更稀疏
(三)损失函数
常见损失函数
常见损失函数 2
(四)模型训练
经验误差与泛化误差、偏差与方差、欠拟合与过拟合、交叉验证
参数初始化为什么不能全零
深度学习参数初始化 Lecunn、Xavier、He 初始化
dropout
Batch Normalization
dropout 和 BN 在训练 & 预测时有什么不同
Layer Normalization
Transformer 为什么用 LN 不用 BN(LN 和 BN 两者分别关注什么)
ResNet
(五)优化算法
梯度下降法、牛顿法和拟牛顿法
深度学习优化算法 SGD、Momentum、Adagrad 等
最大似然估计 和 最大后验估计
最小二乘法 和 最大似然估计的对比联系
最大似然估计 和 EM
浅谈最优化问题的 KKT 条件
(六)其他知识点
先验概率 & 后验概率
MLE 最大似然估计 & MAP 最大后验估计
判别模型 vs 生成模型
参数模型 vs 非参数模型
参数估计 最大似然估计与贝叶斯估计
交叉熵
交叉熵 等价 KL 散度 等价 MLE 最大似然估计
向量间距离度量方式
余弦距离和欧氏距离的转换
三、机器学习算法
线性回归、逻辑回归、SVM
LR 优缺点
SVM、logistic regression、linear regression 对比
KNN vs K-Means
LR 和最大熵模型的关系, LR 的并行化
为什么 LR 要用对数似然,而不是平方损失?
似然函数
树模型
逻辑回归与决策树在分类上的区别
回归树、提升树、GBDT
GBDT、XGBOOST、LightGBM 讲解(强烈推荐看一下)
XGBOOST 具体例子一步步推导,包括缺失值怎么处理(很细值得看)
(-> 这个链接包含前面文章内容,更全的总结
随机森林 GBDT XGBOOST LightGBM 比较
树分裂:信息增益、信息增益率、基尼系数
其他
各种机器学习算法的应用场景
四、NLP 相关
word2vec
文章 1
文章 2
文章 3
LSTM
LSTM 为什么用 tanh
fasttext
Transformer、self-attention
Transformer 图解
encode-decode attention 和 transformer self-attention 对比
Transformer 中的 positional encoding
Bert
零基础入门,prerequisites 很全
XLNet
nlp 中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert
NLP/AI 面试全记录
五、推荐系统 & 计算广告 相关
LR & FTRL
FM 算法
: 讲的蛮细的
FM 算法结合推荐系统的讲解
DSSM 模型
DSSM 模型的损失函数(顺带讲了 point-wise, list-wise, pair-wise 损失函数)
在线最优化求解 Online Optimization
六、推荐书籍 / 笔记 / 代码实现
统计学习方法
(注意这个 pdf 是第一版,其中的勘误可在
这里 /
查看) (
代码实现及 ppt
)
西瓜书的公式推导细节解析
deeplearning.ai 深度学习课程的中文笔记
机器学习训练秘籍 (Andrew NG)
推荐系统实战
七、推荐专栏
刘建平 Pinard
:很多高质量文章讲解基础的知识和算法
华校专
:基础算法讲解,多而全(其实还没怎么看
王喆的机器学习专栏
:结合论文 + 工业界的推荐系统应用,讲的很清晰
荐道馆
:讲推荐相关,文章写的比较透
美团技术团队
:美团的技术博客,新技术与实际应用相结合
深度学习前沿笔记
:NLP 相关较多,预训练技术讲解的多
计算广告小觑
计算广告论文、学习资料、业界分享
八、面试问题汇总
牛客网面经总结
九、其他面试常考
海量数据判重
常考智力题 / 逻辑题
常考概率题
十、C++ 相关
STL 详解及常见面试题
工作之后工程实践相关
基于 PQ 量化的近似近邻搜索 (ANN)
ANN 召回算法之 IVFPQ( 跟上面的差不多,这篇图第一张画的 PQ 图更清晰 )
参考资料快照
https://github.com/wangyuGithub01/Machine_Learning_Resources
https://www.cnblogs.com/pinard/p/9093890.html
https://blog.csdn.net/zhang15953709913/article/details/84635540
https://www.cnblogs.com/pinard/p/9061549.html
http://note.youdao.com/noteshare?id=024fa3dbabf4b5a07eb72c8021e60f62
https://blog.csdn.net/zhang15953709913/article/details/88717220
https://www.cnblogs.com/pinard/p/9032759.html
https://www.kaggle.com/willkoehrsen/introduction-to-feature-selection
http://note.youdao.com/noteshare?id=13d31b4a7dc317b3d4abd18bf42a74df
https://zhuanlan.zhihu.com/p/84350940
http://note.youdao.com/noteshare?id=2851b97199bcdc174001d72b1bec0372
http://www.cnblogs.com/pinard/p/6018889.html
https://zhuanlan.zhihu.com/p/74874291
https://zhuanlan.zhihu.com/p/58883095
https://zhuanlan.zhihu.com/p/77686118
http://note.youdao.com/noteshare?id=b629383adb3b09eb31b754c337f690b5
https://cloud.tencent.com/developer/article/1535198
https://cloud.tencent.com/developer/article/1542736
https://cloud.tencent.com/developer/article/1551518
https://zhuanlan.zhihu.com/p/61725100
https://zhuanlan.zhihu.com/p/113233908
https://www.zhihu.com/question/395811291/answer/2141681320
https://cloud.tencent.com/developer/article/1591484
https://zhuanlan.zhihu.com/p/37524275
https://zhuanlan.zhihu.com/p/22252270
https://zhuanlan.zhihu.com/p/61905474
https://blog.csdn.net/zhang15953709913/article/details/88716699
https://blog.csdn.net/zouxy09/article/details/8537620
https://zhuanlan.zhihu.com/p/26514613
https://zhuanlan.zhihu.com/p/38567891
https://zhuanlan.zhihu.com/p/32480810
https://www.zhihu.com/question/20446337
https://zhuanlan.zhihu.com/p/26012348
https://blog.csdn.net/bitcarmanlee/article/details/52201858
https://colah.github.io/posts/2015-09-Visual-Information/
https://zhuanlan.zhihu.com/p/346518942
http://note.youdao.com/noteshare?id=ffba716f9f94f1cf3fac48fca300c198
https://www.zhihu.com/question/19640394/answer/207795500
https://github.com/wangyuGithub01/Machine_Learning_Notes/blob/master/pdf/lr_pros_and_cons.md
https://github.com/wangyuGithub01/Machine_Learning_Notes/blob/master/pdf/compare_svm_lr.md
https://zhuanlan.zhihu.com/p/31580379
https://blog.csdn.net/dp_BUPT/article/details/50568392
https://blog.csdn.net/zhang15953709913/article/details/88717326
https://zh.wikipedia.org/wiki/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0
https://blog.csdn.net/zhang15953709913/article/details/84841988
https://www.jianshu.com/p/005a4e6ac775
https://github.com/wangyuGithub01/Machine_Learning_Notes/blob/master/pdf/gbdt_wepon.pdf
https://www.jianshu.com/p/ac1c12f3fba1
https://zhuanlan.zhihu.com/p/92837676
http://note.youdao.com/noteshare?id=65790e27fd5737155c31af2c05df8985
https://zhuanlan.zhihu.com/p/245617910
https://www.zhihu.com/question/26726794
https://www.cnblogs.com/pinard/p/7160330.html
https://www.cnblogs.com/pinard/p/7243513.html
https://www.cnblogs.com/pinard/p/7249903.html
https://zhuanlan.zhihu.com/p/34203833
https://www.zhihu.com/question/46197687/answer/895834510
https://zhuanlan.zhihu.com/p/32965521
https://zhuanlan.zhihu.com/p/54356280
https://zhuanlan.zhihu.com/p/338817680
https://zhuanlan.zhihu.com/p/53682800
https://www.zhihu.com/question/347678607/answer/864217252
https://fancyerii.github.io/2019/03/05/bert-prerequisites/
https://zhuanlan.zhihu.com/p/70257427
https://zhuanlan.zhihu.com/p/56382372
https://zhuanlan.zhihu.com/p/57153934
https://zhuanlan.zhihu.com/p/55135954
https://zhuanlan.zhihu.com/p/37963267
https://zhuanlan.zhihu.com/p/58160982
https://zhuanlan.zhihu.com/p/335112207
https://zhuanlan.zhihu.com/p/322065156
https://github.com/wzhe06/Ad-papers/blob/master/Optimization%20Method/%E5%9C%A8%E7%BA%BF%E6%9C%80%E4%BC%98%E5%8C%96%E6%B1%82%E8%A7%A3%28Online%20Optimization%29-%E5%86%AF%E6%89%AC.pdf
https://github.com/wangyuGithub01/E-book/blob/master/
https://github.com/wangyuGithub01/E-book/blob/master/%E7%BB%9F%E8%AE%A1%E5%AD%A6%E4%B9%A0%E6%96%B9%E6%B3%95%EF%BC%88%E5%8B%98%E8%AF%AF%EF%BC%89.pdf
https://github.com/fengdu78/lihang-code
https://datawhalechina.github.io/pumpkin-book/#/
https://github.com/fengdu78/deeplearning_ai_books
https://github.com/AcceptedDoge/machine-learning-yearning-cn
https://github.com/wangyuGithub01/E-book
https://www.cnblogs.com/pinard/
http://huaxiaozhuan.com/
https://zhuanlan.zhihu.com/wangzhenotes
https://www.zhihu.com/column/learningdeep
https://tech.meituan.com/tags/%E7%AE%97%E6%B3%95.html
https://zhuanlan.zhihu.com/c_188941548
https://blog.csdn.net/breada/article/details/50572914
https://github.com/wzhe06/Ad-papers
https://www.nowcoder.com/discuss/165930
https://www.nowcoder.com/discuss/153978
https://github.com/wangyuGithub01/Machine_Learning_Resources/blob/master/pdf/IQ.md
https://github.com/wangyuGithub01/Machine_Learning_Resources/blob/master/pdf/statistic.md
https://blog.csdn.net/daaikuaichuan/article/details/80717222
http://xtf615.com/2020/08/01/EBR/
https://zhuanlan.zhihu.com/p/378725270
机器学习的数学基础 系列文章
机器学习笔记 -- 机器学习资源(进行中) | 26 Jul 2025
MATHEMATICS -- 生成模型数学 —— 概率论基础 | 27 Sep 2024
MATHEMATICS --《线性代数》奇异值分解(SVD) | 04 Apr 2024
MATHEMATICS --《概率论与数理统计》宋浩老师(已完成) | 22 Mar 2024
MATHEMATICS -- 难懂的数学(已完成) | 10 Sep 2022
MATHEMATICS --《线性代数》宋浩老师(已完成) | 23 Aug 2022
MATHEMATICS --《高等数学》同济版 宋浩老师(已完成) | 13 Aug 2022
机器学习笔记 -- 线性代数 & 微积分 & 概率论与统计学(进行中) | 01 Sep 2020
机器学习笔记 -- 环境搭建 & 数学基础 | 29 Aug 2020
参考资料快照
本文短链接:
If you have any questions or feedback, please reach out
.