
PR(KD DD KDDM (动态领域模型))
Pattern Recognition and Machine Learning(PRML)
模式识别又常称作模式分类,从处理问题的性质和解决问题的方法等角度,模式识别分为有监督的分类(Supervised Classification)和无监督的分类(Unsupervised Classification)两种。
传统机器学习的研究方向主要包括决策树、随机森林、人工神经网络、贝叶斯学习等方面的研究。机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识。
机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。
深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等。
智能系统(Intelligence system)是指能产生人类智能行为的计算机系统。
模式识别与机器学习关系:模式识别是根据已有的特征,通过类比分析的方法从而达到判别目的,机器学习侧重于在特征不明确的情况下,用某种具有普适性的算法确定事物之间的关系或者联系

分类 回归 聚类
回归(regression)
就是在处理连续数据,如时间序列数据时使用的技术。
均方误差:一种评价标准
分类(classification)
鉴别垃圾邮件就可以归类为分类问题。只有两个类别的问题称为二分类,有三个及以上的问题称为多分类,比如数字的识别就属于多分类问题。
分类精度:分类的正确率
聚类(clustering)
聚类与分类相似,与分类的区别在于数据带不带标签。也有人把标签称为正确答案数据。
有监督学习 无监督学习 半监督学习 强化学习 多任务学习
有监督学习:使用有标签的数据进行学习,回归,分类属于有监督学习
无监督学习:使用没有标签的学习,聚类属于无标签学习。
泛化能力
机器学习算法对新鲜样本的适应能力
归纳与演绎
归纳法(inductive reasoning)
是一种从特殊到一般的过程,在有限的实例观察中得出一般规律或原则。用简单的说法,就是从一些具体的事物或情况中总结出一般性的结论。
演绎法(deductive reasoning)
是一种从一般到特殊的推理方法,根据已知的预设和一般规律,推导出特殊的结论。换句话说,就是根据已有的规则和前提条件,推断出具体的结果。
归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias),或者简称“偏好”。
数据集


单变量线性回归
线性回归算法的目的是建立一个线性模型,用来描述自变量(输入特征)和因变量(输出)之间的关系。
例如房屋估价问题(分析方法 模型、策略、算法)
我们有训练样本,数据有房屋价格,房屋面积。

我们可以通过分析,作图并选择合适的模型。
这是一个线性回归问题,算法我们可以用最小二乘法
评估方法
留出法(Holdout Method)?
‘留出法’ 直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T即D=S∪T,S∩T≠∅. 在S上训练出模型后,用T来评估其测试误差,作为泛化误差的估计需要注意的是,训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响,在分类任务中要保持样本类别比例相似,取样通常采用的是【分层抽样】

步骤
- 将原始数据集分成两个部分:训练集和测试集。通常,训练集用于训练模型,测试集用于评估模型。
- 使用训练集训练模型。
- 使用测试集评估模型,计算模型的各项性能指标,如准确率、精确率、召回率等。
- 根据测试集的评估结果,对模型进行调整和优化。
- 重复步骤b-d,直到模型性能达到满意的水平。
交叉验证法 (Cross-Validation Method)
Cross Validation:简言之,就是进行多次train_test_split划分;
每次划分时,在不同的数据集上进行训练、测试评估,从而得出一个评价结果;如果是5折交叉验证,意思就是在原始数据集上,进行5次划分,每次划分进行一次训练、评估,最后得到5次划分后的评估结果,一般在这几次评估结果上取平均得到最后的评分。k-fold cross-validation ,其中,k一般取5或10。如果k=数据集个数,那么这种方法叫做留一法,不适用于大量数据
交叉验证的优点
对数据的使用效率更高
数据划分具有偶然性,数据量越大,模型准确率越高!

交叉验证法的主要步骤:
- 将原始数据集分成k个部分,其中k-1个部分作为训练集,剩余的部分作为测试集。
- 使用k-1个部分训练模型。
- 使用剩余的部分测试模型,计算模型的各项性能指标。
- 重复步骤b-c,直到每个部分都被用作测试集一次。
- 对所有的测试结果进行平均,得到模型的最终性能指标。
- 根据最终性能指标,对模型进行调整和优化。
- 重复步骤b-f,直到模型性能达到满意的水平。
自助法 (Bootstrap Method)
自助法的优点是能够从有限的数据集中产生多个不同的训练集和测试集,从而更好地评估模型的性能。但是,由于每次抽样都会产生不同的数据集,因此自助法会引入额外的随机性,使得模型评估的结果更加不稳定。由于每次抽样可能会产生重复的样本,因此新数据集的大小与原始数据集相同,但是其中大约有36.8%的样本没有出现在新数据集中。
调参与验证集与性能指标
这里涉及到超参数
经验误差与过拟合
错误率 精度 误差
误差:分训练误差,测试误差,泛化误差
过拟合欠拟合:
训练误差低 测试误差高;训练和测试误差都高
解决方法:
过拟合:优化目标加正则项;增加样本数量;提前停止;
欠拟合:决策树,扩展分支;神经网络,增加训练论述;
正则项(惩罚项)
线性回归模型 y=ax+b
损失函数 1/N*Σ[ax+b-y]2
优化算法 最小二乘法(区别评估方法)
性能度量
回归是 均方差(mse)
分类是
- 分类精度和分类误差(错误率)
- P:查准率(precision)
- R:查全率(recall)
- F:
混淆矩阵

PR曲线
平衡点




*代价曲线
偏差与方差
泛化误差可分解为偏差(bias)(平均值比较),方差(var)(稳定性比较),噪声(ε)






训练集正确率-测试集正确率=方差误差
1-训练集正确率 = 偏差误差


多元线性回归模型?
用向量形式表示




对数几率回归 – 极大似然法

神经网络
神经元模型
激活函数(类似于阶跃)


误差逆传播算法
其他神经网络(略)
决策树
无监督方法

增益率 和 基尼指数
