
机器学习VIII - 集成学习 (Ensemble Learning)
13 集成学习 (Ensemble Learning)集成学习是通过构建多个学习器来构建一个大的学习器,有时也会被称之为多分类系统 (Multi-Classifier System) ,基于委员会的学习 (committee-based learning) 等。 如果集成的学习器中,只包含同类的学习器,那这样的集成是同质的 (Homogeneous) ,其中个体学习器称之为“基学习器” (B...
13 集成学习 (Ensemble Learning)集成学习是通过构建多个学习器来构建一个大的学习器,有时也会被称之为多分类系统 (Multi-Classifier System) ,基于委员会的学习 (committee-based learning) 等。 如果集成的学习器中,只包含同类的学习器,那这样的集成是同质的 (Homogeneous) ,其中个体学习器称之为“基学习器” (B...
11. 异常检测(Anomaly Detection)我们需要基于原有的数据,来预测一个新的数据,是否是一个异常值(可以理解为离群值),从而应用在反欺诈,生产质检等等。 11.1 密度估计(Density Estimation)给定一个数据集$X$,估计所有特征的概率密度函数(PDF, Probability Density Function),以正态分布为例,计算$\mu,\sigma$。...
10. 推荐系统(Recommender System)10.1 基于内容推荐(Content Based Recommendations)推荐系统的目的是根据用户的历史评分的特征,以及产品的特征,对客人进行推荐。 定义: $n_u$ 用户量(No. of Users) $n_m$ 电影量(No. of Movies) $r(i, j) = 1$ 当用户$i$给电影$j$进行了评分 $y^{...
9. 无监督学习9.1 K-Means 算法 随机选择$K$个中心点(Centroid) $\mu_1, \mu_2, …, \mu_K \in \mathbb{R}^n$ \begin{aligned} &重复 \{ \\ & for\ \ i=1\ \ to \ \ m \\ & \quad c^{(i)} := x^{(i)}最近的中心点的坐标(1\ to \ K) \\ & for...
在了解U统计量与AUC之间的关系前,先来复习一下Mann-Whitney U Test。
8.树模型8.1 基本概念决策树模型为非参数监督模型,该模型为根据一系列的if-else逻辑组合而成。树可以看作是一个分段函数,并且树的层数越深,就会更贴合数据(fitted)。显然决策树的生成时一个递归过程,且在以下三种情形下会导致递归返回: 当前结点包含的样本全属于同一类别:例如敲声清脆的瓜都是好瓜,则敲声音清脆下无需继续划分。 当前属性集为空,或是所有样本在所有属性上取值相同,无法划...
7. 支持向量机(Support Vector Machines)先从SVM模型的分类问题入手,上述已经学习的逻辑回归的代价函数如下 \begin{aligned} J(\theta) &= \frac{1}{m}[\sum^m_{i=1} y^{(i)}*-log(h_\theta(x^{(i)})) + (1-y^{(i)})*-log(1-h_\theta(x^{(i)}))] ...
模型评估方法评价指标模型评估位于整个数据分析中的非常重要的部分。
5. 神经网络(Neural Networks)神经网络是通过模拟大脑的构造,来构建的机器学习模型。模型是由很多个逻辑单元(Logistic Unit)来组成的。
4.正则化(Regularzation)模型在训练集的表现较高,但是在测试集的表现较差,我们称之为过拟合。解决过拟合有两种方法: 删减特征数量 通过业务上的理解,手动删减 模型自动选择(分布回归等) 正则化 保留所有特征,对特征进行降维