• 机器学习 (Machine Learning) 通过构建模型(比如构建一个决策树,构建一个SVM模型),利用经验(从数据中得到的)计算得到模型参数(该过程又称学习),从而得到解决当前数据的模型(比如得到一个带有具体参数的解决目前实际问题的二分类器SVM)

1. 基本概念

1.1. 术语

1.1.1. 属性 (Attribute)

描述事物在某个方面的具体表现,比如人的性别、年龄、身高等都是人的属性,属性又称特征(feature),常常在数据中的表现形式为数据集的某一列,一个特征表示一列数据。

1.1.2. 属性值 (Attribute Value)

又称特征值,表示某一样本在该属性上的具体取值,比如张三这个样本的年龄是24岁。24在此处即是年龄这一属性的取值

1.1.3. 属性空间 (Attribute Space)

属性的所有可能取值组成的集合,如果属性是多维度的,则属性空间是多维度的集合一般记作花体的 ,例:如果只有一个年龄属性,那么在该属性上的所有可能取值组成的集合 构成一维属性空间,如果有多个维度,包括年龄,身高,体重,则属性空间为三维

1.1.4. 标记 (Labeling)

又称标签,只有在监督学习中才有,即该样例的标记是什么,也是事物在某个属性的表现,比如是否是好人,是否是好瓜。

1.1.5. 标记值

标记属性的具体取值,如分类问题中标记通常为0或1,多分类问题中为某个分类值。

1.1.6. 标记空间

标记值组成的空间,通常使用 表示,如二分类的标记空间为

1.1.7. 样本 (Sample)

记录(record) 或实例(instance),具体是指一个事物的各个具体属性描述。比如:张三的身高是181,体重是140,年两是24.这是一条完整的记录。记录一般用属性向量表示,比如第 条样例为:, 从该实例中看出,该样例有 维,即说明有 个特征属性,第 条样例的第 个属性值为 , 注意以后的向量默认都是以列向量。

, 其中 是一维向量,其值为 ,即第 条样例在各个属性的取值, 是该第 条样例的标签,

1.1.8. 数据集

无监督学习的数据集仅有记录(样本),黑体表示是个向量,小写表示是个值,此数据集D表示有m条样本。监督学习的数据即有记录也有标签 黑体表示是个向量,小写表示是个值,此数据集表示有条样本。

1.1.9. 样本 (Sample)

记录(record) 或实例(instance),具体是指一个事物的各个具体属性描述。比如:张三的身高是181,体重是140,年两是24.这是一条完整的记录。记录一般用属性向量表示,比如第条样例的数学表示: 从该实例中看出,该样例有 维,即说明有 个特征属性,第 条样例的第 个属性值为 , 注意以后的向量默认都是以列向量。, 其中 是一维向量,其值为 ,即第 条样例在各个属性的取值, 是该第 条样例的标签,

1.1.10. 数据集

无监督学习的数据集仅有记录(样本),黑体表示是个向量,小写表示是个值,此数据集D表示有m条样本。监督学习的数据即有记录也有标签 黑体表示是个向量,小写表示是个值,此数据集 表示有 条样本。

验证集 (validation set),包括训练数据和测试数据:

训练数据 (training data)

测试数据 (test set)

2. 监督学习 VS 无监督学习

取决于是否有标签(即是否有y值)去学习,有标签即有监督,无标签即无监督。

  • 有监督学习 (Supervised Learing) 利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。

  • 无监督学习 (Unsupervised Learning) 无监督学习是一种机器学习的训练方式,它本质上是一个统计手段,在没有标签的数据里可以发现潜在的一些结构的一种训练方式。

3. 常用数学公式

取函数最值,如最小值:

更复杂的上下结构:

results matching ""

    No results matching ""