一、机器学习基本术语

2018-08-11 | 学习笔记——机器学习 | 阅读 | 1.5k 字 | 5 分钟

文章目录

1. 机器学习：
2. 数据集（data set）
3. 训练（training）
4. 预测
5. 机器学习的目的

机器学习：

致力于研究如何通过计算手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”(model)的算法，即“学习算法”（learning algorithm）。

有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型，在面对新的情况时，模型会给我们提供相应的判断。如果说计算机科学是研究关于算法的学问，那么类似的，可以说机器学习是研究关于学习算法的学问。

数据集（data set）

一组记录的集合称为一个数据集，其中每条记录是关于一个事件或对象的描述，成为一个示例（instance）或样本（sample）。反映事件或对象在某方面的表现或性质的事项，成为属性（attribute）或特征（feature）；属性上的取值称为属性值（attribute value）。属性张成的空间称为属性空间（attribute space）、样本空间（sample space）或输入空间。例如一个对象有三个属性，将这三个属性作为三个坐标轴，则它们张成一个用于描述该对象的三维空间，每一个对象都可以在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个特征向量（feature vector）。
一般的，令D={x1, x2, …, xm}表示包含m个示例的数据集，每个示例由d个属性描述，则每个示例xi=（xi1，xi2，…，xid）是d维样本空间X中的一个向量，xi∈X，其中xij是xi在第j个属性上的取值，d称为样本xi的维数（dimensionality）。

训练（training）

从数据中学得模型的过程称为学习（learning）或训练（training），这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为训练数据（training data），其中每个样本称为一个训练样本（training sample），训练样本组成的集合称为训练集（training set）。
学得模型对应了关于数据的某种潜在的规律，因此亦称假设（hypothesis）；这种潜在规律自身，则称为真相或真实（ground-truth），学习过程就是为了找出或逼近真相。
如果希望学得一个能够帮助我们判断的模型，仅有前面的示例数据显然是不够的，要建立这样的关于预测（prediction）的模型，我们需获得训练样本的结果信息。示例结果的信息，称为标记（label）；拥有了标记信息的示例，则称为样例（example）。
一般的，用（xi，yi）表示第i个样例，其中yi∈Y是示例xi的标记，Y是所有标记的集合，亦称标记空间（label space）或输出空间。

预测

若我们预测的是离散值，此类学习任务称为分类（classification）；若欲预测的是连续值，此类学习任务称为回归（regression）。
对只涉及两个类别的二分类（binary classification）任务，通常称其中一个类为正类（positive class），另一个类为反类（negative class）；涉及多个类别时，则称为多分类（multi-class classification）任务。
一般的，预测任务是希望通过对训练集{（x1，y1），（x2，y2），…(xm，ym)}进行学习，建立一个从输入空间X到输出空间Y的映射f：X→Y。对二分类任务，通常令Y={-1,+1}或{0，1}；对多分类任务，|Y|>2；对回归任务，Y=R，R为实数集。
学得模型后，使用其进行预测的过程称为测试（testing），被预测的样本称为测试样本（testing sample）。例如在学得f后，对测试例x，可得到其预测标记y=f(x)。
我们还可以对对象做聚类（clustering），即将训练集中的对象分成若干组，每组称为一个簇（cluster）；这些自动形成的簇可能对应一些潜在的概念划分。这样的学习过程有助于我们了解数据内在的规律，能为更深入的分析数据建立基础。需说明的是，在聚类学习中，潜在的概念我们事先是不知道的，而且学习过程中使用的训练样本通常不拥有标记信息。
根据训练数据是否拥有标记信息，学习任务可大致划分为两大类：监督学习（supervised learning）和无监督学习（unsupervised learning），分类和回归是前者的代表，而聚类则是后者的代表。

机器学习的目的

需注意的是，机器学习的目标是使学得的模型能很好的适用于新样本，而不仅仅在训练样本上工作的很好；即便对聚类这样的无监督学习任务，我们也希望学得的簇划分能适用于没在训练集中出现的样本。
学得模型适用于新样本的能力，称为泛化（generalization）能力。具有强泛化能力的模型能很好的适用于整个样本空间。于是，尽管训练集通常只是样本空间的一个很小的采样，我们仍希望它能很好的反映出样本空间的特性，否则假设样本空间中全体样本服从一个未知分布（distribution）D，我们获得的每个样本都是独立的从这个分布上采用获得的，即独立同分布（independent and identically distributed，简称i.i.d.）。一般而言，训练样本越多，我们得到的关于D的信息越多，这样就越有可能通过学习获得具有强泛化能力的模型。

本文标题：一、机器学习基本术语

文章作者：Mr Bluyee

发布时间：2018-08-11

最后更新：2019-07-15

原始链接：https://www.mrbluyee.com/2018/08/11/%E4%B8%80%E3%80%81%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E6%9C%AC%E6%9C%AF%E8%AF%AD/