TensorFlow学习路程 - 机器学习之框架术语 【上页】
概念术语
机器学习,简单定义就是通过学习如何组合输入信息对从未见过的数据做出有用的预测。
标签(Label)
是目标预测事务,线性回归中的y变量。
特征(Value)
是输入变量,线性回归的x变量。特性可以有多个,复杂机器学习的项目特征数量可能高达百万级别。 以邮件举例,其包含的特征可以有:
- 邮件正文
- 收/发件人地址
- 发送时间
- 特殊短语
小记:特征一定是可量化的数据才可以,任意主观性数据都不能有效的使用。例如对于商品评价,某些形容词就很难作为特征,比如好,赞这类的泛义程度极高的词语,反而如外观吸引,口味独特这类有明确表达范围和含义的词语作为特征能收到更好的效果。
样本(Sample)
数据的指定实例:X(粗体表示为矢量),样本分两类:
- 有标签样本,同时包含特征和标签。
- 无标签样本,有特征,但无标签。
小记:大部分的样本收集都有干扰问题,比如抓取微博博客用作学习样本,通常会根据关键字抓取,那么会有很多包含关键字的非目标样本被收集,因为非目标样本的特征并非一致,那么势必会对预测模型作出干扰。
模型(Model)
用于描述特征与标签的关系,模型在学习中存在生命周期:
- 训练,指创建或学习模型,此时是让模型读取有标签样本,学习标签与特征的关系。
- 推断,指训练后模型应用于无标签样本,即经过训练后作出推测y`。
回归与分类(Regression & Classification)
回归模型用于预测连续值,分类模型预测离散值。
线性回归(Linear Regression)
通常,我们将收集的样本依据其特征值分布在对应的图表上,图表中有依据特征值设定的象限划分,然后依据样本分布位置,我们能够生成一条曲线(直线)穿过所有特征,这条线会尽可能的贴近所有的样本,产生这条线的过程就是线性回归。 线性回归是较为基础的回归模型,它能很直观的展现样本的变化规律与趋势。
训练和损失(Training & Loss)
训练模型,是通过有标签样本进行学习特征的权重和偏差的理想值。在监督式学习中,算法通过以下方式构建:检查多个样本并尝试找出能最大限度减少损失的模型,这一过程称为经验风险最小化。
损失是糟糕预测的惩罚,或者说偏移量,是一个数值,表示对单个样本模型预测的准确程度,损失越小,则预测越精准。训练模型的目标就是从所有样本中找到一组平均损失较小的权重与偏差(较小是基于当前样本集合的,是相对的)。
对于损失,下面介绍一种常见的损失函数。 平方损失,较常见的损失函数,公式为:$(y - prediction(x))^2$,据此引出均方误差(MSE),每个样本的平均平方损失,计算公式为:$MSE = \frac{1}{N} \sum_{(x,y)\in D} (y - prediction(x))^2$
公式中:
- (x,y)指的是样本,x是模型预测时使用的特征集,y是样本标签;
- prediction(x)是指的权重和偏差与特征集X结合的函数。
- D指包含多个标签样本的数据集。
- N指D中的样本数量。
损失就是误差,由于样本的不确定性,在图上分布位置是不能完美匹配曲线的,可远可近,这个远近就是误差,而线性回归是要尽可能满足所有的点,因此均方误差是一个较好的选择,但不是所有场景都适用的。
记录于6/28/2019 10:35:11 AM