3、问题类型
如果要深入研究机器学习类别,还有五种其他类型的问题:
-
回归。我们需要预测连续响应值的监督问题。回归拟合数据并给出映射的所有特征点的答案,如果预测值趋向于一个连续的值,那么它就会下降。例如:给出区域名称、土地面积等作为特征,并预测土地的预期成本。
-
分类。监督问题,其主要目的是分离数据。如果预测值趋向于是/否、正/负等类别,那么它就属于机器学习中的分类问题。例如,给定一个句子来预测它是否定的还是正面的。
-
集群。无监督问题,我们将相似的事物组合到一个给定数量的簇中。对于这些分数,我们不会给出答案。示例:给定3、4、8、9,并且簇的数目为2,那么机器学习系统可以将给定的集合分成簇1–3,4和簇2–8,9。
-
密度估计。它是在观测数据的基础上,对一个不可观测的潜在概率密度函数的估计。查找输入在某个空间中的分布。
-
降维。通过将输入映射到低维空间来简化输入。
4、类
机器学习算法可分为参数或非参数:
第一步:假设我们的函数(f)的函数形式或形状,即:f是线性的,因此我们将选择一个线性模型。
第二步:选择一个程序来适应或训练我们的模型。这意味着估计线性函数中的β参数。一种常见的方法是(普通)最小二乘法。
-
非参数化-使用灵活数量的参数,参数的数量通常随着它从更多数据中学习而增长。由于这些方法并不能将f的估计问题简化为少量的参数,因此需要大量的观测数据来获得f的精确估计。例如薄板样条模型。
5、性能分析
算法的性能分析是计算该算法所需的空间和时间的过程。算法的性能分析采用以下措施:
-
混淆矩阵-通常用于描述分类模型(或“分类器”)在已知真实值的一组测试数据上的性能的表。
-
准确度。正确预测的一部分,当数据集不平衡时(即不同类别中的样本数量变化很大)不可靠
-
f1分数-测试准确性的另一个衡量标准,其计算依据是:1)精度-在分类器标记为阳性的所有示例中,哪个分数是正确的?2) 回忆一下。在所有的正面例子中,分类器提取了什么分数?
-
ROC曲线-接收器工作特性。真阳性率(回忆/敏感性)vs假阳性率(1-特异性)
-
偏差-方差权衡-一组预测模型的特性,其中参数估计偏差较低的模型在样本间的参数估计方差较高,反之亦然。
-
均方误差(MSE)-测量误差或偏差平方的平均值-即估计值与估计值之间的差值。
-
错误率。在分类环境下,应用估计模型的错误率函数是训练观测值的函数。
6、算法
机器学习真正有趣的部分来了!以下内容能够帮助你如何将机器学习付诸实践:
-
决策树学习-通过一种算法方法来构建,该方法根据不同的条件识别数据集的分割方法。
-
关联规则学习-一种基于规则的机器学习和数据挖掘技术,可以发现数据集中变量或特征之间的重要关系。
-
人工神经网络-一种信息处理模型,其灵感来源于生物神经系统,如大脑,处理信息的方式。
-
深度学习-网络能够在无监督的情况下从非结构化或未标记的数据中学习。它教计算机通过层过滤输入,学习如何预测和分类信息。
-
归纳逻辑编程-使用逻辑编程作为统一的表示,例如,背景知识和假设。
-
支持向量机-分析用于分类和回归分析的数据。
-
聚类-将一组对象分组的任务,使同一组(称为群集)中的对象彼此之间(在某种意义上)比其他组(簇)中的对象更相似(在某种意义上)。
-
贝叶斯网络-通过有向无环图表示一组变量及其条件依赖关系的概率图形模型。
-
强化学习-通过与环境互动来学习。
-
特征学习-允许从原始数据中发现特征检测或分类所需的表示。
-
相似性和度量学习-学习度量两个对象的相似性函数。
-
稀疏字典学习-旨在寻找输入数据的稀疏表示形式的基本元素的线性组合。
-
遗传算法-一个受自然选择过程启发的元启发式算法。
-
基于规则的机器学习-一种数据驱动的方法,使用标记的文本语料库和他们的情感来预测。
-
学习分类器系统-结合发现组件和学习组件。
(编辑:济南站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|