首页 > 图灵资讯 > 技术篇>正文

机器学习 二 输入

2023-04-21 10:02:35

机器学习:输入

一、四种学习方法:

1.分类学习 classification learning : 用分类样本集表示学习方法

2.关联学习 association learning : 寻找任何特征之间的关联

3.聚类 clustering : 找到可以组合在一起并分组的样本

4.数值预测 numeric prediction : 预测的是一个数值,而不是离散类

1.分类学习:有称指导supervised学习,因为每个训练样本都有明确的结论。

2.关联学习:因为任何属性都可以预测,所以关联规则太多了。

因此,有必要找到一个可以应用的最小样本数量,并且大于特定的最小正确率。

(小规则覆盖大量未来样本)

3.聚类:样本可以分配到多个聚类,找出这些聚类,并将新样本归类为聚类

4.数值预测:是分类学习的变种,预测的是数值,而不是一个类

二、样本:

输入:实例,表示单一、独立的概念样本,由一组预定义的属性表示

(但当实例之间存在密切关系时,需要并列样本、递归等方法,防止关系丢失)

三、属性:

一列是实例,分为名词性值和有序值两种

名词性值:有范围,可枚举,离散属性(包括二分值true) false)

有序值:值,可连续属性

四、数据准备

1.数据收集:

数据必须集中、集成和清理。

2.ARFF格式:

数据集的标准表示方法是由独立、无序的实例组成的,不涉及实例之间的关系。

以下ARFF格式的例子:

%

%注释

@relation weather 关系名称

@attribute outlook {sunny, overcast, rainy} 属性列表

@attribute temperature numeric

@data 实例集,缺少的数据用于补位

sunny 89

overcast 88

3.稀疏数据

比如购物商品,文章中的单词都是稀疏矩阵的全集中,

因此,以非0值属性的位置和值为例,如:

{110,0,0,0,21 10,4 21}

ARFF中的稀疏属性也表示@data实例集

4.属性类型

ARFF允许名词性值和数量两种基本类型。

这两种基本类型的定义取决于机器学习计划:

4.1 数值作为有序的刻度处理

4.2 数值是比率值测量(定义一个标准,如减去统计平均值后的标准差,或最大值,或减去最小值后的最大值和最小值差)

4.3 以名词性质为数值编码,如07080217的前两个是入学日期

4.4 将数值归纳为名词性值,如20为young,将名词性可续化

5.残缺值

指数据超过正常值或空缺。需要了解数据的人处理不完整的值。

6不正确的值

上一篇 java LinkedList源码分析
下一篇 mapreduce常见参数和内存设置

文章素材均来源于网络,如有侵权,请联系管理员删除。