欢迎您访问图灵学院官方网站，并且发现了这个地方，送你一份小礼物，添加下方微信即可~

长沙市岳麓区兴工国际产业园14栋

19908451513

微信同号，添加请备注：官网

467805942@qq.com

对我们有什么建议都可以通过邮件告知哦~

首页 > 图灵资讯 > 技术篇>正文

机器学习二输入

2023-04-21 10:02:35

机器学习：输入

一、四种学习方法：

1.分类学习 classification learning ：用分类样本集表示学习方法

2.关联学习 association learning ：寻找任何特征之间的关联

3.聚类 clustering ：找到可以组合在一起并分组的样本

4.数值预测 numeric prediction ：预测的是一个数值，而不是离散类

1.分类学习:有称指导supervised学习，因为每个训练样本都有明确的结论。

2.关联学习:因为任何属性都可以预测，所以关联规则太多了。

因此，有必要找到一个可以应用的最小样本数量，并且大于特定的最小正确率。

(小规则覆盖大量未来样本)

3.聚类:样本可以分配到多个聚类，找出这些聚类，并将新样本归类为聚类

4.数值预测:是分类学习的变种，预测的是数值，而不是一个类

二、样本：

输入：实例，表示单一、独立的概念样本，由一组预定义的属性表示

(但当实例之间存在密切关系时，需要并列样本、递归等方法，防止关系丢失)

三、属性：

一列是实例，分为名词性值和有序值两种

名词性值:有范围，可枚举，离散属性(包括二分值true) false）

有序值：值，可连续属性

四、数据准备

1.数据收集：

数据必须集中、集成和清理。

2.ARFF格式：

数据集的标准表示方法是由独立、无序的实例组成的，不涉及实例之间的关系。

以下ARFF格式的例子：

%

%注释

@relation weather 关系名称

@attribute outlook {sunny, overcast, rainy} 属性列表

@attribute temperature numeric

@data 实例集，缺少的数据用于补位

sunny 89

overcast 88

3.稀疏数据

比如购物商品，文章中的单词都是稀疏矩阵的全集中，

因此，以非0值属性的位置和值为例，如：

{110，0，0，0，21 10，4 21}

ARFF中的稀疏属性也表示@data实例集

4.属性类型

ARFF允许名词性值和数量两种基本类型。

这两种基本类型的定义取决于机器学习计划：

4.1 数值作为有序的刻度处理

4.2 数值是比率值测量(定义一个标准，如减去统计平均值后的标准差，或最大值，或减去最小值后的最大值和最小值差)

4.3 以名词性质为数值编码，如07080217的前两个是入学日期

4.4 将数值归纳为名词性值，如20为young，将名词性可续化

5.残缺值

指数据超过正常值或空缺。需要了解数据的人处理不完整的值。

6不正确的值

上一篇 java LinkedList源码分析
下一篇 mapreduce常见参数和内存设置

文章素材均来源于网络，如有侵权，请联系管理员删除。