机器学习分类算法

分类(Categorization or Classification)是根据已知训练样本，通过计算选择特征参数，建立判别函数以对样本进行的分类，属于监督学习范畴。分类算法的核心就是按照某种标准给对象贴标签(label)，再根据标签来区分归类。常用的多分类算法包括Adaboost，决策树，随机森林以及线性支持向量机等，其中：（1）Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）；（2）决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法；（3）随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定；（4）支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折中，以求获得最好的推广能力。该模块提供了分类算法有Adaboost，决策树，随机森林以及线性支持向量机等分类算法，通过输入训练集与标签，在选择好算法后点击训练模型对模型进行训练，并输出准确率，

具体步骤如下：

1.导入数据格式

点击导入数据，并将存于txt中的数据与对应的标签导入到下方的空格中。也可以通过手动输入的方式添加数据以及标签。导入的数据要求为txt，每行上的数据都以逗号隔开，其中最后一列数据为数据的标签，一般以整数数据代表不同的标签，导入数据的格式如下图所示：

2. 导入训练样本

在训练样本处，点击“导入数据”，导入txt格式的训练样本文件。导入前如下图所示：

导入后的训练样本如下图所示：

3. 导入测试样本

在测试样本处，点击“导入数据”，导入txt格式的测试样本文件。导入前如下图所示：

导入后如下图所示：

可以通过点击加号来查看导入的数据：

4. 选择分类算法并训练模型

从分类算法下拉中选择需要使用的算法，然后点击“训练模型”，即得到训练结果。

得到的模型预测结果将显示在下方：

也可点击保存模型，将训练好的模型保存。

训练样本

	数据(以逗号分隔)	标签
1.

训练数据下载

导入数据

测试样本

	数据(以逗号分隔)	标签
1.

测试数据下载

导入数据

分类算法:

识别结果:

#	测试样本数	准确率	耗时(单位毫秒)
1.

机器学习分类算法

具体步骤如下：

1.导入数据格式

2. 导入训练样本

在训练样本处，点击“导入数据”，导入txt格式的训练样本文件。导入前如下图所示：

导入后的训练样本如下图所示：

3. 导入测试样本

在测试样本处，点击“导入数据”，导入txt格式的测试样本文件。导入前如下图所示：

导入后如下图所示：

可以通过点击加号来查看导入的数据：

4. 选择分类算法并训练模型

从分类算法下拉中选择需要使用的算法，然后点击“训练模型”，即得到训练结果。

得到的模型预测结果将显示在下方：

也可点击保存模型，将训练好的模型保存。

训练样本

输入行数:

训练数据下载

测试样本

输入行数:

测试数据下载

分类算法:

训练占比：

%

%

识别结果:

机器学习分类算法

具体步骤如下：

1.导入数据格式

2. 导入训练样本

在训练样本处，点击“导入数据”，导入txt格式的训练样本文件。 导入前如下图所示：

导入后的训练样本如下图所示：

3. 导入测试样本

在测试样本处，点击“导入数据”，导入txt格式的测试样本文件。 导入前如下图所示：

导入后如下图所示：

可以通过点击加号来查看导入的数据：

4. 选择分类算法并训练模型

从分类算法下拉中选择需要使用的算法，然后点击“训练模型”，即得到训练结果。

得到的模型预测结果将显示在下方：

也可点击保存模型，将训练好的模型保存。

训练样本

输入行数:

训练数据下载

测试样本

输入行数:

测试数据下载

分类算法:

训练占比：

%

%

识别结果:

在训练样本处，点击“导入数据”，导入txt格式的训练样本文件。导入前如下图所示：

在测试样本处，点击“导入数据”，导入txt格式的测试样本文件。导入前如下图所示：