07-20 05:47 阅读 82

心理测评大数据,大数据测试数据

摘自上海译文出版社，如《大数据测评》、pldtd等

1、概述数据聚类和分类是大数据应用中两个最重要的基础算法，也是发展比较成熟的算法。随着数据的爆炸式增长，基于分布式框架的数据聚类和分类成为重要的发展方向。另外，个性化推荐系统是面向最终用户的典型APP应用，广泛应用于各个领域。聚类算法和分类算法、个性化推荐都存在测试ORACLE问题和算法质量评估问题，给测试带来了新的挑战。

2、聚类算法2.1概述

根据其采用的策略，聚类算法大致可分为两类。一种是层次聚类算法，这种算法首先将每个点看作一个簇，算法通过合并两个小簇形成一个大簇，直到满足聚类某个条件为止，再进行聚类过程另一种是基于点分配的算法，该算法以一定顺序依次扫描所有点并将点分配给最优集群，经典的k均值算法(即k均值算法)即属于此。

2 ) k均值聚类算法

k均值是最经典、应用最广泛的聚类算法。该算法在欧氏空间中，假设聚类数k是已知的，算法接受未标记的数据集，将数据聚类成k个不同的聚类。 k均值聚类是一个迭代过程，其方法如下：

(1)首先选择k个被称为簇重心的点(通常是随机选择)。

)扫描数据集中的每个点，根据距离重心的k个距离，将其与最近的重心相关联，并将与同一重心相关联的所有点聚集在一起。

(3)各级所有点位置的平均值)计算新的重心)，将该级的重心移动到新的重心位置。

(4)在重心不再变化等满足收敛条件之前，重复步骤)2)到步骤)3)。

2.2聚类算法测试方法论： (1)分析智能算法解决问题的领域； )2)分析智能算法的定义和代码)3)分析智能算法运行时的选项

基于蜕变关系的聚类算法测试：

1、蜕变测试最初由澳大利亚斯温伯尔理工大学不安笔(ChenTsong Yueh )教授于1998年提出。他提出的蜕变测试主要基于软件测试领域的两个观察。第一，测试成功的测试用例没有得到更好的利用和挖掘。这些测试用例很可能包含有价值的信息。第二，软件测试包括“测试ORACLE问题”。测试的指导原则是确保程序的输出正确

的机制。测试标准问题是指不存在测试标准，或者没有可靠的测试标准，或者即使有测试标准，应用成本也非常高。蜕变测试就是利用这些成功的测试用例，并根据蜕变关系创建衍生（follow-up）测试用例，然后分析这两类测试用例测试后的结果是否满足蜕变关系，从而判断程序是否存在缺陷。因此，蜕变测试是一种可以有效解决智能算法测试的软件测试方法，在一定程度上可以解决这种软件缺乏可靠的“测试标准”带来的问题。

利用蜕变测试技术对聚类算法进行评价，原测试用例一般为聚类算法的测试数据集，聚类测试的核心是如何建立有效的蜕变关系。有效的蜕变关系必须具有强大的测试功能蜕变关系，需要算法核心功能的执行和对各项其他功能的有效验证，还必须对程序中的缺陷具有极高的灵敏度。设计构建聚类测试中有效的蜕变关系，希望领域专家参与。

2、示例： k均值聚类算法测试1、根据算法的特点构造如下四类蜕变关系

MR 1.1 :属性全局仿射变换的一致性。对原始测试用例中的每个属性值x(I )进行仿射变换后：

f(x(I ) )=ax ) I ) b ) a0 ) ) ) ) ) ) ) ) ) f ) x ) x ) I ) a0 ) )

得到派生测试用例时，聚类结果不变。

MR 2.1 :数据示例行替换。如果对原始测试用例的任意两行数据示例进行行替换以获得派生测试用例，则聚类结果不会改变。

MR 2.2 :替换数据示例列。如果通过对原始测试用例的任意两个列属性进行列替换得到派生测试用例，则聚类结果不变。

MR 3 :添加不提供信息的属性。在原始测试用例的基础上，添加属性列，添加的属性值全部相同。也就是说，该列的属性值与原测试用例的属性信息无关，得到派生测试用例后聚类结果不变。

MR 4 :复制单个数据样本。在原始测试用例的基础上，添加一个数据示例，如果添加的示例与原始测试用例中的任何一个示例相同，并且得到了派生的测试用例，则聚类结果不变。

2、基于原始测试案例，根据上述MR结构数据，输入所得结果。

3、分析测试结果，判断算法的有效性。

例如：

4、聚类质量评价

总体而言，聚类质量评估往往与待处理数据集的特征、所用聚类算法、算法参数值等因素有关。聚类算法对数据集内在结构的假设必须符合数据集的真实情况，聚类结果才能正确反映数据集的内在结构。另外，即使聚类算法假设是合理的，由于选择了不合理的参数也可能难以得到满意的聚类结果。

广义上，聚类有效性评估包括聚类质量的度量、聚类算法匹配数据集的程度、最优聚类数等。聚类结果的评价通常采用外部指标(External )三个有效性指标

Indices (、内部指标、相对指标) Relative Indices )。

计算外部指标，即聚类结果与现有标准分类结果的一致性。常见的有F-Measure指标、信息熵(Entropy )指标

、Rand指数和Jaccard指数等聚类质量度量指标。内部指标：不依赖于外部信息，如分类的先验知识。很多情况下，事先并不清楚数据集的结构，聚类结果的评估就只能依赖数据集自身的特征。因此，内部指标的评估是直接从原始数据集中检查聚类的效果。本节将主要介绍簇内误差和Cophenetic相关系数。簇内误差　簇内误差，即任意点与其质心的距离的平方和。好的聚类算法应该保证簇内误差最小化。Cophenetic相关系数，CPCC的值越接近1，说明两个矩阵相关性越好，层次聚类的效果越好相对指标：基本思想是，在同一个数据集上，用同一种聚类算法取不同的输入参数从而得到的相应的聚类结果，对这些不同的聚类结果，再应用已定义的有效性函数作比较来判断最优划分。