新算法数据不确定化及距离计算过程
1. 数据预处理:将提供的数据不确定化的过程
对于提供数据集中每一个确定对象(即一条记录)的每一个维度添加均匀分布(/正态分布/二项分布)的噪声。
例1:对4维确定对象X(1,2,3,4),Y(5,6,7,8)对其每一个属性添加均匀分布噪声,加噪后得到不确定对象([1,1.1,1.2,1.3,1.4],[2,2.1,2.2,2.3,2.4],[3,3.2,3.3,3.4,3.5],[4,4.5,4.6,4.7,4.8]),不确定对象Y([5,5.1,5.2,5.3,5.4],[6,6.2,6.3,6.4,6.5],[7,7.2,7.3,7.4,7.5],[8,8.5,8.6,8.7,8.8])
2. 表示每个不确定数据对象
每个不确定对象的每一维表示为:,其中是均值,是标准差,其中假定预设k=2
例2:不确定对象X([1,1.1,1.2,1.3,1.4],[2,2.1,2.2,2.3,2.4],[3,3.2,3.3,3.4,3.5],[4,4.5,4.6,4.7,4.8])
计算不确定对象X每一维数据的均值与标准差
对于不确定对象X([1,1.1,1.2,1.3,1.4],[2,2.1,2.2,2.3,2.4],[3,3.2,3.3,3.4,3.5],[4,4.5,4.6,4.7,4.8])
注:均值和标准差具体值我没计算
不确定数据对象X |
属性1 |
属性2 |
属性3 |
属性4 |
[1,1.1,1.2,1.3,1.4] |
[2,2.1,2.2,2.3,2.4] |
[3,3.2,3.3,3.4,3.5] |
[4,4.5,4.6,4.7,4.8] |
|
均值 |
1(具体值没算) |
2 |
2 |
3 |
标准差 |
2(具体值没算) |
3 |
4 |
5 |
不确定对象X表示为[1-2*2,1+2*2],[2-2*3,2+2*3],[2-2*4,2+2*4],[3-2*5,3+2*5])
经计算得,
不确定对象X([-3,3],[-4,8],[-6,10],[-7,13])
不确定对象Y([-4,4],[-5,9],[-7,12],[-7,13])
3. 按照各算法中相应的距离公式计算不确定对象间距离计算过程:
举例:过程如下:
例3:(比如按新算法中的距离公式)按新算法中的距离公式计算不确定对象X与Y间的距离公式求不确定对象([1,1.1,1.2,1.3,1.4],[2,2.1,2.2,2.3,2.4],[3,3.2,3.3,3.4,3.5],[4,4.5,4.6,4.7,4.8]),不确定对象Y([5,5.1,5.2,5.3,5.4],[6,6.2,6.3,6.4,6.5],[7,7.2,7.3,7.4,7.5],[8,8.5,8.6,8.7,8.8])间距离。
Step1:使用例2中方法表示不确定数据对象,计算不确定对象每一个属性的中点值m与半径值α。
不确定对象X([-3,3],[-4,8],[-6,10],[-7,13])
不确定对象Y([-4,4],[-5,9],[-7,12],[-7,13])
中点为区间端点相加除2,半径为区间端点相减除2,长度为上界减下界。
对于不确定数据对象X:
αx1=3 αx2= 6 αx3=8 αx4=10
Mx1=0 Mx2= 2 Mx3= 2 Mx4=3
Lx1=6 Lx2= 12 Lx3=16 Lx4=20
对于不确定数据对象Y:
αY1=4 αY2=7 . αY3=9.5 αY4=10
MY1= 0 MY2=2 MY3=2.5 MY4=3
LY1=8 LY2=14 LY3=19 LY4=20
Step2:计算每个不确定对象区间数间相对相离度与相对贴近度
=+++=具体数据
=具体数据
根据
对的值分情况进行判断,计算T(X,Y)的值。
相关计算公式:
(每一个维度区间数间相对相离度)
(每一个维度区间数间相对贴进度)
Step3:计算不确定对象间距离
相关计算公式:
其中假定预设λ=0.5