R语言 Kolmogorov-Smirnov检讨
Kolmogorov-Smirnov正态性检讨Kolmogorov-Smirnov是较量一个频率漫衍f(x)与理论漫衍g(x)可能两个视察值漫衍的检讨要领。其原假设H0:两个数据漫衍一致可能数据切公道论漫衍。D=max| f(x)- g(x)|,当实际视察值D>D(n,α)则拒绝H0,不然则接管H0假设。R语言中的 Kolmogorov-Smirnov 检讨ks.test(x, y, …, alternative = c(“two.sided”, “less”, “greater”), exact = NULL)R语言中ks.test有四个参数,第一个参数x为视察值向量,第二个参数y为第二视察值向量可能累计漫衍函数可能一个真正的累积漫衍函数如pnorm,只对持续CDF有效。第三个参数为指明是单侧检讨照旧双侧检讨,exact参数为NULL可能一个逻辑值,表白是否需要计较较准确的P值。> ks.test(rnorm(100),rnorm(50)) Two-sample Kolmogorov-Smirnov test data: rnorm(100) and rnorm(50)D = 0.16, p-value = 0.3503alternative hypothesis: two-sided > ks.test(rnorm(100),”pnorm”) One-sample Kolmogorov-Smirnov test data: rnorm(100)D = 0.0851, p-value = 0.4631alternative hypothesis: two-sided在上述第一个呼吁中,我们较量了两个均值和方差一样的视察值,他们D值很小,p值大于0.05,所以我们不能拒绝两个视察值漫衍沟通的假设;在第二个呼吁中,我们较量了一个正态漫衍视察值和一个正态漫衍函数,D值很小,且p值大于0.05,不能拒绝其漫衍一致的假设。> ks.test(rnorm(100),”punif”) One-sample Kolmogorov-Smirnov test data: rnorm(100)D = 0.5, p-value < 2.2e-16alternative hypothesis: two-sided在上述例子中,我们较量了一个正态漫衍数据和均一漫衍函数,p值小于0.05,我们可以拒绝原假设,二者漫衍不沟通。漫衍检讨要领较量 图示法相对付其他要领而言,较量直观,要领简朴,从图中可以直接判定,无需计较,但这种要领效率不是很高,它所提供的信息只是正态性检讨的重要增补。 常常利用的拟合优度检讨和Kolmogorov-Smirnov检讨的检讨功能较低,在很多计较机软件的Kolmogorov-Smirnov检讨无论是巨细样本都用大样本近似的公式,很不精准,一般利用Shapiro-Wilk检讨和Lilliefor检讨。 Kolmogorov-Smirnov检讨只能检讨是否一个样原来自于一个已知样本,而Lilliefor检讨可以检讨是否来自未知总体。 Shapiro-Wilk检讨和Lilliefor检讨都是举办巨细排序后获得的,所以易受异常值的影响。 Shapiro-Wilk检讨只合用于小样本场所(3≤n≤50),其他要领的检讨功能一般随样本容量的增大而增大。 拟合优度检讨和Kolmogorov-Smirnov检讨都回收实际频数和期望频数举办检讨,前者既可用于持续总体,又可用于离散总体,而Kolmogorov-Smirnov检讨只合用于持续和定量数据。 拟合优度检讨的检讨功效依赖于分组,而其他要领的检讨功效与区间分别无关。 偏度和峰度检讨易受异常值的影响,检讨功能就会低落。 假设检讨的目标是拒绝原假设,当p值不是很大时,应按照数据配景再作接头。