卡方检验

概述

卡方检验（Chi-Square Test），又称χ²检验，是一种常用的统计检验方法，用于检验样本观测值与理论期望值之间的差异是否显著。它广泛应用于假设检验，尤其是在类别型数据分析中。卡方检验并非检验两个变量之间是否存在关系，而是检验观测到的频数分布与期望的频数分布是否一致。如果差异显著，则拒绝原假设，认为观测到的分布与期望的分布存在显著差异。卡方检验根据数据的不同，可分为独立性检验、拟合优度检验和同质性检验等。其核心思想是计算卡方统计量，并将其与卡方分布进行比较，以确定差异是否具有统计学意义。卡方检验的历史可以追溯到卡尔·皮尔逊，他对卡方分布进行了深入研究，并将其应用于统计推断。

主要特点

卡方检验具有以下主要特点：

**非参数检验：** 卡方检验是一种非参数检验方法，对数据的分布形式没有严格要求，适用于非正态分布的数据。
**适用于类别型数据：** 卡方检验主要用于分析类别型变量，例如性别、颜色、满意度等。
**易于理解和计算：** 卡方检验的原理相对简单，计算过程也比较容易实现。
**对样本量敏感：** 卡方检验的结果容易受到样本量大小的影响，较大的样本量更容易检测到微小的差异。
**检验的是差异，而非因果关系：** 卡方检验只能检验观测到的分布与期望的分布是否一致，不能证明两个变量之间存在因果关系。
**期望频数要求：** 卡方检验要求每个单元格的期望频数不能过小，通常建议期望频数大于5，否则可能影响检验结果的准确性。
**自由度：** 卡方检验的结果受到自由度的影响，自由度的计算取决于变量的个数和单元格的数量。
**原假设与备择假设：** 卡方检验需要设定原假设和备择假设，原假设通常是观测到的分布与期望的分布一致。
**显著性水平：** 卡方检验需要设定显著性水平（α），通常为0.05，用于判断差异是否具有统计学意义。
**卡方统计量：** 卡方统计量是衡量观测值与期望值之间差异的指标，其值越大，差异越显著。

使用方法

卡方检验的使用方法根据不同的类型有所不同，以下分别介绍独立性检验、拟合优度检验和同质性检验的步骤：

独立性检验

1. **建立假设：**

   *   原假设（H₀）：两个变量之间相互独立，即一个变量的取值不影响另一个变量的取值。
   *   备择假设（H₁）：两个变量之间不独立，即一个变量的取值影响另一个变量的取值。

2. **建立列联表：** 将两个变量的观测数据整理成一个列联表，列联表中的每个单元格表示特定变量组合的频数。 3. **计算期望频数：** 根据边际分布计算每个单元格的期望频数。期望频数 = (行总和 × 列总和) / 总样本量。 4. **计算卡方统计量：** 使用以下公式计算卡方统计量：

   χ² = Σ [(观测频数 - 期望频数)² / 期望频数]

   其中，Σ 表示对所有单元格求和。

5. **确定自由度：** 自由度 (df) = (行数 - 1) × (列数 - 1)。 6. **确定显著性水平：** 通常设置为 0.05。 7. **查找卡方分布表：** 根据自由度和显著性水平，在卡方分布表中查找临界值。 8. **做出判断：**

   *   如果卡方统计量大于临界值，则拒绝原假设，认为两个变量之间不独立。
   *   如果卡方统计量小于或等于临界值，则接受原假设，认为两个变量之间独立。

拟合优度检验

1. **建立假设：**

   *   原假设（H₀）：观测到的分布与期望的分布一致。
   *   备择假设（H₁）：观测到的分布与期望的分布不一致。

2. **确定期望分布：** 根据理论或假设，确定期望的分布。 3. **计算期望频数：** 根据总样本量和期望分布计算每个类别的期望频数。 4. **计算卡方统计量：** 使用以下公式计算卡方统计量：

   χ² = Σ [(观测频数 - 期望频数)² / 期望频数]

   其中，Σ 表示对所有类别求和。

5. **确定自由度：** 自由度 (df) = (类别数 - 1) - (估计参数个数)。 6. **确定显著性水平：** 通常设置为 0.05。 7. **查找卡方分布表：** 根据自由度和显著性水平，在卡方分布表中查找临界值。 8. **做出判断：**

   *   如果卡方统计量大于临界值，则拒绝原假设，认为观测到的分布与期望的分布不一致。
   *   如果卡方统计量小于或等于临界值，则接受原假设，认为观测到的分布与期望的分布一致。

同质性检验

同质性检验与独立性检验类似，但关注的是不同样本的分布是否一致。步骤与独立性检验基本相同，只是在解释结果时有所不同。

相关策略

卡方检验可以与其他统计策略结合使用，以获得更全面的分析结果。

**与t检验的比较：** t检验适用于连续变量的比较，而卡方检验适用于类别型变量的比较。
**与方差分析的比较：** 方差分析（ANOVA）适用于比较多个组的平均值，而卡方检验适用于比较多个组的分布。
**与回归分析的比较：** 回归分析用于建立变量之间的关系模型，而卡方检验用于检验变量之间的关联性。
**与相关系数的比较：** 相关系数用于衡量两个连续变量之间的线性关系，而卡方检验用于衡量两个类别型变量之间的关联性。
**与逻辑回归的比较：** 逻辑回归用于预测二元变量的概率，卡方检验可以用于评估逻辑回归模型的拟合优度。
**与贝叶斯方法的比较：** 贝叶斯方法提供了一种不同的统计推断框架，可以与卡方检验的结果进行比较。
**与蒙特卡洛模拟的比较：** 蒙特卡洛模拟可以用于验证卡方检验的结果，尤其是在样本量较小或数据分布复杂的情况下。
**与主成分分析的结合：** 主成分分析可以用于降维和特征提取，然后可以使用卡方检验分析降维后的数据。
**与聚类分析的结合：** 聚类分析可以用于将数据分成不同的组，然后可以使用卡方检验分析不同组之间的差异。
**与决策树的结合：** 决策树可以用于构建预测模型，卡方检验可以用于选择最佳的分割变量。
**与支持向量机的结合：** 支持向量机可以用于分类和回归，卡方检验可以用于评估特征的重要性。
**与神经网络的结合：** 神经网络可以用于构建复杂的预测模型，卡方检验可以用于评估模型的性能。
**与时间序列分析的结合：** 时间序列分析可以用于分析随时间变化的数据，卡方检验可以用于检验时间序列的周期性。
**与生存分析的结合：** 生存分析可以用于分析事件发生的时间，卡方检验可以用于比较不同组的生存率。
**与数据挖掘技术的结合：** 卡方检验可以作为数据挖掘过程中的一个预处理步骤，用于筛选重要的特征。

以下是一个示例表格，展示了独立性检验的结果：

独立性检验结果示例
变量A	变量B	观测频数	期望频数	(观测-期望)²/期望
第一类	第一组	20	25	0.2
第一类	第二组	30	25	0.2
第二类	第一组	15	20	0.125
第二类	第二组	35	20	0.5625
	总计	100	100
	卡方统计量			1.1875
	自由度			1
	临界值 (α=0.05)			3.841

统计学数据分析假设检验显著性检验概率论分布函数卡尔·皮尔逊列联表自由度非参数检验统计软件 SPSS R语言 Python 数据可视化

立即开始交易

注册IQ Option (最低入金 $10) 开设Pocket Option账户 (最低入金 $5)

加入我们的社区

关注我们的Telegram频道 @strategybin，获取： ✓ 每日交易信号 ✓ 独家策略分析 ✓ 市场趋势警报 ✓ 新手教学资料