艺术考试网
全国站

影响因素分析的生活实例、原理、方法、误区!

chanong
2024-04-24 15:56:03
编辑说
史上最坑爹的数学题推荐!

什么是相关性

“万物互联”是大数据最重要的核心思想。

这里所谓联系,是指事物之间相互影响、相互制约、相互印证的关系。 事物之间的相互影响和相关性,在统计学中称为相关性,简称相关性。

世界上的一切事物都会受到其他事物的影响:

所有这些业务问题,转化为数据问题,无非是评估一个因素与另一个因素之间的相互作用或相关性。 分析此类事物之间的相关性的方法就是相关分析法。

当然,相关性并不一定意味着因果关系。 但因果关系一定是相关性。

过去,传统的统计模型主要用于寻找影响事物的因果关系,因此过去也称为影响因素分析。 但从统计方法来看,因果关系一定是统计显着的,但统计显着并不一定意味着因果关系,所以准确地说,影响因素的分析应该改为相关分析。

因此,在不引起混乱的情况下,我们还将使用影响因素分析。

相关性及影响因素分析

▷ 关联类型

客观事物之间的相关性大致可分为两类:一类是函数关系,另一类是统计关系。

此外,统计分析按相关形式可分为线性相关和非线性相关(曲线相关); 按相关方向可分为正相关、负相关等。 详细信息请参见下图。

▷ 关联性描述方法

描述两个变量是否相关的常用方法有:直观相关图(通常如散点图和列联表等)、相关系数和统计显着性。

如果用可视化的方法来呈现各种相关性,常见的是下面的散点图。

▷ 相关方法的类型

对于不同的因素类型,所采用的相关分析方法也不同。

以下是对所选相关性分析方法的简要总结。

相关分析的主要方法

简单来说,相关分析就是衡量两个数值变量之间的相关性,并计算相关程度。

▷ 相关分析类型

对于相关性分析,常用的方法类别包括:简单相关分析、偏相关分析、距离相关分析等,前两种方法较为常见。

注:除非另有说明,下文提到的相关性分析均指简单相关性分析。

▷ 散点图

确定两个变量之间是否存在线性相关的最简单方法之一是可视化。

最适合相关分析的图表是散点图。 下表将腰围、脂肪比例和体重绘制成散点图,如下图所示。

显然,随着你的腰围增加,你的体重也会增加。 说明腰围和体重之间存在相关性,而且应该是正相关。 同样,脂肪比重也与体重呈正相关。

可视化的优点是直观,缺点是无法准确测量。 比如腰围和脂肪率对体重的影响有多大? 换句话说,这两个因素中哪一个对体重的影响更大呢? 散点图无法给出答案(所以,接下来我们将介绍更强大的方法)。

因此,在相关性分析时,我们会引入一个新的数据指标(即相关系数),专门用来衡量两个变量之间的线性相关程度。

▷相关系数

相关系数(nt)是专门用来衡量两个变量之间线性相关程度的指标。 字母r常用来表示相关系数。

相关系数以数值的方式准确地反映了两个变量之间线性相关的强度。 最常用的相关系数是()相关系数,也称为乘积差相关系数。 公式如下。

相关系数的特点如下:

事实上,并不意味着必须r=0才能表明两个变量之间不存在线性相关。 在实际应用中,由于r代表相关程度,所以我们常常将r的值分为几个区间来表示不同的相关程度(如下图所示)。

▷显着性检验

由于上述相关系数是根据样本数据计算出来的,因此上述相关系数也称为样本相关系数(用r表示)。 如果根据总体的所有数据计算相关系数,则称为总体相关系数,记为ρ。

但由于抽样的随机性和样本数量较少,通常不能直接用样本相关系数来解释两个总体(即两个变量)是否存在显着的线性相关,因此还必须进行显着性检验。 相关分析的显着性检验经常使用假设检验来推断总体显着性。

显着性检验的步骤如下:

假设:两个变量之间不存在显着的线性关系,即两个变量之间相关性为零。

构造一个新的统计量 t 如下

1)若P0.05,则表明变量服从正态分布,否则为非正态分布。

注:当样本量大于50时,采用KS检验结果,当样本量小于50时,采用-Wilk检验结果。

从表中可以看出,腰围和体重两个变量服从正态分布,因此可以使用相关系数。 下面计算相关系数时,将使用相关系数。

步骤3:计算相关系数

在SPSS中,计算相关系数的步骤如下:

1)打开数据文档,点击【分析-相关-双变量】进入相关分析界面。

2)将所有待判断的变量选择到变量列表中并确认,得到相关系数矩阵。

确定后,得到如下相关系数矩阵:

显然,相关系数矩阵是一个对称矩阵,对角线上的相关系数全部为1(即变量本身的相关系数为1)。 从上表可以看出,腰围与体重的相关系数为r=0.853,相关性较强; 脂肪比例与体重的相关系数为r=0.697,呈中度相关。

第四步:显着性检验

SPSS中不仅计算变量之间的相关系数,还进行显着性检验(即计算统计量t,并查询对应的概率P值,见显着性行)。

在相关系数矩阵中,查看显着性行。 腰围和体重对应P=0.000的概率(由于精度问题,看起来概率为0)。 显然P

第五步:做出商业判断

根据前面的相关分析,可以得到数据分析结论:

1、根据显着性判断,可以看出腰围与体重、脂肪比例与体重之间存在显着的线性相关性。

2、根据相关系数可以看出,腰围与体重相关性较强,脂肪比例与体重相关性中等。

然后,从业务角度解读分析结果,并给出相应的业务策略或建议:

1、商家解读:腰围对体重影响很大,脂肪比例对体重影响更大。

2、经营建议:要减肥,最好减小腰围,少吃油腻的食物。

这样就实现了从数据到业务的完整关联分析流程。

其他相关分析方法

在三种常用的相关性测试技术中,相关性的准确性最高,但对原始数据的要求也最高。 等级相关性和一致性相关性应用较广泛,但准确性较差。

下面介绍水平相关性和一致性相关性方法,并通过实际案例说明如何将这三种相关性分析技术与SPSS结合使用。

有关的

当区间数据不满足正态分布时,不能采用相关分析。 这时,可以在相关性分析中引入排名分数,借助排名分数来实现相关性检验,即先分别计算两个序列的排名分数,然后用排名分数代替将原始数据代入相关系数公式,得到相关系数公式:

数据要求:

结论分析:

在相关分析中,还可以获得相关系数(r)和检验概率(Sig.)。 当检验概率小于0.05时,说明两列数据之间存在相关性。

有关的

当既不满足正态分布,又不是等距区间数据,而是分布未知的序数数据时,不能使用相关和相关。 此时,相关性分析中引入“一致对”的概念,借助“一致对”占“总对”的比例来分析相关程度。 相关系数计算公式如下:

相关性本质上是基于查看序列中有多少对具有相同顺序的思想来确定数据的相关程度。 在相关性测试中,核心思想是测试两个序列的排名分数是否一致增加或减少。 因此,统计两个序列中“一致对”和“不一致对”的数量非常重要。 下面的例子说明了相关系数的计算过程:

假设有两个数据序列A和B,其秩序列分别为{2,4,3,5,1}和{3,4,1,5,2},即对应的秩对为(2,3 )(4,4)(3,1)(5,5)(1,2)。 根据A的秩排序后,得到新的秩对(1,2)(2,3)(3,1)(4,4)(5,5)。 此时B的排序序列变为{2,3,1,4,5}。 本例中,对于第一个B值2,比它大的有3、4、5,比它小的1,所以一致对是3,不一致对是1; 对于第二个数字3,有4个和5个比它大,1个比它小,所以一致对是2,不一致对是1; 依此类推,共有8个一致对和2个不一致对。 即,Nc=8,Nd=2。

数据要求:

结论分析:

在相关分析中,可以得到两个值:相关系数(r)和检验概率(Sig.)。 当检验概率小于0.05时,说明两列数据之间存在相关性。

案例分析

现在有一个“学生表现数据”如下图所示。 请分析语文、数学、英语、历史、地理成绩之间的相关性。

解决问题的思路:

观察图中的数据,我们可以看到,待分析的数据都是固定范围的数据,并且来自于同一组样本(同一批学生)的多次多视角测试(不同科目的考试) ),因此可以采用相关分析和相关分析。 首先,对原始数据进行正态分布检验。 对于满足正态分布检验的变量,采用相关分析。 对于不满足正态分布检验的变量,采用秩相关检验。

问题解决步骤:

1、使用【分析】-【非参数检验】-【旧对话框】-【1个样本KS】命令对语文、数学、英语、历史、地理成绩进行正态分布检验。

2. 使用【分析】-【相关】-【双变量】命令,在相关系数中选择【 】,对语文、数学、英语、地理成绩进行相关性检验。

3. 使用【分析】-【相关】-【双变量】命令,在相关系数中选择【 】,对历史、语文、数学、英语、地理成绩进行相关性检验。

结果解读:

1. 正态性检验结果;

发现除历史外,其他数据变量的检验概率均大于0.05,且均符合正态分布。

2、皮尔逊相关分析中,语文、数学、英语、地理成绩之间的所有测试概率均大于0.05,表明它们之间不存在相关性; 同时,相关系数均小于0.4,这也证明它们之间不存在相关性。

3、相关分析中,除地理与语文之间的检验概率外,历史、语文、数学、英语、地理之间的检验概率均大于0.05。 但这并不意味着地理和汉语成绩之间存在相关性。 观察到它们的相关系数为0.263,这表明它们之间不存在相关性。 在确定变量之间的相关性时,应结合检验概率和相关系数进行分析。 您无法仅通过查看其中一个值来确定变量之间的相关性。

延伸思考:相关分析未必可靠

电视上随处可见的广告或新闻标题的句子结构:“想要A?那就用B!” 或者“研究表明物质C会降低患D病的风险”,或者“E是摆脱F的烦恼!”都很熟悉。 直接被洗脑了吗?

如果不进行缜密、全面的实验设计和统计分析,就贸然对这种因果关系下结论,很可能会导致欺骗家长和公众的后果。 市场上对因果关系的判断往往是肤浅的相关分析。

例1:你想活得更长久吗? 来抽烟吧! (……)

这个例子是基于声音数据的认真研究。 英国一家健康研究机构随机挑选了1314名志愿者,其中包括582名吸烟者和732名不吸烟者。 二十年后的跟踪调查显示,吸烟者的死亡率为24%,而不吸烟者的死亡率为31%,并给出了这样一个统计报告(部分):

事实是,吸烟者的死亡率比不吸烟者低。 这 1,314 人是随机选择的,可以代表整个人口。 问题不在于数据,而在于分析。 我们肯定错过了一些重要的事情。

那么让我们回过头来看看我们还能从数据中发现什么。 有的朋友可能已经想到了数据有缺失信息(甚至比缺失值还要多),没错,就是年龄。 在随机抽取的1314人中,我们计算出只有8.4%的吸烟者年龄在65岁以上,而26.4%的不吸烟者是老年人。 这种年龄不平衡可以解释上述现象:不吸烟群体的死亡率确实很高,但并不是因为他们不吸烟,而是因为这个群体中老年人的比例很高,所以20年后自然死亡或者患上某种致命疾病的几率已经很高了!

那么发现这种现象后我们​​该怎么办呢? 有统计经验的朋友可能已经知道,分组。 然后我们再按年龄组做列联表,看看吸烟者和不吸烟者在每个年龄组的死亡率差异。

可以看出,在34岁以下的年轻人中,吸烟与否影响不大,因为20年后的死亡率很低,而在65岁以上的老年人中,吸烟与否其实影响不大。 因为20年后,他们都85岁以上了,死亡率已经很高了。 但对于35岁至64岁的人群来说,不吸烟组的死亡率低于吸烟组。 如果您对表格感到困惑,请查看下面的分组条形图。

看到这里,你可以松一口气了。 如果单看吸烟与否和死亡率,他们确实会表现出“吸烟越多,寿命越长”的奇怪现象。 但这只是一种表面上的相关性,或者说相关性,我们不能盲目地将其描述为因果关系。 “吸烟组死亡率较低”的说法是指相关性,这只是我们观察到的表象。 它并不等同于“因为吸烟而死亡率低”或“吸烟会导致死亡率降低”。 “这种因果关系是有逻辑推理的。

这个例子是因为我们之前忽略了一个潜在重要的变量“年龄”。 此类变量会对结果产生重大影响,但不予考虑。 我们称其为“潜在变量”( )。 有时可以用“杀人于无形”来形容。 一不小心,可能会毁掉整个统计分析报告。 这种结果直接被潜变量逆转的现象,在统计学中被称为辛普森悖论。

示例 2:犯罪率和教育

如果今天的报纸头条是这样的:“美国高等教育现状令人担忧:高等教育更容易导致犯罪。” 你会如何反应? 你是否很想知道为什么会出现这样的社会现象:是因为读书太多、压力太大而导致性变态吗? 还是高学历的人缺乏社会认可,很容易憎恨社会? 还是美国的高等教育真的出了问题? 然后我想到了最近发生在美国高校的几起枪击案,以及各种高科技犯罪的新闻。 我立即将这份报告转发给投票圈,并呼吁亲友不要再去美国留学。

读完这篇文章后,在下次思考这些问题之前,你可以对这个说法本身持怀疑态度,并询问这项研究是如何完成的。 数据从哪里来? 分析是如何进行的?

该数据是从美国各地区的人口普查中获得的,包括当地的犯罪率和高中以上学历的居民比例作为教育水平的代理。 由于这两个变量不断变化,因此不能使用之前的分类数据列联表。 我们需要从统计分析中日常使用的散点图(plot)中寻找灵感。

从这张散点图中,我们确实可以看出史上最坑爹的数学题,随着受教育程度的提高,犯罪率确实有小幅上升的趋势。 而且两者之间的皮尔逊相关系数( )为0.47,呈正相关。 到这里,我们是否可以把这个结果留给心理学家、社会学家或者教育工作者来研究,统计分析就结束了呢? 事实上,我们能做的远不止这些。 根据前面吸烟让人长寿的例子,想一想,这种明显的相关性是否与某个潜在变量有关?

人口普查实际上会产生很多有用的数据。 根据常识,我们可以初步识别出几个候选潜在变量。 在这里,我们讨论最有可能的潜在变量之一:城市化水平。 即各地区居住在大城市的居民比例。 如果我们根据城市化程度将所有数据分为三组,我们将得到以下分组散点图。

在相似的城市化程度下,教育水平与犯罪率呈负相关! 随着城市化进程的加快,犯罪率和教育水平实际上会上升。 这符合我们的常识。 美国大城市的犯罪率较高,大城市的居民通常更有可能接受高中以上的教育。 因此,我们之前看到的教育水平与犯罪率的正相关关系,其实并没有太大的参考价值。 抢占头条的政党的主张是弄巧成拙的。

上述两个例子都属于辛普森悖论的范畴。 一些看似新的发现、新的言论,实际上只是因为一些潜在的变量考虑较少。

常见问题类型总结如下:

1、第一类原本是负相关,但由于潜在变量的影响而变成正相关。 这就是上面提到的辛普森悖论。

2. 第二种本来是不相关的,是完全由潜变量引起的相关性。

例如,澳大利亚的黄金海岸以其众多美丽的海滩而闻名于世。 但不幸的是,每年都有人在那里淹死。 现在,如果你对黄金海岸的溺水人数和当地冰淇淋销量进行分析,就会发现存在很强的正相关性。

冰淇淋销量增加是否导致更多人溺水? 或者如果我们想减少溺水的人数,我们是否应该要求每个人少买冰淇淋?

正常人都知道,这种正相关是因为在炎热的天气里冰淇淋更受欢迎,更多的人去游泳,这可能会导致更多的溺水事件。 这本身就是一个非常明显的例子,所以大家不要以为自己会感到困惑,但是如果一个健康广告说“最新研究结果表明优质胆固醇会降低心血管疾病的风险”,然后宣传几种优质胆固醇 你会一时兴起给长辈买护肤品吗?

3. 第三种明显相关性有时是由时间趋势和顺序引起的。

在本科答辩中,我们可以看到太多因这种原因而导致盲目因果推断的例子。 比如,我们收集了中国近20年的离婚率和犯罪率数据,发现离婚率越高,犯罪率也越高。 那么我们是否可以直接推断离婚者更有可能有犯罪倾向呢? 当然不是。 因为这种现象,主要是因为两者都是时间序列(时间)数据,离婚率和犯罪率都会随着时间的推移而逐渐上升。 也就是说,离婚率越高,数据的时间节点就越大。 后来,相应的犯罪率就会更高。 另一个经典的例子是,公鸡打鸣后,太阳从地平线升起。 两者之间有关系,但绝对不是因果关系。

再比如,如果你看房价和手机使用率的相关性,在过去的二十年里它们也一定是正相关的。 那么为了买得起房,大家不应该少用手机吗? 这都是显而易见的,对吧?

4、第四种,虽然普遍认为存在相关性,但其背后的机制却无法被证明,或者不能确定谁是因、谁是果。

大家都知道,上面那个吸烟让人长寿的例子是谎言,但“吸烟可能导致肺癌”却是公认的观点。 但事实上,从20世纪初至今,这种因果关系一直受到科学界的质疑或怀疑。 例如,肺癌和吸烟习惯背后是否存在人们尚未发现的共同遗传因素? 大家都知道现代统计学之父RA吧? 至少学统计学的同学可能认识他。 他当时甚至认为,不能排除“肺癌导致吸烟”的可能——也许人们在即将患上肺癌时,开始感到不舒服或烦躁,比平时更容易吸烟。此时的香烟。 回复。 这个论点现在看来可能有点荒唐,但它确实为我们走出一条不走寻常路的逻辑之门,避免我们陷入八股思维的陷阱。

证明因果关系非常困难。 因果关系不能简单地从表面的相关性中直接推论出来,我们在日常生活或科学研究领域经常犯这样的错误。 有很多方法可以验证因果关系的存在。 例如,我们可以进行实验研究(study),或者使用倾向得分匹配(score)等统计技术进行观察性研究(study)。

有朋友说,在大数据时代,我们最关心的是预测未来,比如预测股票走势、预测地震台风、预测城市发展前景等等。 其实你可以忽略这么复杂的因果关系,只要知道其中的相关性就足够了。 是的,“预测”()是数据分析的主要目的之一。 如果你知道下个月的冰淇淋销量,你几乎可以预测溺水死亡人数。 或者反过来,如果知道某个时期内溺水死亡的人较多,也可以估计这段时间冰淇淋的销售业绩不会太差。 在预测层面上,您并不关心冰淇淋销售是否直接导致溺水死亡人数的变化。

但更多的时候,我们需要了解事物之间的内在机制,尤其是在科学研究领域。 例如,当提出“优质胆固醇会降低心血管疾病风险”这样的说法时,仅仅研究优质胆固醇与心血管疾病的关系显然是不够的。 您必须确保增加这种胆固醇的摄入量实际上会直接导致心血管疾病风险的降低,而不是其他一些幻想。

数据分析和最终公开声明之间存在一个被忽视的差距。 这种差距的一方面是“表面相关性”,另一方面是“机械因果关系”。 然而,我们常常忽略了这个差距。 意识里变得模糊了。 有时这种因果关系并不重要。 例如,如果您只关心预测,那么您可以停止谈论相关性,一切都会好起来的。 不要犯太多错误。 有时候,因果关系本身就很重要,这就需要我们用更加仔细、严谨的统计思维和方法来进一步探索因果关系的存在。 如果直接从关系中迈出一大步,就算你有两米大长腿,也难逃掉进沟里的命运。

本文内容参考了以下文章:

免责声明
本站所有收录的学校、专业及发布的图片、内容,均收集整理自互联网,仅用于信息展示,不作为择校或选择专业的建议,若有侵权请联系删除!

大家都在看

西安科技大学取消本科三批,保留本科一批,不属于985、211

西安科技大学取消本科三批,保留本科一批,不属于985、211

西安科技大学在陕西是第一批次本科招生,在全国很多地方也是本科一批招生,所以通常认为西安科技大学是一本大学。2019年起陕西省合并原本科二批和本科三批为新的本科二批,保留本科一批
2024-04-24
影响因素分析的生活实例、原理、方法、误区!

影响因素分析的生活实例、原理、方法、误区!

史上最坑爹的数学题推荐!
2024-04-24
新高考模式是什么,有哪些变化?

新高考模式是什么,有哪些变化?

推进九年的新高考制度改革,现在怎么样了(1),赋分,高考改革,填报志愿,高考总分,表演系考生,高考制度改革
2024-04-24
2014“十大热门行业”:年薪4万~15万元

2014“十大热门行业”:年薪4万~15万元

2014十大最热门行业排行榜(新版),2014十大最热门行业排行榜(新版)  2014年最热门的行业是什么?严峻的就业形势
2024-04-24
第三批改革省份发布高考改革方案去年秋季入学高一学生开始实施

第三批改革省份发布高考改革方案去年秋季入学高一学生开始实施

第三批改革省份发布高考改革方案 去年秋季入学高一学生开始实施昨天,全国第三批启动高考综合改革试点的8个省份——河北、辽宁、江苏、福建、湖北、湖南、广东、重庆发布了实施方案
2024-04-24
2017年大数据专业就业前景怎么样呢?

2017年大数据专业就业前景怎么样呢?

近两年大数据专业越来越热门,大数据领域的岗位还是比较多的,这也是大数据开始全面落地应用的必然结果。大数据专业就业前景怎么样?下面就和小编一起来看看吧。1 大
2024-04-24
2016年江西口腔医学专业大专分数线补充情况说明书

2016年江西口腔医学专业大专分数线补充情况说明书

1分钟前发布 -【江西口腔医学专业大专分数线(江西医学院口腔医学系录取分数线)】 www.kaoyan8.net 04月24日讯:
2024-04-24
大数据业务架构师,未来的三十年都属于紧俏行业

大数据业务架构师,未来的三十年都属于紧俏行业

近年来,互联网行业发展风起云涌,而移动互联网、电子商务、物联网鸡社交媒体的快速发展更促使我们快速进入大数据时代。现在大数据行业已经全面覆盖,纵观未来的三十年都属于紧俏行业
2024-04-24
微电子学专业养具有坚实的数理基础

微电子学专业养具有坚实的数理基础

微电子就业前景
2024-04-24
进一步深化我省高考综合改革试点的意见(全文)

进一步深化我省高考综合改革试点的意见(全文)

湖北,湖北省,湖北教育,湖北省教育,湖北省教育考试院
2024-04-24