环球聚焦:集中趋势指标包括哪些方面(集中趋势指标包括哪些方面)

来源:财经窝  发布时间:2023-01-26 07:40:45 

当我们有了想要分析的原始数据,首先需要对这些数据的基本情况有一个最初的了解和认识,然后在这个基础上进行下一步更全面,有针对性的分析。怎么了解数据的基本情况?有两种方法,频数分析和描述性分析。


【资料图】

根据数据的类型不同,可以选择不同的方法,如果数据是定类的数据,比如性别(男、女),就可以选择频数分析。

而如果数据是定量数据,这时候就可以使用描述性分析来探索数据。

这篇文章主要分享描述性分析的相关指标以及如何分析。

描述性分析就是用少数几个数值(比如平均值、中位数等)描述一系列复杂数据所表达的信息,比如描述数据的整体分布情况、波动情况、数据异常情况。

描述性统计指标大致可分为三类:集中趋势指标、离散趋势指标和分布形态指标。

(1)集中趋势指标

①众数

众数是值指出现次数最多的那个变量值。

比如有一组数据:一个班学生分数分别为60 70 70 80 90 100,其中除了70分出现了两次,其他值都只出现一次,那么70分就是出现次数最多了,也就是众数为70。

不过关于众数还会出现下面的情况:

有的数据中会没有众数或者存在多个众数。

没有众数:比如这组数据:一个班学生分数分别为:50 60 70 80 90 100,它们每个分数值都只出现一次,这种情况的数据就没有众数。

有多个众数:比如一个班学生分数分别为:50 60 60 70 80 80 90 100,其中60分和80分这两个值都出现了两次,说它们哪个是众数呢?那就它俩都是众数了。

所以你要在一组数据中找众数,可能会碰到三种情况,①没有众数,②一个众数 ③两个或多个众数。所以它不像平均值,对一组数据求平均值,就可以得到唯一的一个值,这个算是众数的一个特点——不唯一性。

②平均数

平均数又称均值,是最常用的一个数据代表值,平均数既可以描述一组数据本身的整体平均情况,也可以用来作为不同组数据比较的一个标准。

根据样本数据的不同格式,这里介绍两种常见的算术平均数的计算方法,一种是简单算术平均数,另一种是加权算术平均数。

我们都知道在进行数据分析时,通常有两种数据格式。一种是常规格式(非加权格式),另外一种是加权数据格式。分别说明如下:

常规数据格式→简单算术平均数

第一种常规格式(非加权格式),一行代表一个样本,如果有100个样本即为100行;一列代表一个属性;这类格式最为常见,而且此类数据格式可以做任何的分析。因为其携带着所有最原始的数据信息。类似如下表:

此时使用简单算术平均数计算,公式:

这就是我们小学学的计算平均值的方法,把要算的这组数据的每个数相加,然后除以样本数。

加权数据格式→加权算术平均数

比如收集100个样本,最终男性40名,女性60名,录入的数据为汇总统计数据,单独一列(或多列)表示各类别的样本数量;如下表:

这种数据格式就不是原始的数据,而是经过分组整理了,使用加权算术平均数计算,公式:

极端值情况

从公式可以看出,平均值的计算与样本的每一个数值都有关,所以比较有代表性,但是在数据没有极端值的情况下,如果出现极端值,平均数就有可能不足以代表大多数样本个案的性质。

比如,一个班的五位学生考试成绩分别为:10 70 80 90 100。

根据数据格式,算一下它的算术平均值:

M(5位学生)=(10+70+80+90+100)/5

=70

这五位学生的算术平均值是70分,观察原始数据,有四位学生的分数大于或等于70分,只有一位学生分数低于70分,判断出来,用70分来代表这组数据的集中情形是不恰当的。再观察原始数据,是10这个极端值,一下拉低了整个平均分,所以我们去掉这个10分的考试成绩再算一下剩下四位学生的算术平均值:

M(四位学生)= (70+80+90+100)/4

=85

85分就可以比较好的代表4位学生的集中趋势了,两位同学分数低于85,两位高于85分。

③中位数

中位数是样本数据升序排列后的最中间的数值,如果数据偏离较大,一般用中位数描述整体水平情况。

中位数的计算分两种情况:

当数据个数为奇数时,中位数即最中间的数,如果有N个数,则中间数的位置为(N+1)/2

比如,一个班的5位学生的成绩分别为:30 70 40 50 80,中位数是什么呢?

①先把这五个分数从小到大排序:30 40 50 70 80。

②算出中位数应该在排序后的数列中的位置:(5+1)/2=3。

③所以中位数就正好是处在第三个位置的分数值,即50。

当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法是(N+1)/2。

比如,一个班有六位学生,考试成绩分别是:30 70 80 40 90 60,中位数是什么呢?

①先把这五个分数从小到大排序:30 40 60 70 80 90。

②算出中位数应该在排序后的数列中的位置:(6+1)=3.5。

③因为位置必须是整数,但现在是小数,所以为了公平,把在3.5左右两个位置(第三位和第四位)都拿出来。取两个位置的分数值的平均值作为中位数:(60+70)/2=65。

从中位数的计算方法可以看出,它和每个数据的位置有关系,所以如果有极端值出现,无论是特别大或特别小的极端值,都会因为对所有样本数据排序的这个动作,而被排列到某个数列的两端去,它不会有机会被排序到中间位置,而中位数是最中间位置的数,所以极端值不会影响到中位数,这样当有极端值出现,我们无法用平均值很好的描述数据情况,就可以使用中位数。

(2)离散趋势

①极差(全距)

极差的计算很简单,极差等于最大值减最小值,因为计算简单,概念清晰,所以应用比较广泛。

比如,有一组同龄男孩的身高(cm)分别为:90 95 100 105 110,算出极差。

①首先找出最大值和最小值:90,110

②极差等于最大值减去最小值:110-90=20

易受极端值影响

既然极差这个值是由一组数据中的最大值和最小值来确定的。相应的就需要考虑一个问题,数据的最大最小值是正常数据,算下来的极差对分析数据的离散特征的确是有意义的;但假如数据存在极端值,极差会受到影响。

②四分位数

四分位数是把全部数据从小到大排列并分成四等份,处于三个分割点位置的数值,即为四分位数:

上四分位数(数据从小到大排列排在第75%的数字,即最大的四分位数)

下四分位数(数据从小到大排列排在第25%位置的数字,即最小的四分位数)

中间的四分位数即为中位数

四分位数可以很容易地识别异常值。多应用于统计图中的箱线图绘制,箱线图就是根据四分位数做的图。

四分位数和中位数的计算方法一样,不同是中位数要找的是位于排序数列被分为两半后最中间的数,四分位数要找的是数据被分为四段,从左到右在1/4处的数和从右到左找在1/4处的数。

③方差与标准差

方差是每个数据值与全体数据的平均数差的平方的平均数。标准差是对方差开方。方差与标准方差与标准差反映一组数据的平均离散水平。方差小,表示数据集比较集中,波动性小,方差大,表示数据集比较分散,波动性大。

方差计算公式:

标准差是方差的正平方根:

如:一组数据 2,5,8。 计算方差和标准差。

先求平均数 (2+5+8)/3=5

然后方差:把数据带入方差公式得到

标准差:给方差开平方

④变异系数

变异系数,也叫离散系数,是标准差和平均值的比值。用于观察指标单位不同时,如身高与体重的变异程度的比较:或均数相差较大时,如儿童身高与成人身高变异程度的比较。变异系数大,说明数据的离散程度大。

变异系数计算公式:

如:某地7岁男孩身高的均数为123.10cm,标准差为4.71cm;体重均数为22.92kg,标准差为226kg,此处不能因为4.71>2.26,就说身高的变异比体重要大,而要考虑到两者的单位不同,无法直接比较,故采用变异系数来解决这类问题,它实质上是一个相对变异指标,无单位。

上述7岁男孩身高、体重的变异系数分别为

身高:CV=(4.71/123.10)×100%=3.83%

体重:CV=(2.26/22.29)×100%=10.14%

可得7岁男孩身高比体重的变异小。

(3)分布趋势

①峰度:描述正态分布中曲线峰顶尖哨程度的指标。峰度系数0,则两侧极端数据较少,比正太分布更高更瘦,呈尖哨峰分布;峰度系数<0,则两侧极端数据较多,比正态分布更矮更胖,呈平阔峰分布。

②偏度:以正态分布为标准描述数据对称性的指标。偏度系数=0,则分布对称;偏度系数0,则频数分布的高峰向左偏移,长尾向右延伸,呈正偏态分布;偏度系数<0,则频数分布的高峰向右偏移,长尾向左延伸,呈负偏态分布。

使用SPSSAU可以一键快速完成对数据的描述性分析,得出描述性分析的结果。

(1)方法

使用【通用方法】-【描述】,选择要分析的分析项,【开始分析】。如下图

SPSSAU 描述分析

(2)结果:

①自动输出结果表格,论文标准格式(三线表)

基础指标

深入指标

百分位数

②自动输出可视化图表。

SPSSAU目前提供常用的图形,包括折线图、柱形图、条形图、雷达图,方便下载使用。

折线图

柱形图

条形图

雷达图

另外图形的样式也可通过下方【样式】更改:

标签: 四分位数 数据格式 算术平均数

关闭

环球聚焦:集中趋势指标包括哪些方面(集中趋势指

当我们有了想要分析的原始数据,首先需要对这些数据的基本情况有一个最初的了解和认识,然后在这个基础上进行下一步更全面,有针对...更多

2023-01-26 07:40:45

天天快报!央行100亿逆回购是什么意思(央行100亿逆

央行逆回购重启,投放100亿,但操作利率维持不变,降息预期落空,收益率大幅上行,10年期国开活跃券190215收益率全天上升5 51bp报3...更多

2023-01-26 07:53:47

当前时讯:强赎触发价什么意思?(强赎触发价什么意

投资者可以投资的渠道还是很多的。而股票系统肯定是投资者绕不开的话题。在股票系统里面,可以操作的领域也要比我们想象的多得多。...更多

2023-01-26 06:41:20

货币资金包括哪三项(货币资金包括哪三个部分)

t货币资金包括哪些方面? t货币资金是指库存现金、银行存款和其他货币资金三个总账账户的期末余额,具有专门用途的货币资金不...更多

2023-01-26 06:37:36

环球简讯:银行卡信息不完善是怎么回事(银行提示此

在今天得知学校可能会给下学期未返校的学生退住宿费,我就去看了一下学校给发的银行卡,因为学校要交的费用都是用这张卡来进行交易...更多

2023-01-26 06:50:47

今日报丨转账二十四小时没到账怎么办(跨行转账4天

手机银行跨行转账,钱扣了对方迟迟不到账,这该怎么办?2018年9月14日早8时许。李先生(化名)用一家商业银行的手机银行,跨行向他...更多

2023-01-26 05:44:37

当前关注:红字冲销什么意思(红字冲销什么意思)

什么是发票的红冲呢?总听会计这么说呢,我也不懂,也不敢问。红冲就是红字冲销,说简单点就是开一个负数。我给你举个例子,一家公...更多

2023-01-26 05:49:19

无卡是否可以存款(不带卡可以存款吗)

银行卡给我们日常生活带来了极大便利,每月的工资会发放到银行卡中,外出消费可以直接使用银行卡刷卡,转账可以登录到手机银行来完...更多

2023-01-26 05:53:01

林木不动产权证可以贷款吗(没有林权证可以去银行

一、有不动产权证可以贷款吗有不动产证可以申请抵押贷款。根据规定,不动产证可以说是房产在买卖、交换、租赁和抵押时必须出具的重...更多

2023-01-26 05:43:33

微资讯!2022年房贷利率是降还是升(银行利率表202

推荐语:房地产市场一直是很多人关心的事情,毕竟现如今大部分普通家庭的财富都放在了房子上。因此,无论是房子升值还是贬值,对普...更多

2023-01-26 05:37:22