一、数据分析简介
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。
二、数据分析类型
统计学领域,将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。
探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。
定性数据分析又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。
三、数据分析步骤
典型的数据分析可能包含以下三个步:
(1)探索性数据分析:当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。
(2)模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。
(3)推断分析,通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。
四、数据分析方法
(1)描述性统计分析
包括样本基本资料的描述,作各变量的次数分配及百分比分析,以了解样本的分布情况,利用t检验及相关分析对背景变量所造成的影响做检验。
(2)信度系数分析
信度是指测验结果的一致性、稳定性及可靠性,一般多以内部一致性来加以表示该测验信度的高低。信度系数愈高即表示该测验的结果愈一致、稳定与可靠。
(3)探索性因素分析和验证性因素分析
探索性因子分析法是一项用来找出多元观测变量的本质结构、并进行处理降维的技术。因而,EFA能够将具有错综复杂关系的变量综合为少数几个核心因子。对于主因子分析法来说,不存在异常值、等距值、线形值、多变量常态分配以及正交性等情况。验证性因子分析是对社会调查数据进行的一种统计分析。它测试一个因子与相对应的测度项之间的关系是否符合研究者所设计的理论关系。
(4)结构方程模型分析
由于结构方程模型结合了因素分析和路径分析,并纳入计量经济学的联立方程式,可同时处理多个因变量,容许自变量和因变量含测量误差,可同时估计因子结构和因子关系。
容许更大弹性的测量模型,可估计整个模型的拟合程度,因而适用于整体模型的因果关系。在模型参数的估计上,采用最大似然估计法;在模型的适合度检验上,以基本的拟合标准、整体模型拟合优度以及模型内在结构拟合优度三个方面的各项指标作为判定的标准。
五、实体案例
价格是企业估值的核心指标。在价格分析中,我们把煤炭价格放到一个较长的时间空间中进行趋势分析和阶段周期性不规则预测分析,即从1978年到2014年分为四个周期进行分析,在此基础上进行了2015年到2027年销售价格的预测,其结果显示:1978年到2014年中国煤炭价格每年平均增长8.9%,第一个周期为从1978年到1987年,增长率为5.8%;第二个周期为从1988年到1997年,增长率为15.3%;第三个周期为从1998年到2007年,增长率为6.6%;第四个周期为从2008年到2014年,增长率为-0.4%。预测期间,从2015年到2025年增长率为3.8%。与从1978年到2014年的增长率相比,放缓了5.1个百分点。其中:2015年到2025年预测价格分别为:420元/吨、456元/吨、510元/吨、623元/吨、557元/吨、591元/吨、638元/吨、662元/吨、573元/吨、576元/吨、612元/吨。
运用周期性时间序列分解法Y=T*S *I,(其中:Y是预测后的煤炭销售价格,T是煤炭实际销售价格和后十年长期趋势数值,S是周期因素,I是不规则因素);S值运用时间序列平滑技术得到,I是取一个周期的平均值。
第一步:列出1978年-2014年对应的销售价格和网上公布的2015年-2017年的预估数(如下表)
第二步:用回归计算2018年到2025年的预测数值。
回归方程为:Tt=-104+15.7*t
第三步:周期指数S的计算
首先,我们通过平滑技术消除周期因素和不规则因素的影响,计算调整后的时间序列(见《销售价格预测表》“十项移动平均”),由于第一次移动平均的步长为偶数,所以需要作第二次移动平均(见《销售价格预测表》“居中平均”),之后用Y/T得到S*I的值。
其次,为了消除不规则因素影响,我们对上面得到的S*I进行重新排列(如下表),并计算出每个周期下的S值。
第四步:计算不规则指数I值
通过上面的计算得到了S*I的值和上一步计算的S值,那么用S*I的值除以S值得出I值。最后,将I值进行平均,得出第5周期的I值为
第五步:计算下一个周期的煤炭销售价格
通过上面计算得出的T(长期趋势下的销售价格),S(周期因素),I(不规则因素),再根据Y=T*S*I,得出煤炭销售价格为
通过上表可以看出:
1、2015年以后,煤炭价格将趋稳回升且逐步上升。以2014年为中点,其前后八年的平均值相近,后八年比前八年多9元/吨,上升1.6%;
2、从增长幅度看,预测值与产量、销量和增长速度也基本相近,比产量增长速度低1.38%,比销费量增长速度高0.73%,比前八年的价格增速低1.64%。价格的增长将趋于理性。


