《商务与经济统计》学习笔记。4.21更新

上周一到现在,10天前八章刷了一遍,不做习题,明显能感觉到由于基础概念/公式理解的浅,到概率和抽样时理解的很慢。后面的总体方差和回归分析先放一下,重新回顾下任何看到名词解释不清概念用途的知识点,配合R来做练习。这次会完善一部分概念,均以这种形式在原笔记中补充显示。——2016.4.21

一、数据与统计资料

量化分类

对统计来说,所有数据都可量化。量化的方法有四种:定量、定比、定序、定类。

  • 定类/名义尺度:个体属性标记或名称(文字分类),比如姓名。
  • 定序/顺序尺度:名义尺度有顺序意义,比如ABCD成绩。
  • 定距/间隔尺度:顺序尺度可计算,比如成绩
  • 定比/比率尺度,间隔尺度的基础上,有比率关系,比如成本是另一个的n倍。

以上,前两者称为分类型数据,后两者为数值型数据

时间分类

为了方便统计,从时间上可以分为:

  • 截面数据:同一时间全部
  • 时间序列数据:全部时间部分

二、描述统计

为了便于理解,把数据以表格、图形或数值方式汇总的统计方法。

表格与图形

展示数据分布的图形

  • 条形图:分类型数据、频数分布和相对频数分布
  • 饼形图:分类型数据、相对频数分布和百分数频数分布
  • 打点图:数值型数据、整个数据范围的分布
  • 直方图:数值型数据、区间集合上的频数分布
  • 茎叶图:数值型数据、等级顺序和分布形态

进行比较的图形

  • 复合条形图:两个变量比较
  • 结构条形图:比较两个分类变量的相对频数和百分数频数

展示相关关系的图形

  • 散点图:两个数量变量的相关关系
  • 趋势线:近似散点图中数据的相关关系

注意

  1. 频数分布——分组的目的是用足够多的组来显示数据的变异性。
  2. 直方图——在商务和经济中得到的数据常使直方图右偏,如果房屋价格、工资、销售量等。
  3. 辛普森悖论(Simpson’s paradox):综合表和未综合表得到相反的结论。法官受理案件的例子。要特别注意,在判断综合表时是否存在可能影响结论的隐藏变量,使之有不同见解。
  4. 数据仪表板(data dashboard)——最大限度减少滚屏的需要,避免不必要的颜色,尽可能的不要三维显示。
  5. 地理数据可视化——地理信息系统(GIS)。

数值

除了表格和图形,还有几种数据汇总的度量方法。
不同于表格和图形这样直观的反应现象的描述。数值统计方法作为数据“之上”的现象反应,存在的意义是在不写出所有值的情况下,对数据集有更好的了解。

位置的度量’’’用一个数代表所有集合’’’

  • 平均数——常用、易受极值影响——调整平均数。
  • 加权平均数——常用,比如GPA计算,观测重要变化时,分析人员必须能很好的选择反应每个观测值的权重。
  • 中位数——有异常值时,度量中心位置。
  • 几何平均数——适用乘法过程,如增长率等。需要复习基金的例子
    x_{g}=sqrt[n]{x_{1}x_{2}…x_{n}} ←←它显示错了不是我的锅*
  • 众数——三个及以上的众数意义不大。
  • 百分位数——如何在区间内散布。第50百分位数同时也是中位数。
  • 四分位数——Q_{2}第二四分位数同时也是中位数。

变异程度(离散程度)的度量

平均值等能衡量一个sets的集中趋势,但不能代表所有数字,”方差”可以.

在交货的例子中,交货时间的变异程度往往是选择供应商的主要考虑因素。

  • 极差——受异常值影响。
  • 四分位数间距(IQR)——Q_{3}-Q_{1},四分位数的间距是中间50%数据的极差。
  • 方差——比较两个或以上变量,较大方差显示其变异程度也大。
    此处应有公式,用R做下相关的一个练习
  • 标准差——方差的正平方根,因为单位与原数据一致便于比较。
  • 标准差系数——在比较具有不同标准差和不同平均数变量的变异程度时用。

σ_2 并不是变量的平方,而是它本身就是个变量(就是希腊字母的s)。(x_i-μ)_2 平方是为了得到整数,含义为距离绝对值的平方。由于样本选取的问题,均值可能不能代表总体,甚至不包含总体值。所以s_2通常比σ_2 要小。还有一个更好的公式:总体方差的无偏估计,分母为n-1,比/n的值更大。
σ_2的期望值=s_2,但σ的期望值不=s

分布形态、相对位置的度量

  • 分布形态——左偏的数据,偏度是负数,同理。
  • z-分数——确定一个特殊的数值距平均数有多远,标准化数值。意义不明:用于使用经验法则来判断分布比例。

切比雪夫定理(Chebyshev’s theorem)

适用于任何数据集,呈现的是一个比例:数据值与平均数之间的距离在标准差内的比例分布。

  • 至少75%的数据值与平均数的距离在z=2个标准差之内。
  • 至少89%的数据值与平均数的距离在z=3个标准差之内。
  • 至少94%的数据值与平均数的距离在z=4个标准差之内。

经验法则

如果数据集呈现正态分布的话,则可以使用更精确的经验法则。

  • 至少68%的数据值与平均数的距离在z=1个标准差之内。
  • 至少95%的数据值与平均数的距离在z=2个标准差之内。
  • 几乎所有的数据值与平均数的距离在z=3个标准差之内。

延伸的,可以用z-分数确定异常值,正太分布的数据由于几乎都在3个标准差之内,所以z-分数大于3或少于-3的值都可以算作异常值。

五数概括法与箱形图

五数指最小值、最大值、Q1、Q2、Q3。
箱形图是在五数的基础上画出可视化的箱状区间,箱身的范围是Q1和Q3,延伸至min,max显示,非常适合多组对比。

两个变量之间的度量:协方差和相关系数

  • 协方差:描述两变量间线性关系度量。【此处应有公式】
    在四象限图中能清晰的显示,如果协方差是正值表示强的正线性相关关系,同理。

    两变量单位不一致时,协方差的数值就不准确了,例如身高和体重(g)or身高和体重(kg),为了避免这种情况,可以使用相关系数。

  • 相关系数

    注意:协方差和相关系数提供了线性的度量,但不是因果。例如饭店的质量和餐价,一方并不会带动另一方变动。


三、概率

概率是对某特定事件发生的可能性的数值度量。

样本值与事件

  • 样本空间:所有可能结果的集合
  • 样本点:某个试验结果(对样本点进行确认和计数是计算概率的基础)
  • 事件:样本点的集合
  • 事件的概率:=事件中样本点的概率和。

有三种计数方法:

多步骤试验

循序的列出每一步分试验结果(可脑补下树形图)。

组合

【此处应有公式】
无放回随机抽取时可用组合来计算有多少不同样本。

排列

排列不同于组合的地方在于它考虑顺序。

有了计数之后,有三种常用方法为结果分配概率:

古典法

各种试验结果等概率发生,eg硬币。某一事件的概率=这一事件的数目/总数。

相对频数法

适用于试验可用大量重复进行,并能取得实验结果发生比率的数据。

主观频数法

主观法主要是个人的置信度。

基本性质

当存在大量样本点时,统计每个样本点和分配概率是很繁重的工作。而概率的一些基本性质可以使我们在不知道样本点概率的情况下计算事件的概率。

  • 事件的补:事件A的补是所有事件A之外的样本点,P(A_c)=1-P(A)
  • 事件A和B的并(或):A ∪ B
  • 事件A和B的交(且):A ∩ B

加法公式

P(A∪B) = P(A) + P(B) - P(A∩B)

在互斥事件(没有公共样本点)中,P(A∪B) = P(A) + P(B)

条件概率

P(A|B):事件B发生的条件下事件A发生的概率。

P(A|B) = P(A∩B) / P(B)

独立事件中,P(A|B) = P(A)

乘法公式

P(A∩B) = P(B)P(A|B)

独立事件中,P(A∩B) = P(A)P(B)

贝叶斯定理

在获得新的信息后对概率进行修正是重要的概率分析手段。贝叶斯定理是将主观确定的先验概率与其他方法得到的概率结合,得到修正后的后验概率。

先验概率-→新信息-→应用贝叶斯定理-→后验概率

【此处应有公式】

一般使用贝叶斯定理时,计算后验概率的事件是互斥的,并且它们的并集会构成整个样本空间。


四、离散型概率

离散型概率分布

随机变量

随机变量其实是个函数,随机过程中映射到数值的函数。比如下不下雨、0和1

随机变量根据取值可以分为离散型连续型。其中连续型随机变量不是说数值连续,而是区间内的任意值都可以是随机变量。

离散的变量可以枚举出来,而连续是无限的。把它们区分开是因为在概率分布上有些差别。并且连续变量不能计算“点值”。以下雨量为例,P(y=2)=0.5,ml是错的,因为下雨量不会刚好是2,可能是1.9,、1.9999,因此在2的概率接近0,只能算计y在1.9-2.1之间的概率。

根据相对频数法建立离散型概率分布可得到经验离散分布

数学期望/均值

随机变量的数学期望是对随机变量中心位置的一种度量。

E(x) = μ = Σxf(x)

数学期望是随机变量取值的加权平均,其中权数是概率。eg:对销售量来说,数学期望是每日销售量的加权平均值。

方差

方差来度量随机变量的变异性或分散程度。

Var(x) = σ_2 = Σ(x-μ)_2f(X)

二项概率分布

二项试验

  1. 试验由一系列相同的n个试验组成。
  2. 每次试验由两种可能的结果,我们把一种称为成功,一种称为失败。
  3. 每次试验成功的概率是相同的,用p来表示;失败的概率也都相同,用1-p表示。
  4. 试验是互相独立的。

如果x代表试验中成功的次数,它所对应的概率分布则称为二项概率分布。

n次试验中恰有x次成功的试验结果个数:(n x) = n! / x!(n-x)!,式中,n! = n(n-1)(n-2)…(2)(1),并定义0!=1

二项概率函数=次数*每次成功的概率。

二项分布的数学期望与方差

【此处应有公式】

泊松概率分布

主要用于估计在特定时间段或空间中某件事件发生的次数。

如果事件出现的次数满足以下两个性质,则随机变量服从泊松概率分布(经常用来模拟排队时随机到达的数目)。

  1. 在任意两个相等长度的区间上,事件发生的概率相等。
  2. 事件在某一区间上是否发生与事件在其他区间上是否发生是独立的。

【此处应有公式】

超几何概率分布

与二项分布类似,也用来计算n次试验中有x次成功的概率。不同处在于:超几何分布中的各次试验不是独立的,各次试验中成功的概率不等。

【此处应有公式】


五、连续性概率分布

与离散型概率最根本的不同是:离散型概率f(x)计算的是某个特定值的概率;连续性概率f(x)计算的是某个区间内取值的概率。

一旦确定了概率密度函数f(x),则x在区间[x_1,x_2]内取值的概率可通过计算在区间[x_1,x_2]上曲线f(x)下的面积得到。

正太概率分布

正太曲线

正太曲线同时也是一条钟形曲线(请脑补

【此处应有正太概率密度函数】

正太曲线的两个参数μ和σ,确定了正太分布的位置和形状。

标准正太概率分布

如果一个随机变量服从均值为0且标准差为1的正太分布(μ和σ固定),则称该随机变量服从标准正态概率分布。

【此处应有标准正态密度函数】


六、抽样与抽样分布

抽样

选取样本的目的是为了收集用于推断所需的数据,并回答关于总体的研究问题。但抽样结果提供的仅仅是相应总体特征值的估计。

从有限总体中抽样

简单随机样本:从容器为N的有限总体中抽取一个容易为n的样本,如果容量为n的每一个可能的样本都以相等的概率被抽出,则称为简单随机样本。具体还可分为无放回抽样和放回抽样。

从无限总体中抽样

由于无法构建一个包含全部个体的抽样框,因此无法抽取一个简单随机样本。随机样本:从一个无限总体中抽取一个容量为n的样本,要满足下列条件:1.抽取的每个个体来自同一总体;2.每个个体的抽取是独立的。

点估计

对样本的统计过程(方差、标准差等)称为点估计,点估计值和总体参数的真值存在差异,但这个差异是可以预期的。

抽样分布

我们称简单随机样本的抽样结果x的概率分布为抽样分布。抽样分布分知识和性质使我们能够对样本均值x与总体均值μ的接近程度做一个概率度量。

x的抽样分布

【待续】

p的抽样分布

点估计的性质

其他抽样方法