概率论知识总结(通用3篇)

概率论知识总结 第1篇

数学期望(Expectation)是试验中每次可能的结果乘以其概率的总和,也就是是该随机变量输出值的加权平均。它的意义是,一个随机试验在同样的机会下重复多次,所有可能状态平均的结果,便基本上等同“期望值”所期望的数。大数定律规定,随着重复次数接近无穷大,结果数值的算术平均值一定收敛于期望值。

1). 对于离散型随机变量: E ( X ) = ∑ i a i p i E(X)=\sum_{i} a_{i }p_{i} E(X)=i∑​ai​pi​ 2). 对于连续型随机变量: E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X)=\int_{-\infty}^{+\infty} x f(x) d x E(X)=∫−∞+∞​xf(x)dx 3). 常用分布的期望和xxx

离散型:

连续型:

X ∼ R ( a , b ) X \sim R(a, b) X∼R(a,b)(均匀分布): E ( X ) = a + b 2 E(X)=\frac{a+b}{2} E(X)=2a+b​ D ( X ) = ( b − a ) 2 12 D(X) = \frac{(b-a)^2}{12} D(X)=12(b−a)2​

X ∼ E ( λ ) X \sim E(\lambda) X∼E(λ)(指数分布): E ( X ) = 1 λ E(X)=\frac{1}{\lambda} E(X)=λ1​ D ( X ) = 1 λ 2 D(X) = \frac{1}{\lambda^2} D(X)=λ21​

X ∼ N ( μ , σ 2 ) X \sim N\left(\mu, \sigma^{2}\right) X∼N(μ,σ2)(正态分布): E ( X ) = μ E(X)=\mu E(X)=μ D ( X ) = λ 2 D(X) = \lambda^2 D(X)=λ2

3). 二维随机变量的期望

(1). 对于离散型随机变量 ( X , Y ) (X,Y) (X,Y),已知 P ( X = a i , Y = b j ) = p i j i , j = 1 , 2 , . . . P\left(X=a_{i}, Y=b_j\right)=p_{i j} \quad i, j=1,2,... P(X=ai​,Y=bj​)=pij​i,j=1,2,...

若 Z = g ( X , Y ) Z=g(X,Y) Z=g(X,Y)是 X 、 Y X、Y X、Y的函数,则:

E ( Z ) = ∑ i , j g ( a i , b j ) ⋅ p i j E(Z)=\sum_{i,j} g\left(a_{i}, b_{j}\right) \cdot p_{ij} E(Z)=∑i,j​g(ai​,bj​)⋅pij​

(2). 对于连续型随机变量 ( X , Y ) (X,Y) (X,Y),已知 f ( x , y ) f(x,y) f(x,y)为它的联合概率密度函数

若 Z = g ( X , Y ) Z=g(X,Y) Z=g(X,Y)是 X 、 Y X、Y X、Y的函数,则:

E ( Z ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ g ( x , y ) f ( x , y ) d x d y E(Z)=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x, y) f(x, y) d x d y E(Z)=∫−∞+∞​∫−∞+∞​g(x,y)f(x,y)dxdy

4). 期望的性质

(1). 假设 k , l , c k,l,c k,l,c都是常数,则:

E ( k ⋅ X + l ⋅ Y + c ) = k ⋅ E ( X ) + l ⋅ E ( Y ) + c E(k \cdot X+l \cdot Y+c)=k \cdot E(X)+l \cdot E(Y)+c E(k⋅X+l⋅Y+c)=k⋅E(X)+l⋅E(Y)+c

(2). 当 ( X , Y ) (X,Y) (X,Y)相互独立时:

E ( X Y ) = E ( X ) ⋅ E ( Y ) E(X Y)=E(X) \cdot E(Y) E(XY)=E(X)⋅E(Y)

协xxx(Covariance)用于衡量两个随机变量的联合变化程度。如果变量X的较大值主要与另一个变量Y的较大值相对应,而两者的较小值也相对应,那么两个变量为正相关,协xxx为正,反之协xxx为负。也就是说协xxx的正负符号反映两变量的相关性。而协xxx的数值大小因取决于具体变量的大小。

定义和计算:

cov ⁡ ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } = E ( X Y ) − E ( X ) E ( Y ) \operatorname{cov}(X, Y)=E\{[X-E(X)][Y-E(Y)]\}=E(X Y)-E(X)E(Y) cov(X,Y)=E{[X−E(X)][Y−E(Y)]}=E(XY)−E(X)E(Y)

xxx(Deviation Var)用来描述一个随机变量的离散程度,是随机变量中每个值与随机变量平均值之差的平方的平均值,相当于两个相同随机变量之间的协xxx。

定义和计算:

D ( X ) = cov ⁡ ( X , X ) = E { [ X − E ( X ) ] 2 } = E ( X 2 ) − E 2 ( X ) D(X)=\operatorname{cov}(X, X)=E\left\{[X-E(X)]^{2}\right\}=E\left(X^{2}\right)-E^{2}(X) D(X)=cov(X,X)=E{[X−E(X)]2}=E(X2)−E2(X)

协xxx和xxx的一些性质:(假设 a 、 b 、 c a、b、c a、b、c为常数)

1). D ( a X ± b Y ) = a 2 D ( X ) + b 2 D ( Y ) ± 2 a b ⋅ cov ⁡ ( X , Y ) D(a X \pm b Y)=a^{2} D(X)+b^{2}D(Y) \pm 2 a b\cdot{\operatorname{cov}}(X, Y) D(aX±bY)=a2D(X)+b2D(Y)±2ab⋅cov(X,Y)

2). 当 X 、 Y X、Y X、Y相互独立时: cov ⁡ ( X , Y ) = 0 \operatorname{cov}(X, Y)=0 cov(X,Y)=0(反之不一定成立)

3). cov ⁡ ( X , c ) = 0 \operatorname{cov}(X, c)=0 cov(X,c)=0

4). cov ⁡ ( a X , b Y ) = a b ⋅ cov ⁡ ( X , Y ) \operatorname{cov}(aX, bY)=ab\cdot\operatorname{cov}(X, Y) cov(aX,bY)=ab⋅cov(X,Y)

5). cov ⁡ ( X 1 + X 2 , Y 1 + Y 2 ) = cov ⁡ ( X 1 , Y 1 ) + cov ⁡ ( X 1 , Y 2 ) + cov ⁡ ( X 2 , Y 1 ) + cov ⁡ ( X 2 , Y 2 ) \operatorname{cov}\left(X_{1}+X_{2}, Y_{1}+Y_{2}\right)=\operatorname{cov}\left(X_{1}, Y_{1}\right) + \operatorname{cov}\left(X_{1}, Y_{2}\right)+\operatorname{cov}\left(X_{2}, Y_{1}\right)+\operatorname{cov}\left(X_{2}, Y_{2}\right) cov(X1​+X2​,Y1​+Y2​)=cov(X1​,Y1​)+cov(X1​,Y2​)+cov(X2​,Y1​)+cov(X2​,Y2​)

6). D ( a X ± b Y ± c ) = a 2 D ( X ) + b 2 D ( Y ) ± 2 a b ⋅ cov ⁡ ( X , Y ) D(a X \pm b Y \pm c)=a^{2} D(X)+b^{2} D(Y) \pm 2 a b \cdot \operatorname{cov}(X, Y) D(aX±bY±c)=a2D(X)+b2D(Y)±2ab⋅cov(X,Y)

离散型:

连续型:

xxx相关系数(Pearson product-moment correlation coefficient)用于度量两个变量X和Y之间的线性相关程度,其值介于-1与1之间。它的定义式: ρ ( X , Y ) = cov ⁡ ( X , Y ) D ( X ) ⋅ D ( Y ) \rho(X, Y)=\frac{\operatorname{cov}(X, Y)}{\sqrt{D(X) \cdot D(Y)}} ρ(X,Y)=D(X)⋅D(Y)​cov(X,Y)​ 当它的值 ρ ( X , Y ) = ± 1 \rho(X,Y)=\pm 1 ρ(X,Y)=±1时,说明变量X、Y呈线性关系(1为正相关,-1为负相关),且线性相关程度随着 ∣ ρ ( X , Y ) ∣ |\rho(X,Y)| ∣ρ(X,Y)∣减小而减小,当 ρ ( X , Y ) = 0 \rho(X,Y)=0 ρ(X,Y)=0时,X、Y线性无关,此时: E ( X Y ) = E ( X ) ⋅ E ( Y ) E(X Y)=E(X) \cdot E(Y) E(XY)=E(X)⋅E(Y), D ( X Y ) = D ( X ) ± D ( Y ) D\left(X Y\right)=D(X) \pm D(Y) D(XY)=D(X)±D(Y)

xxx相关系数表示的意义意义如下图,这是几组(X, Y)的点集,以及各个点集中X和Y之间的相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向(第一排),而不是线性相关的斜率(中间),也不是各种非线性关系(第三排)。注意:中间的图中斜率为0,但相关系数是没有意义的,因为此时变量Y是0

性质:

(1). 若 X , Y X,Y X,Y满足 Y = a X + b Y=aX+b Y=aX+b,则 ρ = a ∣ a ∣ \rho=\frac{a}{|a|} ρ=∣a∣a​

(2). ∣ ρ ( X , Y ) ∣ ≤ 1 |\rho(X,Y)|\le1 ∣ρ(X,Y)∣≤1

(3). ∣ ρ ( X , Y ) ∣ = 1 |\rho(X,Y)|=1 ∣ρ(X,Y)∣=1的充要条件是:存在不为0的常数 a 、 b a、b a、b使得 P ( Y = a X + b ) = 1 P(Y=aX+b)=1 P(Y=aX+b)=1

(4). 当 X 、 Y X、Y X、Y相互独立时, X 、 Y X、Y X、Y必定不相关,此时 ρ ( X , Y ) = 0 \rho(X, Y)=0 ρ(X,Y)=0。反之不成立,但它的逆否命题成立:当 X 、 Y X、Y X、Y相关时, X 、 Y X、Y X、Y一定不独立, ρ ( X , Y ) ≠ 0 \rho(X, Y)\ne0 ρ(X,Y)​=0

概率论知识总结 第2篇

2012考研数学概率论复习必备知识点

重点内容是:事件的关系:包含,相等,互斥,对立,完全事件组,独立;事件的运算:并,交,差;运算规律:交换律,结合律,分配律,对偶律;概率的基本性质及五大公式:加法公式、减法公式、乘法公式、全概率公式、xxx公式;利用独立性进行概率计算,伯努力试验计算。

近几年单独考查本章的考题相对较少,但是大多数考题中将本章的内容作为基础知识来考核。

第二章 随机变量及其分布

本章的主要内容是:随机变量及其分布函数的概念和性质,分布律和概率密度,随机变量的函数的分布,一些常见的分布:0-1分布、二项分布、超几何分布、泊松分布、均匀分布、正态分布、指数分布及它们的应用。而重点要求会计算与随机变量相联系的事件的概率,用泊松分布近似表示二项分布,以及随机变量简单函数的概率分布。

近几年单独考核本章内容不太多,主要考一些常见分布及其应用、随机变量函数的分布。

第三章 二维随机变量及其分布

本章是概率论重点部分之一,尤其是二维随机变量及其分布的概念和性质,边缘分布,边缘密度,条件分布和条件密度,随机变量的独立性及不相关性,一些常见分布:二维均匀分布,二维正态分布,几个随机变量的简单函数的分布。

第四章 随机变量的数字特征

本章内容是:随机变量的数字特征:数学期望、xxx、标准差、矩、协xxx、相关系数,常见分布的数字特征。而重点是利用数字特征的基本性质计算具体分布的数字特征,根据一维和二维随机变量的.概率分布求其函数的数学期望。

第五章 大数定律和中心极限定理

本章内容包括三个大数定律:切xxx定律、xxx大数定律、xxx大数定律,以及两个中心极限定理:棣莫弗――xxx斯定理、列维――林德伯格定理。

本章的内容不是重点,也不经常考,只要把这些定律、定理的条件与结论记住就可以了。

常见题型有

1.估计概率的值

2.与中心极限定理相关的命题

第六章 数理统计的基本概念

数理统计的基本概念主要是总体、简单随机样本、统计量、样本均值、样本xxx及样本矩。重点是正态总体的抽样分布,包括样本均值、样本xxx、样本矩、两个样本的均值差、两个样本xxx比的抽样分布。这会涉及标准正态分布、分布、分布和 分布,要掌握这些分布对应随机变量的典型模式及它们参数的确定,这些分布的分位数和相应的数值表。

本章是数理统计的基础,也是重点之一。

1.样本容量的计算

2.分位数的求解或判定

4.总体或统计量的分布函数的求解或判定或证明

5.求总体或统计量的数字特征

第七章 参数估计

本章的主要内容是参数的点估计、估计量与估计值的概念、一阶或二阶矩估计和最xxx估计法、未知参数的置信区间、单个正态总体均值和xxx的置信区间、两个总体的均值差和xxx比的置信区间。而重点是矩估计法和最xxx估计法,有时要求验证所得估计量的无偏性。

常见题型有

1.统计量的无偏性、一致性或有效性

2.参数的矩估计量或矩估计值或估计量的数字特征

3.参数的最xxx估量或估计量或估计量的数字特征

4.求单个正态总体均值的置信区间

概率论知识总结 第3篇

一个随机试验,每一个可能出现的结果称为一个样本点,全体样本点组成的集合称为样本空间(Ω)

例:抛一枚均匀硬币2次,正反面结果样本空间Ω={正正、正反、反正、反反}

只有一个样本点的事件称为基本事件

A ⊂ B \mathrm{A} \subset \mathrm{B} A⊂B:事件A包含于事件B中

A = B \mathrm{A}=\mathrm{B} A=B:事件A与事件B相等

A ∪ B \mathrm{A} \cup \mathrm{B} A∪B:和事件,表示事件A、事件B至少有一个发生

A ∩ B \mathrm{A} \cap \mathrm{B} A∩B :积事件,表示事件A、事件B同时发生

A − B \mathrm{A}-\mathrm{B} A−B:差事件,表示仅A发生B不发生

A ∩ B = ϕ A \cap B=\phi A∩B=ϕ:事件A、事件B同时发生的事件集合为空集,表示A、B为互斥事件,不会同时发生

因为事件 A ˉ ∩ A = ϕ , A ˉ ∪ B = Ω \bar{A} \cap \mathrm{A}=\phi, \bar{A} \cup \mathrm{B}=\Omega Aˉ∩A=ϕ,Aˉ∪B=Ω,故 A ˉ \bar{A} Aˉ、 A A A互为对立事件(两事件互斥且他们共同组成全体样本空间)

P ( A B ) = P ( A ) ⋅ P ( B ) P(A B)=P(A) \cdot P(B) P(AB)=P(A)⋅P(B),两事件发生的概率互不影响,此时 P ( A ∣ B ) = P ( A ) P(A \mid B)=P(A) P(A∣B)=P(A),事件 B B B的发生不影响 A A A的发生(反之亦然)

注意区别

互斥事件:事件A、B不可能同时发生

独立事件:事件A的发生对事件B的发生没有影响(A、B必定可以同时发生)

B B B发生的条件下 A A A发生的概率:

P ( A ∣ B ) = P ( A ⋅ B ) P ( B ) P(A \mid B)=\frac{P(A \cdot B)}{P(B)} P(A∣B)=P(B)P(A⋅B)​

变换:

P ( A B ) = P ( A ∣ B ) ⋅ P ( B ) P(A B)=P(A \mid B) \cdot P(B) P(AB)=P(A∣B)⋅P(B)

 应用条件概率公式的前提条件:A、B并非相互独立事件,事件B发生之后事件A发生的概率会受到影响,  P ( A ∣ B )  可能大于  P ( A )  也可能小于  P ( A )  。尚若  A , B  相互独立,则  P ( A B ) = P ( A ) ⋅ P ( B ) ,  因   为此时P  ( A ∣ B ) = P ( A )  。  \begin{array}{l} \text { 应用条件概率公式的前提条件:A、B并非相互独立事件,事件B发生之后事件A发生的概率会受到影响, }\\ \mathrm{P}(\mathrm{A} \mid \mathrm{B}) \text { 可能大于 } \mathrm{P}(\mathrm{A}) \text { 也可能小于 } \mathrm{P}(\mathrm{A}) \text { 。尚若 } \mathrm{A}, \mathrm{B} \text { 相互独立,则 } \mathrm{P}(\mathrm{AB})=\mathrm{P}(\mathrm{A}) \cdot \mathrm{P}(\mathrm{B}), \text { 因 }\\ \text { 为此时P }(\mathrm{A} \mid \mathrm{B})=\mathrm{P}(\mathrm{A}) \text { 。 } \end{array} 应用条件概率公式的前提条件:A、B并非相互独立事件,事件B发生之后事件A发生的概率会受到影响, P(A∣B)可能大于P(A)也可能小于P(A)。尚若A,B相互独立,则P(AB)=P(A)⋅P(B),因为此时P (A∣B)=P(A)。​

推广到三事件: P ( A B C ) = P ( C ∣ A B ) ⋅ P ( B ∣ A ) ⋅ P ( A ) P(A B C)=P(C \mid A B) \cdot P(B \mid A) \cdot P(A) P(ABC)=P(C∣AB)⋅P(B∣A)⋅P(A)

满足:

1). 样本点总数有限

2). 每个基本事件可能性相同

此时:

P ( A ) = n A n P(A)=\frac{n_{A}}{n} P(A)=nnA​​

几何概型:相当于样本点总数无限的“古典概型”

如果一个样本空间 S S S 被 B 1 , B 2 , B 3 , … … , B n B_{1}, B_{2}, B_{3}, \ldots \ldots, B_{n} B1​,B2​,B3​,……,Bn​ 这样的完备事件组划分,则: P ( A ) = P ( A B 1 ) + P ( A B 2 ) + ⋯ + P ( A B n ) P(A)=P\left(A B_{1}\right)+P\left(A B_{2}\right)+\cdots+P\left(A B_{n}\right) P(A)=P(AB1​)+P(AB2​)+⋯+P(ABn​) = P ( A ∣ B 1 ) ⋅ P ( B 1 ) + P ( A ∣ B 2 ) ⋅ P ( B 2 ) + ⋯ + P ( A ∣ B n ) ⋅ P ( B n ) \quad=P\left(A \mid B_{1}\right) \cdot P\left(B_{1}\right)+P\left(A \mid B_{2}\right) \cdot P\left(B_{2}\right)+\cdots+P\left(A \mid B_{n}\right) \cdot P\left(B_{n}\right) =P(A∣B1​)⋅P(B1​)+P(A∣B2​)⋅P(B2​)+⋯+P(A∣Bn​)⋅P(Bn​)

但实际情况有时候需要逆推模型,比如已知甲、乙、丙工厂各自的生产总数和次品率,现在我们拿到某件商品是次品,我们想要推测它更可能是哪个工厂生产的,这就要用到下面的xxx公式

起源:

在xxx·xxx提出该公式之前,人们只能够计算“正向概率”,比如已知袋中黑白球比例,假设随机摸一个球出来,计算它是黑球或白球的概率。但现实情况往往是相反的,因为现实世界是不确定的,我们一般只能观测到事物的表面现象,往往是“不知道袋子里黑白球的比例”,而要根据“摸出来的球的观测颜色”来推断“袋子里球”的情况,这个时候,我们就要根据观测数据Data,提出多个假设hypothesis,然后分别计算每个假设的可能性P(h|D),最后取可能性最大的那个假设即可,这就是xxx定理的核心思想。后来,xxx方法席卷了概率论,并将应用延伸到各个问题领域,所有需要作出概率预测的地方都可以见到xxx方法的影子,特别地,xxx是机器学习的核心方法之一。

xxx公式: P ( B i ∣ A ) = P ( B i A ) P ( A ) = P ( A ∣ B i ) ⋅ P ( B i ) ∑ j = 1 n P ( A ∣ B j ) ⋅ P ( B j ) P(B i \mid A)=\frac{P(B i A)}{P(A)}=\frac{P(A \mid B i) \cdot P(B i)}{\sum_{j=1}^{n} P\left(A \mid B_{j}\right) \cdot P(B j)} P(Bi∣A)=P(A)P(BiA)​=∑j=1n​P(A∣Bj​)⋅P(Bj)P(A∣Bi)⋅P(Bi)​ 便于理解的形式: P ( h ∣ D ) = P ( D ∣ h ) ⋅ P ( h ) P ( D ) \quad P(h \mid D)=\frac{P(D \mid h) \cdot P(h)}{P(D)} P(h∣D)=P(D)P(D∣h)⋅P(h)​ (h代表 hypothesis,即假设;D代表Data,即观测数据)

P(h|D):h的后验概率

P(D):D的先验概率

P(h):h的先验概率

P(D|h):D的似然性(h发生时D发生的可能性)

应用:

xxx定理应用广泛,这里举一个“拼写纠正”的例子。