概率基础
计数
计数时要避免「遗漏」与「重复」。
不要忘记\(0\)
植树问题:
- 10米长的街道,每隔1米种一棵树,需要种多少树?
- \(10 \div 1 = 10\),但是不要忘记起点0也要种一棵,所以\(10 \div 1 + 1 = 11\)
加法法则
没有「重复」元素的两个集合可以相加。例如, 扑克牌里10张红桃数字牌A-10与3张红桃花色版J、K、Q是没有重复的,所以一共13张 红桃牌。
\[ | A \cup B | = | A | + | B | \]容斥原理
容斥原理(The Principle of Inclusion and Exclusion),即必须弄清楚 「重复的元素有多少」。
如果有重复,就不能适用加法法则,比如规定红桃牌的牌面是2的倍数或是3的倍数能得分, 否则不能得分,那得能得分的牌一共有几张?
- 2的倍数有:2、4、6、8、K(12)
- 3的倍数有:3、6、9、K(12)
- 即是2的倍数,又是3的倍数有:6、12
这里不能用加法法则,要去掉重复的:\(6 + 4 - 2 = 8\)
\[ | A \cup B | = | A | + | B | - | A \cap B | \]乘法法则
扑克牌有4种花色,每种花色又都有13张,这里就适用「乘法法则」:
- 集合\(A = \{ \spadesuit , \heartsuit , \diamondsuit , \clubsuit \}\)
- 集合\(B = \{A, 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K \}\)
- 丢三个六面骰子可能有几种结果? 每个骰子有6面,一共三个骰子,乘法法则:\(6^3 = 6 \times 6 \times 6 = 255\)
- 32个灯泡排成一列,有多少种亮灭模式? \(2^{32} = 6,294,967,296\)
排列与组合
置换
将\(n\)个对象按顺序进行排列称为「置换」(substitution)。
- 三张扑克J、Q、K有几种排列法?\(3! = 3 \times 2 \times 1 = 6\)
- 52张(不包括王牌)摆一列有多少种摆法?\(52! = 80,658,175,170,943,878,571,660,636,856,403,766,975,289,505,440,883,277,824,000,000,000,000\)
排列
「排列」(permutation) 如果从总共有\(n\)个元素的集合中随机抽出\(k\)个进行排列,记为\(P^k_n\):
\[ \begin{split} P^5_5 &= 5 \times 4 \times 3 \times 2 \times 1 &= 120 \\ P^4_5 &= 5 \times 4 \times 3 \times 2 &= 120 \\ P^3_5 &= 5 \times 4 \times 3 &= 60 \\ P^2_5 &= 5 \times 4 &= 20 \\ P^1_5 &= 5 &= 5 \end{split} \]公式可以用阶乘来表示:
\[ \begin{equation} \label{pmpeqm} \begin{split} P^k_n=\frac{n!}{(n-k)!} \end{split} \end{equation} \]如果看不明白上面的公式,其实就是通过约分来表示的:
\[ \begin{split} P^3_5 = \frac{5 \times 4 \times 3 \times 2 \times 1}{2 \times 1} = 5 \times 4 \times 3 = 60 \end{split} \]组合
「组合」(combination)不用考虑顺序,如果从总共有\(n\)个元素的集合中随机抽出\(k\) 个进行组合,记为\(C^k_n\):
\[ \begin{equation} \label{cbpeqm} C^k_n=\frac{P^k_n}{P^k_k}=\frac{n!}{(n-k)!k!} \end{equation} \] \[ \begin{split} C^5_5 &= \frac{5 \times 4 \times 3 \times 2 \times 1}{5 \times 4 \times 3 \times 2 \times 1} &= 1 \\ C^4_5 &= \frac{5 \times 4 \times 3 \times 2}{4 \times 3 \times 2 \times 1} &= 50 \\ C^3_5 &= \frac{5 \times 4 \times 3}{3 \times 2 \times 1} &= 10 \\ C^2_5 &= \frac{5 \times 4}{2 \times 1} &= 10 \\ C^1_5 &= \frac{5}{1} &= 5 \\ C^0_5 &= \frac{1}{1} &= 1 \end{split} \]置换、排列、组合的关系
置换与组合相结合就是排列:
\[ \begin{equation} \label{stdwdo} \begin{split} C^3_5 &= \frac{P^3_5}{P^3_3} \\ P^k_n &= P^k_k \times C^k_n \end{split} \end{equation} \]综合应用
重复组合
A、B、C三种药片,共取100片,每种药至少有一片,有多少种组合?
想像成100个元素排一列,中间有两个隔板分成三份:
A | B | C | |||
---|---|---|---|---|---|
o | ... | o | ... | o | ... |
- 100个格子(\(n=100\)),有99个(\(n-1\))放隔板的位置
- 分成3分(\(k=3\)),需要放2个隔板(\(k-1\))
公式为:
\[ \begin{equation} \label{cbdop} C^{k-1}_{n-1}= C^{3-1}_{100-1} = C^{2}_{99} = \frac{99 \times 98}{2 \times 1} = 4851 \end{equation} \]排列组合加容斥
5张扑克:J、Q、K加大小王排成一列,左右两端至少有一端是王(大小王都可以) 的排法有多少种?
设大小王分别为\(x_1\)与\(x_2\):
- 左边是王牌:(大小王两种可能),其他4张自由排列,\(R_1 = 2 \times P^4_4 = 2 \times 4! = 48\)
- 右边是王牌:同样是\(R_2 = 48\)
- 两端都是王:两头就是\(R_3=P^2_2\),其他3张是\(P^3_3\),结果是 \(R_4 = P^2_2 \times P^3_3 = 2! \times 3! = 12\)
所以最后的结果就是:
\[ \begin{equation} \label{cbdoq} \frac{R_1 + R_2 + R_4}{R_3} = \frac{48+48-12}{2}= 42 \end{equation} \]另一种思路就是把所有的排法中,去掉两头都不是王版的排法:
- 所有的排法:\(R_1 = \frac{P^5_5}{2}=\frac{5!}{2}=60\)
- 两头都不是王:\(R_2 = \frac{P^2_3 \times P^3_3}{2}=\frac{(3 \times 2) \times (3 \times 2 \times 1)}{2}= 18\)
得到:
\[ R_1 - R_2 = 60 - 18 = 42 \]概率基础
- 事件\(A\)发生的概率记为\(P(A)\)
- 任何事件从不可能发生到必然发生,取值范围为\(P(A) \in [0, 1]\)
在确定的条件\(S\)限定下:
-
确定事件:
- 必然事件
- 不可能事件
- 随机事件
事件的关系
- 包含:发生事件\(A\)必然会导致\(B\)发生。记作:\(A \subseteq B\)或(\(B \supseteq A\))
- 相等:发生事件\(A\)必然会导致\(B\)发生,发生事件\(B\)必然会导致\(A\)发生。 \(A \subseteq B\)并且\(B \subseteq A\),记作:\(A = B\)
- 并(和)事件:有一个就可以。记作:\(A \cup B\)或(\(A + B\))。
- 交(集)事件:全部都要有。记作:\(A \cap B\)或(\(A \cdot B\))。
- 互斥事件:不可能同时发生,即:\(A \cap B = \phi\)
- 对立事件:\(A\)与\(B\)为互斥事件,而且\(A \cup B\)必然发生。
- 相互独立事件:\(A\)与\(B\)是否发生没有影响。
概率的性质
- 对于互斥事件\(A\)与\(B\),存在:\(P(A \cup B) = P(A) + P(B)\)
- 对于对立事件\(A\)与\(B\),存在:\(P(A)=1-P(B)\)
- 对于独立事件\(A\)与\(B\),则二者同时发生的概率为: \(P(A \cap B) = P(A \cdot B) = P(A) \cdot P(B)\)
随机事件
大量试验、统计频率,总结规律。
概率决定频率的存在,通过频率来估计概率。
抽样
- 抽签法,(适用于总量与样本都比较少的情况)。
- 随机数表法,(适用于总量与样本都比较少的情况)。
- 系统抽样(适用于量大)。
- 分层抽样(适用于量大)。
简单随机抽样
整体的数量为有限的\(N\),样本数量为\(n\),逐个抽取,样本不放回, 每个样本被抽到的机会均等。
常用方法:
系统抽样(又名等距抽样)
总数为\(N\),需要\(n\)个样本,就分为\(n\)个段,那么\(frac{N}{n}=k\)作为每一段的长度。 如果不能整除就随机去掉几个让它能整除。
在\([1,n]\)中随机取一个值\(l\),样本就是\(l, l+k, l+2k, \cdots l+nk\)
分层抽样
按总体的不同类型元素占据的比例进行抽样。
用样本的频率分布估计总体分布
- 样本频率分布表。
- 样本频率分布条形图。
- 样本频率分布直方图。
- 频率分布折线图与总体密度曲线。
- 茎叶图。
样本频率分布直方图绘制步骤:
- 求极差(\(Max - Min\))
- 决定组距与组数
- 把数据分组
- 列频繁分布表
- 画出直方图
用样本的数字特征估计总体的数字特征
- 众数:出现次数最多的数,不受极端个例影响。
- 中位数:总数为奇数时是中间的数,总数为偶数时是中间两个数的平均值。 不受极端个例影响。
- 平均数\(\bar{x}\):记为描写所有数据的平均水平,是数据的重心。
方差与标准差
标准差范围\([0, +\infty]\)。标准差越大,数据越分散;标准差越小,数据越集中。 为\(0\)时表示所有的数据都一样。
方差\(S^2\):
\[ S^2=\frac{(x_1-\bar{x})^2 + (x_2-\bar{x})^2 + \cdots (x_n-\bar{x})^2}{n} \]标准差\(S\)
\[ S = \sqrt{S^2} \] \[ \] \[ \] \[ \] \[ \] \[ \]