使用python绘制cdf的多种实现方法

站长资源 2024/11/24 佚名

2 0 1

首先我们先用随机函数编造一个包含1000个数值的一维numpy数组，如下：

// An highlighted block
rng = np.random.RandomState(seed=12345)
samples = stats.norm.rvs(size=1000, random_state=rng)

接下来我们将使用各种方法画出以上数据的累积分布图

1、matplotlib.pyplot.hist()

  def hist(self, x, bins=None, range=None, density=None, weights=None,
       cumulative=False, bottom=None, histtype='bar', align='mid',
       orientation='vertical', rwidth=None, log=False,
       color=None, label=None, stacked=False, normed=None,
       **kwargs):

第一种方法，我们使用matplotlib图形库中的hist函数，熟悉该库的人应该知道这是一个直方图绘制函数，以上是从API中找到的hist函数的所有参数，我们给出一维数组或者列表x，使用hist画出该数据的直方图。

直方图有两种形式，分别是概率分布直方图和累积分布直方图（可能说的不准确- -！），可以通过参数cucumulative来调节，默认为False，画出的是PDF，那么True画出的便是CDF直方图。

PDF（figure1）可以观察到整个数据在横轴范围内的分布，CDF（figure2）则可以看出不同的数据分布间的差异性，也可以观察到整个数据的增长趋势和波动情况。

上图是概率分布直方图，纵轴代表概率，如果置参数normed=False，纵轴代表频数

如果我们要观察两种数据分布的差异，可能使用直方图就不是很直观，各种直方柱会相互重叠，我们只需更改直方图的图像类型，令histtype=‘step'，就会画出一条曲线来（Figure3，实际上就是将直方柱并在一起，除边界外颜色透明），类似于累积分布曲线。这时，我们就能很好地观察到不同数据分布曲线间的差异。

2、numpy.histogram

def histogram(a, bins=10, range=None, normed=False, weights=None,
     density=None)

第二种方法我们使用numpy中画直方图的函数histogram，该函数不是一个直接的绘图函数（废话- -！过渡句，哈哈），给定一组数据a，它会返回两个数组hist和bin_edges，默认情况下hist是数据在各个区间上的频率，bin_edges是划分的各个区间的边界，说到这我们大概可以想到其实该函数算是上一个函数的底层函数，我们可以依据得到的这两个数组来画直方图，我们也可以用频率数组来直接画分布曲线（Figure4）

这里我只给出了一个最原始的图像，直接用hist数组画的，如果想要变成合格的累积分布曲线图，纵轴为概率（频率乘区间长度），横轴为区间（从bin_edges数组中取n-1个）就可以了

3、stats.relfreq

def relfreq(a, numbins=10, defaultreallimits=None, weights=None)
Returns
-------
frequency : ndarray
  Binned values of relative frequency.
lowerlimit : float
  Lower real limit
binsize : float
  Width of each bin.
extrapoints : int
  Extra points.

第三种方法我们使用stats中的relfreq函数，该函数和第二种的方法类似，也并非是直接画图，而是返回关于直方图的一些数据，这里的frequency直接是概率而非频率，可以直接作为CDF图的纵轴，但是横轴需要自己计算，计算公式：

res.lowerlimit + np.linspace(0,res.binsize*res.frequency.size, res.frequency.size)

这个公式应该很好理解，我就不多说了，当然这些返回值都要依赖我们所给出的bins的数目。下面我给出一段代码，便是使用stats.relfreq画出概率分布直方图和累积分布曲线图。

rng = np.random.RandomState(seed=12345)
samples = stats.norm.rvs(size=1000, random_state=rng)
res = stats.relfreq(samples, numbins=25)
x = res.lowerlimit + np.linspace(0, res.binsize*res.frequency.size,res.frequency.size)
fig = plt.figure(figsize=(5, 4))
ax = fig.add_subplot(1, 1, 1)
ax.bar(x, res.frequency, width=res.binsize)
ax.set_title('Relative frequency histogram')
ax.set_xlim([x.min(), x.max()])
plt.show()

rng = np.random.RandomState(seed=12345)
samples = stats.norm.rvs(size=1000, random_state=rng)
res = stats.relfreq(samples, numbins=25)
x = res.lowerlimit + np.linspace(0, res.binsize*res.frequency.size,res.frequency.size)
y=np.cumsum(res.frequency)
plt.plot(x,y)
plt.title('Figure6 累积分布直方图')
plt.show()

以上就是本人整理出来的关于画cdf直方图和曲线的三种方法，整理这方面东西的初忠是在发现在进行数据分析的时候，概率分布直方图只能观察到数据大概的分布情况，而在不同的数据样本进行比较时却很难直观滴反映其差异性，通过看论文发现cdf可以做到这一点。

本人并不是数学专业出身，想要表达其意义，但有些描述和用词不当，大家借鉴就好。希望大家多多支持！

python,绘制cdf

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

评论“使用python绘制cdf的多种实现方法”

暂无评论...

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。

艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒经典版》的玩家都可以获得奖励。

更新日志

2024年11月24日

使用python绘制cdf的多种实现方法

Python Websocket服务端通信的使用示例

Python GUI库PyQt5样式QSS子控件介绍

评论“使用python绘制cdf的多种实现方法”

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

更新日志

友情链接