797章敲打 - 棋子小说

关灯

护眼

字体：

大

中

小

第797章敲打(第2/3页)

    想要了解一家电影院的观众年龄分布，以便做市场推广。

    假定我们把观众群分为15岁以下，1625岁，2640岁和41岁及以上四个人群。

    要了解每个人群的比例，一个简单的办法就是到电影院门口去问一问那些看电影的人的年龄。

    比如我们通过调查了解到大约有343人在15岁以下，459人在1625岁，386人在2640岁，490人在41岁及以上。

    根据这个数据，我们大致可以得出以下结论：

    15岁及以下的观众占20左右，1625岁的观众超过四分之一，但不到三成；

    2640岁的观众略少于四分之一，41岁及以上的观众最多，大约占到三成。

    但是，如果我们只在周末的晚上抽样调查10个人，我们就会发现。

    有三个15岁及以下的观众，五个1625岁的观众，2个2640岁的观众。

    我们显然不能说25岁以下的观众占了八成，而41岁及以上的中年人从来不来电影院，这样的结论。

    但我想各位也都承认一点，在统计样本不充分的情况下，得到的结果跟实际结果存在很大的偏差。

    所以，越想要得到准确的统计结果，需要的统计数据量就越大。

    在上面的例子中，统计的样本总数是1678人。

    但是如果我们一定要说41岁及以上的观众就是29.2，或者15岁及以下观众一定超过20。

    这样非常肯定的的话，大家就可能会挑战这个结论。

    &t;divtentadv&gt;因为，统计是有随机性的，也是有误差的。

    仅仅上千人的数据得不到这样准确的结论。

    统计除了要求数据量必须充分之外，还要求采样的数据必须有代表性。

    有些时候不是数据量足够大，同阶级过就一定准确。

    一个很简单的例子，一个爱情影片和一个战争影片，它的受众并不相同。

    所以如果我们只采集爱情影片上映当月的观影人群，就不具有普遍的代表性。

    那么怎么避免这种情况，获得准确的结论呢？

    19世纪的俄国数学家切比雪夫对这个问题给出了他的结论，即切比雪夫不等式。

    pxexevarxe2。

    这个公式的含义是，当样本数足够多时，一个随机变量和他的数学期望值之间的误差，可以任意小。

    把切比雪夫不等式应用到我们了解电影院观众年龄分布的问题中。

    随机变量就是：观察到的各个年龄段观众的比例。

    数学期望值就是：真实情况下所有看电影观众中不同年龄段的比例。

    当我们把样本数据带入后，大致可以得出以下结论。

    15岁以下观众占20，1625岁占27，2640岁占24，40岁以上占29，误差小于5。

    但如果我们要将四个年龄段观众的准确率，提高到小数点后一位数，那么我们大致需要10倍的数据，即两万个左右的样本。

    如果我们把这个问题放大。

    我们想知道一部电影在全世界的观影人群年龄分布，而且必须具体到更细致的年龄段人数。

    比如1820岁，2124岁等等。

    又或者更具体的地域。

    华夏、东瀛、南韩等等。

    在一个更大，更详细的范围内，为了获得更准确的结果，我们需要的数据量，将千百倍的提升。

    当我们获得了超级数据。

    普通的计算
    （本章未完，请翻页）

《加入书签，方便阅读》