aries是什么意思 翻译:对统计的新领悟

来源:百度文库 编辑:偶看新闻 时间:2024/03/29 17:25:43
对统计的新领悟计算士 发表于 2011-12-30 18:05:30

缘起:和几个朋友一起讨论学习All of Statistics 这本书,读了前五章,又随便把The common patterns of nature 重新仔细读了一遍。在复习了统计学基础知识的同时,对All of Statistics的作者很多问题没有讲透表示不满。在这里胡说八道几句缺乏证据的话,谈谈这一段对统计的体悟和理解。 

 

1. 根本没有概率Pi这个东西!

在推导分布时用到的傅里叶变换(及其升级版拉普拉斯变换)里填充的食品添加剂e^(iwx)其实是对空间和时间进行强制归零化,以得到周期。我给你一段信号,你给它拆成各个基频,假装这些基频拼凑起来就是原始信号,这是第一步近似;把拆成了各个基频的信号在频域上相乘;小的信号被消没了,大的信号被强调了,如此反复,最后就剩下一个信号;这是第二步近似。通过这两步近似,分布就产生了!不仅产生了,而且大多数情况下还是正态分布。

不从频域上说,从概率空间里说也可以。

        拆成基频就是在制造伪周期,这一步出现了伪概率Pi。为什么说是伪概率?因为概率,即人们认为周期出现的变量值,是靠近似得到的。测量人的身高得到1.777米,1.778米,1.779米,都算在1.78米头上,说1.78出现了三次(其实1.78一次也没出现)。连续函数做概率分布函数,要弄个勒贝格积分,就是为了绕过单个变量值出现的概率处处为0这个事实,就是在弄这个手脚。好像用食品添加剂制造蛋白质指标,其实根本没有营养。话说回来,离散也不见得有多营养,一样是靠近似给弄的直方图。

        拆成基频后的信号相乘就是随机变量(一个信号=一个变量)分布函数的卷积。两个分别满足f(x)和g(y)的独立随机变量xy相加得到z,z的分布函数是f(x)和g(y)的卷积。 很多变量相加,就是很多分布函数“卷”到一起,最后形成了正态分布,期望值miu一家独大,具有最大概率P(miu)。回到频域理解,就是一个信号压过了其他所有的信号*1。 为啥总是得到正态分布?他像个吸引盆,你跑也跑不掉?因为信号相乘的必然结果是每次都增进强信号,抑制弱信号,用不了几个回合(来几个变量,或者做几次卷积),就肯定只剩一个信号了。这个信号是什么?就是均值,第一期望(expectation、the first moment)

所以,概率Pi是个伪概念,是人工合成品,更不用说Pi的分布了。

好,现在说说造假的威力多大。只要这个系统维持自洽,没人能发现它造假。就是喂进去一个真随机数列,我也能给你写出个分布函数出来。你还站在频率学派的角度沾沾自喜,以为是靠抽样数据在逼近真实分布,其实根本没有什么真实分布,全是我造的。系统有没有漏洞?有!系统搞不定系统自己。统计系统自带的造假程序似乎可以把任意一个数据写成分布,但如果我们把造假程序本身数据化,再给它喂进去,就要出乱子。

什么乱子?无法忽略信息了!正态分布的产生过程,即随机变量的合并过程或者信号的相乘过程,都是在损失信息。说好听点是在消除噪声,在滤波,说不好听点就是在造假。总的说来,就是忽略信息。哪些信息要,哪些信息不要,这是由系统自带的判断器决定的。就是这个判断器决定了均值就是第一期望,就是那个最能代表大家的人,方差就是第二期望。。。说精确一点,这个判断器就是moment generation function。到底还是一个拉普拉斯变换。如果让判断器来判断判断器呢?什么意思?就是概率的概率。概率的概率是啥,不就是熵(熵就是概率的概率的期望值)吗。乱了,全乱了。不知道应该如何忽略信息了,得不到正态分布了。复杂系统幂律分布的起源,可能和这个有关。但目前我自己也没完全想明白,没法展开讲。 

  

2. 人类科学可以言说的终级真理是不同编码机制之间的等价性。

  动力学很难回答进化的本源问题。啥是有序,啥是无序?完全取决于编码机制。是先行给定了一个主观的评价标准后,由"近似"这一强力工具生产的。对于系统内的观察者来说,我给你编编码,离我近的就是有序,离我远的就是无序。和我接近叫进化,离我而去叫熵增。其实全是编码机制搞的鬼。到底是熵增还是熵减?无所谓,不同编码体制下的熵是不同的。一个层次上的熵增,可能是另一个层次上的熵减。

这个问题怎么往下接着搞?Dewar,banavar等人从随机过程出发就绕路了。生态系统究竟是不是在最大熵根本不是那么重要,熵只能在编码问题上理解,而且,只需要在在编码问题上理解,就可以得到根本的理解。去实际的复杂系统里找熵,南辕北辙,缘木求鱼,也能找到,就和从热力学重新做起一样,但很费事。这也是The common patterns of nature作者Frank的观点。

  关键不是先有鸡还是先有蛋,是熵增还是熵减,是不同的编码机制之间的等价性。最短信息长度和最大熵为什么这么重要,重要不是因为它们在讨论系统内观察者看到的现象,它对应的是跳出了系统后看到的的,在不同层次内的观察者之间的通约性。人不是猴子来的,是恐龙了,最短信息还是最短信息。所以说,信息编码的等价性,是所有层次,不同编码机制都无法超越的东西。是人类可以讨论的最终极的东西。

问题又来了,为什么人类作为观察者,就可以跳出这个系统,去讨论等价性?其实,任何观察者都有这个能力,因为这就是观察的本质。观察,就是自己可以超越自己,运行图灵判别程序而不停机,可以看到兔子就是能追上乌龟。没有跳出系统的能力,就当不了观察者。 


3. 任何层次,任何系统都可以进化出生命,严格说来,生命只是显现而不是产生。

 生命是一个纯粹逻辑的结构,与其运行载体无关。jake和我研究国家、城市、生物、网站,发现有一些共同的规律。

这一点也不奇怪。生命是什么?他就是一个观察者结构,有能力站在自己生存的层次外去思考自己(所以前面说的用系统自带的判断器去考察判断器可能后果也没那么严重)。思考?是什么意思?一点也不神秘。对我们来说,脑袋里装的全是符号,对外星人来说,看到一堆神经在发电。同理,我们看到的蚂蚁行走,云彩飘行,何尝不是另一个观察者的符号。什么是生命?你的身体若干年就全部换一遍细胞,你为什么还是你?这个答案不在蛋白质里,不在葡萄糖里,答案在你的心里。生命是什么?就是一段时间内稳定的结构,一些稳定的变量,一些组织起来的秩序。有了观察者,结构也有了,变量也有了,秩序也有了!还不简单?做傅里叶变换,做近似,给你写个概率分布函数,给你个周期,给你个天玄地黄春夏秋冬,给你写上蚍蜉周期一日神龟周期千年,观察者一去,从哪来到哪去,灰尘散落一地。

 

现在,留一个问题你思考,不同层次的生命可以通讯吗?

 

(文中思想,部分来源于以前看的jake 和鬼王 的文章,因为已经和我自己的表达融在一起,不易区分,在此一并致谢)