爱是坟墓的再生花:最大熵产生原理系列论文的读书笔记

来源：百度文库编辑：偶看新闻时间：2024/04/27 23:00:32

最大熵产生原理系列论文的读书笔记jake 发表于 2008-9-4 15:35:01

越来越感到最大熵产生原理的重要性了，尤其是他的统计物理基础。利用暑假时间，我快速地把几篇重要文章使劲儿读了读，深深感觉到自己数学功底并不算强。不过饿补过微积分和基本的物理知识以后，还可以理解这些文章。强烈希望数学、物理背景出身的人能读到这篇文章，并能对这个问题真的感兴趣！谁要是突破了这里面的道道，那真的是一个不小的突破！而且肯定能用到很多实际领域中。下面就来贴我的读书笔记。

读文笔记

引言：

最近读了不少有关统计物理、熵、最大熵产生原理等文章，在此，就我所理解的部分做一个总结，以便帮助我屡清思路，也方便对这一领域感兴趣的人能够更有效率地继续研究下去。下面，主要沿着这几篇文章的思路讲解，它们是：E.T. Jaynes的《Information theory and statistical physics》、E.T. Jaynes的《Brandeis Lectures(1963)》、L.M. Martyushev和V.D. Seleznev的《Maximum entropy production principle in physics, chemistry and biology》、R.C.Dewar的《Maximum entropy production and the fluctuation theorem》和《Information theory explanation of the fluctuation theorem, maximum entropy production and self-organized criticality in non-equilibrium stationary states》。

第一篇：E.T. Jaynes的《Information theory and statistical physics》+《Brandeis Lectures(1963)》

1、两句废话

很多人看到统计物理四个字就头疼，原因是，里面有太多难以理解的概念，以及艰深的数学。其实，这并不完全是读者的错误，发明这些概念的科学家也有很大的责任。尽管很多伟大的科学家都曾在这个领域做出过贡献，比如麦克斯韦、普朗克、爱因斯坦，但是统计物理中的最基本的概念，比如熵却一直没有搞清楚。这个学科一直处于非常尴尬的境地，一方面，该学科确实解决了很多应用的问题；另一方面，统计物理的核心概念：熵，却一直没有真正地被人们理解。直到20世纪50年代，Jaynes提出了一整套全新的解释熵的思路，才使得人们可以重新认识熵，包括整个统计物理。而且最关键的是，Jaynes的这套方法是目前所有统计物理各个学派中最简洁的一个！《Information theory and statistical physics》发表于1950’s年，到如今却仍然有着重要的意义。总体来看，该文提供了一整套数学结构，虽然该数学结构最早起源于平衡态统计物理，即它有着明确的物理研究对象。但是，经过Jaynes的加工和处理，这套数学结构一下子可以“腾空而起”了，即它不仅仅可以描述气体、分子、自旋玻璃，它可以研究一类完全不同的，跟热现象可以类比的系统。比如，我们常说股市最近持续“升温”、经济发展过热，这里面的温度和热究竟是什么意思？Jaynes的框架就能给你一定的回答，在满足一些数学条件下，热、温度、熵等等是一种必然的概念。

2、简单算例

例子1 让我们先来看一个小例子：有一枚筛子，每个面都有一个数字：1~6。很显然，你会倾向于认为这6个面出现的概率是相等的，也就是，你倾向认为：P(x1)=P(x2)=…=P(x6)=1/6其中，P(xi)表示出现数字xi的概率。假如，我告诉你，这枚筛子与其它筛子不同，似乎，他很容易滚到4或者5这个面上，所以这个筛子滚了好多次以后，它出现的平均值是4.5。这个时候，你会怎样分配P(x1)~P(x6)的概率呢？显然，为了实现4.5这个平均值，你给筛子每个面分配的概率应该满足：

如果把p(xi)看作是未知数的话，那么它存在着无穷的解。你甚至可以让p(x4)=p(x5)=0.5，其它都是0。但是这样的分配并不保险，因为你得到的平均值是4.5这条信息，并不能让你肯定拒绝筛子也有可能出现1或者6。你还是倾向于，筛子每个面出现的概率尽量是平均的。如何刻画这种概率分布的平均度呢？这就引出了熵的定义。我们可以定义熵为：

我们粗浅的可以把S理解为刻画分布p(x1),p(x2)…均匀程度的量。当分布越均匀，S的值也就越大。这样，在第一种情况下，p(x1)=p(x2)=…=p(x6)=1/6可以得到最大的S: ln(6)。在第二种情况下，我们也应该让S最大才是我们心目中认为的最可能的分布，但是显然S不能任意大，它必须满足测量平均值是4.5这个前提，所以我们实际上得到了一个求最大值的数学题：在满足平均值为4.5的前提下，尽量调整P(xi)的数值，使得S能最大化。写成数学问题就是：

s.t.

（1）

（2）这里面有两个约束，第二个约束就是保证平均值为4.5。第一个约束前面没有提，它也是很显而易见的，就是要保证概率的归一化条件。也就是我们分配给每个面的概率加起来应该是1。这个优化问题不能一下求解，因为你要从两个约束中解出p(xi)来很困难。一个比较好的办法是利用拉格朗日（Langrange）乘子法。这套方法，说白了很简单，我可以先把条件（1）、（2）分别变为：

然后，把它加到目标函数中，这样目标函数就变为：

这样，我就可以在不考虑约束的情况下，通过调节p(xi)和αβ就能直接最大化Y了，同时满足（1）和（2）的约束。首先最大化Y显然能够最大化S。同时，为了让函数Y最大，就需要：

对Y求α的导，它就是约束（1）。同样Y对β求导=0就能得到约束（2）。所以最大化Y这个函数就等价于满足条件（1）、（2）的情况下最大化S。下面，我们就来求出具体的p(xi)来，这样我们求解下面的方程组：

也就是说这里有6个方程，再加上（1）和（2），一共就有8个方程，未知数的个数刚好也是8个，这就能完全解出来（注意到S这个函数是总是正数（当没有p=0）,且当p->0的时候，S可以任意接近0，所以上式所求必然是最大值）。通过Mathematica，得到： {p[1]?0.0543532,p[2]?0.0787715,p[3]?0.11416,p[4]?0.165447,p[5]?0.239774,p[6]?0.347494,a?-2.2833,b?0.371049}我们可以把p(x1),p(x2),…,p(x6)画在图上：

我们看到，这就是通过最大化熵得到的分布p(xi)。它既能让我们得到平均值4.5，又能尽量照顾到所有筛子面的可能性。这里6这个面得到的概率最大，1出现的概率虽然小但并不是0。当我们改变观测的平均值4.5，还能得到完全不同的分布，下面的这些图分别是当观测平均值是2~5（间隔0.5）时候按照上述方法得到的分布曲线：

其中，增函数曲线对应的观测平均值分别是4,4.5,5，减函数曲线对应的是：2,2.5,3。中间的绿线对应的是3.5，它刚好是(1+2+3+4+5+6)/6。即当p(xi)=1/6时候的筛子面的平均值，也就是那条横线。

3、一般框架

刚才仅仅就6面筛子这个例子进行了讨论。总的思路是，针对某个未知的系统（筛子），我们仅知道它可能具有的属性（筛子面上的数字），那么因为我们对它完全不了解，所以，我们会倾向认为该系统以等概率取这些属性值（6个面的概率尽量相同）。这种客观的、无偏见的均匀性就由最大熵来刻画。同时，我们对此系统并不是一无所知，我们毕竟知道这些筛子数字的平均值是4.5，这就体现为最大化熵的约束。最终，我们会根据测量知道的数值得到最后的概率分布。这是Jaynes算法的全过程。下面我们把这个过程一般化。假设我们考察一个系统（筛子）X={x1,x2,…,xn}，其中，可以认为xi是该系统的某一个状态（某一个面）。显然，我们对系统究竟处于哪一个状态一无所知，这样我们就用概率{p(x1),p(x2),…,p(xn)}去描述此系统。P(xi)表示我们主观上认为系统可能处于xi这个状态的可能性。另外，我们有一组属性来刻画这个系统，它们是：{f1,f2,…,fm}。比如f可以是系统某一状态的颜色或是面积，或者是体积等等（面上的数字）。这样，针对一种状态xi，就可能有m个属性来描述该系统f1(xi),f2(xi),…,fm(xi)。但是我们观察者并不能知道这些细节，我们仅仅能得到一些属性测量值的平均数来作参考。比如我们测量fr这个属性，得到的观测值是n种状态的平均值：

其中只有p(xi)是未知量，其它都是已知量。表示对属性fr进行观测的平均值。类似，我们可以从m个属性侧面来观察这个系统，因此也就得到了m个测量值：,,…,。下面，我们就要根据这些已知的信息来猜系统的概率分布p(xi)。按照之前的论述，也就是求解下列优化问题：

(1)s.t.

（2）

（3）这里的（3）实际上包含了m个等式。同样，求解这个优化问题需要用到拉格朗日乘子，因为这里面的约束条件有m+1个（等式（2）和（3）的m个等式），因此我们需要引入m+1个拉格朗日乘子，分别是：λ₀, λ₁,…,λ_m所以把这些约束乘以相应的乘子带入（1）中，就得到了最后的优化函数：

注意，右边的最后一项有两层和号，第一层求和指标是r，表示对m个约束（3）进行的。里面还有一个求和号，指标是i，表示（3）中每一个式子中的平均值。要求Y的极值，就是Y对任意的p(xi)求偏导等于0。

把这个式子整理一下，先求解出p(xi)来，得到：

（4）注意，这里面λ₀, λ₁,…,λ_m是未知数，其它都是已知数。我们很快就可以把p(xi)代入（2）中得到λ₀：

所以：

这里，我们定义了一个新的函数Z，它叫做配分函数（Partition function）其实只是一个记号，但在统计物理中却有重要的意义。这样，λ₀这个未知数相当于就消了，所以代入（4）就能得到概率分布：p(xi)：

（5）当然，最后这个式子中还有λ₁,…,λ_m这m个未知数，它们可以通过代入（3），求解下列方程组得到：

（6）这有m个方程，就能解出这m个未知数。只不过这个解太麻烦了（事实上，该方程基本无法给出解析解），我们就没必要求了。我们看到，前面给出了一个数学框架。在这个框架下，只要确定了一组观测值，就能通过最大化熵，而得到另外两组变量，一个是p(xi)，另外一组是λ_r。下面，我们感兴趣的一件事情是，如果我们改变观测值，那么由于上面数学框架下的因果关系，p(xi)会变，λ_r也会变，这样最大化后的熵也会改变，它们之间的关系是什么呢？从这套数学框架的角度来看，它吞进去一些观测数据，吐出来的主要是λ_r，当然p(xi)也很关键，不过我们通常把它看作是一种中间变量。下面，我们就用一个具体的例子来看看究竟如何影响λ和熵S。在这个例子中，我们假设xi连续在区间[-a,a]内取值，且系统就有一个特征，即m=1，f(x)=x。这时候最优化数学问题变成：

s.t.

所有的求和号都变成了积分，这样可以方便我们的计算，数学框架都没有变化（严格说，熵S这个时候成为连续函数p(x)的变分，因为未知的不仅仅是一些变量，而是一个连续函数p(x)）。同样，按照上面的思路，最大化Y(p(x))，得到：

其中， Coth(x)=

即使这种简单形式下也不可能写出λ的显示解。所以我们选取a=10，画出λ依赖（-9<<9）变化的函数图。

画出p(x,)的曲线：

再把求得的p(x), λ代回S的表达式，得到S依赖的变化图：

从第一和第三这两个图中，我们可以清楚地看出，不同的测量值对求解出的λ和S都有影响。当=0的时候，S最大值，表示这种测量不对系统的不确定性有任何贡献。我们还隐约观察到，λ()似乎是S()的导函数。这在下一节具体讨论。

4、导数的性质

我们看到，前面给出了一个数学框架。在这个框架下，只要确定了一组观测值，就能通过最大化熵，而得到另外两组变量，一个是p(xi)，另外一组是λ_r。下面，我们感兴趣的一件事情是，如果我们改变观测值，那么由于上面数学框架下的因果关系，p(xi)会变，λ_r也会变，这样最大化后的熵也会改变，它们之间的关系是什么呢？下面，我们就来研究一下，当发生小的波动的时候，这套框架怎么动。因此，我们将研究各个变量导数的性质。首先，我们注意到一个很有意思的事实，那就是：

这样，方程（6）就可以简化为：

(7)下面，我们就来看看，测量会对熵如何影响。首先，由于λ与之间的关系（6），所以λ会受的影响。也就是说，根据（6）或（7），λ_r是的函数，写为：

（8）其次，最大化之后的熵S自然是λ的函数，这一点可以通过把（5）代回熵的表达式（1）中，得到最大化后的熵S看出：

（9）而因为λ是的函数，所以的变化也能引起Smax的变化，我们把Smax对求导：

注意到（7），我们就直接得到：

（10）这个结论告诉我们，测量值的变化将会影响Smax的值，而这个影响大小刚好就是-λr。显然，λr是由很多因素决定的，包括，但是一旦这些因素都固定。也就是说当发生变化的时候，其他因素都没来得及变，因此λr也没来得及变，这个时候。λr越大，熵对测量结果的依赖也就越明显。我们将会看到，这个有意思的λr的性质刚好就是热力学中的温度的性质！因此，它可以看作是一种广义的温度。

4、还原统计物理

你也许觉得这仅仅是一些数学游戏，没有什么意思。但是，统计物理告诉你，你错了，这套数学框架刚好能够求解统计物理的问题！考虑一个气体系统，我们知道气体系统是由很多很多气体分子构成的。这样，每种分子层面的一种排列就决定了系统的一种微观状态。它可能有很多很多种微观状态，设为xi, =1,2,…,n。显然，系统究竟处于哪一个状态我们并不知道，于是，我们用p(xi)表示系统处于xi状态的概率。我们知道，每个状态下，系统的能量水平是ei，并且，我们观测到系统的平均能量是。这就是前面介绍的框架下的典型的应用，可以通过最大化熵求得系统的概率分布p(xi)，写出来就是：

（11）其中，

凑巧的是，（11）给出的概率分布刚好是统计物理中的正则系综。而且，我们最大化的信息熵S刚好就是系综的热力学熵。因为热力学物理告诉我们一个重要的性质：dS=dQ/T这是克劳修斯给出的熵的定义式。这里面dQ是系统在平衡态附近吸收的小热量。dS是小的熵增，T是温度。我们知道，能量守恒，在我们考虑的例子中，如果系统没有对外界做功，那么系统吸收的热能就使得它的能量增加，所以dQ=dE，其中E为系统的内能，于是：dS=dE/T，也就是dS/dE=1/T。联想到（10）式，我们知道：

其中，就是我们测量到的能量，所以比较dS/dE=1/T，我们就知道：

在我们的抽象框架下求出来的拉格朗日乘子-λ恰恰就是温度的倒数。到此为止，我们已经找到了我们的抽象框架下的各种奇怪的数学量，完全可以得到真实的物理对应。进一步，我们还可以让我们的模型更复杂，例如，我们考虑的气体系统还可以包含很多种不同的混合气体，气体之间还能发生相互化学反应，我们测量的属性可能不仅仅是能量，而且还可能包含各种分子的数目，所以可以得到一组测量值：,,…，这样把这些测量值代入（3）就能得到更复杂一些的分布，这就对应了统计物理中的巨正则系综。其中，求得的-λr也有相应的物理意义，它们表示化学势。

5、广义的统计物理

实际上，Jaynes的这套数学框架能够还原统计物理的结果一点不让人吃惊，这是因为本身Jaynes的这套框架就来源于统计物理。但有意思的是，这套框架现在完全可以独立开来了，它没必要非得描述统计物理中那些让人讨厌的概念，什么能量吧，化学势吧，温度等等，它完全可以描述非常广义的东西。例子2：考虑这样一个例子：你手里拿着10000元钱要把它捐献给受灾的村庄。假设有两个村子，你已知村庄A的日常人均消费是100元，而B村庄是50元。那么，你是要把钱分给A还是B呢？当然，你希望你这钱能救济更多的人，也就是你会分配给B村，你的推理理由是：10000元/100(元)=100(人)<10000元/50 (元)=200(人)也就是说，你这10000元钱如果投到B村能养活更多的人，这样，你的钱就花对了地方，你的钱发挥了更大的价值了！下面，我把你分配的总钱数定义为dE，把某个村庄的人均消费水平定义为T，那么你决定投资哪一个村子，也就是你要比较下面这个称谓实质价值的量：dS=dE/T也就是说，在同等投入的情况下，人均消费水平越低的村庄越需要钱，你把钱投给他们就会让你的实质价值S最大化。其实，我们已经看到，这就是熵的最大化。把上面故事中的钱换成热量，消费水平换成温度，上面这套故事就是在说热力学的事儿。所以，热力学所揭示的其实是一种非常普遍的现象。例3：(这个例子是错误的，感谢Noise网友的指正，详情请见：http://www.swarmagents.cn/bs/membership/viewelite.asp?id=8800&user=jake，以及本文后面的讨论，不过即使例子是错的，也可以作为一个反例帮你理解这套框架）下面稍微复杂一点。假设一个村庄里面有100个人，有的人体格强壮、打架很厉害，他的赚钱能力就很强，（不妨设为E1）。而有的人可能天生巧言善辩，所以他的赚钱能力是E2。这样，我们按照赚钱能力可以将这100个人进行排队：E1>E2>…>E100。如果你把10000元分配给了这个村的100个人，经过一段时间后，他们可能相互争夺这笔钱，最终导致了钱的一个分布。显然，能力越强的E1分配的钱也越多，能力最少的E100分的钱也最少。究竟每个人能分多少钱呢？我们不妨设p(i)表示第i个人分得这10000元的比例，那么我们的问题就跟Jaynes的框架一样，找到一个最可能的分布pi。因此我们同样可以求解下列数学问题：

(1)s.t.

（2）

（3）虽然最后的λ很难求出，但是根据前面的讨论，不难得到：

其中dS表示分配给该村10000元以后，总体的价值增量。dE为你给系统分配的10000元。显然，如果一个城市对应的乘数越大，那么在增长等量投资的情况下，它会增长较快。由此，我们看出所谓的能量就是一种待分配的资源，乘数-1/λ就起到了平均经济水平的作用。这样，在同等投入资源的情况下，投入到经济水平越低的区越，才能让价值越大。所以我们看到，统计物理完全可以抽取出来用来描述完全不同的客观世界。这套框架不仅能描述客观世界，它还能描述人类观察者主观世界和客观世界的互动。这就是引入S的主观解释，即它是观察者对客观世界的无知程度。测量会减少这种无知程度。下面，我们就来看看测量如何减少无知度。首先，我们考虑在没有引入任何测量的时候，我们只有下列的优化问题：

s.t.

得出的解是：p(xi)=1/n，对应的最大熵是S=ln n下面引入一次测量，即增加一条约束：

这样，新的最大熵是：测量引起的熵减就是：

应该可以验证S-S’>0，这是因为对于函数

，均匀分布的熵最大，其他任何分布都比它小。不过尚未找到证明方法，要证明这个不等式可能要用到意想不到的数学技巧，例如复数。进一步，如果已经有了m次测量，最大熵为：

引入新的测量之后，测量次数变为了m+1，最大熵为：

引起的熵减是：

该公式也应该>0，但是尚未找到证明方法。看起来很对称的样子。这个猜想也是错的，原因是后来的lambda在测量之后也会改变，而且我做了数值模拟，请看本文的回复31。无论是第一种解释方法（资源的分配），还是第二种解释方法（测量引起不确定的丧失）。他们的数学框架是一模一样的。与其说它们是两种过程，还不如说它们就是一回事儿！即，一次测量就相当于把一定的能量分配给被测量的系统，从而降低系统的不确定性！即观察引起熵减！

6、测量误差与二阶导数

用测量的眼光来看待整个数学框架，那么，一次测量不仅仅有测量的均值，而且还会有测量的误差。具体的测量误差定义为统计量f的方差：

即测量量的平方的均值减去均值的平方。在Jaynes的数学框架下，这个方差刚好是lnZ这个函数对相应的λ的二阶导数，这是因为我们已经知道(7)：

这样lnZ对λr的二阶导数就是对λr的一阶导数。因为这两个变量的关系时只有（6）式给出，所以我们从（6）出发：

等式两边对λr求偏导：

注意到p(xi)的定义，我们得到：

而左边就是2>，右边第二项就是²，所以

也就是说，f这个测量量的方差刚好是lnZ函数对相应温度的二阶导数。这就是数学框架的魅力与威力所在，数学框架给出了一种抽象的结构，从这个结构能够导出有实际意义的物理量。也许还有更多的信息隐藏在lnZ、S等函数的二阶导数中。让我们进一步探索。我们已经知道：

这里不仅仅跟λr有关，还跟其它的λ有关，所以：

因为我们可以对任意两个m中的变量λr和λj求偏导，所以，这一共有m*m个导数值，这些数值就可以构造成一个m*m的矩阵，把它记为Am*m。显然矩阵Arj是一个对称阵，因为Aij=Aji。可以验证，这个矩阵刚好就是测量量的协方差矩阵，也就是：

在另一方面，根据（10）：

同样的道理，因为有m*m对求导的组合，这样就能得到一个矩阵Bm*m。我们已经看到了λ这组变量和这组变量的惊人的对称关系。那么A矩阵和B矩阵有什么关系呢？我们让A和B这两个矩阵相乘：

因为对的导数只有在i=j的时候为1，其他的时候因为它们之间没有函数关系，所以为0。也就是说A和B这两个矩阵互为逆矩阵。而ln Z和S这两个函数在对分布函数的编码信息方面等价。实际上ln Z和S可以通过勒让德变换联系起来。而和λ之间是共轭的。我们将会看到和λ之间的这种共轭性与熵产生的表达式中的广义流和广义里的共轭性有着惊人的相似性。

第二篇：L.M. Martyushev和V.D. Seleznev的《Maximum entropy production principle in physics, chemistry and biology》

一、两句废话

严格说，这段文字不属于读文总结，而是把我知道的有关非平衡态热力学的知识复述一遍。这篇文章主要引领我们进入非平衡态的世界，在这里，熵产生的概念更加重要。最近的一些研究慢慢发现熵产生在不可逆的非平衡热力学过程中扮演者非常重要的角色。就像熵的最大化能够指引平衡态系统的发展方向一样，熵产生的最大化也能够指引非平衡态热力学的发展方向。这个原理被称为最大化熵产生（Maximum Entropy Production Principle, 简称MEPP）。这篇文章是篇综述，写得非常详细。从最大熵产生原理的热力学表述，到该原理的统计物理基础，再到它的一些应用。本文首先讲述熵产生这个概念，接下来讲述该篇综述文章中提到的一些数学原理。对应用的部分就忽略了。

二、什么是熵产生

让我们从克劳修斯对热力学熵的定义开始谈起。克劳修斯当年提出熵这个概念我觉得完全是一种数学技巧的产物。在19世纪，卡诺(Carnot)曾经提出了一个理想的热机模型：卡诺热机(Carnot engine)，这个热机是在时间上可逆运作的，克劳修斯发现，可以定义一个物理量叫做熵：dS=dQ/T 这个定义的好处是，针对于可逆热机，如果热机回到原点，那么熵变△S=0，即熵没有损耗。但对于不可逆热机，因为不可逆热机的效率要小于热机的效率，所以克劳修斯得出：dS>dQ/T 它的意思是，热机在工作中要吸收热量从而引起熵增。但是，不可逆热机的熵增要大于喂给它的热量。这样，对于一个回到原状态的循环过程来说，熵变△S>0。综合这两种情况就是：dS>=dQ/T 和你一样，普里高津也看着这个公式觉得很别扭，因为这是不等号。于是，他就把这个等式右边加了一项，让它变成了等号：dS=dQ/T+d_iS 其中增加的这一项diS就叫做熵产生（Entropy Production），而根据dS>=dQ/T，显然diS>=0。即，无论是可逆过程还是不可逆过程。熵变总体现为两个过程的合效应，即一部分是从外界吸收的热量引起的熵增，另一部分是系统自己无缘无故产生的熵diS。我们还可以把这个等式写为：dQ_总/T=(dQ_输入+dQ_产生)/T 这样，我们仍然可以沿用克劳修斯对可逆热机定义的熵变的公式：dS=dQ/T，把它扩展到一切过程（包括不可逆）。所不同的是，我们引入了一个量dQ_产生。我们知道，对于一个过程来说，过程从环境吸收热就体现为可测量的热量传递：dQ_输入，但是如果过程不可逆，那么根据上式，这就意味着，机器自己还会无缘无故地产生出一部分热量dQ_产生来。这部分热不是外界传递给系统的，而是系统从自身内部的有序能量中耗散出来的。这部分废热就导致了熵产生。这个过程说白了就是任何一种变化过程都有摩擦存在，所以熵产生不可避免。按照例2，如果我们把熵看作为价值的反面会更容易理解这个熵产生的定义。普利高津指出来的熵产生在经济系统中就意味着不可避免的价值损失。比如你往一个村庄里投钱，你投的是10000元，这笔钱到了村子里必然会创造出一定的价值。你期望这笔钱创造的价值应该是：10000/T，这里T就表示村子的平均经济水平（比如人均收入）。但是，根据克劳修斯发现的dS>=dQ/T，翻译成价值的语言就意味着-dS<=dW/T，这里的dW==-dQ=10000。也就是说你投入的10000元造成的实际价值增长要小于10000/T。反过来再按照克劳修斯的说法，这就意味着必定有一过程导致价值损失。也就是说你的10000块钱不可能完好无损的发挥作用，必定有那么一部分钱比如100元是打水漂了。例如可能被村长私吞了，导致你的钱没有救济到所有村民，等等。那么，这部分熵的增长，或者是价值的损失是什么引起的呢？为了说明这种熵产生或者等效的价值丧失的起源。我们先用经济系统中经济价值作为例子来说明。还是考虑这个可怜的村庄，如果进一步研究这个村庄会发现，这个村子内部并不是具有同等经济水平的。假设村庄可以分成东村和西村，并且东村的经济水平T1比西村T2要高。这样，由于各种经济活动，西村的人民可能更愿意花钱买东村的商品（因为东村比西村富，所以西村的人就会觉得东村的商品质量好，这就像改革初期，中国人都愿意买从美国、日本、韩国进口的商品一样）。于是就有货币流从T2往T1跑，而这种从经济水平低到经济水平高的货币移动就会造成价值的损失，让我们看下图：

表面上看起来经济交换是公平合理的，西村损失的货币原封不动地转移到了东村，价值按理说应该没有损失呀。但请不要忘记，同样的10000元钱在经济水平高的地方要比经济水平低的地方更不值钱！所以，货币在两块经济水平不同的区域之间流动就会导致价值的损失。这样，对于外部投资者，你往该村投了10000元钱，这笔钱所带来的实际价值并不是真正的10000/T。而必然比这个数值小。之所以价值要损失，就是因为该村子内部的经济状况是不平衡的，贫穷地方的钱更倾向于往富裕的地区流动，这个流动就必然导致价值的损失！只要我们把上面提到的价值的负值翻译为熵，把经济水平翻译为温度，把价值损失翻译为熵产生，那么上面的描述完全可以套用到热力学。在热力学中，如果有两个容器相连，第一个容器温度高，第二个容器温度低，那么第一个容器就会往第二个容器流热量，这个过程就会体现出熵产生：

这个例子也有错误，感谢东方和尚的指正，详情请看：http://www.swarmagents.cn/bs/membership/viewelite.asp?id=8801&user=jake 在热力学中，我们通常用σ来表示熵产生，它可以写为JX的形式。其中J为热量流dQ，X 是由温度的不均匀引起的势差，也叫做广义的力。所以熵产生也定义为广义流乘以广义力。正如上一篇文章提到的，温度没有必要限定在物理温度上，这里讨论的流和力也没有必要限定在热流和温度梯度。在任意一个非平衡系统中，它可能存在很多的广义流和广义力（例如，在电路中，电流就是广义的流，电势差就是广义的力）。这些流和力就能引起熵产生，所以熵产生的表达式为：

（12）即熵产生是各种广义流乘以广义力的总和。

三、线性区域的非平衡态物理

物理学家喜欢线性的东西，因为什么东西一线性了，微积分的那一大套就可以用上了。现在我们主要讨论几个比较重要的非平衡态物理的线性近似。当系统内部的广义力不是很大的时候，这套结论就都适用。我们都学过欧姆定律：U=IR，其中U就是广义的力：电压，I是广义的流：电流，R是电阻。一般电阻R是常数，所以广义流与广义力之间存在着线性的关系，这就是非平衡态物理线性区域的意思。一般的，某一个广义流不仅仅依赖于与它直接共轭的广义力，而且还依赖于其他的力。比如电路中电流也会产生热效应，所以这些流和力之间是有交叉效应的。所以

,i=1,…,K其中Lik是一个K*K的系数矩阵，这个矩阵有一个重要的性质，这就是：

也就是说，交叉效应是互补对称的。如果单位的电势差能够产生一定量的热量流，那么单位的温度梯度就能产生等量的电流。所以，矩阵L是对称阵，这被称为昂萨格(Onsager)对易关系。同样，由于流和力的对称性，力也能写成流的线性组合形式，而且也有Onsager关系存在。这样熵产生（12）式就可以变成一个关于力或者流的二次型：

看到这些公式你有没有想到它们与上一篇文中导出的λ与之间的相似性呢？回忆：

这里面的第二项就出现了λ与的乘积求和的形式。这跟熵产生的表达式(12)很像。这种启发对于数学家来说有很大的用处，后面我们就会看到这种相似的作用。

三、最大熵产生原理

在《Maximum entropy production principle in physics, chemistry and biology》这篇文章中，作者主要讨论了最大熵产生原理的数学表述。这个原理最早是由Ziegler提出来的(作为一种普遍的假设)，因此也叫做Ziegler原理，它的数学表述为：

s.t.

即一个非平衡态系统将尽量演化使得熵产生σ最大化。之所以要把σ的具体表达式写成约束的形式，是考虑到可以应用各种数学技巧找出抽象的数学结构出来。假如系统中的各种广义力固定了，即Xi都不变了，那么可变的各种流Ji将会导致最大化σ。这样把约束用拉格朗日乘子的写法放到优化函数中并对J求偏导，Ziegler原理就有了下面的描述方法：在这里，σ可以看作为各种流J的唯一函数。μ是引入的拉格朗日乘子。这个时候，可以把熵产生看作是J的一个未知函数，于是得到：

（12）和：

这个（12）式叫做正交条件。这是一个很有意义的数学条件，它具有一定的几何意义，我们后面还会用到，具体请看下图：

这张图表示了当仅有两个流的时候σ(J1,J2)的极值问题。假如σ(J1,J2)就是一个抽象的曲面，那么σ(J)=ΣJX=J1X1+J2X2就表示了一个过原点的平面（X1和X2是常数）。这个平面会与曲面σ(J)生成一条相交的曲线（图中的OM曲线）。我们的问题是，让J1,J2发生变化，并且保证J1和J2能在这条曲线上，然后寻找一点，使得σ(J)能够取极大值。根据该图，这个极大值就对应了M点。那么这个M点有什么性质呢？我们把平面σ(J1,J2)= σmax（σmax是常数）的这个截面和该截面与约束平面的交线投影下来，放到J1-O-J2这个平面上。这个时候，σ(J1,J2)= σmax就成为了一个曲线（如图中底部的圆）。而平面就成为了一条直线：σmax= J1X1+J2X2。这条直线应该与曲线相切，这就是M点是极值点的充要条件。

根据高等数学，我们知道这条直线σmax= J1X1+J2X2与σ(J1,J2)= σmax相切的充要条件是曲线在该点的法向量应该平行于直线的法向量，也就是说直线应该在该点垂直于曲线，这就叫做正交条件。曲线σ(J1,J2)= σmax的法向量是：

而直线的法向量是{X1,X2}。所以（12）给出的条件刚好就是这两个方向量平行的条件。反过来，如果我们能得到一个函数σ(J1,J2)与σ(J)=ΣJX=J1X1+J2X2满足正交条件（{X1,X2}垂直于曲线σ(J1,J2)=const），那么J1和J2这对变量就在最大化σ(J1,J2)。后面我们还会利用这个正交条件。

提两句文中的另一个结论

在一类特殊的σ(J)情况下讨论问题比较有意思，这就是加入σ(J)是J的二次式，即：

其中Rik是一个常数矩阵。那么，从Ziegler原理，我们能够得出：

这是一个新的变分原理，又叫做Onsager原理。从这个原理出发能导出Onsager对易关系和Prigogine的最小熵产生原理。也就是说，从最大化熵产生出发能够导出，在特殊的条件下（线性的、稳态的条件），熵产生还会被最小化。

四、微观解释

Ziegler的最大熵产生原理是作为一种假设引进来的，虽然它已经在很多实际问题中发挥了作用，不过人们对这一假设为什么正确并不理解。这就导致了有一批人开始为这一原理寻找微观的解释。目前，对这一原理的微观解释主要分成三种途径，这三种途径也基本上代表了当今非平衡态统计物理的三种不同的学派。第一个学派是气体动力学派，这个学派将当年Boltzmann研究气体动力学的方法继承下来。它能给出最大熵产生原理一个最严格、彻底的证明。只不过这套方法也需要引入新的假设，另外，它的适用范围比较小。第二个学派是随机过程学派，这套方法也需要引入新的假设。第三个学派是最可能路径理论，它主要把第一篇文章介绍的Jaynes的统计物理扩充到了有关微观路径的统计中来。相比较来说，最可能路径理论是目前最有突破希望的一个理论了。我们将在下一篇重点介绍这个方法。

第三篇：R.C Dewar的《Maximum entropy production and the fluctuation theorem》+《Information theory explanation of the fluctuation theorem, maximum entropy production and self-organized criticality in non-equilibrium stationary states》

一、最可能路径

正如开篇所说，统计物理这套方法之所以能够奏效主要归因于它提出了一整套全新的看待世界的视角。传统的理论认为，客观世界决定了一切，所以，你从最微观的物理原理出发，必然能够一点一点构建起来整个世界的图景。统计物理的新视角是，我并不否认客观世界的说法，但是在处理大数目的复杂系统的时候，这种完全从微观物理出发推导出整个宏观物理系统行为的方法没有错，但并不是最聪明的方法。因为，当我们观察者仅仅在乎系统宏观的统计行为或者规律的时候，系统的微观细节如何并不是我们关心的。这样，科学家们正是忽略了大量的微观信息才能发现气体的运动规律，也才有了统计物理。而这套哲学的根源可以归宿到最大熵原理。面对一个系统，我们对它的了解最无知，所以我们就会去最大化这种无知度的度量：熵。正是这样，Jaynes提出了一套框架可以处理这一类无知与测量的问题。正如我们一再强调的，数学框架的优点在于它可以提供一种抽象的结构，在这个框架下，你放进去什么东西它并不管，但是数学结构可以保证你放进去的东西必然存在着一些联系和性质，这是最重要的。按照第一篇读书笔记的的第三节所讨论的框架还是把系统看作是可以在不同的状态下取值的静态研究。当我们把眼光放到动态系统的时候，我们关注的不再是静止的状态，而是变化本身！在系统中，这种变化就体现为一条演化的路径。这样，我们的统计对象不再针对具体的系统状态进行，而是针对系统的演化路径进行，这就是我们称作最可能路径理论的原因。为了说明最可能路径理论，让我们考虑这样一幅图景：

系统从初始状态出发演化到终止状态。在各种条件允许的情况下，系统的演化路径可能有很多很多，我把它们称作微观路径。设一个微观路径为Γ，则这些路径的全体集合就是{Γ}。观察者对于微观路径的观察缺陷就像对于微观状态的观察缺陷一样，所以我们只能用概率的语言来描述这些路径。因而我们为每一个路径都分配一个主观概率：p_Γ。这样，我们就可以把对于状态适用的那一套语言全部翻译到路径上面了。

最大熵方法适合于描述平衡态的系统，也就是各个变量都不再变化了，系统也就停留在了最大熵给出的状态上。对于非平衡系统来说，有一个与平衡系统的平衡态非常相似的概念，这就是稳态。所谓的稳态，就是指虽然系统的每一个部分都在不停的运动变化过程中，但是构成系统运动变化的流都不变了。因此，从流的角度看，观察者看到了一个稳定的状态。这就叫稳态（steady state或stationary state）。举个例子，比如你观察小溪，如果小溪流水稳定了。那么你看到那些水波纹就停在那里不动了，这时候，虽然你再往下看，水波纹变成了一颗颗运动的水滴，系统应该是处于变化过程中的。所以，这种在变化系统之上高一层次看到的不变状态这就叫稳态，或者叫动态平衡态。在演化的系统中，这种稳态就对应了路径信息熵最大的状态。因为流不动了，所以分配到每条路径上的概率也就给定了。所以我们最大化路径的信息熵就得到了稳态的分布，即：

当然，在最大化路径信息熵的时候我们还要考虑到一些实际的约束。这在下面给出。Dewar的思路是，通过最大化路径信息熵，我们就能自动导出一个新的函数的最大化的问题，而这个函数刚好就是熵产生函数。

二、Jaynes框架中蕴含的变分原理

下面，让我们先暂时把最可能路径的方法放一放，再次考虑Jaynes的框架。实际上，尽管不考虑路径的信息熵，我们都可以从Jaynes的框架中直接得到一个最优化函数，但是它的代价是需要我们做出线性近似的，在给定的时候，当pi优化信息熵S的同时，那些参数λ就去优化这个最优函数。依然采用第一篇的第3节给出的数学框架。我们回忆得到的概率分布是：

我们还有S对测量值的导数：

这样-λr对的偏导数就是：

因为λr与之间的函数关系被关系式（6）制约着，这是一个很复杂的超越方程，我们很难求解。但是，如果λr与都比较小，我们可以求得λr与的线性近似，也就是：

其中B为λr对的导数矩阵。这样，我们可以仿照熵产生的定义，定义一个耗散函数（后面，我们看到，它就是热力学熵产生）：

考虑到λr与之间的线性关系假设，这个函数就是：

这就是说，D函数是的一个二次型。并且有这样的关系：

回忆到：

所以A是对称的，这样，

回忆上一篇的讨论（关于Ziegler原理的那张图），这说明向量

与曲线D=const以及约束平面：

（13）满足正交条件。这就对应了在满足约束条件（13）的条件下，系统要最大化D这个函数。这个新的优化的全过程可以解释如下。让我们动态考虑整个最大化熵的过程。我们知道，在给定之后，求解满足最大熵的过程就是一个确定各个λ的过程。而假如各个λ都是所有的线性函数，那么这个确定λ的过程也就会让λ渐渐与D=const这张曲面垂直，也就是满足正交条件。根据上一篇图中的几何解释我们看到，这个正交条件就会导致D在满足条件（13）的情况下达到最大值。因此，我们最大化信息熵的同时，也就自然求解了一个优化问题：

s.t.

用拉格朗日方法求解就变成：

其中β是拉格朗日乘子。我们已经看到，如果把这个问题中D看作就是熵产生函数，λ看作广义力（如温度梯度），看作是广义流（例如热量流），那么这个问题就和上一篇介绍的Ziegler原理具有相同的数学形式了。下面，我们就来对最可能路径进行计算，找到D就是熵产生函数的条件。

三、从MaxEnt到MaxEPP

下面我们就将上面两节介绍的结果综合起来得到最大熵产生原理。首先，我们是针对系统演化的路径的信息熵求最大值，所以：

其次，我们要考虑系统所受到的约束。根据R.C. Dewar的思路，假设我们考虑的系统任意时刻任意一个空间点x的能量密度用d(x,t)表示。系统所处的空间区域是V，区域的边界是Ω。系统的边界处有一定的能流穿过与系统交换能量，在边界上任意点在时间上的平均流量是：F(x)。假设不同的微观路径对应不同的密度和流量，但是我们仅仅能测量出它们的平均值，所以我们有约束：

注意到，这些条件是针对空间区域V或边界Ω中任意一点列出的。因此，原则上它已经包含了无穷多个等式。这些等式再代入p(Γ)的时候就得到了积分项。按照前面介绍的方法，可以求出：

因为对V或Ω中的每一个点都能列出约束，因此我们就得到了两个系列的拉格朗日乘子，他们就都成了连续函数，即式子中的α(x)与β(x)。我们记：

我们知道，P就相当于是Jaynes框架下的

如果P就是熵产生函数，那么上一小节的结论就可以用到了。下面我们将主要讨论它。注意到系统运动应该满足连续性条件，也就是d 和F之间存在着一定的关系：

个人以为这个运动连续性的条件的引入非常重要。之后，Dewar通过近似、化简（说实话，实在是讨厌他后面这些近似、化简工作，而且总给人感觉不是很正确，在这里就略过不谈了），最后可以得到：

其中τ就是系统演化的时间。回忆到，在第一篇中，我们已经指出-λ可以看作是1/T，即温度的倒数，而F_Γ(x)是对应的能量流，所以P跟熵产生已经很接近了，进一步，再用一下高斯定理，即把在边界区域上的积分改成体积分：

这里div(F_Γ(x))表示的是能量流在空间上不同点的损失，所以P就是熵产生，第一项是由温度梯度引起的，第二项是由于摩擦、耗散等原因引起的能量损失。这是一条路径上的熵产生，而D函数是针对测量的平均值列的，所以对上式求路径的平均值（注意，只有积分项中的F(x)是依赖于路径的，其它都跟路径无关，所以求平均就对F(x)求了），就得到：：

所以，这就是整个系统的热力学熵产生。其中第一项是传递给系统的能量流乘以温度梯度。第二项为平均能量流损失（由于摩擦），它会导致熵的产生。这样结合上一节的结论，我们就得到了最大化熵产生原理。

四、点评Dewar的文章

Dewar的两篇论文用Jaynes的最大熵框架得到最大熵产生原理得到了人们的普遍关注。它的意义在于：在没有引入过多假设的情况下，就可以导出适合于非平衡态的最大熵产生原理。这个思路主要有两处难点，第一点就是如何写出正确的约束，使得我们可以导出熵产生函数。第二个难点是，当我们得到了熵产生函数之后，如何自然导出它的最大化？Dewar的两篇文章分别用不同的方法解决这两个问题。第一篇文章《Information theory explanation of MaxEP…》中，Dewar用初始条件、边界条件作为约束，以及系统的能量物质连续条件给出了路径概率中的指数P就是熵产生函数。进一步，它通过一系列近似和假设指出了这个平均的熵产生

能够被最大化。这后一点遭到了很多人的批评和质疑。第二篇文章《Maximum Entropy Production and fluctuation theorem…》中，导出熵产生函数仍然沿用第一篇的方法，但是在导出P最大化的思路则是按照我们文中讲述的方法。即在假设了λr与之间是线性依赖的假设下导出了一个正交条件，而这个正交条件就会最大化一个耗散函数。最后这个耗散函数就是熵产生函数。因此，这篇文章弥补了第一篇文章的不足，但是它是以更高的近似要求（线性区域）为代价的。虽然之前也有很多人试图从最大化熵这条路来推广到非平衡态物理，但都没有成功。而Dewar思路的成功之处在于他引入了最可能路径的概念是史无前例的。但是，我们看到Dewar得出MaxEP的各种努力并不是完美的，这里面牵扯到了太多的假设和近似！因此，我个人认为，这恰恰是因为Dewar的思路没有走到底。本来，对非平衡态的系统来说，系统的变化和流动才是更重要的，而系统的状态并不重要。Dewar考察对路径的分布，这是很大的进步，它体现了人们应该盯住流动看。但是，Dewar最大的缺陷是，它列出的约束并没有沿着这个思路。我们考虑它提出来的两个约束条件：虽然这每一个测量和名义上是对路径做出的，但是从数学形式上看，如果我们把p_Γ就理解为状态的概率，它不会对这两个方程造成任何数学结构上的改变。也就是说，这两种测量仍然是观察者考察系统的状态作出的！所以，我们说Dewar给出的约束条件没有体现对流动进行统计的思想。恰恰相反，Dewar给出的另外一个隐含条件（能量连续）：我认为才更重要，这是因为。当我们盯住流动看，我们能够确定的不再是系统的状态，而是系统的变化本身，而这种变化恰恰就体现为描述系统变化规律的方程。只不过仅仅把上式作为约束，我们并没有导出更好的结果。这种思路换个说法就是：考虑有一堆自动机（比如细胞自动机）在那里演化。这样，每个自动机就相当于是一条变化的路径。对于自动机来说，它的具体的规则给定以后，它的演化路径也就完全确定了。这样，我们关于路径的不确定性也就是相当于对规则的不确定性。我们知道，自动机的规则可以进行编码。这样，我们能够定义出一个编码的空间，空间中的每个点就是一个具体的规则。这样，我们的观察也就是对规则的观察。所以最大化路径的信息熵就是在最大化我们对于具体编码的无知度。而约束也应该是针对于这些编码给出的。另外，关于最大化熵产生原理还有一种感觉是Dewar的理论没有说出来的。那就是时间与变化和流动的关系。最大化熵产生原理可以理解为在给定时间间隔下，系统会倾向于一条能够产生熵最大的路径，同样也可以理解为假设系统的熵产生给定了，那么系统会倾向于选择一条熵产生变化最快的路径。这个道理在L.M. Martyushev, V.D. Seleznev的一张图表示了出来：即系统会倾向选择2这条路，因为只有这样熵产生才能最快的发生。Jaynes的统计理论可以说是关于空间的统计理论，这样最大化熵就相当于把概率P最均予的撒到每个状态空间的点上以最大化占领空间。而最大熵产生原理给人的感觉是它的统计基础应该是一个关于时间的统计理论，最大熵产生就相当于把概率P最浓缩地分配在时间上（分配概率越大的路径，它的效率越高）。这些感觉Dewar的理论中都没有涉及到，所以必然存在着缺陷。

总结

将Jaynes的方法用到非平衡路径空间将大有可为。Dewar的理论仅仅做出了初步的探讨。他的证明过程中用到了大量的近似，所以，他给出的证明并不算严格。因此，最大化熵产生如何从Jaynes的框架中导出来还是不很清楚。我认为未来的突破可能有几点：1、既然是针对路径分布的信息熵求最大化，那么相应的约束也应该跟路径有关，也就是相当于对规则的约束。2、最大熵原理可能已经隐藏在Jaynes的这套框架之中了。原因是，我们可以根据前面的讨论看到。系统在最大化信息熵的时候可能已经把其他的一些指标最大化了。而这个指标可能就是熵产生。3、在Jaynes的框架中，我们看到了大量的对称性。例如概率p(xi)与f(xi)的对称性，测量与λ的对称性，熵S与lnZ函数的对称性，指数函数与ln函数的对称性。还有最后指出的空间与时间的对称性等等。我的直觉是，这些相关的对称性很可能与实数与虚数的对称性有关。所以，复变函数的引入也许可以提供全新的思路。

本文所属的精华目录：流｜本文的标签：系统理论方法　　　　评论( 54 ) '发表评论｜阅读(9074) jake的blog 收藏

所有评论

东方隐于 2008-8-22 15:08:10 回复：最大熵产生原理系列论文的读书笔记 △TOP 这样写读书笔记是很好很好的学习方法，贫僧一定要效法。首先这篇文章就很值得看。

>jake在最大熵产生原理系列论文的读书笔记中写道：
---------------------------

越来越感到最大熵产生原理的重要性了，尤其是他的统计物理基础。利用暑假时间，我快速地把几篇重要文章使劲儿读了读，深深感觉到自己数学功底并......

东方隐的blog '发表评论

jake 于 2008-8-22 16:48:48 回复：最大熵产生原理系列论文的读书笔记 △TOP

第一篇写得有点长了，都是已知的教科书上的东西。

新东西在后面，只可惜老外的研究现在还很不完善。这倒也给了我们很好的机会呀！看谁先能把后面的MEPP参透吧！时间、流动和观察者！

>东方隐在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
这样写读书笔记是很好很好的学习方法，贫僧一定要效法。首先这篇文章就很值得看。

>jake在最大熵产生原理系列论文的读书笔记中写道：
......

jake的blog '发表评论

noise 于 2008-8-22 17:40:22 回复：最大熵产生原理系列论文的读书笔记 △TOP

真的是很让人兴奋的东西!

Jake说到一个重点就是规则! 很明显MEPP/MaxENT并不适用于任意规则的系统。如果我们忽略上面的推导只着意看MEPP/MaxENT的统计意义，然后随便拿一个系统来试试比如一个元胞机:
假设巨量的元胞使观察者无法知道系统的精确状态，只能看到平均值(从局部灰色度判断黑白在某区域的出现频率)。根据MaxENT观察者对元胞机状态的知识应该随系统演化不断减少，可是存在一些元胞机规则是给定任意初始状态系统最后都会掉进若干几个结果。在这种情况如果观察者知道元胞机的规则的话，他就能不知道初始状态而能预测系统结局! 导致熵减!
那么问题就是MEPP/MaxENT适用于什么规则呢? 我想是能量守恒的系统(DEWAR的能量/物质连续就隐含了这点)，或者更广义的讲是相空间体积守恒的系统(上面的元胞机明显不是)。顺这条路走可能把MEPP推广到非物理系统。

另外还是对Dewar的推导有极多的不明白，整理一下头绪发上来请大人们指导，哈哈

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

第一篇写得有点长了，都是已知的教科书上的东西。

新东西在后面，只可惜老外的研究现在还很不完善。这倒也给了我们很好的机会呀！看谁先能把后面的MEPP参透吧！时间、流动和观察者！

noise的blog '发表评论

东方隐于 2008-8-23 1:12:44 回复：最大熵产生原理系列论文的读书笔记 △TOP

这位同学的学习很认真的说，呵呵，贫僧对你的心得很感兴趣。从这个例子，我们就可以看出来客观熵不适用于此系统，假如生活在此自动机世界中的生命有了意识，那么它对熵的定义一定和我们不同，也就是需要引入所谓的主观熵了。

当然更大的可能是熵只能适用于一定的系统，这个系统的变化必须符合某些前提条件，乱跳乱动的系统，没有熵可言，也更不会产生生命。

>noise在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

真的是很让人兴奋的东西!

Jake说到一个重点就是规则! 很明显MEPP/M......

东方隐的blog '发表评论

jake 于 2008-8-23 14:27:13 回复：最大熵产生原理系列论文的读书笔记 △TOP

Jake说到一个重点就是规则! 很明显MEPP/MaxENT并不适用于任意规则的系统。如果我们忽略上面的推导只着意看MEPP/MaxENT的统计意义，然后随便拿一个系统来试试比如一个元胞机:
假设巨量的元胞使观察者无法知道系统的精确状态，只能看到平均值(从局部灰色度判断黑白在某区域的出现频率)。根据MaxENT观察者对元胞机状态的知识应该随系统演化不断减少，可是存在一些元胞机规则是给定任意初始状态系统最后都会掉进若干几个结果。在这种情况如果观察者知道元胞机的规则的话，他就能不知道初始状态而能预测系统结局! 导致熵减!

这并不和Jaynes的统计方法相冲突。早期的平衡态统计物理适用于纯粹（无规则）的系统，所以包括万有引力相互作用在内的所谓的长程相互作用系统严格来说都不能用统计物理。

Dewar的意思是开始关注系统演化的规则，这仍然是Jaynes的统计思想。你从规则上看动态的过程就还是静态的（元胞机给定了规则以后，尽管他的动态是变化的，但是从规则空间看，它没变）。对于这类系统不存在你说的那种问题，不管系统收敛不收敛，我们关注的是规则，而不是状态，所以如果你对系统地了解少并不意味着它的状态并不收敛，而意味着你对它的演化路径缺少信息。

综合这两点，就是我们对客观世界存在着两类描述手段，一类是对静态，这种情况下，我们看到了熵增就等于最无序的情况；而另一类，也是我们最感兴趣，MEPP描述的那一类是种动态过程，这种情况下路径上面的熵增并不一定对应的是状态上的混乱，而可能呈现出复杂的进化（因为我们关于路经或规则的描述不清楚了，所以这个系统的变化似乎很超出我们的想象）。

再举个例子。进化的本质就是遗传代码的变异。而遗传代码就相当于是应付环境的规则。所以我们看到，在一串代码空间上看，进化变异就是一种熵增的过程，但当我们反过来看代码指导的生命体的时候，它们不是更混乱了，而是行为更多样化了！

你有什么问题尽管提，真得很希望大家能在这个思路下讨论出新东西出来。

>noise在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

真的是很让人兴奋的东西!

Jake说到一个重点就是规则! 很明显MEPP/M......

jake的blog '发表评论

东方隐于 2008-8-23 14:50:57 回复：最大熵产生原理系列论文的读书笔记 △TOP

我有问题！看来看去我就是弄不明白配分函数究竟是什么意思，你说：

这个框架下，只要确定了一组观测值，就能通过最大化熵，而得到另外两组变量，一个是p(xi)，另外一组是λ_r

_{我看那个λ不就是拉格朗日乘子么，不就是一种求极值的数学技巧，它为什么有实际的物理意义？比实际的概率分布还要重要？}

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

Jake说到一个重点就是规则! 很明显MEPP/MaxENT并不适用于任意规则的系统。如果我们忽略上面的推导只着意看......

东方隐的blog '发表评论

jake 于 2008-8-23 15:04:01 回复：最大熵产生原理系列论文的读书笔记 △TOP

你这个问题问得很好！我觉得得从两方面来回答

首先，不知道你从数学上讲是否理解了？就是说由谁决定谁的因果关系？如果这方面没理解，那最好的办法就是自己动手解一解这个优化问题，然后画画图，看是不是不同的能够对应不同的lambda。

第二，从物理学层面来讲，这背后的原因是，优化问题总伴随着方程问题。

我们可以考虑一个动态的模拟过程。就是给定了概率分布，给定了观测，系统就会朝着最大熵的状态下发展。这个时候你忘记了拉格朗日乘子法。你也不知道这么个lambda。于是，你能很好导出这个过程对吧？

下面，又得请来一名观察者，他看过你的模拟后，说，“你的这个优化问题和一个求解方程的问题等价，这个方程就是关于lambda的那个平衡方程。优化问题最后的解，刚好就是系统的平衡条件”。

这两个观察者那个更正确？都对，这是看问题的两个方面。所以，这套数学揭露的是一个很多方面都共轭、对称的问题。

但是从各种对称性上来看，很有可能这背后牵扯到关于复数的问题。这是一种直觉，现在还不清楚。

>东方隐在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

我有问题！看来看去我就是弄不明白配分函数究竟是什么意思，你说：

jake的blog '发表评论

　　8 东方隐于 2008-8-23 15:06:07 回复：最大熵产生原理系列论文的读书笔记 △TOP
谢谢指点，今天下午贫僧要好好参这个事情。

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
你这个问题问得很好！我觉得得从两方面来回答
首先，不知道你从数学上讲是否理解了？就是说由谁决定谁的因果关系？如果这方面没理解，那最好的办法就是自己动手解一解这个优化问题，然后画画......
东方隐的blog '发表评论
　　9 东方隐于 2008-8-24 10:49:14 回复：最大熵产生原理系列论文的读书笔记 △TOP

终于弄懂了，身心畅快，好像大热天喝了冰啤酒的感觉！
大学里也有统计物理的课程，不知道他们讲配分函数λ，是不是从熵对观测平均值的导数这个路子上讲，也就是温度越高，λ越小，观察平均值发生的变化对熵的影响也越小，相对应于系统越难发生变化。因为我google配分函数，正则系综之类，看到的都是很多外星文字。我不知道如果不从复杂度最大化这条路子去思考，是不是还有什么办法搞懂这门学问。

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
你这个问题问得很好！我觉得得从两方面来回答
首先，不知道你从数学上讲是否理解了？就是说由谁决定谁的因果关系？如果这方面没理解，那最好的办法就是自己动手解一解这个优化问题，然后画画......
东方隐的blog '发表评论
　　10 jake 于 2008-8-24 14:26:43 回复：最大熵产生原理系列论文的读书笔记 △TOP
配分函数应该是Z，lambda就是温度的倒数。推出统计物理有两条大的思路，第一个是给出遍历性假设，直接按照大格子、小格子推出来，第二种是Gibbs和Jaynes这条路。第二种比第一种简洁很多。
不过还有一些思路，并不能推出具体的Gibbs的正则系综分布，但是可以导出温度、熵等概念。这个思路更简洁，有时间我写一写。

>东方隐在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

终于弄懂了，身心畅快，好像大热天喝了冰啤酒的感觉！
大学里也有统计物理的课程，不知道他们讲配分函数λ，是不是从熵对观测平均值的导数这个路子上讲，也就是温度越高，λ越小，观......
jake的blog '发表评论
　　11 noise 于 2008-8-24 21:07:09 回复：最大熵产生原理系列论文的读书笔记 △TOP
是的，MAXENT/MEPP没有设定规则不假。可你有没有发现在所有的MAXENT/MEPP推导里都隐含能量守恒，无论系统规则如何。在我看来能量守恒用更广义的语言讲就是状态量(相空间体积)在系统演化下不变，这和最大熵的成立有很大的关系!
又拿上面的元胞机为例，就算观察者不知道规则，因而预测不了系统结局。可是系统的结局是可重复的，只要观察者多做几次实验就发现了规律。因此问题还是存在的。
就好像做气体实验时发现无论如何准备气体，它们到最后都静止不动(0K)，这时熵减倒成常态了! 正因我们的世界能量守恒，这事才不会发生。

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
Jake说到一个重点就是规则! 很明显MEPP/MaxENT并不适用于任意规则的系统。如果我们忽略上面的推导只着意看......
noise的blog '发表评论
　　12 noise 于 2008-8-24 21:09:06 回复：最大熵产生原理系列论文的读书笔记 △TOP
上面观察导致熵减的推导:
如果直接把测量数变加到m+1的话不一定会有熵减。因为你加一个测量的时候同时加了一个新的系统变量fm+1，一方面没有增加观查者对旧有变量的知识，而且还增加了新变量的未知度；简而言之系统有更多的玩法了。比如本来就考虑粒子动能，现在加上粒子的电荷，这两个变量毫不相干，熵只能加。确切的讲dS就是电荷的熵( newS = oldS + S(charge))
要推敲观察导致熵减的原理，应该是一种测量使我们对本来的变量更了解。如果新测量的变量fm+1完全被fm，fm-1。。。。f2，f1决定的话，那么系统可能状态量n就和原来一样，这时候才会有熵减。
另外例3有问题。如果赚钱能力Ei和赚得的钱成比例的话，那分钱很简单: i兄得的钱=10000* Ei/(E1 + E2 + E3 + ....E100)
要用到MAXENT的话，问题应该是: 同样10000元，同样 100人，观察者完全不知道他们的赚钱能力。只能假设10000元在100人里的所有分法都是可能的，而且机率一样。然后求出最大可能的钱分布。

>jake在最大熵产生原理系列论文的读书笔记中写道：
---------------------------
越来越感到最大熵产生原理的重要性了，尤其是他的统计物理基础。利用暑假时间，我快速地把几篇重要文章使劲儿读了读，深深感觉到自己数学功底并......
noise的blog '发表评论
　　13 machine 于 2008-8-25 11:17:39 回复：最大熵产生原理系列论文的读书笔记 △TOP
喜欢第一篇的描述方式, 从一个纯粹的抽象的数学模型出发来推导出这些概念, 然后应用到传统热力学以及更广阔的实际模型上去. 不知道Jaynes是不是这么做的第一人, 以前的统计力学教材都是从气体模型, 热运动这些东西开始讨论的吗?
第二篇讲MEPP的部分貌似又是从热力学开始讨论, 就看不下去了... 要是能抛开热力学, 完全当作严格的数学来讲解就好了

>jake在最大熵产生原理系列论文的读书笔记中写道：
---------------------------
越来越感到最大熵产生原理的重要性了，尤其是他的统计物理基础。利用暑假时间，我快速地把几篇重要文章使劲儿读了读，深深感觉到自己数学功底并......
machine的blog '发表评论
　　14 jake 于 2008-8-25 14:06:38 回复：最大熵产生原理系列论文的读书笔记 △TOP
能量守恒是绝对重要的。不过，在一个开放系统中（针对这个系统来说），能量是不守恒的。但是物质、能量的连续性条件仍然存在，也就是说宏观上的守恒定律转变成了微观上的连续性条件。这是我目前最感兴趣的一个方面。
不太理解你的这句话：
就好像做气体实验时发现无论如何准备气体，它们到最后都静止不动(0K)，这时熵减倒成常态了! 正因我们的世界能量守恒，这事才不会发生。
为什么说熵减是常态了？你是不是认为确定就等于熵减，不确定就意味着熵增？这个回答不完全，你这要看针对系统的什么层次而言。针对微观的分子，就是熵增，因为你忽略了微观的信息。而针对气体系统整体，因为你已经把信息忽略晚了，所以你看到的就是一个确定的状态，对于这样的情况来说，你讨论这个系统点的熵就没有意义了。而反过来，如果你把100000个气体系统组成一个更大的系统，那么讨论该系统的熵就有意义。所以，熵并不一定就是确定，熵代表的是忽略信息，而这个信息的忽略又是一个主观的行为。

>noise在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
是的，MAXENT/MEPP没有设定规则不假。可你有没有发现在所有的MAXENT/MEPP推导里都隐含能量守恒，无论系统规则如何。在我看来能量守恒用更广义的......
jake的blog '发表评论
　　15 jake 于 2008-8-25 14:11:07 回复：最大熵产生原理系列论文的读书笔记 △TOP 谢谢你这篇质疑！我发现我的确犯了一个重大的错误，就是关于那个分配钱的例子。之后，我会好好再写一个东西解释的。再次感谢。

>noise在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

上面观察导致熵减的推导:
jake的blog '发表评论
　　16 jake 于 2008-8-25 14:14:13 回复：最大熵产生原理系列论文的读书笔记 △TOP
呵呵，你属于典型的“摘桃者”。
要知道，从一堆物理事实中抽象出一个有用的数学框架是多么困难的过程啊！目前，MEPP就处于此阶段，并不是说这里面没意思，而是现在正处于大发现的前期。反过来，这也意味着，来到这种前沿地方的人都是淘金者。而当你有了一个成熟的数学框架了，就往往意味着机会已经过去了。

>machine在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
喜欢第一篇的描述方式, 从一个纯粹的抽象的数学模型出发来推导出这些概念, 然后应用到传统热力学以及更广阔的实际模型上去. 不知道Jaynes是不是这么做的第一......
jake的blog '发表评论
　　17 machine 于 2008-8-25 14:52:33 回复：最大熵产生原理系列论文的读书笔记 △TOP
该公式也应该>0，但是尚未找到证明方法。看起来很对称的样子。
应该是≥0吧? 由于满足这m+1次测量的所有pi组合都满足前m次测量, 即满足m+1次测量的pi集合是满足前m次测量的pi集合的子集, 所以S1≥S2, 这不算一个证明吗?
machine的blog '发表评论
　　18 东方隐于 2008-8-26 14:44:57 回复：最大熵产生原理系列论文的读书笔记 △TOP
又要请Jake大人开导了，
我也在看Dewar的论文，就是不理解下面的A（path action）究竟是什么意思，因为如果是很多流的话，应该是流程越短，A越大，我就懂得很模模糊糊。

>东方隐在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
这样写读书笔记是很好很好的学习方法，贫僧一定要效法。首先这篇文章就很值得看。

>jake在最大熵产生原理系列论文的读书笔记中写道：
......
东方隐的blog '发表评论
　　19 东方隐于 2008-8-26 17:17:48 回复：最大熵产生原理系列论文的读书笔记 △TOP
还有，我知道λ=dS/d，我现在不明白的是这个式子的物理意义是什么。因为给定了一个系统，我们对它里面的构成一无所知，你说“当发生变化的时候，其他因素都没来得及变，因此λr也没来得及变，这个时候。λr越大，熵对测量结果的依赖也就越明显”，我就在想，如果要测定A（path action），那么我需要知道两个λ，是不是扰动一下系统，让改变，同时测定熵，但是熵又是不可测的。那么这个式子究竟能告诉我什么呢？

---------------------------
我们看到，前面给出了一个数学框架。在这个框架下，只要确定了一组观测值，就能通过最大化熵，而得到另外两组变量，一个是p(xi)，另外一组是λ_r。下面，我们感兴趣的一件事情是，如果我们改变观测值，那么由于上面数学框架下的因果关系，p(xi)会变，λ_r也会变，这样最大化后的熵也会改变，它们之间的关系是什么呢？
东方隐的blog '发表评论
　　20 noise 于 2008-8-26 20:58:57 回复：最大熵产生原理系列论文的读书笔记 △TOP
统计力学的遍历性假设使系统的每个可能状态都是等概率的；可是Dewar就假设了每
条轨迹都有不同概率P(path)。
问题是Dewar又给出
sum(P(path)*dpath(x，0)) =     x <- volumn
sum(P(path)*Fpath(x)) =     x <- boundary
注意这正正是期望值的定义!! 期望值就是给定了概率分布，最"期望"的值。可是
实际上，路径的概率分布是我们想求出的，和反而是观察者观
测出的数值! 是不是倒过来了?

>jake在最大熵产生原理系列论文的读书笔记中写道：
---------------------------
越来越感到最大熵产生原理的重要性了，尤其是他的统计物理基础。利用暑假时间，我快速地把几篇重要文章使劲儿读了读，深深感觉到自己数学功底并......
noise的blog '发表评论
　　21 东方隐于 2008-8-26 21:30:45 回复：最大熵产生原理系列论文的读书笔记 △TOP

楼上说的有理，确实这种分析方法对于路径和状态是一式一样的，换汤不换药，完全体现不出路径分析的特点来。
不过边界条件和期望值的表达式是一样是没有问题的，作为已知条件，它就是边界条件，作为未知变量，它就是期望值。
我是这么想的，山上有三个山洞，山洞里有三头狼，走三条路下山，山洞是一样的，因此是遍历分布，但是路径就是不一样的，有长有短还有交叉，你肯定不能说走哪条路碰上狼的机会都一样，对吧，就要计算了。

>noise在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
统计力学的遍历性假设使系统的每个可能状态都是等概率的；可是Dewar就假设了每
条轨迹都有不同概率P(path)。

东方隐的blog '发表评论
　　22 noise 于 2008-8-26 23:03:07 回复：最大熵产生原理系列论文的读书笔记 △TOP
你说的对，每条路径的概率不一样可能是正常的。可是拿边界条件作期望值就很不理解了，因为在这里会导致冲突: 在t=0时，在x位置我们观察到，然而
sum(P(path)*dpath(x，0)) =
是不是尽管dpath(x，0)和不一样，它仍有P(path)非零的概率存在? 实际的d(x，0)和测量不一样?
是不是我没理解Dewar的设定，并不是观察者真的测量而肯定在t=0，位置x，d(x，0)就真是，其实是观察者通过不精确的测量得出的"有水分"的期望值?

>东方隐在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

楼上说的有理，确实这种分析方法对于路径和状态是一式一样的，换汤不换药，完全体现不出路径分析的特点来。
不过边界条件和期望值的表达式是一样是没有问题的，作为已知条件，它就是......
noise的blog '发表评论
　　23 noise 于 2008-8-26 23:05:36 回复：最大熵产生原理系列论文的读书笔记 △TOP
是不是反了? m+1次测量的结果不可能满足m次的结果，因为前者多了个fm+1。后者满
足前者，是前者的子集。

>machine在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
<>
noise的blog '发表评论
　　24 东方隐于 2008-8-27 10:23:24 回复：最大熵产生原理系列论文的读书笔记 △TOP 还是等Jake大人回来吧，他老人家又不知道去哪里了，国有疑难可问谁啊……

>noise在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

是不是反了? m+1次测量的结果不可能满足m次的结果，因为前者多了个fm+1。后者满
足前者，是前者的子集。

<>< font="">
东方隐的blog '发表评论
　　25 jake 于 2008-8-27 10:25:21 回复：最大熵产生原理系列论文的读书笔记 △TOP 首先，这个公式给错了，第二次测量后，各个lambda应该变了。其次，这个猜想也错了，我昨天作了数值试验。只可惜昨天染上病毒了，导致现在不能把结果贴上了，等我折腾好后，给大家一个结果。

>machine在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
<>
jake的blog '发表评论
　　26 jake 于 2008-8-27 10:47:21 回复：最大熵产生原理系列论文的读书笔记 △TOP
这个A就是从最大化熵中导出来的一个抽象的作用量，它就像平衡态系统中的每个微观状态的能量一样。只不过这里A是针对每条路径的。
你说得没错，按照我们的直观理解，这里的A应该是反比于路径长度的，但其实没那么简单。Dewar后面近似出来了这个A就是熵产生。然而，这个熵产生是什么？它能不能等价为路径长度的倒数？现在还不知道，所以，我觉得Dewar的工作没有做彻底呀，至少从这一点上来说是这样的。
至于Jaynes框架下的如何影响lambda，并不需要我们测量S呀，它只是一个虚头，仅仅作为最大化的指标。你给丁，就能得到S和lambda。并不需要知道S！
P.S. 这两天我机器染上病毒了，正在奋斗中，苦不堪言。

>东方隐在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
还有，我知道λ=dS/d，我现在不明白的是这个式子的物理意义是什么。因为给定了一个系统，我们对它里面的构成一无所知，你说“当发生变化的时候，其他因素都没来......
jake的blog '发表评论
　　27 reasoning 于 2008-8-27 12:41:33 回复：最大熵产生原理系列论文的读书笔记 △TOP
真是羡慕jake，职业和兴趣合二为一，不像我，职业和兴趣风牛马不相及。
reasoning的blog '发表评论
　　28 东方隐于 2008-8-27 15:50:41 回复：最大熵产生原理系列论文的读书笔记 △TOP

专业一般来说都是自己挑选的，一开始都以为自己很感兴趣，到后来难而且繁了，就都怕了，最好早点上班了，上班发现都在混，有混得好混得不好，又会觉得做学问比较纯粹，是自己喜欢做的事情，于是又有人回去做学问，结果当然又发现太难，就这样跑来跑去，说围城是好听的，其实是像我们上海的两面黄，翻过来翻过去，一直煎到挂辣松脆喷喷香为止
老婆也是的，开始是都是“梦中情人”，到后来变成黄脸婆……哈哈哈

>reasoning在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
真是羡慕jake，职业和兴趣合二为一，不像我，职业和兴趣风牛马不相及。
......
东方隐的blog '发表评论
　　29 machine 于 2008-8-27 23:08:35 回复：最大熵产生原理系列论文的读书笔记 △TOP
我有个问题想问, 关于热力学第二定律的:

看书上第二定律的描述, 都是用什么卡诺机, 热力学熵, 温度等概念来描述的, 而且描述的貌似也都不很严格, 看不太懂. 既然Jaynes能把熵, 温度这些概念抽象出来, 那他的理论能不能推出第二定律? 或者给个Jaynes版本的第二定律描述? 就是说, 能不能把第二定律当成一个数学定理...
machine的blog '发表评论
　　30 jake 于 2008-8-29 6:34:19 回复：最大熵产生原理系列论文的读书笔记 △TOP

你理解的地二个思路对，在这里，平衡态统计物理的等概率假设已经变成了最大熵假设。
也就是说，在传统的统计物理中，需要给定一个假设（等概率），到了Jaynes后，这个假设没了，但变成了最大熵原理了。

>noise在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

你说的对，每条路径的概率不一样可能是正常的。可是拿边界条件作期望值就很不理解了，因为在这里会导致冲突: 在t=0时，在x位置我们观察到
jake的blog '发表评论
　　31 jake 于 2008-8-29 11:53:41 回复：最大熵产生原理系列论文的读书笔记 △TOP
这个公式和结论都错了，应该是：
测量导致的熵变：如果已经有了m次测量，最大熵为：引入新的测量之后，测量次数变为了m+1（各个λ的数值应该变化了，因为方程（6）是非线性的），最大熵为：引起的熵变是：        这是一个很复杂的多变量函数，很难判断它是否为正。下面，我们采取数值试验的方法，即随机生成一组fr(xi)的数值，以及，在此基础上，加入一次测量，即增加了一组：fm+1(xi)的数值，我们看看不同的新加入的测量值会如何影响熵变。         下面是10次随机试验得到的测量值对S2-S1的影响：我们看到熵增和熵减都是有可能的，这完全取决于初始分配的实验参数。看来，我们并不能肯定：对一个新属性的测量能够得到熵减。

>machine在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
<>
jake的blog '发表评论
　　32 jake 于 2008-8-29 11:54:30 回复：最大熵产生原理系列论文的读书笔记 △TOP
那个例子的确是我错了，请看：
在这个框架中，对f(xi)的理解是很重要的，也是非常不清楚的。按照框架的设定，xi应该表示系统的不同状态，f(xi)就表示刻画这个状态的一种属性。因为我们观察者是对每一个状态下的具体信息已知的，而不清楚的是具体取某一个状态的概率。所以，我们才会获得关于f(xi)的平均测量值：，从而用最大熵来反推这个概率。换句话说，在一开始，f(xi)应该是观察者已知的量，然后，观察者测量一次以后，就变成了已知的量。未知的量只有p(xi)。举个例子来理解这些变量。假设你们班上有50个人，每个人的特征你都清楚。这个时候，老师跟你们玩儿21问的游戏，即它随意选中一个人，让你通过问老师问题来猜他选中的人是谁。你会问一些简单的问题，如这个人是女的吗？这个人身高多少？那么，平均你需要问多少次才知道你老师选中的人是谁呢？这就是我们数学框架的离散版本（每个人只能具有某一种确定的特征）。        在这里，50个人中的每一个人就是xi，而你选择问的问题就相当于从这些人中抽取出一个特征，就是fr。因为这些人你都了解，所以他们的特征你都清楚，于是fr(xi)就是已知的。你老师给你的回答就是你的一次测量值，即。         比如，性别就是一个特征。假如它只能取{0,1}，所以你班上所有人的性别就构成了：fr(xi)向量，如：(0,1,0,0,1,1…)。再如身高这个变量，所有人的身高构成了一个fr(xi)向量：(1.5,1.8,1.6,…,1.3)。一次测量就相当于你问老师一个问题，而他给出你答案。比如你问老师身高多少，老师说1.7。于是你得到了约束等式：1.5p(x1)+1.8p(x2)+1.6p(x3)+…+1.3p(x50)=1.7         这里，p(xi)就是你认为的老师头脑中的那个人是xi的主观概率。你每次得到一个准确的回答，其实就是在调解每个人分配的主观概率p(xi)。在确定性答案的情况下（男、女问题），这些主观概率只能取0或者1。         信息熵是什么呢？它应该就是你平均来讲需要问问题的次数（这个问题还没有仔细验证过，应该是一个有趣的问题）。          大家可能觉得上面讲述的对f(xi)的要求太苛刻了。对于一个未知的系统（比如包含了10²³个粒子的系统），我们怎么可能知道每个个体对应的特征f(xi)呢？其实，还有一种解释是，f(xi)不代表系统某一状态的特征，而是特征的可能值。比如考虑人的身高问题。我们不可能知道每个人的身高，但是我们总知道人的身高是从[0,5]内取值的，这样0到5米区间内的每一个数值就是一个身高的可能值。所以我们考虑得xi就是所有可能的身高值，而p(xi)就是某一个身高值的概率。这样，当我们说某一个地区的平均身高是2米的时候，我们能得到的约束是：（1）这样，我们要求的就是分布函数p(x)，它是在每一个可能身高值上的分布。          综合考虑上面两种对f(xi)的理解方法，会发现有一定的矛盾之处。比如，同样是身高的问题，也同样是对班里面的50个人进行讨论。那么，假如我们知道每一个人的身高的数值，而给定老师选中人的身高是1.7，来猜哪一个人可能是老师想的人，那么这就是上面叙述的问题，我么能够按照最大熵方法，求出每一个具体人xi的分布：p(xi)。这个p(xi)就是主观熵。         按照第二种理解方法，我们并不知道班里面每个人的身高，但是直到这些人的身高xi可以取[1,5]的所有可能值，也知道班里面人身高的平均值是1.7。那么这就是按照（1）式的求解方法导出来的最大熵分布p(x)，我们得到了一个概率分布，该分部是在所有身高可能值上做出的。那么，具体每一个概率，如p(1.6)就表示1.6身高的人的个数占50（总数）的比例。在这里，概率就是我们通常理解的频率，即客观概率。         所以，两种理解思路能导出两套完全不同的最大熵方案。而Jaynes的框架显然适合第一种。这是因为，当我们考虑两种属性的时候，第二种理解方法无法得出一个确切的分布。因为你对身高讨论，得到的是在身高可能值上的概率分布p(x)，而对年龄讨论，得到的却是年龄可能值上的分布概率p(y)，在通常情况下，这两个概率没什么关系，所以不满足Jaynes那套框架。Jaynes框架显然是要求不同的特征测量的是一组东西。

>noise在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

上面观察导致熵减的推导:
jake的blog '发表评论
　　33 东方隐于 2008-8-29 11:20:07 回复：最大熵产生原理系列论文的读书笔记 △TOP

提示：图片看不见……
另外我很关心那个PPT里的流模拟……和生命之流7
>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
那个例子的确是我错了，请看：
在这个框架中，对f(xi)的理解是很重要的，也是非常不清楚的。按照框架的设定，xi应该表示系统的不同状态，f(xi)就表示刻画这个状态的一种属性......
东方隐的blog '发表评论
　　34 jake 于 2008-8-29 14:35:34 回复：最大熵产生原理系列论文的读书笔记 △TOP
嘿嘿，Jaynes恰恰把第二定律当作一条最直接的公理来用了。按照Jaynes的说法，第二定律就表述为：随着时间的流逝，我们对系统了解的信息越来越少。就是说，无论什么东西，你只要不看他、不关注它，他就总会朝向你想象不到的地方变化，这就是广义的热力学第二定律。你肯定会说，有些东西不看也不会变呀，比如太阳从东边升起来，Jaynes说，这是由于有一些约束你没有提，最大化熵是要在一定的约束下完成的。
很多人想把热二定律当作定理推出来，没有一个成功的，他们或多或少都引入了新的假设，包括波尔兹曼本人。

>machine在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
我有个问题想问, 关于热力学第二定律的:

看书上第二定律的描述, 都是用什么卡诺机, 热力学熵, 温度等概念来描述的, 而且描述的貌似也都不很严格, 看不太懂. 既然J......
jake的blog '发表评论
　　35 jake 于 2008-8-29 14:36:33 回复：最大熵产生原理系列论文的读书笔记 △TOP 哦，我在好好整理思路，你别着急。这两天没上网，有了一些所得：）

>东方隐在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

提示：图片看不见……
另外我很关心那个PPT里的流模拟……和生命之流7
>jake在回复：最大熵产生原理系列论文的读......
jake的blog '发表评论
　　36 东方隐于 2008-8-29 15:40:16 回复：最大熵产生原理系列论文的读书笔记 △TOP
贫僧还是跟不上Jake大人的思路：比如那个班级的例子，每个人有个身高，现在老师把身高告诉你，让你猜是谁，这还有什么好猜的，已经知道了，还是说老师告诉你的是平均身高？

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
那个例子的确是我错了，请看：
在这个框架中，对f(xi)的理解是很重要的，也是非常不清楚的。按照框架的设定，xi应该表示系统的不同状态，f(xi)就表示刻画这个状态的一种属性......
东方隐的blog '发表评论
　　37 jake 于 2008-8-29 15:53:14 回复：最大熵产生原理系列论文的读书笔记 △TOP
老师告诉的是身高的大概值，让你猜哪他想的是哪一个人。
这个问题别扭在如果是离散的概率，是张三就是张三，那就好说了，但现在都是按照连续概率算，最后得到的也是一个概率分布。

>东方隐在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
贫僧还是跟不上Jake大人的思路：比如那个班级的例子，每个人有个身高，现在老师把身高告诉你，让你猜是谁，这还有什么好猜的，已经知道了，还是说老师告诉你的是平均身高？

jake的blog '发表评论
　　38 东方隐于 2008-8-29 17:17:18 回复：最大熵产生原理系列论文的读书笔记 △TOP

贫僧觉得Jake大人又往边上走了，这套东西不就是模糊控制吗？MEPP一定要分布的数量非常大，主观概率才有意义，如果只有一个对象，那不叫主观概率，叫瞎蒙
此外我觉得f(x)既不重要，也不神秘，它就是概率分布的一组标志而已。

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
对f(xi)的理解是很重要的，也是非常不清楚的
东方隐的blog '发表评论
　　39 machine 于 2008-8-29 17:19:57 回复：最大熵产生原理系列论文的读书笔记 △TOP 不知道你怎么模拟的, 我还是觉得多测量一次会导致解集的范围缩小(或者不变), 从而导致熵减小(或者不变)

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
这个公式和结论都错了，应该是：
测量导致的熵变：如果已经有了m次测量，最大熵为：machine的blog '发表评论
　　40 东方隐于 2008-8-29 17:33:53 回复：最大熵产生原理系列论文的读书笔记 △TOP

顶楼上的
>machine在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
不知道你怎么模拟的, 我还是觉得多测量一次会导致解集的范围缩小(或者不变), 从而导致熵减小(或者不变)

>jake在回复：最大熵产生原理......
东方隐的blog '发表评论
　　41 jake 于 2008-9-2 7:59:33 回复：最大熵产生原理系列论文的读书笔记 △TOP
你这个问题很好，不过答案真的有些想当然了，关键是我们的pi向量只有一个，但是f(xi)和fr可以很不同，这就导致分布并不一定越来越让pi更加集中。比如，
n=3, xi=1,2,3
第一次测量的设置：f1(x1)=1, f1(x2)=0,f1(x3)=0, 测得数值=1
显然最大化这个应该使得x1的概率p1=1，其他的都是0。
第二次测量f2这个属性：f2(x1)=0,f2(x2)=0,f2(x3)=1，测得数值=1
这个时候你要让系统同时满足这两次测量的条件，必然让概率分布pi比第一次的分布p1=1,0(else)更加均匀，从而熵增加了。
测量导致熵减还要换一个说法。

>machine在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
不知道你怎么模拟的, 我还是觉得多测量一次会导致解集的范围缩小(或者不变), 从而导致熵减小(或者不变)

>jake在回复：最大熵产生原理......
jake的blog '发表评论
　　42 machine 于 2008-9-2 8:56:51 回复：最大熵产生原理系列论文的读书笔记 △TOP 你也说了pi只有一个, 如果第一次测量得到唯一解:p1=1, 那第二次测量的结果就已经决定了, 是=0, 而不会是1

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
你这个问题很好，不过答案真的有些想当然了，关键是我们的pi向量只有一个，但是f(xi)和fr可以很不同，这就导致分布并不一定越来越让pi更加集中。比如，
n=3, xi=1,2,......
machine的blog '发表评论
　　43 jake 于 2008-9-2 16:41:53 回复：最大熵产生原理系列论文的读书笔记 △TOP
Jaynes的框架可没有说不同的测量得到的pi不同啊！
关键的问题是：测量是对fr这个玩艺儿的平均值进行的，它对pi什么也没说。pi是什么？是我们观察者认为的系统处于不同状态的主观概率，所以就相当于新的消息加了进来，新的消息来了，观察者就要调整自己的主观概率pi，来拟合自己的观察结果。所以，测量越多并不一定让S减少的意思就是，新的测量很可能与原有的测量相矛盾，这就让观察者更糊涂了（而不是更清楚），所以测量不一定让熵减少，这要看你测到的结果是否和你原来的测量一致。

>machine在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
你也说了pi只有一个, 如果第一次测量得到唯一解:p1=1, 那第二次测量的结果就已经决定了, 是=0, 而不会是1

>......
jake的blog '发表评论
　　44 crowboy 于 2008-9-19 16:45:15 回复：最大熵产生原理系列论文的读书笔记 △TOP

JAKE,下面这个段落的推导中似乎有点小错误.
在这个例子中，我们假设xi连续在区间[-a,a]内取值，且系统就有一个特征，即m=1，f(x)=x。这时候最优化数学问题变成..................
_{_{1/λ=acoth(aλ)-         .....应该是已知的吧?}}

其中，
_{_{sinh(x)=(exp(x) - exp(-x)) / 2}}
Coth(x)=
crowboy的blog '发表评论
　　45 jake 于 2008-10-26 11:41:18 回复：最大熵产生原理系列论文的读书笔记 △TOP
多谢你的指证~，看来我的大大咧咧的毛病太严重了。

>crowboy在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

JAKE,下面这个段落的推导中似乎有点小错误.
在这个例子中，我们假设xi连续在区间[-a,a]内取值，且系统就有一个特征，即m=1，f(x)=x。这时候最优化数学问题变......
jake的blog '发表评论
　　46 evilflower 于 2008-11-6 15:51:58 回复：最大熵产生原理系列论文的读书笔记 △TOP 呵呵，这个东西非常有意思，jake先生写得很好。我今天刚接触，打算花些时间来研究一下。

evilflower的blog '发表评论
　　47 afei3108 于 2008-11-25 17:25:29 回复：最大熵产生原理系列论文的读书笔记 △TOP
我想计算层流对流换热中的熵产生
不知道那位大人知道有相关的公式
请给我建议几篇文章参考一下
谢谢
afei3108的blog '发表评论
　　48 afei3108 于 2008-11-25 17:29:48 回复：最大熵产生原理系列论文的读书笔记 △TOP jake大人，我想计算层流对流换热中的熵产生，不知道大人是否有相关资料或公式，给我建议几篇，谢谢

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

多谢你的指证~，看来我的大大咧咧的毛病太严重了。

>crowboy在回复：最大熵产生原理系列论文的读书笔记中写道：
--------......
afei3108的blog '发表评论
　　49 mumsun 于 2009-5-21 19:37:52 回复：最大熵产生原理系列论文的读书笔记 △TOP

   最后一步中,lnZ(...)=求和P(Xi)lnZ这一段没搞明白,能麻烦答疑解惑下么?
mumsun的blog '发表评论
　　50 jake 于 2009-5-22 13:38:21 回复：最大熵产生原理系列论文的读书笔记 △TOP
就是把求得的最大化熵的p(x)分布代回到原来的熵的表达式，你自己一推就得出来了，没什么不能理解的。

>mumsun在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

<>
jake的blog '发表评论
　　51 fairywell 于 2011-5-18 13:26:42 回复：最大熵产生原理系列论文的读书笔记 △TOP
s/筛子/色子

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

就是把求得的最大化熵的p(x)分布代回到原来的熵的表达式，你自己一推就得出来了，没什么不能理解的。

>mumsun在回复：最大熵产生原理系......

fairywell的blog '发表评论
　　52 飞马过河于 2011-11-18 17:00:08 回复：最大熵产生原理系列论文的读书笔记 △TOP
jake大人还有没有关注MEPP这个问题啊
上次你说的中性模型可归为下面三个学派中的哪个学派呢？
我近来又想了一下，觉得中性模型太简单了，在它里面一些概念难以定义，比如温度、能量流等

>jake在最大熵产生原理系列论文的读书笔记中写道：
---------------------------
第一个学派是气体动力学派，这个学派将当年Boltzmann研究气体动力学的方法继承下来。它能给出最大熵产生原理一个最严格、彻底的证明。只不过这套方法也需要引入新的假设，另外，它的适用范围比较小。第二个学派是随机过程学派，这套方法也需要引入新的假设。第三个学派是最可能路径理论，它主要把第一篇文章介绍的Jaynes的统计物理扩充到了有关微观路径的统计中来。相比较来说，最可能路径理论是目前最有突破希望的一个理论了。
飞马过河的blog '发表评论
　　53 jake 于 2011-11-19 11:31:25 回复：最大熵产生原理系列论文的读书笔记 △TOP
我现在暂时没有关注MEPP，因为我觉得已有的很多讨论都挺不靠谱的。
相反，我现在在学习很多看起来更加可靠一些的东西，比如信息论，比如信息几何等等，但是，还是会留意MEPP的最新进展的。
如果你基于以下的观点：任何微分动力过程都是一个宏观变分问题的解，那么中性生态过程也必然会对应一个类似于MEPP或者MEP的东西，尽管你找不到温度等变量的定义。所以，建议研究中性理论，尤其是Hubbel那本书的第5章，有一个很奇怪的公式，总觉得它意味着什么。
另外，我也在努力寻找可能支持MEPP的实证基础，比如我猜想已知的城市、国家之间的流动遵循万有引力定律，也就是f12=m1*m2/r^a，这里f12是两个宏观系统之间的流动，例如城市之间的电话次数、人流量、贸易流量，m1,m2是两个系统的尺度，比如总人口或者总GDP，r是两个系统之间的地理距离，a为一个常数。我觉得这个经验规律有可能是最大熵产生的结果。

>飞马过河在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
jake大人还有没有关注MEPP这个问题啊
上次你说的中性模型可归为下面三个学派中的哪个学派呢？
我近来又想了一下，觉得中性模型太简单了，......

jake的blog '发表评论
　　54 飞马过河于 2011-11-22 3:43:06 回复：最大熵产生原理系列论文的读书笔记 △TOP 如果无法定义温度等基本的变量，我觉得中性模型就没有普遍的意义

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
如果你基于以下的观点：任何微分动力过程都是一个宏观变分问题的解，那么中性生态过程也必然会对应一个类似于MEPP或者MEP的东西，尽管你找不到温度等变量的定义。
飞马过河的blog '发表评论
　　　^刷新显示第 1 页/共 1 页，评论数共 54 篇<<上一页下一页>> 跳转到第页
最大熵产生原理系列论文的读书笔记jake 发表于 2008-9-4 15:35:01
越来越感到最大熵产生原理的重要性了，尤其是他的统计物理基础。利用暑假时间，我快速地把几篇重要文章使劲儿读了读，深深感觉到自己数学功底并不算强。不过饿补过微积分和基本的物理知识以后，还可以理解这些文章。强烈希望数学、物理背景出身的人能读到这篇文章，并能对这个问题真的感兴趣！谁要是突破了这里面的道道，那真的是一个不小的突破！而且肯定能用到很多实际领域中。下面就来贴我的读书笔记。
读文笔记
引言：
         最近读了不少有关统计物理、熵、最大熵产生原理等文章，在此，就我所理解的部分做一个总结，以便帮助我屡清思路，也方便对这一领域感兴趣的人能够更有效率地继续研究下去。         下面，主要沿着这几篇文章的思路讲解，它们是：E.T. Jaynes的《Information theory and statistical physics》、E.T. Jaynes的《Brandeis Lectures(1963)》、L.M. Martyushev和V.D. Seleznev的《Maximum entropy production principle in physics, chemistry and biology》、R.C.Dewar的《Maximum entropy production and the fluctuation theorem》和《Information theory explanation of the fluctuation theorem, maximum entropy production and self-organized criticality in non-equilibrium stationary states》。
第一篇：E.T. Jaynes的《Information theory and statistical physics》+《Brandeis Lectures(1963)》
1、两句废话
         很多人看到统计物理四个字就头疼，原因是，里面有太多难以理解的概念，以及艰深的数学。其实，这并不完全是读者的错误，发明这些概念的科学家也有很大的责任。尽管很多伟大的科学家都曾在这个领域做出过贡献，比如麦克斯韦、普朗克、爱因斯坦，但是统计物理中的最基本的概念，比如熵却一直没有搞清楚。         这个学科一直处于非常尴尬的境地，一方面，该学科确实解决了很多应用的问题；另一方面，统计物理的核心概念：熵，却一直没有真正地被人们理解。直到20世纪50年代，Jaynes提出了一整套全新的解释熵的思路，才使得人们可以重新认识熵，包括整个统计物理。而且最关键的是，Jaynes的这套方法是目前所有统计物理各个学派中最简洁的一个！         《Information theory and statistical physics》发表于1950’s年，到如今却仍然有着重要的意义。总体来看，该文提供了一整套数学结构，虽然该数学结构最早起源于平衡态统计物理，即它有着明确的物理研究对象。但是，经过Jaynes的加工和处理，这套数学结构一下子可以“腾空而起”了，即它不仅仅可以描述气体、分子、自旋玻璃，它可以研究一类完全不同的，跟热现象可以类比的系统。比如，我们常说股市最近持续“升温”、经济发展过热，这里面的温度和热究竟是什么意思？Jaynes的框架就能给你一定的回答，在满足一些数学条件下，热、温度、熵等等是一种必然的概念。
2、简单算例
例子1         让我们先来看一个小例子：有一枚筛子，每个面都有一个数字：1~6。很显然，你会倾向于认为这6个面出现的概率是相等的，也就是，你倾向认为：P(x1)=P(x2)=…=P(x6)=1/6其中，P(xi)表示出现数字xi的概率。假如，我告诉你，这枚筛子与其它筛子不同，似乎，他很容易滚到4或者5这个面上，所以这个筛子滚了好多次以后，它出现的平均值是4.5。这个时候，你会怎样分配P(x1)~P(x6)的概率呢？显然，为了实现4.5这个平均值，你给筛子每个面分配的概率应该满足：如果把p(xi)看作是未知数的话，那么它存在着无穷的解。你甚至可以让p(x4)=p(x5)=0.5，其它都是0。但是这样的分配并不保险，因为你得到的平均值是4.5这条信息，并不能让你肯定拒绝筛子也有可能出现1或者6。你还是倾向于，筛子每个面出现的概率尽量是平均的。如何刻画这种概率分布的平均度呢？这就引出了熵的定义。我们可以定义熵为：我们粗浅的可以把S理解为刻画分布p(x1),p(x2)…均匀程度的量。当分布越均匀，S的值也就越大。这样，在第一种情况下，p(x1)=p(x2)=…=p(x6)=1/6可以得到最大的S: ln(6)。在第二种情况下，我们也应该让S最大才是我们心目中认为的最可能的分布，但是显然S不能任意大，它必须满足测量平均值是4.5这个前提，所以我们实际上得到了一个求最大值的数学题：在满足平均值为4.5的前提下，尽量调整P(xi)的数值，使得S能最大化。写成数学问题就是：s.t.                             （1）                         （2）这里面有两个约束，第二个约束就是保证平均值为4.5。第一个约束前面没有提，它也是很显而易见的，就是要保证概率的归一化条件。也就是我们分配给每个面的概率加起来应该是1。这个优化问题不能一下求解，因为你要从两个约束中解出p(xi)来很困难。一个比较好的办法是利用拉格朗日（Langrange）乘子法。这套方法，说白了很简单，我可以先把条件（1）、（2）分别变为：然后，把它加到目标函数中，这样目标函数就变为：这样，我就可以在不考虑约束的情况下，通过调节p(xi)和αβ就能直接最大化Y了，同时满足（1）和（2）的约束。首先最大化Y显然能够最大化S。同时，为了让函数Y最大，就需要：对Y求α的导，它就是约束（1）。同样Y对β求导=0就能得到约束（2）。所以最大化Y这个函数就等价于满足条件（1）、（2）的情况下最大化S。下面，我们就来求出具体的p(xi)来，这样我们求解下面的方程组：也就是说这里有6个方程，再加上（1）和（2），一共就有8个方程，未知数的个数刚好也是8个，这就能完全解出来（注意到S这个函数是总是正数（当没有p=0）,且当p->0的时候，S可以任意接近0，所以上式所求必然是最大值）。通过Mathematica，得到： {p[1]?0.0543532,p[2]?0.0787715,p[3]?0.11416,p[4]?0.165447,p[5]?0.239774,p[6]?0.347494,a?-2.2833,b?0.371049}我们可以把p(x1),p(x2),…,p(x6)画在图上：我们看到，这就是通过最大化熵得到的分布p(xi)。它既能让我们得到平均值4.5，又能尽量照顾到所有筛子面的可能性。这里6这个面得到的概率最大，1出现的概率虽然小但并不是0。当我们改变观测的平均值4.5，还能得到完全不同的分布，下面的这些图分别是当观测平均值是2~5（间隔0.5）时候按照上述方法得到的分布曲线：其中，增函数曲线对应的观测平均值分别是4,4.5,5，减函数曲线对应的是：2,2.5,3。中间的绿线对应的是3.5，它刚好是(1+2+3+4+5+6)/6。即当p(xi)=1/6时候的筛子面的平均值，也就是那条横线。
3、一般框架
刚才仅仅就6面筛子这个例子进行了讨论。总的思路是，针对某个未知的系统（筛子），我们仅知道它可能具有的属性（筛子面上的数字），那么因为我们对它完全不了解，所以，我们会倾向认为该系统以等概率取这些属性值（6个面的概率尽量相同）。这种客观的、无偏见的均匀性就由最大熵来刻画。同时，我们对此系统并不是一无所知，我们毕竟知道这些筛子数字的平均值是4.5，这就体现为最大化熵的约束。最终，我们会根据测量知道的数值得到最后的概率分布。这是Jaynes算法的全过程。下面我们把这个过程一般化。假设我们考察一个系统（筛子）X={x1,x2,…,xn}，其中，可以认为xi是该系统的某一个状态（某一个面）。显然，我们对系统究竟处于哪一个状态一无所知，这样我们就用概率{p(x1),p(x2),…,p(xn)}去描述此系统。P(xi)表示我们主观上认为系统可能处于xi这个状态的可能性。另外，我们有一组属性来刻画这个系统，它们是：{f1,f2,…,fm}。比如f可以是系统某一状态的颜色或是面积，或者是体积等等（面上的数字）。这样，针对一种状态xi，就可能有m个属性来描述该系统f1(xi),f2(xi),…,fm(xi)。但是我们观察者并不能知道这些细节，我们仅仅能得到一些属性测量值的平均数来作参考。比如我们测量fr这个属性，得到的观测值是n种状态的平均值：其中只有p(xi)是未知量，其它都是已知量。表示对属性fr进行观测的平均值。类似，我们可以从m个属性侧面来观察这个系统，因此也就得到了m个测量值：,,…,。下面，我们就要根据这些已知的信息来猜系统的概率分布p(xi)。按照之前的论述，也就是求解下列优化问题：           (1)s.t.                             （2）          （3）这里的（3）实际上包含了m个等式。同样，求解这个优化问题需要用到拉格朗日乘子，因为这里面的约束条件有m+1个（等式（2）和（3）的m个等式），因此我们需要引入m+1个拉格朗日乘子，分别是：λ₀, λ₁,…,λ_m所以把这些约束乘以相应的乘子带入（1）中，就得到了最后的优化函数：注意，右边的最后一项有两层和号，第一层求和指标是r，表示对m个约束（3）进行的。里面还有一个求和号，指标是i，表示（3）中每一个式子中的平均值。要求Y的极值，就是Y对任意的p(xi)求偏导等于0。把这个式子整理一下，先求解出p(xi)来，得到：（4）注意，这里面λ₀, λ₁,…,λ_m是未知数，其它都是已知数。我们很快就可以把p(xi)代入（2）中得到λ₀：所以：这里，我们定义了一个新的函数Z，它叫做配分函数（Partition function）其实只是一个记号，但在统计物理中却有重要的意义。这样，λ₀这个未知数相当于就消了，所以代入（4）就能得到概率分布：p(xi)：（5）当然，最后这个式子中还有λ₁,…,λ_m这m个未知数，它们可以通过代入（3），求解下列方程组得到：
（6）这有m个方程，就能解出这m个未知数。只不过这个解太麻烦了（事实上，该方程基本无法给出解析解），我们就没必要求了。我们看到，前面给出了一个数学框架。在这个框架下，只要确定了一组观测值，就能通过最大化熵，而得到另外两组变量，一个是p(xi)，另外一组是λ_r。下面，我们感兴趣的一件事情是，如果我们改变观测值，那么由于上面数学框架下的因果关系，p(xi)会变，λ_r也会变，这样最大化后的熵也会改变，它们之间的关系是什么呢？从这套数学框架的角度来看，它吞进去一些观测数据，吐出来的主要是λ_r，当然p(xi)也很关键，不过我们通常把它看作是一种中间变量。下面，我们就用一个具体的例子来看看究竟如何影响λ和熵S。在这个例子中，我们假设xi连续在区间[-a,a]内取值，且系统就有一个特征，即m=1，f(x)=x。这时候最优化数学问题变成：s.t.所有的求和号都变成了积分，这样可以方便我们的计算，数学框架都没有变化（严格说，熵S这个时候成为连续函数p(x)的变分，因为未知的不仅仅是一些变量，而是一个连续函数p(x)）。同样，按照上面的思路，最大化Y(p(x))，得到：其中， Coth(x)=即使这种简单形式下也不可能写出λ的显示解。所以我们选取a=10，画出λ依赖（-9<<9）变化的函数图。画出p(x,)的曲线：再把求得的p(x), λ代回S的表达式，得到S依赖的变化图：从第一和第三这两个图中，我们可以清楚地看出，不同的测量值对求解出的λ和S都有影响。当=0的时候，S最大值，表示这种测量不对系统的不确定性有任何贡献。我们还隐约观察到，λ()似乎是S()的导函数。这在下一节具体讨论。
4、导数的性质
         我们看到，前面给出了一个数学框架。在这个框架下，只要确定了一组观测值，就能通过最大化熵，而得到另外两组变量，一个是p(xi)，另外一组是λ_r。下面，我们感兴趣的一件事情是，如果我们改变观测值，那么由于上面数学框架下的因果关系，p(xi)会变，λ_r也会变，这样最大化后的熵也会改变，它们之间的关系是什么呢？下面，我们就来研究一下，当发生小的波动的时候，这套框架怎么动。因此，我们将研究各个变量导数的性质。         首先，我们注意到一个很有意思的事实，那就是：
         这样，方程（6）就可以简化为：(7)下面，我们就来看看，测量会对熵如何影响。首先，由于λ与之间的关系（6），所以λ会受的影响。也就是说，根据（6）或（7），λ_r是的函数，写为：                  （8）其次，最大化之后的熵S自然是λ的函数，这一点可以通过把（5）代回熵的表达式（1）中，得到最大化后的熵S看出：（9）而因为λ是的函数，所以的变化也能引起Smax的变化，我们把Smax对求导：注意到（7），我们就直接得到：（10）这个结论告诉我们，测量值的变化将会影响Smax的值，而这个影响大小刚好就是-λr。显然，λr是由很多因素决定的，包括，但是一旦这些因素都固定。也就是说当发生变化的时候，其他因素都没来得及变，因此λr也没来得及变，这个时候。λr越大，熵对测量结果的依赖也就越明显。我们将会看到，这个有意思的λr的性质刚好就是热力学中的温度的性质！因此，它可以看作是一种广义的温度。
4、还原统计物理
         你也许觉得这仅仅是一些数学游戏，没有什么意思。但是，统计物理告诉你，你错了，这套数学框架刚好能够求解统计物理的问题！考虑一个气体系统，我们知道气体系统是由很多很多气体分子构成的。这样，每种分子层面的一种排列就决定了系统的一种微观状态。它可能有很多很多种微观状态，设为xi, =1,2,…,n。显然，系统究竟处于哪一个状态我们并不知道，于是，我们用p(xi)表示系统处于xi状态的概率。我们知道，每个状态下，系统的能量水平是ei，并且，我们观测到系统的平均能量是。这就是前面介绍的框架下的典型的应用，可以通过最大化熵求得系统的概率分布p(xi)，写出来就是：（11）其中，凑巧的是，（11）给出的概率分布刚好是统计物理中的正则系综。而且，我们最大化的信息熵S刚好就是系综的热力学熵。因为热力学物理告诉我们一个重要的性质：dS=dQ/T这是克劳修斯给出的熵的定义式。这里面dQ是系统在平衡态附近吸收的小热量。dS是小的熵增，T是温度。我们知道，能量守恒，在我们考虑的例子中，如果系统没有对外界做功，那么系统吸收的热能就使得它的能量增加，所以dQ=dE，其中E为系统的内能，于是：dS=dE/T，也就是dS/dE=1/T。联想到（10）式，我们知道：其中，就是我们测量到的能量，所以比较dS/dE=1/T，我们就知道：在我们的抽象框架下求出来的拉格朗日乘子-λ恰恰就是温度的倒数。到此为止，我们已经找到了我们的抽象框架下的各种奇怪的数学量，完全可以得到真实的物理对应。进一步，我们还可以让我们的模型更复杂，例如，我们考虑的气体系统还可以包含很多种不同的混合气体，气体之间还能发生相互化学反应，我们测量的属性可能不仅仅是能量，而且还可能包含各种分子的数目，所以可以得到一组测量值：,,…，这样把这些测量值代入（3）就能得到更复杂一些的分布，这就对应了统计物理中的巨正则系综。其中，求得的-λr也有相应的物理意义，它们表示化学势。
5、广义的统计物理
实际上，Jaynes的这套数学框架能够还原统计物理的结果一点不让人吃惊，这是因为本身Jaynes的这套框架就来源于统计物理。但有意思的是，这套框架现在完全可以独立开来了，它没必要非得描述统计物理中那些让人讨厌的概念，什么能量吧，化学势吧，温度等等，它完全可以描述非常广义的东西。例子2：考虑这样一个例子：你手里拿着10000元钱要把它捐献给受灾的村庄。假设有两个村子，你已知村庄A的日常人均消费是100元，而B村庄是50元。那么，你是要把钱分给A还是B呢？当然，你希望你这钱能救济更多的人，也就是你会分配给B村，你的推理理由是：10000元/100(元)=100(人)<10000元/50 (元)=200(人)也就是说，你这10000元钱如果投到B村能养活更多的人，这样，你的钱就花对了地方，你的钱发挥了更大的价值了！下面，我把你分配的总钱数定义为dE，把某个村庄的人均消费水平定义为T，那么你决定投资哪一个村子，也就是你要比较下面这个称谓实质价值的量：dS=dE/T也就是说，在同等投入的情况下，人均消费水平越低的村庄越需要钱，你把钱投给他们就会让你的实质价值S最大化。其实，我们已经看到，这就是熵的最大化。把上面故事中的钱换成热量，消费水平换成温度，上面这套故事就是在说热力学的事儿。所以，热力学所揭示的其实是一种非常普遍的现象。例3：(这个例子是错误的，感谢Noise网友的指正，详情请见：http://www.swarmagents.cn/bs/membership/viewelite.asp?id=8800&user=jake，以及本文后面的讨论，不过即使例子是错的，也可以作为一个反例帮你理解这套框架）下面稍微复杂一点。假设一个村庄里面有100个人，有的人体格强壮、打架很厉害，他的赚钱能力就很强，（不妨设为E1）。而有的人可能天生巧言善辩，所以他的赚钱能力是E2。这样，我们按照赚钱能力可以将这100个人进行排队：E1>E2>…>E100。如果你把10000元分配给了这个村的100个人，经过一段时间后，他们可能相互争夺这笔钱，最终导致了钱的一个分布。显然，能力越强的E1分配的钱也越多，能力最少的E100分的钱也最少。究竟每个人能分多少钱呢？我们不妨设p(i)表示第i个人分得这10000元的比例，那么我们的问题就跟Jaynes的框架一样，找到一个最可能的分布pi。因此我们同样可以求解下列数学问题：                      (1)s.t.                            （2）      （3）虽然最后的λ很难求出，但是根据前面的讨论，不难得到：其中dS表示分配给该村10000元以后，总体的价值增量。dE为你给系统分配的10000元。显然，如果一个城市对应的乘数越大，那么在增长等量投资的情况下，它会增长较快。由此，我们看出所谓的能量就是一种待分配的资源，乘数-1/λ就起到了平均经济水平的作用。这样，在同等投入资源的情况下，投入到经济水平越低的区越，才能让价值越大。所以我们看到，统计物理完全可以抽取出来用来描述完全不同的客观世界。  这套框架不仅能描述客观世界，它还能描述人类观察者主观世界和客观世界的互动。这就是引入S的主观解释，即它是观察者对客观世界的无知程度。测量会减少这种无知程度。下面，我们就来看看测量如何减少无知度。首先，我们考虑在没有引入任何测量的时候，我们只有下列的优化问题：s.t.得出的解是：p(xi)=1/n，对应的最大熵是S=ln n下面引入一次测量，即增加一条约束：这样，新的最大熵是：测量引起的熵减就是：应该可以验证S-S’>0，这是因为对于函数，均匀分布的熵最大，其他任何分布都比它小。不过尚未找到证明方法，要证明这个不等式可能要用到意想不到的数学技巧，例如复数。进一步，如果已经有了m次测量，最大熵为：引入新的测量之后，测量次数变为了m+1，最大熵为：引起的熵减是：该公式也应该>0，但是尚未找到证明方法。看起来很对称的样子。这个猜想也是错的，原因是后来的lambda在测量之后也会改变，而且我做了数值模拟，请看本文的回复31。无论是第一种解释方法（资源的分配），还是第二种解释方法（测量引起不确定的丧失）。他们的数学框架是一模一样的。与其说它们是两种过程，还不如说它们就是一回事儿！即，一次测量就相当于把一定的能量分配给被测量的系统，从而降低系统的不确定性！即观察引起熵减！
6、测量误差与二阶导数
用测量的眼光来看待整个数学框架，那么，一次测量不仅仅有测量的均值，而且还会有测量的误差。具体的测量误差定义为统计量f的方差：即测量量的平方的均值减去均值的平方。在Jaynes的数学框架下，这个方差刚好是lnZ这个函数对相应的λ的二阶导数，这是因为我们已经知道(7)：这样lnZ对λr的二阶导数就是对λr的一阶导数。因为这两个变量的关系时只有（6）式给出，所以我们从（6）出发：等式两边对λr求偏导：注意到p(xi)的定义，我们得到：而左边就是2>，右边第二项就是²，所以也就是说，f这个测量量的方差刚好是lnZ函数对相应温度的二阶导数。这就是数学框架的魅力与威力所在，数学框架给出了一种抽象的结构，从这个结构能够导出有实际意义的物理量。也许还有更多的信息隐藏在lnZ、S等函数的二阶导数中。让我们进一步探索。我们已经知道：这里不仅仅跟λr有关，还跟其它的λ有关，所以：因为我们可以对任意两个m中的变量λr和λj求偏导，所以，这一共有m*m个导数值，这些数值就可以构造成一个m*m的矩阵，把它记为Am*m。显然矩阵Arj是一个对称阵，因为Aij=Aji。可以验证，这个矩阵刚好就是测量量的协方差矩阵，也就是：在另一方面，根据（10）：同样的道理，因为有m*m对求导的组合，这样就能得到一个矩阵Bm*m。我们已经看到了λ这组变量和这组变量的惊人的对称关系。那么A矩阵和B矩阵有什么关系呢？我们让A和B这两个矩阵相乘：
因为对的导数只有在i=j的时候为1，其他的时候因为它们之间没有函数关系，所以为0。也就是说A和B这两个矩阵互为逆矩阵。而ln Z和S这两个函数在对分布函数的编码信息方面等价。实际上ln Z和S可以通过勒让德变换联系起来。而和λ之间是共轭的。我们将会看到和λ之间的这种共轭性与熵产生的表达式中的广义流和广义里的共轭性有着惊人的相似性。
第二篇：L.M. Martyushev和V.D. Seleznev的《Maximum entropy production principle in physics, chemistry and biology》
一、两句废话
严格说，这段文字不属于读文总结，而是把我知道的有关非平衡态热力学的知识复述一遍。这篇文章主要引领我们进入非平衡态的世界，在这里，熵产生的概念更加重要。最近的一些研究慢慢发现熵产生在不可逆的非平衡热力学过程中扮演者非常重要的角色。就像熵的最大化能够指引平衡态系统的发展方向一样，熵产生的最大化也能够指引非平衡态热力学的发展方向。这个原理被称为最大化熵产生（Maximum Entropy Production Principle, 简称MEPP）。这篇文章是篇综述，写得非常详细。从最大熵产生原理的热力学表述，到该原理的统计物理基础，再到它的一些应用。本文首先讲述熵产生这个概念，接下来讲述该篇综述文章中提到的一些数学原理。对应用的部分就忽略了。
二、什么是熵产生
         让我们从克劳修斯对热力学熵的定义开始谈起。克劳修斯当年提出熵这个概念我觉得完全是一种数学技巧的产物。在19世纪，卡诺(Carnot)曾经提出了一个理想的热机模型：卡诺热机(Carnot engine)，这个热机是在时间上可逆运作的，克劳修斯发现，可以定义一个物理量叫做熵：dS=dQ/T         这个定义的好处是，针对于可逆热机，如果热机回到原点，那么熵变△S=0，即熵没有损耗。但对于不可逆热机，因为不可逆热机的效率要小于热机的效率，所以克劳修斯得出：dS>dQ/T         它的意思是，热机在工作中要吸收热量从而引起熵增。但是，不可逆热机的熵增要大于喂给它的热量。这样，对于一个回到原状态的循环过程来说，熵变△S>0。综合这两种情况就是：dS>=dQ/T         和你一样，普里高津也看着这个公式觉得很别扭，因为这是不等号。于是，他就把这个等式右边加了一项，让它变成了等号：dS=dQ/T+d_iS         其中增加的这一项diS就叫做熵产生（Entropy Production），而根据dS>=dQ/T，显然diS>=0。即，无论是可逆过程还是不可逆过程。熵变总体现为两个过程的合效应，即一部分是从外界吸收的热量引起的熵增，另一部分是系统自己无缘无故产生的熵diS。我们还可以把这个等式写为：dQ_总/T=(dQ_输入+dQ_产生)/T         这样，我们仍然可以沿用克劳修斯对可逆热机定义的熵变的公式：dS=dQ/T，把它扩展到一切过程（包括不可逆）。所不同的是，我们引入了一个量dQ_产生。我们知道，对于一个过程来说，过程从环境吸收热就体现为可测量的热量传递：dQ_输入，但是如果过程不可逆，那么根据上式，这就意味着，机器自己还会无缘无故地产生出一部分热量dQ_产生来。这部分热不是外界传递给系统的，而是系统从自身内部的有序能量中耗散出来的。这部分废热就导致了熵产生。这个过程说白了就是任何一种变化过程都有摩擦存在，所以熵产生不可避免。            按照例2，如果我们把熵看作为价值的反面会更容易理解这个熵产生的定义。普利高津指出来的熵产生在经济系统中就意味着不可避免的价值损失。比如你往一个村庄里投钱，你投的是10000元，这笔钱到了村子里必然会创造出一定的价值。你期望这笔钱创造的价值应该是：10000/T，这里T就表示村子的平均经济水平（比如人均收入）。但是，根据克劳修斯发现的dS>=dQ/T，翻译成价值的语言就意味着-dS<=dW/T，这里的dW==-dQ=10000。也就是说你投入的10000元造成的实际价值增长要小于10000/T。反过来再按照克劳修斯的说法，这就意味着必定有一过程导致价值损失。也就是说你的10000块钱不可能完好无损的发挥作用，必定有那么一部分钱比如100元是打水漂了。例如可能被村长私吞了，导致你的钱没有救济到所有村民，等等。那么，这部分熵的增长，或者是价值的损失是什么引起的呢？           为了说明这种熵产生或者等效的价值丧失的起源。我们先用经济系统中经济价值作为例子来说明。还是考虑这个可怜的村庄，如果进一步研究这个村庄会发现，这个村子内部并不是具有同等经济水平的。假设村庄可以分成东村和西村，并且东村的经济水平T1比西村T2要高。这样，由于各种经济活动，西村的人民可能更愿意花钱买东村的商品（因为东村比西村富，所以西村的人就会觉得东村的商品质量好，这就像改革初期，中国人都愿意买从美国、日本、韩国进口的商品一样）。于是就有货币流从T2往T1跑，而这种从经济水平低到经济水平高的货币移动就会造成价值的损失，让我们看下图：         表面上看起来经济交换是公平合理的，西村损失的货币原封不动地转移到了东村，价值按理说应该没有损失呀。但请不要忘记，同样的10000元钱在经济水平高的地方要比经济水平低的地方更不值钱！所以，货币在两块经济水平不同的区域之间流动就会导致价值的损失。这样，对于外部投资者，你往该村投了10000元钱，这笔钱所带来的实际价值并不是真正的10000/T。而必然比这个数值小。之所以价值要损失，就是因为该村子内部的经济状况是不平衡的，贫穷地方的钱更倾向于往富裕的地区流动，这个流动就必然导致价值的损失！         只要我们把上面提到的价值的负值翻译为熵，把经济水平翻译为温度，把价值损失翻译为熵产生，那么上面的描述完全可以套用到热力学。在热力学中，如果有两个容器相连，第一个容器温度高，第二个容器温度低，那么第一个容器就会往第二个容器流热量，这个过程就会体现出熵产生：这个例子也有错误，感谢东方和尚的指正，详情请看：http://www.swarmagents.cn/bs/membership/viewelite.asp?id=8801&user=jake  在热力学中，我们通常用σ来表示熵产生，它可以写为JX的形式。其中J为热量流dQ，X 是由温度的不均匀引起的势差，也叫做广义的力。所以熵产生也定义为广义流乘以广义力。    正如上一篇文章提到的，温度没有必要限定在物理温度上，这里讨论的流和力也没有必要限定在热流和温度梯度。在任意一个非平衡系统中，它可能存在很多的广义流和广义力（例如，在电路中，电流就是广义的流，电势差就是广义的力）。这些流和力就能引起熵产生，所以熵产生的表达式为：（12）         即熵产生是各种广义流乘以广义力的总和。
三、线性区域的非平衡态物理
         物理学家喜欢线性的东西，因为什么东西一线性了，微积分的那一大套就可以用上了。现在我们主要讨论几个比较重要的非平衡态物理的线性近似。当系统内部的广义力不是很大的时候，这套结论就都适用。         我们都学过欧姆定律：U=IR，其中U就是广义的力：电压，I是广义的流：电流，R是电阻。一般电阻R是常数，所以广义流与广义力之间存在着线性的关系，这就是非平衡态物理线性区域的意思。一般的，某一个广义流不仅仅依赖于与它直接共轭的广义力，而且还依赖于其他的力。比如电路中电流也会产生热效应，所以这些流和力之间是有交叉效应的。所以,i=1,…,K其中Lik是一个K*K的系数矩阵，这个矩阵有一个重要的性质，这就是：也就是说，交叉效应是互补对称的。如果单位的电势差能够产生一定量的热量流，那么单位的温度梯度就能产生等量的电流。所以，矩阵L是对称阵，这被称为昂萨格(Onsager)对易关系。         同样，由于流和力的对称性，力也能写成流的线性组合形式，而且也有Onsager关系存在。这样熵产生（12）式就可以变成一个关于力或者流的二次型：         看到这些公式你有没有想到它们与上一篇文中导出的λ与之间的相似性呢？回忆：         这里面的第二项就出现了λ与的乘积求和的形式。这跟熵产生的表达式(12)很像。这种启发对于数学家来说有很大的用处，后面我们就会看到这种相似的作用。
三、最大熵产生原理
         在《Maximum entropy production principle in physics, chemistry and biology》这篇文章中，作者主要讨论了最大熵产生原理的数学表述。这个原理最早是由Ziegler提出来的(作为一种普遍的假设)，因此也叫做Ziegler原理，它的数学表述为：s.t.         即一个非平衡态系统将尽量演化使得熵产生σ最大化。之所以要把σ的具体表达式写成约束的形式，是考虑到可以应用各种数学技巧找出抽象的数学结构出来。假如系统中的各种广义力固定了，即Xi都不变了，那么可变的各种流Ji将会导致最大化σ。这样把约束用拉格朗日乘子的写法放到优化函数中并对J求偏导，Ziegler原理就有了下面的描述方法：         在这里，σ可以看作为各种流J的唯一函数。μ是引入的拉格朗日乘子。这个时候，可以把熵产生看作是J的一个未知函数，于是得到：                            （12）和：         这个（12）式叫做正交条件。这是一个很有意义的数学条件，它具有一定的几何意义，我们后面还会用到，具体请看下图：
    这张图表示了当仅有两个流的时候σ(J1,J2)的极值问题。假如σ(J1,J2)就是一个抽象的曲面，那么σ(J)=ΣJX=J1X1+J2X2就表示了一个过原点的平面（X1和X2是常数）。这个平面会与曲面σ(J)生成一条相交的曲线（图中的OM曲线）。我们的问题是，让J1,J2发生变化，并且保证J1和J2能在这条曲线上，然后寻找一点，使得σ(J)能够取极大值。根据该图，这个极大值就对应了M点。那么这个M点有什么性质呢？我们把平面σ(J1,J2)= σmax（σmax是常数）的这个截面和该截面与约束平面的交线投影下来，放到J1-O-J2这个平面上。这个时候，σ(J1,J2)= σmax就成为了一个曲线（如图中底部的圆）。而平面就成为了一条直线：σmax= J1X1+J2X2。这条直线应该与曲线相切，这就是M点是极值点的充要条件。
    根据高等数学，我们知道这条直线σmax= J1X1+J2X2与σ(J1,J2)= σmax相切的充要条件是曲线在该点的法向量应该平行于直线的法向量，也就是说直线应该在该点垂直于曲线，这就叫做正交条件。曲线σ(J1,J2)= σmax的法向量是：而直线的法向量是{X1,X2}。所以（12）给出的条件刚好就是这两个方向量平行的条件。    反过来，如果我们能得到一个函数σ(J1,J2)与σ(J)=ΣJX=J1X1+J2X2满足正交条件（{X1,X2}垂直于曲线σ(J1,J2)=const），那么J1和J2这对变量就在最大化σ(J1,J2)。后面我们还会利用这个正交条件。
提两句文中的另一个结论
    在一类特殊的σ(J)情况下讨论问题比较有意思，这就是加入σ(J)是J的二次式，即：         其中Rik是一个常数矩阵。那么，从Ziegler原理，我们能够得出：         这是一个新的变分原理，又叫做Onsager原理。从这个原理出发能导出Onsager对易关系和Prigogine的最小熵产生原理。也就是说，从最大化熵产生出发能够导出，在特殊的条件下（线性的、稳态的条件），熵产生还会被最小化。
四、微观解释
         Ziegler的最大熵产生原理是作为一种假设引进来的，虽然它已经在很多实际问题中发挥了作用，不过人们对这一假设为什么正确并不理解。这就导致了有一批人开始为这一原理寻找微观的解释。目前，对这一原理的微观解释主要分成三种途径，这三种途径也基本上代表了当今非平衡态统计物理的三种不同的学派。         第一个学派是气体动力学派，这个学派将当年Boltzmann研究气体动力学的方法继承下来。它能给出最大熵产生原理一个最严格、彻底的证明。只不过这套方法也需要引入新的假设，另外，它的适用范围比较小。第二个学派是随机过程学派，这套方法也需要引入新的假设。第三个学派是最可能路径理论，它主要把第一篇文章介绍的Jaynes的统计物理扩充到了有关微观路径的统计中来。相比较来说，最可能路径理论是目前最有突破希望的一个理论了。我们将在下一篇重点介绍这个方法。
第三篇：R.C Dewar的《Maximum entropy production and the fluctuation theorem》+《Information theory explanation of the fluctuation theorem, maximum entropy production and self-organized criticality in non-equilibrium stationary states》
一、最可能路径
正如开篇所说，统计物理这套方法之所以能够奏效主要归因于它提出了一整套全新的看待世界的视角。传统的理论认为，客观世界决定了一切，所以，你从最微观的物理原理出发，必然能够一点一点构建起来整个世界的图景。统计物理的新视角是，我并不否认客观世界的说法，但是在处理大数目的复杂系统的时候，这种完全从微观物理出发推导出整个宏观物理系统行为的方法没有错，但并不是最聪明的方法。因为，当我们观察者仅仅在乎系统宏观的统计行为或者规律的时候，系统的微观细节如何并不是我们关心的。这样，科学家们正是忽略了大量的微观信息才能发现气体的运动规律，也才有了统计物理。而这套哲学的根源可以归宿到最大熵原理。面对一个系统，我们对它的了解最无知，所以我们就会去最大化这种无知度的度量：熵。正是这样，Jaynes提出了一套框架可以处理这一类无知与测量的问题。正如我们一再强调的，数学框架的优点在于它可以提供一种抽象的结构，在这个框架下，你放进去什么东西它并不管，但是数学结构可以保证你放进去的东西必然存在着一些联系和性质，这是最重要的。按照第一篇读书笔记的的第三节所讨论的框架还是把系统看作是可以在不同的状态下取值的静态研究。当我们把眼光放到动态系统的时候，我们关注的不再是静止的状态，而是变化本身！在系统中，这种变化就体现为一条演化的路径。这样，我们的统计对象不再针对具体的系统状态进行，而是针对系统的演化路径进行，这就是我们称作最可能路径理论的原因。为了说明最可能路径理论，让我们考虑这样一幅图景：
系统从初始状态出发演化到终止状态。在各种条件允许的情况下，系统的演化路径可能有很多很多，我把它们称作微观路径。设一个微观路径为Γ，则这些路径的全体集合就是{Γ}。观察者对于微观路径的观察缺陷就像对于微观状态的观察缺陷一样，所以我们只能用概率的语言来描述这些路径。因而我们为每一个路径都分配一个主观概率：p_Γ。这样，我们就可以把对于状态适用的那一套语言全部翻译到路径上面了。
最大熵方法适合于描述平衡态的系统，也就是各个变量都不再变化了，系统也就停留在了最大熵给出的状态上。对于非平衡系统来说，有一个与平衡系统的平衡态非常相似的概念，这就是稳态。所谓的稳态，就是指虽然系统的每一个部分都在不停的运动变化过程中，但是构成系统运动变化的流都不变了。因此，从流的角度看，观察者看到了一个稳定的状态。这就叫稳态（steady state或stationary state）。举个例子，比如你观察小溪，如果小溪流水稳定了。那么你看到那些水波纹就停在那里不动了，这时候，虽然你再往下看，水波纹变成了一颗颗运动的水滴，系统应该是处于变化过程中的。所以，这种在变化系统之上高一层次看到的不变状态这就叫稳态，或者叫动态平衡态。在演化的系统中，这种稳态就对应了路径信息熵最大的状态。因为流不动了，所以分配到每条路径上的概率也就给定了。所以我们最大化路径的信息熵就得到了稳态的分布，即：当然，在最大化路径信息熵的时候我们还要考虑到一些实际的约束。这在下面给出。Dewar的思路是，通过最大化路径信息熵，我们就能自动导出一个新的函数的最大化的问题，而这个函数刚好就是熵产生函数。
二、Jaynes框架中蕴含的变分原理
         下面，让我们先暂时把最可能路径的方法放一放，再次考虑Jaynes的框架。实际上，尽管不考虑路径的信息熵，我们都可以从Jaynes的框架中直接得到一个最优化函数，但是它的代价是需要我们做出线性近似的，在给定的时候，当pi优化信息熵S的同时，那些参数λ就去优化这个最优函数。         依然采用第一篇的第3节给出的数学框架。我们回忆得到的概率分布是：我们还有S对测量值的导数：这样-λr对的偏导数就是：因为λr与之间的函数关系被关系式（6）制约着，这是一个很复杂的超越方程，我们很难求解。但是，如果λr与都比较小，我们可以求得λr与的线性近似，也就是：         其中B为λr对的导数矩阵。这样，我们可以仿照熵产生的定义，定义一个耗散函数（后面，我们看到，它就是热力学熵产生）：考虑到λr与之间的线性关系假设，这个函数就是：这就是说，D函数是的一个二次型。并且有这样的关系：回忆到：所以A是对称的，这样，回忆上一篇的讨论（关于Ziegler原理的那张图），这说明向量与曲线D=const以及约束平面：（13）满足正交条件。这就对应了在满足约束条件（13）的条件下，系统要最大化D这个函数。         这个新的优化的全过程可以解释如下。让我们动态考虑整个最大化熵的过程。我们知道，在给定之后，求解满足最大熵的过程就是一个确定各个λ的过程。而假如各个λ都是所有的线性函数，那么这个确定λ的过程也就会让λ渐渐与D=const这张曲面垂直，也就是满足正交条件。根据上一篇图中的几何解释我们看到，这个正交条件就会导致D在满足条件（13）的情况下达到最大值。因此，我们最大化信息熵的同时，也就自然求解了一个优化问题：s.t.         用拉格朗日方法求解就变成：其中β是拉格朗日乘子。我们已经看到，如果把这个问题中D看作就是熵产生函数，λ看作广义力（如温度梯度），看作是广义流（例如热量流），那么这个问题就和上一篇介绍的Ziegler原理具有相同的数学形式了。下面，我们就来对最可能路径进行计算，找到D就是熵产生函数的条件。
三、从MaxEnt到MaxEPP
         下面我们就将上面两节介绍的结果综合起来得到最大熵产生原理。首先，我们是针对系统演化的路径的信息熵求最大值，所以：         其次，我们要考虑系统所受到的约束。根据R.C. Dewar的思路，假设我们考虑的系统任意时刻任意一个空间点x的能量密度用d(x,t)表示。系统所处的空间区域是V，区域的边界是Ω。系统的边界处有一定的能流穿过与系统交换能量，在边界上任意点在时间上的平均流量是：F(x)。假设不同的微观路径对应不同的密度和流量，但是我们仅仅能测量出它们的平均值，所以我们有约束：          注意到，这些条件是针对空间区域V或边界Ω中任意一点列出的。因此，原则上它已经包含了无穷多个等式。这些等式再代入p(Γ)的时候就得到了积分项。按照前面介绍的方法，可以求出：          因为对V或Ω中的每一个点都能列出约束，因此我们就得到了两个系列的拉格朗日乘子，他们就都成了连续函数，即式子中的α(x)与β(x)。我们记：         我们知道，P就相当于是Jaynes框架下的如果P就是熵产生函数，那么上一小节的结论就可以用到了。下面我们将主要讨论它。注意到系统运动应该满足连续性条件，也就是d 和F之间存在着一定的关系：         个人以为这个运动连续性的条件的引入非常重要。         之后，Dewar通过近似、化简（说实话，实在是讨厌他后面这些近似、化简工作，而且总给人感觉不是很正确，在这里就略过不谈了），最后可以得到：         其中τ就是系统演化的时间。回忆到，在第一篇中，我们已经指出-λ可以看作是1/T，即温度的倒数，而F_Γ(x)是对应的能量流，所以P跟熵产生已经很接近了，进一步，再用一下高斯定理，即把在边界区域上的积分改成体积分：这里div(F_Γ(x))表示的是能量流在空间上不同点的损失，所以P就是熵产生，第一项是由温度梯度引起的，第二项是由于摩擦、耗散等原因引起的能量损失。这是一条路径上的熵产生，而D函数是针对测量的平均值列的，所以对上式求路径的平均值（注意，只有积分项中的F(x)是依赖于路径的，其它都跟路径无关，所以求平均就对F(x)求了），就得到：：         所以，这就是整个系统的热力学熵产生。其中第一项是传递给系统的能量流乘以温度梯度。第二项为平均能量流损失（由于摩擦），它会导致熵的产生。这样结合上一节的结论，我们就得到了最大化熵产生原理。
四、点评Dewar的文章
         Dewar的两篇论文用Jaynes的最大熵框架得到最大熵产生原理得到了人们的普遍关注。它的意义在于：在没有引入过多假设的情况下，就可以导出适合于非平衡态的最大熵产生原理。         这个思路主要有两处难点，第一点就是如何写出正确的约束，使得我们可以导出熵产生函数。第二个难点是，当我们得到了熵产生函数之后，如何自然导出它的最大化？Dewar的两篇文章分别用不同的方法解决这两个问题。         第一篇文章《Information theory explanation of MaxEP…》中，Dewar用初始条件、边界条件作为约束，以及系统的能量物质连续条件给出了路径概率中的指数P就是熵产生函数。进一步，它通过一系列近似和假设指出了这个平均的熵产生
能够被最大化。这后一点遭到了很多人的批评和质疑。         第二篇文章《Maximum Entropy Production and fluctuation theorem…》中，导出熵产生函数仍然沿用第一篇的方法，但是在导出P最大化的思路则是按照我们文中讲述的方法。即在假设了λr与之间是线性依赖的假设下导出了一个正交条件，而这个正交条件就会最大化一个耗散函数。最后这个耗散函数就是熵产生函数。因此，这篇文章弥补了第一篇文章的不足，但是它是以更高的近似要求（线性区域）为代价的。          虽然之前也有很多人试图从最大化熵这条路来推广到非平衡态物理，但都没有成功。而Dewar思路的成功之处在于他引入了最可能路径的概念是史无前例的。但是，我们看到Dewar得出MaxEP的各种努力并不是完美的，这里面牵扯到了太多的假设和近似！因此，我个人认为，这恰恰是因为Dewar的思路没有走到底。         本来，对非平衡态的系统来说，系统的变化和流动才是更重要的，而系统的状态并不重要。Dewar考察对路径的分布，这是很大的进步，它体现了人们应该盯住流动看。但是，Dewar最大的缺陷是，它列出的约束并没有沿着这个思路。我们考虑它提出来的两个约束条件：          虽然这每一个测量和名义上是对路径做出的，但是从数学形式上看，如果我们把p_Γ就理解为状态的概率，它不会对这两个方程造成任何数学结构上的改变。也就是说，这两种测量仍然是观察者考察系统的状态作出的！所以，我们说Dewar给出的约束条件没有体现对流动进行统计的思想。         恰恰相反，Dewar给出的另外一个隐含条件（能量连续）：我认为才更重要，这是因为。当我们盯住流动看，我们能够确定的不再是系统的状态，而是系统的变化本身，而这种变化恰恰就体现为描述系统变化规律的方程。只不过仅仅把上式作为约束，我们并没有导出更好的结果。这种思路换个说法就是：考虑有一堆自动机（比如细胞自动机）在那里演化。这样，每个自动机就相当于是一条变化的路径。对于自动机来说，它的具体的规则给定以后，它的演化路径也就完全确定了。这样，我们关于路径的不确定性也就是相当于对规则的不确定性。我们知道，自动机的规则可以进行编码。这样，我们能够定义出一个编码的空间，空间中的每个点就是一个具体的规则。这样，我们的观察也就是对规则的观察。所以最大化路径的信息熵就是在最大化我们对于具体编码的无知度。而约束也应该是针对于这些编码给出的。另外，关于最大化熵产生原理还有一种感觉是Dewar的理论没有说出来的。那就是时间与变化和流动的关系。最大化熵产生原理可以理解为在给定时间间隔下，系统会倾向于一条能够产生熵最大的路径，同样也可以理解为假设系统的熵产生给定了，那么系统会倾向于选择一条熵产生变化最快的路径。这个道理在L.M. Martyushev, V.D. Seleznev的一张图表示了出来：即系统会倾向选择2这条路，因为只有这样熵产生才能最快的发生。Jaynes的统计理论可以说是关于空间的统计理论，这样最大化熵就相当于把概率P最均予的撒到每个状态空间的点上以最大化占领空间。而最大熵产生原理给人的感觉是它的统计基础应该是一个关于时间的统计理论，最大熵产生就相当于把概率P最浓缩地分配在时间上（分配概率越大的路径，它的效率越高）。这些感觉Dewar的理论中都没有涉及到，所以必然存在着缺陷。
总结
将Jaynes的方法用到非平衡路径空间将大有可为。Dewar的理论仅仅做出了初步的探讨。他的证明过程中用到了大量的近似，所以，他给出的证明并不算严格。因此，最大化熵产生如何从Jaynes的框架中导出来还是不很清楚。我认为未来的突破可能有几点：1、              既然是针对路径分布的信息熵求最大化，那么相应的约束也应该跟路径有关，也就是相当于对规则的约束。2、              最大熵原理可能已经隐藏在Jaynes的这套框架之中了。原因是，我们可以根据前面的讨论看到。系统在最大化信息熵的时候可能已经把其他的一些指标最大化了。而这个指标可能就是熵产生。3、              在Jaynes的框架中，我们看到了大量的对称性。例如概率p(xi)与f(xi)的对称性，测量与λ的对称性，熵S与lnZ函数的对称性，指数函数与ln函数的对称性。还有最后指出的空间与时间的对称性等等。我的直觉是，这些相关的对称性很可能与实数与虚数的对称性有关。所以，复变函数的引入也许可以提供全新的思路。
         本文所属的精华目录：流｜本文的标签：系统理论方法　　　　评论( 54 ) '发表评论｜阅读(9074) jake的blog 收藏
所有评论
　　　^刷新显示第 1 页/共 1 页，评论数共 54 篇<<上一页下一页>> 跳转到第页
　　1 东方隐于 2008-8-22 15:08:10 回复：最大熵产生原理系列论文的读书笔记 △TOP 这样写读书笔记是很好很好的学习方法，贫僧一定要效法。首先这篇文章就很值得看。

>jake在最大熵产生原理系列论文的读书笔记中写道：
---------------------------
越来越感到最大熵产生原理的重要性了，尤其是他的统计物理基础。利用暑假时间，我快速地把几篇重要文章使劲儿读了读，深深感觉到自己数学功底并......
东方隐的blog '发表评论
　　2 jake 于 2008-8-22 16:48:48 回复：最大熵产生原理系列论文的读书笔记 △TOP
第一篇写得有点长了，都是已知的教科书上的东西。
新东西在后面，只可惜老外的研究现在还很不完善。这倒也给了我们很好的机会呀！看谁先能把后面的MEPP参透吧！时间、流动和观察者！

>东方隐在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
这样写读书笔记是很好很好的学习方法，贫僧一定要效法。首先这篇文章就很值得看。

>jake在最大熵产生原理系列论文的读书笔记中写道：
......
jake的blog '发表评论
　　3 noise 于 2008-8-22 17:40:22 回复：最大熵产生原理系列论文的读书笔记 △TOP
真的是很让人兴奋的东西!
Jake说到一个重点就是规则! 很明显MEPP/MaxENT并不适用于任意规则的系统。如果我们忽略上面的推导只着意看MEPP/MaxENT的统计意义，然后随便拿一个系统来试试比如一个元胞机:
假设巨量的元胞使观察者无法知道系统的精确状态，只能看到平均值(从局部灰色度判断黑白在某区域的出现频率)。根据MaxENT观察者对元胞机状态的知识应该随系统演化不断减少，可是存在一些元胞机规则是给定任意初始状态系统最后都会掉进若干几个结果。在这种情况如果观察者知道元胞机的规则的话，他就能不知道初始状态而能预测系统结局! 导致熵减!
那么问题就是MEPP/MaxENT适用于什么规则呢? 我想是能量守恒的系统(DEWAR的能量/物质连续就隐含了这点)，或者更广义的讲是相空间体积守恒的系统(上面的元胞机明显不是)。顺这条路走可能把MEPP推广到非物理系统。
另外还是对Dewar的推导有极多的不明白，整理一下头绪发上来请大人们指导，哈哈

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
第一篇写得有点长了，都是已知的教科书上的东西。
新东西在后面，只可惜老外的研究现在还很不完善。这倒也给了我们很好的机会呀！看谁先能把后面的MEPP参透吧！时间、流动和观察者！
noise的blog '发表评论
　　4 东方隐于 2008-8-23 1:12:44 回复：最大熵产生原理系列论文的读书笔记 △TOP

这位同学的学习很认真的说，呵呵，贫僧对你的心得很感兴趣。从这个例子，我们就可以看出来客观熵不适用于此系统，假如生活在此自动机世界中的生命有了意识，那么它对熵的定义一定和我们不同，也就是需要引入所谓的主观熵了。
当然更大的可能是熵只能适用于一定的系统，这个系统的变化必须符合某些前提条件，乱跳乱动的系统，没有熵可言，也更不会产生生命。

>noise在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
真的是很让人兴奋的东西!
Jake说到一个重点就是规则! 很明显MEPP/M......
东方隐的blog '发表评论
　　5 jake 于 2008-8-23 14:27:13 回复：最大熵产生原理系列论文的读书笔记 △TOP
Jake说到一个重点就是规则! 很明显MEPP/MaxENT并不适用于任意规则的系统。如果我们忽略上面的推导只着意看MEPP/MaxENT的统计意义，然后随便拿一个系统来试试比如一个元胞机:
假设巨量的元胞使观察者无法知道系统的精确状态，只能看到平均值(从局部灰色度判断黑白在某区域的出现频率)。根据MaxENT观察者对元胞机状态的知识应该随系统演化不断减少，可是存在一些元胞机规则是给定任意初始状态系统最后都会掉进若干几个结果。在这种情况如果观察者知道元胞机的规则的话，他就能不知道初始状态而能预测系统结局! 导致熵减!

这并不和Jaynes的统计方法相冲突。早期的平衡态统计物理适用于纯粹（无规则）的系统，所以包括万有引力相互作用在内的所谓的长程相互作用系统严格来说都不能用统计物理。
Dewar的意思是开始关注系统演化的规则，这仍然是Jaynes的统计思想。你从规则上看动态的过程就还是静态的（元胞机给定了规则以后，尽管他的动态是变化的，但是从规则空间看，它没变）。对于这类系统不存在你说的那种问题，不管系统收敛不收敛，我们关注的是规则，而不是状态，所以如果你对系统地了解少并不意味着它的状态并不收敛，而意味着你对它的演化路径缺少信息。
综合这两点，就是我们对客观世界存在着两类描述手段，一类是对静态，这种情况下，我们看到了熵增就等于最无序的情况；而另一类，也是我们最感兴趣，MEPP描述的那一类是种动态过程，这种情况下路径上面的熵增并不一定对应的是状态上的混乱，而可能呈现出复杂的进化（因为我们关于路经或规则的描述不清楚了，所以这个系统的变化似乎很超出我们的想象）。
再举个例子。进化的本质就是遗传代码的变异。而遗传代码就相当于是应付环境的规则。所以我们看到，在一串代码空间上看，进化变异就是一种熵增的过程，但当我们反过来看代码指导的生命体的时候，它们不是更混乱了，而是行为更多样化了！
你有什么问题尽管提，真得很希望大家能在这个思路下讨论出新东西出来。

>noise在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
真的是很让人兴奋的东西!
Jake说到一个重点就是规则! 很明显MEPP/M......
jake的blog '发表评论
　　6 东方隐于 2008-8-23 14:50:57 回复：最大熵产生原理系列论文的读书笔记 △TOP

我有问题！看来看去我就是弄不明白配分函数究竟是什么意思，你说：
这个框架下，只要确定了一组观测值，就能通过最大化熵，而得到另外两组变量，一个是p(xi)，另外一组是λ_r
_{我看那个λ不就是拉格朗日乘子么，不就是一种求极值的数学技巧，它为什么有实际的物理意义？比实际的概率分布还要重要？}

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
Jake说到一个重点就是规则! 很明显MEPP/MaxENT并不适用于任意规则的系统。如果我们忽略上面的推导只着意看......
东方隐的blog '发表评论
　　7 jake 于 2008-8-23 15:04:01 回复：最大熵产生原理系列论文的读书笔记 △TOP
你这个问题问得很好！我觉得得从两方面来回答
首先，不知道你从数学上讲是否理解了？就是说由谁决定谁的因果关系？如果这方面没理解，那最好的办法就是自己动手解一解这个优化问题，然后画画图，看是不是不同的能够对应不同的lambda。
第二，从物理学层面来讲，这背后的原因是，优化问题总伴随着方程问题。
我们可以考虑一个动态的模拟过程。就是给定了概率分布，给定了观测，系统就会朝着最大熵的状态下发展。这个时候你忘记了拉格朗日乘子法。你也不知道这么个lambda。于是，你能很好导出这个过程对吧？
下面，又得请来一名观察者，他看过你的模拟后，说，“你的这个优化问题和一个求解方程的问题等价，这个方程就是关于lambda的那个平衡方程。优化问题最后的解，刚好就是系统的平衡条件”。
这两个观察者那个更正确？都对，这是看问题的两个方面。所以，这套数学揭露的是一个很多方面都共轭、对称的问题。
但是从各种对称性上来看，很有可能这背后牵扯到关于复数的问题。这是一种直觉，现在还不清楚。

>东方隐在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

我有问题！看来看去我就是弄不明白配分函数究竟是什么意思，你说：
jake的blog '发表评论
　　8 东方隐于 2008-8-23 15:06:07 回复：最大熵产生原理系列论文的读书笔记 △TOP
谢谢指点，今天下午贫僧要好好参这个事情。

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
你这个问题问得很好！我觉得得从两方面来回答
首先，不知道你从数学上讲是否理解了？就是说由谁决定谁的因果关系？如果这方面没理解，那最好的办法就是自己动手解一解这个优化问题，然后画画......
东方隐的blog '发表评论
　　9 东方隐于 2008-8-24 10:49:14 回复：最大熵产生原理系列论文的读书笔记 △TOP

终于弄懂了，身心畅快，好像大热天喝了冰啤酒的感觉！
大学里也有统计物理的课程，不知道他们讲配分函数λ，是不是从熵对观测平均值的导数这个路子上讲，也就是温度越高，λ越小，观察平均值发生的变化对熵的影响也越小，相对应于系统越难发生变化。因为我google配分函数，正则系综之类，看到的都是很多外星文字。我不知道如果不从复杂度最大化这条路子去思考，是不是还有什么办法搞懂这门学问。

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
你这个问题问得很好！我觉得得从两方面来回答
首先，不知道你从数学上讲是否理解了？就是说由谁决定谁的因果关系？如果这方面没理解，那最好的办法就是自己动手解一解这个优化问题，然后画画......
东方隐的blog '发表评论
　　10 jake 于 2008-8-24 14:26:43 回复：最大熵产生原理系列论文的读书笔记 △TOP
配分函数应该是Z，lambda就是温度的倒数。推出统计物理有两条大的思路，第一个是给出遍历性假设，直接按照大格子、小格子推出来，第二种是Gibbs和Jaynes这条路。第二种比第一种简洁很多。
不过还有一些思路，并不能推出具体的Gibbs的正则系综分布，但是可以导出温度、熵等概念。这个思路更简洁，有时间我写一写。

>东方隐在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

终于弄懂了，身心畅快，好像大热天喝了冰啤酒的感觉！
大学里也有统计物理的课程，不知道他们讲配分函数λ，是不是从熵对观测平均值的导数这个路子上讲，也就是温度越高，λ越小，观......
jake的blog '发表评论
　　11 noise 于 2008-8-24 21:07:09 回复：最大熵产生原理系列论文的读书笔记 △TOP
是的，MAXENT/MEPP没有设定规则不假。可你有没有发现在所有的MAXENT/MEPP推导里都隐含能量守恒，无论系统规则如何。在我看来能量守恒用更广义的语言讲就是状态量(相空间体积)在系统演化下不变，这和最大熵的成立有很大的关系!
又拿上面的元胞机为例，就算观察者不知道规则，因而预测不了系统结局。可是系统的结局是可重复的，只要观察者多做几次实验就发现了规律。因此问题还是存在的。
就好像做气体实验时发现无论如何准备气体，它们到最后都静止不动(0K)，这时熵减倒成常态了! 正因我们的世界能量守恒，这事才不会发生。

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
Jake说到一个重点就是规则! 很明显MEPP/MaxENT并不适用于任意规则的系统。如果我们忽略上面的推导只着意看......
noise的blog '发表评论
　　12 noise 于 2008-8-24 21:09:06 回复：最大熵产生原理系列论文的读书笔记 △TOP
上面观察导致熵减的推导:
如果直接把测量数变加到m+1的话不一定会有熵减。因为你加一个测量的时候同时加了一个新的系统变量fm+1，一方面没有增加观查者对旧有变量的知识，而且还增加了新变量的未知度；简而言之系统有更多的玩法了。比如本来就考虑粒子动能，现在加上粒子的电荷，这两个变量毫不相干，熵只能加。确切的讲dS就是电荷的熵( newS = oldS + S(charge))
要推敲观察导致熵减的原理，应该是一种测量使我们对本来的变量更了解。如果新测量的变量fm+1完全被fm，fm-1。。。。f2，f1决定的话，那么系统可能状态量n就和原来一样，这时候才会有熵减。
另外例3有问题。如果赚钱能力Ei和赚得的钱成比例的话，那分钱很简单: i兄得的钱=10000* Ei/(E1 + E2 + E3 + ....E100)
要用到MAXENT的话，问题应该是: 同样10000元，同样 100人，观察者完全不知道他们的赚钱能力。只能假设10000元在100人里的所有分法都是可能的，而且机率一样。然后求出最大可能的钱分布。

>jake在最大熵产生原理系列论文的读书笔记中写道：
---------------------------
越来越感到最大熵产生原理的重要性了，尤其是他的统计物理基础。利用暑假时间，我快速地把几篇重要文章使劲儿读了读，深深感觉到自己数学功底并......
noise的blog '发表评论
　　13 machine 于 2008-8-25 11:17:39 回复：最大熵产生原理系列论文的读书笔记 △TOP
喜欢第一篇的描述方式, 从一个纯粹的抽象的数学模型出发来推导出这些概念, 然后应用到传统热力学以及更广阔的实际模型上去. 不知道Jaynes是不是这么做的第一人, 以前的统计力学教材都是从气体模型, 热运动这些东西开始讨论的吗?
第二篇讲MEPP的部分貌似又是从热力学开始讨论, 就看不下去了... 要是能抛开热力学, 完全当作严格的数学来讲解就好了

>jake在最大熵产生原理系列论文的读书笔记中写道：
---------------------------
越来越感到最大熵产生原理的重要性了，尤其是他的统计物理基础。利用暑假时间，我快速地把几篇重要文章使劲儿读了读，深深感觉到自己数学功底并......
machine的blog '发表评论
　　14 jake 于 2008-8-25 14:06:38 回复：最大熵产生原理系列论文的读书笔记 △TOP
能量守恒是绝对重要的。不过，在一个开放系统中（针对这个系统来说），能量是不守恒的。但是物质、能量的连续性条件仍然存在，也就是说宏观上的守恒定律转变成了微观上的连续性条件。这是我目前最感兴趣的一个方面。
不太理解你的这句话：
就好像做气体实验时发现无论如何准备气体，它们到最后都静止不动(0K)，这时熵减倒成常态了! 正因我们的世界能量守恒，这事才不会发生。
为什么说熵减是常态了？你是不是认为确定就等于熵减，不确定就意味着熵增？这个回答不完全，你这要看针对系统的什么层次而言。针对微观的分子，就是熵增，因为你忽略了微观的信息。而针对气体系统整体，因为你已经把信息忽略晚了，所以你看到的就是一个确定的状态，对于这样的情况来说，你讨论这个系统点的熵就没有意义了。而反过来，如果你把100000个气体系统组成一个更大的系统，那么讨论该系统的熵就有意义。所以，熵并不一定就是确定，熵代表的是忽略信息，而这个信息的忽略又是一个主观的行为。

>noise在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
是的，MAXENT/MEPP没有设定规则不假。可你有没有发现在所有的MAXENT/MEPP推导里都隐含能量守恒，无论系统规则如何。在我看来能量守恒用更广义的......
jake的blog '发表评论
　　15 jake 于 2008-8-25 14:11:07 回复：最大熵产生原理系列论文的读书笔记 △TOP 谢谢你这篇质疑！我发现我的确犯了一个重大的错误，就是关于那个分配钱的例子。之后，我会好好再写一个东西解释的。再次感谢。

>noise在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

上面观察导致熵减的推导:
jake的blog '发表评论
　　16 jake 于 2008-8-25 14:14:13 回复：最大熵产生原理系列论文的读书笔记 △TOP
呵呵，你属于典型的“摘桃者”。
要知道，从一堆物理事实中抽象出一个有用的数学框架是多么困难的过程啊！目前，MEPP就处于此阶段，并不是说这里面没意思，而是现在正处于大发现的前期。反过来，这也意味着，来到这种前沿地方的人都是淘金者。而当你有了一个成熟的数学框架了，就往往意味着机会已经过去了。

>machine在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
喜欢第一篇的描述方式, 从一个纯粹的抽象的数学模型出发来推导出这些概念, 然后应用到传统热力学以及更广阔的实际模型上去. 不知道Jaynes是不是这么做的第一......
jake的blog '发表评论
　　17 machine 于 2008-8-25 14:52:33 回复：最大熵产生原理系列论文的读书笔记 △TOP
该公式也应该>0，但是尚未找到证明方法。看起来很对称的样子。
应该是≥0吧? 由于满足这m+1次测量的所有pi组合都满足前m次测量, 即满足m+1次测量的pi集合是满足前m次测量的pi集合的子集, 所以S1≥S2, 这不算一个证明吗?
machine的blog '发表评论
　　18 东方隐于 2008-8-26 14:44:57 回复：最大熵产生原理系列论文的读书笔记 △TOP
又要请Jake大人开导了，
我也在看Dewar的论文，就是不理解下面的A（path action）究竟是什么意思，因为如果是很多流的话，应该是流程越短，A越大，我就懂得很模模糊糊。

>东方隐在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
这样写读书笔记是很好很好的学习方法，贫僧一定要效法。首先这篇文章就很值得看。

>jake在最大熵产生原理系列论文的读书笔记中写道：
......
东方隐的blog '发表评论
　　19 东方隐于 2008-8-26 17:17:48 回复：最大熵产生原理系列论文的读书笔记 △TOP
还有，我知道λ=dS/d，我现在不明白的是这个式子的物理意义是什么。因为给定了一个系统，我们对它里面的构成一无所知，你说“当发生变化的时候，其他因素都没来得及变，因此λr也没来得及变，这个时候。λr越大，熵对测量结果的依赖也就越明显”，我就在想，如果要测定A（path action），那么我需要知道两个λ，是不是扰动一下系统，让改变，同时测定熵，但是熵又是不可测的。那么这个式子究竟能告诉我什么呢？

---------------------------
我们看到，前面给出了一个数学框架。在这个框架下，只要确定了一组观测值，就能通过最大化熵，而得到另外两组变量，一个是p(xi)，另外一组是λ_r。下面，我们感兴趣的一件事情是，如果我们改变观测值，那么由于上面数学框架下的因果关系，p(xi)会变，λ_r也会变，这样最大化后的熵也会改变，它们之间的关系是什么呢？
东方隐的blog '发表评论
　　20 noise 于 2008-8-26 20:58:57 回复：最大熵产生原理系列论文的读书笔记 △TOP
统计力学的遍历性假设使系统的每个可能状态都是等概率的；可是Dewar就假设了每
条轨迹都有不同概率P(path)。
问题是Dewar又给出
sum(P(path)*dpath(x，0)) =     x <- volumn
sum(P(path)*Fpath(x)) =     x <- boundary
注意这正正是期望值的定义!! 期望值就是给定了概率分布，最"期望"的值。可是
实际上，路径的概率分布是我们想求出的，和反而是观察者观
测出的数值! 是不是倒过来了?

>jake在最大熵产生原理系列论文的读书笔记中写道：
---------------------------
越来越感到最大熵产生原理的重要性了，尤其是他的统计物理基础。利用暑假时间，我快速地把几篇重要文章使劲儿读了读，深深感觉到自己数学功底并......
noise的blog '发表评论
　　21 东方隐于 2008-8-26 21:30:45 回复：最大熵产生原理系列论文的读书笔记 △TOP

楼上说的有理，确实这种分析方法对于路径和状态是一式一样的，换汤不换药，完全体现不出路径分析的特点来。
不过边界条件和期望值的表达式是一样是没有问题的，作为已知条件，它就是边界条件，作为未知变量，它就是期望值。
我是这么想的，山上有三个山洞，山洞里有三头狼，走三条路下山，山洞是一样的，因此是遍历分布，但是路径就是不一样的，有长有短还有交叉，你肯定不能说走哪条路碰上狼的机会都一样，对吧，就要计算了。

>noise在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
统计力学的遍历性假设使系统的每个可能状态都是等概率的；可是Dewar就假设了每
条轨迹都有不同概率P(path)。

东方隐的blog '发表评论
　　22 noise 于 2008-8-26 23:03:07 回复：最大熵产生原理系列论文的读书笔记 △TOP
你说的对，每条路径的概率不一样可能是正常的。可是拿边界条件作期望值就很不理解了，因为在这里会导致冲突: 在t=0时，在x位置我们观察到，然而
sum(P(path)*dpath(x，0)) =
是不是尽管dpath(x，0)和不一样，它仍有P(path)非零的概率存在? 实际的d(x，0)和测量不一样?
是不是我没理解Dewar的设定，并不是观察者真的测量而肯定在t=0，位置x，d(x，0)就真是，其实是观察者通过不精确的测量得出的"有水分"的期望值?

>东方隐在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

楼上说的有理，确实这种分析方法对于路径和状态是一式一样的，换汤不换药，完全体现不出路径分析的特点来。
不过边界条件和期望值的表达式是一样是没有问题的，作为已知条件，它就是......
noise的blog '发表评论
　　23 noise 于 2008-8-26 23:05:36 回复：最大熵产生原理系列论文的读书笔记 △TOP
是不是反了? m+1次测量的结果不可能满足m次的结果，因为前者多了个fm+1。后者满
足前者，是前者的子集。

>machine在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
<>
noise的blog '发表评论
　　24 东方隐于 2008-8-27 10:23:24 回复：最大熵产生原理系列论文的读书笔记 △TOP 还是等Jake大人回来吧，他老人家又不知道去哪里了，国有疑难可问谁啊……

>noise在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

是不是反了? m+1次测量的结果不可能满足m次的结果，因为前者多了个fm+1。后者满
足前者，是前者的子集。

<>< font="">
东方隐的blog '发表评论
　　25 jake 于 2008-8-27 10:25:21 回复：最大熵产生原理系列论文的读书笔记 △TOP 首先，这个公式给错了，第二次测量后，各个lambda应该变了。其次，这个猜想也错了，我昨天作了数值试验。只可惜昨天染上病毒了，导致现在不能把结果贴上了，等我折腾好后，给大家一个结果。

>machine在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
<>
jake的blog '发表评论
　　26 jake 于 2008-8-27 10:47:21 回复：最大熵产生原理系列论文的读书笔记 △TOP
这个A就是从最大化熵中导出来的一个抽象的作用量，它就像平衡态系统中的每个微观状态的能量一样。只不过这里A是针对每条路径的。
你说得没错，按照我们的直观理解，这里的A应该是反比于路径长度的，但其实没那么简单。Dewar后面近似出来了这个A就是熵产生。然而，这个熵产生是什么？它能不能等价为路径长度的倒数？现在还不知道，所以，我觉得Dewar的工作没有做彻底呀，至少从这一点上来说是这样的。
至于Jaynes框架下的如何影响lambda，并不需要我们测量S呀，它只是一个虚头，仅仅作为最大化的指标。你给丁，就能得到S和lambda。并不需要知道S！
P.S. 这两天我机器染上病毒了，正在奋斗中，苦不堪言。

>东方隐在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
还有，我知道λ=dS/d，我现在不明白的是这个式子的物理意义是什么。因为给定了一个系统，我们对它里面的构成一无所知，你说“当发生变化的时候，其他因素都没来......
jake的blog '发表评论
　　27 reasoning 于 2008-8-27 12:41:33 回复：最大熵产生原理系列论文的读书笔记 △TOP
真是羡慕jake，职业和兴趣合二为一，不像我，职业和兴趣风牛马不相及。
reasoning的blog '发表评论
　　28 东方隐于 2008-8-27 15:50:41 回复：最大熵产生原理系列论文的读书笔记 △TOP

专业一般来说都是自己挑选的，一开始都以为自己很感兴趣，到后来难而且繁了，就都怕了，最好早点上班了，上班发现都在混，有混得好混得不好，又会觉得做学问比较纯粹，是自己喜欢做的事情，于是又有人回去做学问，结果当然又发现太难，就这样跑来跑去，说围城是好听的，其实是像我们上海的两面黄，翻过来翻过去，一直煎到挂辣松脆喷喷香为止
老婆也是的，开始是都是“梦中情人”，到后来变成黄脸婆……哈哈哈

>reasoning在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
真是羡慕jake，职业和兴趣合二为一，不像我，职业和兴趣风牛马不相及。
......
东方隐的blog '发表评论
　　29 machine 于 2008-8-27 23:08:35 回复：最大熵产生原理系列论文的读书笔记 △TOP
我有个问题想问, 关于热力学第二定律的:

看书上第二定律的描述, 都是用什么卡诺机, 热力学熵, 温度等概念来描述的, 而且描述的貌似也都不很严格, 看不太懂. 既然Jaynes能把熵, 温度这些概念抽象出来, 那他的理论能不能推出第二定律? 或者给个Jaynes版本的第二定律描述? 就是说, 能不能把第二定律当成一个数学定理...
machine的blog '发表评论
　　30 jake 于 2008-8-29 6:34:19 回复：最大熵产生原理系列论文的读书笔记 △TOP

你理解的地二个思路对，在这里，平衡态统计物理的等概率假设已经变成了最大熵假设。
也就是说，在传统的统计物理中，需要给定一个假设（等概率），到了Jaynes后，这个假设没了，但变成了最大熵原理了。

>noise在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

你说的对，每条路径的概率不一样可能是正常的。可是拿边界条件作期望值就很不理解了，因为在这里会导致冲突: 在t=0时，在x位置我们观察到
jake的blog '发表评论
　　31 jake 于 2008-8-29 11:53:41 回复：最大熵产生原理系列论文的读书笔记 △TOP
这个公式和结论都错了，应该是：
测量导致的熵变：如果已经有了m次测量，最大熵为：引入新的测量之后，测量次数变为了m+1（各个λ的数值应该变化了，因为方程（6）是非线性的），最大熵为：引起的熵变是：        这是一个很复杂的多变量函数，很难判断它是否为正。下面，我们采取数值试验的方法，即随机生成一组fr(xi)的数值，以及，在此基础上，加入一次测量，即增加了一组：fm+1(xi)的数值，我们看看不同的新加入的测量值会如何影响熵变。         下面是10次随机试验得到的测量值对S2-S1的影响：我们看到熵增和熵减都是有可能的，这完全取决于初始分配的实验参数。看来，我们并不能肯定：对一个新属性的测量能够得到熵减。

>machine在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
<>
jake的blog '发表评论
　　32 jake 于 2008-8-29 11:54:30 回复：最大熵产生原理系列论文的读书笔记 △TOP
那个例子的确是我错了，请看：
在这个框架中，对f(xi)的理解是很重要的，也是非常不清楚的。按照框架的设定，xi应该表示系统的不同状态，f(xi)就表示刻画这个状态的一种属性。因为我们观察者是对每一个状态下的具体信息已知的，而不清楚的是具体取某一个状态的概率。所以，我们才会获得关于f(xi)的平均测量值：，从而用最大熵来反推这个概率。换句话说，在一开始，f(xi)应该是观察者已知的量，然后，观察者测量一次以后，就变成了已知的量。未知的量只有p(xi)。举个例子来理解这些变量。假设你们班上有50个人，每个人的特征你都清楚。这个时候，老师跟你们玩儿21问的游戏，即它随意选中一个人，让你通过问老师问题来猜他选中的人是谁。你会问一些简单的问题，如这个人是女的吗？这个人身高多少？那么，平均你需要问多少次才知道你老师选中的人是谁呢？这就是我们数学框架的离散版本（每个人只能具有某一种确定的特征）。        在这里，50个人中的每一个人就是xi，而你选择问的问题就相当于从这些人中抽取出一个特征，就是fr。因为这些人你都了解，所以他们的特征你都清楚，于是fr(xi)就是已知的。你老师给你的回答就是你的一次测量值，即。         比如，性别就是一个特征。假如它只能取{0,1}，所以你班上所有人的性别就构成了：fr(xi)向量，如：(0,1,0,0,1,1…)。再如身高这个变量，所有人的身高构成了一个fr(xi)向量：(1.5,1.8,1.6,…,1.3)。一次测量就相当于你问老师一个问题，而他给出你答案。比如你问老师身高多少，老师说1.7。于是你得到了约束等式：1.5p(x1)+1.8p(x2)+1.6p(x3)+…+1.3p(x50)=1.7         这里，p(xi)就是你认为的老师头脑中的那个人是xi的主观概率。你每次得到一个准确的回答，其实就是在调解每个人分配的主观概率p(xi)。在确定性答案的情况下（男、女问题），这些主观概率只能取0或者1。         信息熵是什么呢？它应该就是你平均来讲需要问问题的次数（这个问题还没有仔细验证过，应该是一个有趣的问题）。          大家可能觉得上面讲述的对f(xi)的要求太苛刻了。对于一个未知的系统（比如包含了10²³个粒子的系统），我们怎么可能知道每个个体对应的特征f(xi)呢？其实，还有一种解释是，f(xi)不代表系统某一状态的特征，而是特征的可能值。比如考虑人的身高问题。我们不可能知道每个人的身高，但是我们总知道人的身高是从[0,5]内取值的，这样0到5米区间内的每一个数值就是一个身高的可能值。所以我们考虑得xi就是所有可能的身高值，而p(xi)就是某一个身高值的概率。这样，当我们说某一个地区的平均身高是2米的时候，我们能得到的约束是：（1）这样，我们要求的就是分布函数p(x)，它是在每一个可能身高值上的分布。          综合考虑上面两种对f(xi)的理解方法，会发现有一定的矛盾之处。比如，同样是身高的问题，也同样是对班里面的50个人进行讨论。那么，假如我们知道每一个人的身高的数值，而给定老师选中人的身高是1.7，来猜哪一个人可能是老师想的人，那么这就是上面叙述的问题，我么能够按照最大熵方法，求出每一个具体人xi的分布：p(xi)。这个p(xi)就是主观熵。         按照第二种理解方法，我们并不知道班里面每个人的身高，但是直到这些人的身高xi可以取[1,5]的所有可能值，也知道班里面人身高的平均值是1.7。那么这就是按照（1）式的求解方法导出来的最大熵分布p(x)，我们得到了一个概率分布，该分部是在所有身高可能值上做出的。那么，具体每一个概率，如p(1.6)就表示1.6身高的人的个数占50（总数）的比例。在这里，概率就是我们通常理解的频率，即客观概率。         所以，两种理解思路能导出两套完全不同的最大熵方案。而Jaynes的框架显然适合第一种。这是因为，当我们考虑两种属性的时候，第二种理解方法无法得出一个确切的分布。因为你对身高讨论，得到的是在身高可能值上的概率分布p(x)，而对年龄讨论，得到的却是年龄可能值上的分布概率p(y)，在通常情况下，这两个概率没什么关系，所以不满足Jaynes那套框架。Jaynes框架显然是要求不同的特征测量的是一组东西。

>noise在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

上面观察导致熵减的推导:
jake的blog '发表评论
　　33 东方隐于 2008-8-29 11:20:07 回复：最大熵产生原理系列论文的读书笔记 △TOP

提示：图片看不见……
另外我很关心那个PPT里的流模拟……和生命之流7
>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
那个例子的确是我错了，请看：
在这个框架中，对f(xi)的理解是很重要的，也是非常不清楚的。按照框架的设定，xi应该表示系统的不同状态，f(xi)就表示刻画这个状态的一种属性......
东方隐的blog '发表评论
　　34 jake 于 2008-8-29 14:35:34 回复：最大熵产生原理系列论文的读书笔记 △TOP
嘿嘿，Jaynes恰恰把第二定律当作一条最直接的公理来用了。按照Jaynes的说法，第二定律就表述为：随着时间的流逝，我们对系统了解的信息越来越少。就是说，无论什么东西，你只要不看他、不关注它，他就总会朝向你想象不到的地方变化，这就是广义的热力学第二定律。你肯定会说，有些东西不看也不会变呀，比如太阳从东边升起来，Jaynes说，这是由于有一些约束你没有提，最大化熵是要在一定的约束下完成的。
很多人想把热二定律当作定理推出来，没有一个成功的，他们或多或少都引入了新的假设，包括波尔兹曼本人。

>machine在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
我有个问题想问, 关于热力学第二定律的:

看书上第二定律的描述, 都是用什么卡诺机, 热力学熵, 温度等概念来描述的, 而且描述的貌似也都不很严格, 看不太懂. 既然J......
jake的blog '发表评论
　　35 jake 于 2008-8-29 14:36:33 回复：最大熵产生原理系列论文的读书笔记 △TOP 哦，我在好好整理思路，你别着急。这两天没上网，有了一些所得：）

>东方隐在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

提示：图片看不见……
另外我很关心那个PPT里的流模拟……和生命之流7
>jake在回复：最大熵产生原理系列论文的读......
jake的blog '发表评论
　　36 东方隐于 2008-8-29 15:40:16 回复：最大熵产生原理系列论文的读书笔记 △TOP
贫僧还是跟不上Jake大人的思路：比如那个班级的例子，每个人有个身高，现在老师把身高告诉你，让你猜是谁，这还有什么好猜的，已经知道了，还是说老师告诉你的是平均身高？

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
那个例子的确是我错了，请看：
在这个框架中，对f(xi)的理解是很重要的，也是非常不清楚的。按照框架的设定，xi应该表示系统的不同状态，f(xi)就表示刻画这个状态的一种属性......
东方隐的blog '发表评论
　　37 jake 于 2008-8-29 15:53:14 回复：最大熵产生原理系列论文的读书笔记 △TOP
老师告诉的是身高的大概值，让你猜哪他想的是哪一个人。
这个问题别扭在如果是离散的概率，是张三就是张三，那就好说了，但现在都是按照连续概率算，最后得到的也是一个概率分布。

>东方隐在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
贫僧还是跟不上Jake大人的思路：比如那个班级的例子，每个人有个身高，现在老师把身高告诉你，让你猜是谁，这还有什么好猜的，已经知道了，还是说老师告诉你的是平均身高？

jake的blog '发表评论
　　38 东方隐于 2008-8-29 17:17:18 回复：最大熵产生原理系列论文的读书笔记 △TOP

贫僧觉得Jake大人又往边上走了，这套东西不就是模糊控制吗？MEPP一定要分布的数量非常大，主观概率才有意义，如果只有一个对象，那不叫主观概率，叫瞎蒙
此外我觉得f(x)既不重要，也不神秘，它就是概率分布的一组标志而已。

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
对f(xi)的理解是很重要的，也是非常不清楚的
东方隐的blog '发表评论
　　39 machine 于 2008-8-29 17:19:57 回复：最大熵产生原理系列论文的读书笔记 △TOP 不知道你怎么模拟的, 我还是觉得多测量一次会导致解集的范围缩小(或者不变), 从而导致熵减小(或者不变)

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
这个公式和结论都错了，应该是：
测量导致的熵变：如果已经有了m次测量，最大熵为：machine的blog '发表评论
　　40 东方隐于 2008-8-29 17:33:53 回复：最大熵产生原理系列论文的读书笔记 △TOP

顶楼上的
>machine在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
不知道你怎么模拟的, 我还是觉得多测量一次会导致解集的范围缩小(或者不变), 从而导致熵减小(或者不变)

>jake在回复：最大熵产生原理......
东方隐的blog '发表评论
　　41 jake 于 2008-9-2 7:59:33 回复：最大熵产生原理系列论文的读书笔记 △TOP
你这个问题很好，不过答案真的有些想当然了，关键是我们的pi向量只有一个，但是f(xi)和fr可以很不同，这就导致分布并不一定越来越让pi更加集中。比如，
n=3, xi=1,2,3
第一次测量的设置：f1(x1)=1, f1(x2)=0,f1(x3)=0, 测得数值=1
显然最大化这个应该使得x1的概率p1=1，其他的都是0。
第二次测量f2这个属性：f2(x1)=0,f2(x2)=0,f2(x3)=1，测得数值=1
这个时候你要让系统同时满足这两次测量的条件，必然让概率分布pi比第一次的分布p1=1,0(else)更加均匀，从而熵增加了。
测量导致熵减还要换一个说法。

>machine在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
不知道你怎么模拟的, 我还是觉得多测量一次会导致解集的范围缩小(或者不变), 从而导致熵减小(或者不变)

>jake在回复：最大熵产生原理......
jake的blog '发表评论
　　42 machine 于 2008-9-2 8:56:51 回复：最大熵产生原理系列论文的读书笔记 △TOP 你也说了pi只有一个, 如果第一次测量得到唯一解:p1=1, 那第二次测量的结果就已经决定了, 是=0, 而不会是1

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
你这个问题很好，不过答案真的有些想当然了，关键是我们的pi向量只有一个，但是f(xi)和fr可以很不同，这就导致分布并不一定越来越让pi更加集中。比如，
n=3, xi=1,2,......
machine的blog '发表评论
　　43 jake 于 2008-9-2 16:41:53 回复：最大熵产生原理系列论文的读书笔记 △TOP
Jaynes的框架可没有说不同的测量得到的pi不同啊！
关键的问题是：测量是对fr这个玩艺儿的平均值进行的，它对pi什么也没说。pi是什么？是我们观察者认为的系统处于不同状态的主观概率，所以就相当于新的消息加了进来，新的消息来了，观察者就要调整自己的主观概率pi，来拟合自己的观察结果。所以，测量越多并不一定让S减少的意思就是，新的测量很可能与原有的测量相矛盾，这就让观察者更糊涂了（而不是更清楚），所以测量不一定让熵减少，这要看你测到的结果是否和你原来的测量一致。

>machine在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
你也说了pi只有一个, 如果第一次测量得到唯一解:p1=1, 那第二次测量的结果就已经决定了, 是=0, 而不会是1

>......
jake的blog '发表评论
　　44 crowboy 于 2008-9-19 16:45:15 回复：最大熵产生原理系列论文的读书笔记 △TOP

JAKE,下面这个段落的推导中似乎有点小错误.
在这个例子中，我们假设xi连续在区间[-a,a]内取值，且系统就有一个特征，即m=1，f(x)=x。这时候最优化数学问题变成..................
_{_{1/λ=acoth(aλ)-         .....应该是已知的吧?}}

其中，
_{_{sinh(x)=(exp(x) - exp(-x)) / 2}}
Coth(x)=
crowboy的blog '发表评论
　　45 jake 于 2008-10-26 11:41:18 回复：最大熵产生原理系列论文的读书笔记 △TOP
多谢你的指证~，看来我的大大咧咧的毛病太严重了。

>crowboy在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

JAKE,下面这个段落的推导中似乎有点小错误.
在这个例子中，我们假设xi连续在区间[-a,a]内取值，且系统就有一个特征，即m=1，f(x)=x。这时候最优化数学问题变......
jake的blog '发表评论
　　46 evilflower 于 2008-11-6 15:51:58 回复：最大熵产生原理系列论文的读书笔记 △TOP 呵呵，这个东西非常有意思，jake先生写得很好。我今天刚接触，打算花些时间来研究一下。

evilflower的blog '发表评论
　　47 afei3108 于 2008-11-25 17:25:29 回复：最大熵产生原理系列论文的读书笔记 △TOP
我想计算层流对流换热中的熵产生
不知道那位大人知道有相关的公式
请给我建议几篇文章参考一下
谢谢
afei3108的blog '发表评论
　　48 afei3108 于 2008-11-25 17:29:48 回复：最大熵产生原理系列论文的读书笔记 △TOP jake大人，我想计算层流对流换热中的熵产生，不知道大人是否有相关资料或公式，给我建议几篇，谢谢

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

多谢你的指证~，看来我的大大咧咧的毛病太严重了。

>crowboy在回复：最大熵产生原理系列论文的读书笔记中写道：
--------......
afei3108的blog '发表评论
　　49 mumsun 于 2009-5-21 19:37:52 回复：最大熵产生原理系列论文的读书笔记 △TOP

   最后一步中,lnZ(...)=求和P(Xi)lnZ这一段没搞明白,能麻烦答疑解惑下么?
mumsun的blog '发表评论
　　50 jake 于 2009-5-22 13:38:21 回复：最大熵产生原理系列论文的读书笔记 △TOP
就是把求得的最大化熵的p(x)分布代回到原来的熵的表达式，你自己一推就得出来了，没什么不能理解的。

>mumsun在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

<>
jake的blog '发表评论
　　51 fairywell 于 2011-5-18 13:26:42 回复：最大熵产生原理系列论文的读书笔记 △TOP
s/筛子/色子

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------

就是把求得的最大化熵的p(x)分布代回到原来的熵的表达式，你自己一推就得出来了，没什么不能理解的。

>mumsun在回复：最大熵产生原理系......

fairywell的blog '发表评论
　　52 飞马过河于 2011-11-18 17:00:08 回复：最大熵产生原理系列论文的读书笔记 △TOP
jake大人还有没有关注MEPP这个问题啊
上次你说的中性模型可归为下面三个学派中的哪个学派呢？
我近来又想了一下，觉得中性模型太简单了，在它里面一些概念难以定义，比如温度、能量流等

>jake在最大熵产生原理系列论文的读书笔记中写道：
---------------------------
第一个学派是气体动力学派，这个学派将当年Boltzmann研究气体动力学的方法继承下来。它能给出最大熵产生原理一个最严格、彻底的证明。只不过这套方法也需要引入新的假设，另外，它的适用范围比较小。第二个学派是随机过程学派，这套方法也需要引入新的假设。第三个学派是最可能路径理论，它主要把第一篇文章介绍的Jaynes的统计物理扩充到了有关微观路径的统计中来。相比较来说，最可能路径理论是目前最有突破希望的一个理论了。
飞马过河的blog '发表评论
　　53 jake 于 2011-11-19 11:31:25 回复：最大熵产生原理系列论文的读书笔记 △TOP
我现在暂时没有关注MEPP，因为我觉得已有的很多讨论都挺不靠谱的。
相反，我现在在学习很多看起来更加可靠一些的东西，比如信息论，比如信息几何等等，但是，还是会留意MEPP的最新进展的。
如果你基于以下的观点：任何微分动力过程都是一个宏观变分问题的解，那么中性生态过程也必然会对应一个类似于MEPP或者MEP的东西，尽管你找不到温度等变量的定义。所以，建议研究中性理论，尤其是Hubbel那本书的第5章，有一个很奇怪的公式，总觉得它意味着什么。
另外，我也在努力寻找可能支持MEPP的实证基础，比如我猜想已知的城市、国家之间的流动遵循万有引力定律，也就是f12=m1*m2/r^a，这里f12是两个宏观系统之间的流动，例如城市之间的电话次数、人流量、贸易流量，m1,m2是两个系统的尺度，比如总人口或者总GDP，r是两个系统之间的地理距离，a为一个常数。我觉得这个经验规律有可能是最大熵产生的结果。

>飞马过河在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
jake大人还有没有关注MEPP这个问题啊
上次你说的中性模型可归为下面三个学派中的哪个学派呢？
我近来又想了一下，觉得中性模型太简单了，......

jake的blog '发表评论
　　54 飞马过河于 2011-11-22 3:43:06 回复：最大熵产生原理系列论文的读书笔记 △TOP 如果无法定义温度等基本的变量，我觉得中性模型就没有普遍的意义

>jake在回复：最大熵产生原理系列论文的读书笔记中写道：
---------------------------
如果你基于以下的观点：任何微分动力过程都是一个宏观变分问题的解，那么中性生态过程也必然会对应一个类似于MEPP或者MEP的东西，尽管你找不到温度等变量的定义。
飞马过河的blog '发表评论
　　　^刷新显示第 1 页/共 1 页，评论数共 54 篇<<上一页下一页>> 跳转到第页

请问邹春霞的这论文< 基于最大熵原理的水工建筑物可靠性分析>的程序在哪激光产生的原理？眼屎的产生原理色彩产生的原理什么叫系列读书笔记啊电弧产生的原理、过程？机翼产生升力的原理手机病毒的产生原理次声的产生原理乒乓球里下旋球产生的原理计算器产生随机数的原理计算机产生随机数的原理计算器产生随机数的原理? 有关美学原理的论文什么是论文读书笔记？只是摘抄吗？做读书笔记的资料读书笔记的格式是什么？中外名著的读书笔记读书笔记?! 读书笔记读书笔记. 读书笔记产生的原理,到底是怎么产生的 surface plasmon 产生的原理,到底是怎么产生的