矢藤亚纪全部视频:韩寒代笔探讨:强质疑、弱质疑、和忽悠
来源:百度文库 编辑:偶看新闻 时间:2024/05/03 05:18:23
韩寒代笔探讨:强质疑、弱质疑、和忽悠
(2012-01-30 22:09:14) 转载▼标签:杂谈
韩寒代笔探讨:强质疑、弱质疑、和忽悠---------------------------------------------
一、代笔人
(1).韩寒是个十多年发表了很多作品的畅销书作家,《三重门》后公开发表的长篇,作品文风相似,也就是说,如果要代笔,必然存在长期稳定的代笔者或团队。(2).而这个长期的代笔者,如果能证明自己是韩寒这些畅销书的代笔,其经济收益是巨大的。(3).所以根据(1),(2)推论,如果存在长期代笔者,他(们)又十几年都没站出来自证,那只可能与韩寒的关系超越这巨额利益之上的人。准确说,如果有代笔,只可能是亲人。
二、“强质疑”,“弱质疑”和“忽悠”
1.什么是“强质疑”?强质疑就是所谓的“铁证”。比如你审论文的时候,看见一篇论文,里头有个作者自称的原创段落,和几年前别人已经发表过的一样,在这种情况下,99.9%甚至更高的几率属于抄袭。因为无论作者是谁,出现这种情况,哪怕仅仅一次,都基本可以确认。因为偶然写出一模一样的段落的几率可以忽略不计。除非一些非常意外的情况(比如早先投稿不中却被当时的审稿人剽窃等)。在有强证据的情况下,被质疑方理应站出正面解释,如果没有解释或者其解释无合理的证明力,一般可认定为“证据”。很可惜的是,在这场论争中,尚未看见任何证明韩寒文章属于代笔的“强证据”。
2.什么是“弱质疑”?弱质疑就是“较少出现的情况”,5%,10%,20%。几个或者十几个同类案例中会出现一个。这种证据属于疑点,算作“不利条件”,但是没有太大的证明力。如果有更“强”的“有利条件”,那么这个弱证据就不起作用。比如“韩寒一边开赛车一边发博客,所以不可能”,这是强质疑,但是“韩寒在赛车的前一天凌晨发博客,所以不可能”,这是弱质疑。
(1).第一次质疑,用的是一个弱的不利证据。你只有28岁,完全没有任何古玩、盗墓、文革的经验,又不爱看书,仅凭着“瞎想”就想出了鬼吹灯,这属于“很少出现的情况”,所以我们质疑你是窃稿。
(2).第一次回应,则是一个比这个不利证据更强的有利证据。你说我编不出《鬼吹灯》。可我这又编了一本《鬼吹灯II》。很显然,连续窃稿两本的几率,这个几率要比只窃一本,小太多。构成了有利的强证据,与前面的弱证据形成了矛盾。那么强证据占了上风。
(3).第二次质疑。搬出了一个“代笔者”王阅枚,我有文革经验,手稿我02年送去编辑部丢了,但我有证人,而且我站出来质疑你。这是一个比(2)更强的证据。并且其它质疑者反驳了(2),你的鬼吹灯II比I写的差很多啊,这不合常理。
(4).第二次回应。如果有手稿,那么是比(3)更强的证据,但由于作者是敲电脑的一族,没有手稿。只有等,随时间流逝,这个“质疑者”并没有抛出更多的证据,这是不合理的,此时(3)这个强证据的级别,变成了普通流言,也就是弱证据。最后发现根本不存在这个报导,这个“弱证据”又变成了“忽悠”。于是这个质疑不战自溃。
(1).质疑方的弱质疑是:小孩不会模仿大人说法,引用的书籍过多超出了阅读量等。
(2).回应方的方法则应该是用矛盾的强证据覆盖,这些强证据由弱到强包括:
a.驳斥并进一步削弱对方的弱论据,比如小孩模仿大人说法,对方觉得很稀有,你可以举出其它作家的例子,证明并不稀有。比如对方说,引用书籍过多,说明阅读量覆盖太大,超出了16岁少年的可能性。此时可指出其逻辑错误,文学作品中,有引用,不一定是读过了原著,很有可能是读了些二手作品(引用过原著的作品,报纸,讲话等),也可能就是为了装逼引用,只读了其中一小段。所以引用的书籍多,逻辑上并不证明他读了那么多。
b.指出对方的假设存在矛盾,这个矛盾所形成的问题强过其弱论据,并与之矛盾。比如说,弱质疑为:《三重门》中引用过多,韩寒不可能有这么大阅读量,只可能韩仁均有。回应可以是:《三重门》之所以畅销,是因为其中有很多90年代中学流行的段子,比如《卧石答春绿》,Wait and see。以及大量流行歌曲的歌词等,这些不是上一辈人能够进入并熟悉的,代沟的作用非常明显。韩仁均写出这些东西,并且能够在青春小说类中极度畅销,这远远比“装老成”要更不可思议。
c.如果可以,就拿出更强的证据。比如和编辑的通信、手稿等。这些证据在未成名前伪造的几率非常小,因为当时并不可能知道有何收益,而制作成本太大。
3.什么是“忽悠”?忽悠指的是有50%以上几率发生的事情,以及无法具备任何证明力的找茬。
a.这件事,你和你父亲回忆得不一样,在某细节上,一个说A,另一个则说B。这么重要的事情怎么可能记错呢?所以这事你根本没现场经历过,作假。文章是你老爸写的。
----------------------------------------------------
这里加一段,说一下那个“词频分析”。那个词频分析在春节期间和几个该专业的朋友写了几篇文章。简要说一下。有人用主成份分析的方法,通过虚词的词频模型,在韩寒、韩仁均,郭敬明、天下霸唱的作品集中运行,发现能成功区分天下霸唱,郭敬明的作品,却不能区分韩寒和韩仁均的作品。这个说法颇有迷惑性。
我们几个人检查了他的算法,一致认为,该作者在主成份分析前忘了做归一化步骤。所以词频分析,变成了词数分析。由于作品字数的差异最大,变成了主维度。正好,他选取的天下霸唱的一篇作品最长,郭敬明的两篇作品其次,韩寒和韩仁均都是最短的,所以正好各自聚在了一起,造成了错误的实验结果。我们重做了实验,发现该方法并没有区分性,这是个无效的方法。详情请大家参见我博客中的真实结果图片和几篇文章链接。
另外那个分析还有个错误,它声称成功地把郭敬明的《挚爱》和《夏至未至》识别在了一起。但《挚爱》并非郭敬明的作品。
文章链接:http://www.weibo.com/1691279484/y2yTz2aNEhttp://www.weibo.com/1763695145/y2yuhrbKEhttp://blog.sina.com.cn/s/blog_56fc0caa0100zml1.html
结果图像:原帖在:http://www.weibo.com/1734031341/y2xlN7nzD
PCA可尝试做更多维度,或聚类算法改用linear classifier,但应该也是不可区分的。-----------------------------------------------------
剩下的是感想,因为熬夜,不多写了。
1.法律解决不了舆论问题。舆论问题还是要靠舆论。2.逻辑是最重要的,这不是什么文科逻辑和理科逻辑的问题,识别不了逻辑漏洞,不是对方逻辑严密,而是你逻辑不行。3.科学的形式,并不一定代表科学,很可能只是忽悠。4.韩寒团队确实有不少包装,这也是看这几天辩论的感想。其初期回应不妥也不礼貌,徒惹麻烦。不过今天说代笔的问题,与此无关,就不说包装了。5.质疑的道德,如果说质疑有什么道德,我列两点:不忽悠。质疑被成功回应时,应协助澄清而非弃之不顾抛下一个质疑。