广西明阳白糖销售电话:1p2p3p.网  吴颜谈WEB3.0之二 互联网垃圾信息的来源及解决方法(上)

来源:百度文库 编辑:偶看新闻 时间:2024/04/28 13:19:00
吴颜谈WEB3.0之二 互联网垃圾信息的来源及解决方法(上)2005-12-07  责任编辑:ln  出处:红门资讯  作者:吴颜      概括的讲,互联网垃圾信息的存在于以下几种情况。
      1:信息传递和体现的问题,一些信息出现在了不该出现的位置。
      2:错误信息、虚假信息、失效信息和非权威信息的大量泛滥。
      3:互联网上大量存在的重复信息。
      4:没有任何社会价值、甚至对人有损害的不健康信息。

以下我们分类讲述:
        一般来说,我们把认为没有价值的东西,称为垃圾,例如:包装盒、坏掉的水果和充满暴力内容让人尴尬的邮件。但是还有人是这样定义垃圾的:说这个世界上本无垃圾,但是如果把一个东西放在一个不应该放的地方,这个东西就变成了垃圾。其实这个定义很好,因为包装盒是保护并盛装物品的,在运输过程或摆在商场的时间,没有人认为是垃圾,只是我们把东西买回家以后认为是垃圾了,因为我们感觉已经没有用了。而坏掉的水果如果当成肥料放到田地里,是没有人认为是垃圾的。如果有一个有特殊喜好并到处搜索暴力信息的人,在邮箱里发现一个宣传暴力主题的网站广告,会有雪中送炭的感觉的,也不会感觉是垃圾的。所以我们这个主题要谈的问题就是:互联网垃圾信息产生的根本原因是因为网络信息在生成和传递过程中都是杂乱而无法识别的,加上无序的传递并接收端缺乏有效的信息过滤机制造成的。
        我们先抛开互联网不谈,先说说在没有网络的时候信息是怎么传递的。在前几天开发布会之前,我要给一家公司的总裁送请柬,想邀请他参加我们的发布会。因为网络联系不到他,电话也变了,于是我拿着打印好的请柬去请他。进入他们公司写字楼大门的时间,门卫没有拦我,应该是感觉我不象坏人。但是到了他们公司,前台工作人员拦住了我。我告诉她,我和他们老总是朋友,我给他送请柬的。但是因为她不认识我,所以并没有放我进去,因为感觉我讲的话不象假话。所以就问了我的名字和具体来意,从前台打电话给他们负责人,结果负责人不在,她就告诉我,可以把请柬给她,她可以转交,本来我还想从她那里得到他们老总的手机号码,但是她拒绝了,到了第二天她们老总到公司,她就把请柬交给了他们老总。
        我们回过头来,看看现在的垃圾邮件是怎么生成的。一家企业为了推销自己的婴儿奶粉,就花钱请一家电子邮件推广公司,于是邮件推广公司向自己邮件库中100万个邮件地址发送奶粉广告。结果第二天早上,就至少有90万人收到了这样一封垃圾邮件,并气愤的给删除掉,更多的人都没有时间去删除这些垃圾邮件,因为每天要收数百封,实在太多了。我想这也是为什么2G容量邮箱出现的原因。而在这个过程中,有几个环节是有问题的:
        第一:现实生活中一个人的电话号码,只会告诉身边的人,而你也不会随便告诉别人你朋友电话的,除非他判断出是有益的。但是现在网络上有很多程序在每个网页上抓取电子信箱信息,不管你愿意不愿意你的邮箱地址都可以被抓走。因为你无法判断,打开这个网页的人是你的客户还是邮件广告商。
        第二:现实中我送的请柬被前台工作人员给拦了下来。但是网络上你的邮箱因为无法识别信的内容,所以就只能像傻子一样,不管什么邮件都统统的接收了下来,就是有炸弹和病毒他也不知道。就是有垃圾邮件过滤机制,也只是针对已知垃圾服务器所发来的,垃圾邮件换个马甲,他就不认识是谁了。
        但是如果在网络结构的数据层上面,加一个信息属性层,每个单位的信息也都按固定的标准清楚的标识其属性。邮件服务器开发商就可以很容易的开发出能拒绝垃圾邮件的产品了。而网民在浏览信息的时间也可以很自然的只看到自己要看的信息,也不用从密密麻麻的文字中筛选自己需要的信息了。这个时间如果你的邮箱再收到了一个邮件,就不会因为这个邮件只是因为是发给你的,就能被放进去了。他还可以去做一系列的判断:首先他可以从来信方地址来判断这个地址是不是专业发送垃圾邮箱的黑名单地址,并且这个黑名单地址库是和公用信息平台的黑名单库动态更新的。如果是,就一刀把垃圾给斩了。如果你的设置是接收黑名单信件里你感兴趣信息类型的信件,你的信箱可以辨别信件信息属性里的信息类别是不是被接收的范围,如果是就放入,如果不是就斩。其实这个办法很早就有人想到过,但是无奈,那个时间没有公用信息标准平台可用,所以也只能想想。不然你的邮件内容被标识成有关电脑的信息,而接收端的标准是接收有关计算机的信息,结果一对“电脑不等于计算机”,不符合,就给堵截了,你说多冤呀。这就是因为没有一个公用的信息标准所致。
        更好的是,一旦有公用的信息平台可以使用了。网站的开发人员,可以针对各种信息做类别属性的标识,网民也可以在浏览器里或RSS阅读器很方便的设定所接受的信息类型,这个时间,你所看到的信息,就纯净很多了。你可能会说,现在RSS已经对信息做很详细的分类了,你说的不是重复了吗?我在这里需要强调的是,现在大家对信息的分类,并分类方法并不是从严格的信息角度去分的,不仅仅是随意的,而且无法被程序所使用。也是无法符合信息分类标准的。WEB3.0时期的公用信息平台所需使用的信息分类,是一种称为全息信息分类法。专题报道中我们会用一个专题来讲解。