日文中的简体字:数字视频的国际标准

来源:百度文库 编辑:偶看新闻 时间:2024/04/28 19:10:24
作者:未知 文章来源:网络 更新时间:2006-7-7
自1948年提出视频数字化概念后, 经过将近40年的探索, 于1982年提出了电视演播室数字编码的国际标准(CCIR 601号建议);又于1984年提出了第一个实用化的、适应于会议电视和可视电话要求的H.261标准;1993年公布了活动图像的编码压缩标准MPEG-1;1994年发表了MPEG-2标准, 该标准向下兼容MPEG-1, 向上兼容HDTV的图像质量;1999年公布了MPEG-4标准; 今后还计划发表MPEG-7标准。下面将上述国际标准逐一介绍。
1、CCIR 601号建议
为了便于国际间的节目交换,为消除数字设备之间的制式差别,和为 625行电视系统与 525行电视系统之间兼容,在 1982年 2月国际无线电咨询委员会(CCIR)第 15次全会上,通过了 601号建议,确定以分量编码为基础, 即以亮度分量Y、和两个色差分量R-Y、B-Y为基础进行编码,作为电视演播室数字编码的国际标准。
该标准规定: (1).不管是PAL制,还是NTSC制电视,Y、R-Y、B-Y三分量的抽样频率分别为13.5MHz、6.75MHz、6.75MHz。(2). 抽样后采用线性量化,每个样点的量化比特数用于演播室为10bit, 用于传输为8bit。(3). Y、R-Y、B-Y三分量样点之间比例为4:2: 2。
在 1983年 9月召开的国际无线电咨询委员会(CCIR)中期会议上,又作了三点补充:(l)明确规定编码信号是经过γ预校正的 Y、(R-Y)、B-Y)信号;(2)相应于量化级 0和 255的码字专用于同步, l到254的量化级用于视频信号; (3)进一步明确了模拟与数字行的对应关系,并规定从数字有效行末尾至基准时间样点的间隔,对 525行、 60场/秒制式来说为 1 6个样点,对 625行、 50场/秒制式则为 12个样点。不论 625行/50场或 525行/60场,其数字有效行的亮度样点数都是 720,色差信号的样点数均是360,这是为了便于制式转换。若亮度样点数被 2除,就得到色差信号的数据。
2、H.261标准
1984年国际电报电话咨询委员会的第 15研究组成立了一个专家组,专门研究电视电话的编码问题,所用的电话网络为综合业务数据网络ISDN,当时的目标是推荐一个图像编码标准,其传输速率为 m×384kb/s(千位/秒),m= l,2,3,4,5。这里384kb/s在 ISDN中称为 Ho信道。另有基本信道 B的速率为64kb/s, 6×B= 384kb/s。5×Ho = 30×B= 1920kb/s为窄带 ISDN的最高速率。后来因为 384kb/s速率作为起始点偏高,广泛性受限制,另外跨度也太大,灵活性受影响,所以改为 p×64kb/s, p= l, 2,3,..30。最后又把 p扩展到 32,因为 32×64kb/s=2084kb/s, 其中 2084=211,基本上等于2Mb/s, 实际上已超过了窄带 ISDN的最高速率1920kb/s,最高速率也称信道容量。经过5年以上的精心研究和努力,终于在 1990年12月完成和批准了CCITT推荐书 H.261,即"采用 p×64kb/s的声像业务的图像编解码",H.261简称 p×64。
由于 H.261标准是用于电视电话和电视会议,所以推荐的图像编码算法必须是实时处理的,并且要求最小的延迟时间,因为图像必须和语音密切配合,否则必须延迟语音时间。当 p取l或2时,速率只能达到128kb/s, 由于速率较低只能传清晰度不太高的图像,所以适合于面对面的电视电话。当 p>6时,速率>384kb/s则速率较高,可以传输清晰度尚好的图像,所以适用于电视会议。
3、 JPEG标准
静像数据压缩标准 JPEG(Joint Photo一graphic Experts Group),直译为联合摄影术专家组,其中联合是指几个国际组织的联合。它是从1986年正式开始制订的。当时由两个国际组织联合支持,其一,是国际标准组织 ISO; 其二,是国际电报电话咨询委员会 CCITT。到 1987年 l1月,国际电工委员会 IEC也参加合作,因此说 JPEG是三个国际组织合作的成果。虽然从 1986开始,经过许多次国际会议讨论和修改后,于1992年 7月 2日表决通过标准的第一部分,但是可能对有关测试标准草案(即标准的第二部分)作进一步修改。JPEG是 ISO的标准,同时也CCITT的推荐标准。
JPEG是数字图像压缩的国际标准。它用于连续变化的静止图像,这里包括灰度等级和颜色两方面的连续变化。JPEG包含两种基本压缩方法,各有不同的操作模式。第一种是有损压缩,它是以DCT(Discrete Cosine Transform)为基础的压缩方法。第二种为无损压缩,又称预测压缩方法。但最常使用的是第一种, 即DCT压缩方法,也称为基线顺序编解码(Baseline Sequential Codec)方法,因为这种方法的优点是先进、有效、简单、易于交流,因此应用广泛,是以DCT为基础的最基本、最重要的方法。
4、MPEG- l标准
MPEG是活动图像专家组(Moving Picture Expert Group)的英文缩写。实际上,它是标准化组织(ISO)和国际电工委员会(IEC)联合技术委员会l(JTC l)的第29分委员会(SC29)的第 l l工作组(WG l l),其全称是 WG l l of SC 29 of ISO/IEC JTCl。MPEG的任务是开发运动图像及其声音的数字编码标准,成立于1988年。
专家组最初的任务有三个:实现1.5Mb/s、 10Mb/s、 40Mb/s的压缩编码标准,即 MPEG-l、MPEG-2、MPEG-3。但因为 MPEG-2的功能已使 MPEG-3为多余,所以 MPEG-3于1992月撤消。MPEG-4项目是1991年5月建议并于 1993年 7月确认,其目标是甚低数码率的音频压缩编码(码率低于28.8Kb/s)。下面分别介绍各个标准。
随着数字音频和数字视频技术的广泛应用,ISO的活动图像专家组(MPEG)在1991年11月提出了 ISO ll172标准的建议草案,通称 MPEG-1标准。该标准于 1992年 11月通过, 1993年8月公布。MPEG-1标准适用于数码率在1.5Mbps左右的应用环境,也就是为CD-ROM光盘的视频存储和放像所制定的。
MPEG-l标准可以处理各种类型的活动图像,其基本算法对于压缩水平方向360个像素竖直方向 288个象素的空间分辨力,每秒24至30幅画面的运动图像有很好的效果,在 MPEG-1标准中的一帧图像的概念不同于电视中帧的概念,前者一定是成逐行扫描的图像,如果待处理信号是隔行扫描的图像,则编码前必须将其转换成逐行扫描的格式。
--MPEG-l标准提供了一些录像机的功能:正放,图像冻结、快进、快倒和慢放。此外,还提供了随机存储的功能,当然,解码器这些功能的实现在一定程度上同图像数据存储介质相关。
MPEG-l标准采用了一系列技术以获得高压缩比,第一,对色差信号进行亚采样,减少数据量 ;第二,采用运动补偿技术减少帧间冗余度;第三,做二维DCT变换去除空间相关性; 第四,对DCT分量进行量化,舍去不重要的信息,将量化后DCT分量按照频率重新排序; 第五,将 DCT分量进行变字长编码 ;第六,对每数据块的直流分量(DC)进行预测差分编码MPEG-l中的图像类型共分四种: I图像, 或称Intra图像,采用帧内编码,不参照其它图像; P图像, 或称Predicted图像, 它们参照前一幅I或P图像做运动补偿编码; B图像,或称双向预测图像,它们参照前一幅和后一幅I或P图像做双向运动补偿编码; D图像,或称直流(DC) 图像,这类图像中只含直流分量,是为快放功能而设计的。
5、MPEG-2标准
MPEG-2是由 MPEG开发的第 2个标准。按计划于 1994年 l1月正式确定为国际标准,MPEG-2是"活动图像及有关声音信息的通用编码"(Generic Coding of Moving Pictures Associated Audio Information)标准。MPEG-2标准制定始于 1990年7月。在此之间,国际电信盟电信标准化部门(ITU-T)成立了一个有关 ATM的图像编码专家组。从此开始了JTC1 ITU-T的合作。从1991年5月开始征集有关图像编码算法(Video Coding Algorithms)的文件,有32个公司和组织提供了非常详细的研究结果和 D1格式的编解码图像录像带。 1991年l l月,在日本的 JVC研究所进行了对比测试,确定带有运动补偿预测和内插的DCT最成熟和性能最好。在1992年 1月的会上又定下了 MPEG-2是"通用"(generic)标准。MPEG-2的声音和系统部分的工作始于1 992年7月。MPEG为制定 MPEG-2经常与有关国际组织,如ISO、IEC、ITU-T、ITU-R等开会协调,并注意到了与 MPEG-1的兼容一致。国际电联的无线电通信部门(ITU-R)从广播电视方面提出的不同需求构成了 MPEG-2的档次/等级(Profile/Level)概念的基础。ITU-R在 MPEG-2的质量检验、测试方面做了大量工作。MPEG-2的委员会草案ISO/IEC CD 13818是 1993年 l1月产生的。按计划在 1994年1 l 月 7日至 l 1日的新加坡会议上,批准为国际标准ISO/IEC IS 13818。此后还要对 MPEG-2进行扩展。
6、MPEG-4标准
MPEG-4标准将支持 7个新的功能。可粗略划分为 3类:基于内容的交互性、高压缩率和灵活多样的存取模式。现分别介绍如下:
1. 基于内容的交互性(Content-based interactivity)
(1)基于内容的操作与比特流编辑支持无须编码就可进行基于内容的操作与比特流编辑。例如:使用者可在图像或比特流中选择一具体的对象(Object)(例如图像中的某个人,某个建筑等等),随后改变它的某些特性。
(2)自然与合成数据混合编码 提供将自然视频图像同合成数据(文本、图形)有效结合的方式,同时支持交互性操作。
(3)增强的时间域随机存取 MPEG-4将提供有效的随机存取方式:在有限的时间间隔内,可按帧或任意形状的对象,对一音、视频序列进行随机存取。例如以一序列中的某个音、视频对象为目标进行"快进"搜索。
2. 高压缩率(Compression)
(l)提高编码效率 在与现有的或正在形成的标准的可比拟速率上, MPEG-4标准将提供更好的主观视觉质量的图像。这一功能可望在迅速发展中的移动通信网中获得应用,但值得注意的是:提高编码效率不是MPEG-4 的唯一的主要目际。
(2)对多个并发数据流的编码 MPEG-4将提供对一景物的有效多视角编码, 加上多伴音声道编码及有效的视听同步。在立体视频应用方面, MPEG-4将利用对同一景物的多视点观察所造成的信息冗余, MPEG-4的这一功能在足够的观察视点条件下将有效地描述三维自然景物。
3. 灵活多样的存取 (Universal access)
(l)错误易发环境中的抗错性( Robustness) "灵活多样"是指允许采用各种有线、线网和各种存储媒体,MPEG-4将提高抗错误能力(Error robustness capability),尤其是在易发生严重错误的环境下的低比特应用中(移动通信链路)。注意, MPEG- 4是第一个在其音、视频表示规范中考虑信道特性的标准。目的不是取代已由通信网提供的错误控制技术,而是提供一种对抗残留错误的坚韧性。例如:选择性前向纠错 ( Selective forward error correction),错误遏制(Error containment), 或错误掩盖(Error concealment)。
(2)基于内容的尺度可变性(Content-based scalability) 内容尺度可变性意味着给图像中的各个对象分配优先级。其中,比较重要的对象用较高的空间和或时间分辨率表示。基于内容的尺度可变性是 MPEG-4的核心,因为一旦图像中所含对象的目录及相应的优先级确定后,其它的基于内容的功能就比较容易实现了。对甚低比特率应用来说,尺度可变性是一个关键的因素, 因为它提供了自适应可用资源的能力。例如,这个功能允许使用者规定:对具有最高优先级的对象以可接受的质量显示,第二优先级的对象则以较低的质量显示,而其余内容(对象)则不予显示,可见,这种方式可最有效地利用有限的资源。
7、 MPEG-7标准
MPEG家族的新成员叫作"多媒体内容描述接口"(简称MPEG-7, 它的由来是1+2+4=7, 因为没有MPEG-3、MPEG-5、MPEG-6),它将扩展现有内容识别专用解决方案的有限的能力,特别是它还包括了更多的数据类型。换言之, MPEG- 7将规定一个用于描述各种不同类型多媒体信息的描述符的标准集合。 MPEG-7还将对定义其它描述符及其结构(描述方案),和他们之间的关系的方法进行标准化。这种描述(也就是描述符和描述方案的组合)将与内容本身关联起来,以便对用户感兴趣的素材进行快速高效的搜索。 MPEG-7将标准化一种用来定义描述方案的语言,即描述定义语言(DDL)。带有与之相关的 MPEG-7数据的 AV素材,就可以被加上索引,并可进行检索。这些素材可能包括,静止图像、图形、3D模型、音频、语言、视频、以及关于这些成份如何组成一个多媒体表述(即所谓"环境",组合信息)的信息。在这些通用数据类型中的特殊情况可能已包括面部表情和个人特征。
MPEG- 7象 MPEG家族中的其它成员一样,是针对满足特定需要的音、视频信息的标准化表述。由于 MPEG-7是在其它标准表述诸如模拟、 PCM、 MPEG-l、MPEG-2和MPEG- 4等基础上建立起来的,而标准化的功能之一就是对其中相应部分提供参考。举例来说,也许一个用于MPEG-4的形状描述符,在 MPEG-7的环境里可能会有帮助,同样的,用于 MFEG-l、MPEG-2的运动矢量区也可能有这样的情况。
但是, MPEG-7的描述符并不依赖于它所描述的内容是编码的或存储的方式,可以把MPEG-7的描述说明,附加到模拟制的电影里或是用纸张打印出来的图片上。然而,尽管MPEG-7的描述不依赖于所处理素材的(编码)表达方式,但由于在一定程度上它是在 MPEG-4的基础上发展起来的,而 MPEG-4采用了按照具有一定时间关系(同步)和空间关系(对于视频而言是在屏幕上,对于音频而言是在房间内)的对象,来进行音、视频编码的处理方式,因此用 MPEG-4编码有可能把描述说明附加到场景中的成员(对象),比如说音、视频对象身上。所以,MPEG-7在描述中要提供不同的程度,才可能实现不同等级的识别。
因为描述性特征必须在应用环境中才有意义,所以他们会因用户范围的不同和应用领域的不同而有所区别。这就意昧着,同样的素材,因为要和应用范围相匹配,可能会使用不同类型的特征来描述。我们来看一些例子,对于可视素材,较低的抽象级别可能会用一些象形状、尺寸、纹理、颜色、运动(抛射)、位置("对象会在场景中的哪个位置被发现呢?")等属性来描述;对音频内容而言,可能会采用调式、情绪、节奏、节奏变化、在声场中的位置等属性。而最高的抽象等级可能会给出关于语意的信息:"在这个场景中,左侧有一只正在吠叫的棕狗,右侧有一只落下来的蓝色圆球,背景中还有汽车经过的声音。"当然,所有这些描述都会以高效方式进行编码,也即能提高搜索的效率。同时,中间也可能存在过渡的抽象等级。抽象等级与提取特征的方式有关,许多低等级的特征可以用全自动的方式提取出来,而高等级的特征就需要更多的人工交互。