博尔特输了:视频与编码标准

来源:百度文库 编辑:偶看新闻 时间:2024/04/29 01:04:15

本章先了解电视技术的历史与发展,列出各种彩色电视制式,简介数字电视的概念与现状;再讲解视频信号的数字化,重点介绍视频编码标准.
6.1 电视
电视(television远视)与动画一样也是利用人的视觉滞留原理工作的.早期是黑白电视无线广播,后来是模拟彩色电视的无线广播,卫星广播和有线电视广播,现在正处于高清晰数字电视广播的发展阶段.
6.1.1 发展与简史
电视技术的发展
系统:黑白电视→彩色电视(无线→卫星→有线)→数字电视→高清晰数字电视
显示:阴极射线管CRT→背投/前投→液晶LCD→等离子PDP→薄膜电视OLED/表面传导电子发射显示器SED/激光显示器
存储播放:录像带/机VCR→VCD→DVD→BD/HD DVD
电视技术的发展历史
1884年德国工程师P.G. Nipkow发明螺盘旋转扫描器,用光电池把图像的系列光点转变为电脉冲,实现了最原始的电视传输和显示
1897年电子束管(electron beam tube)即阴极射线管(CRT = Cathode-Ray Tube)问世,后来出现仪器示波管
1923年美籍俄罗斯人(美国两院院士)V.K. Zworykin发明电视光电摄像管
1925年美国人C.F. Jenkins和1926年英国人J.L. Baird相继实现影像粗糙的机械扫描系统
1930年P.J.范思沃恩发明电子扫描系统
1930年RCA公司改进电子束显像管
1931年V.K. Zworykin发明电视显像管
1937年/1939年英国/美国开始黑白电视广播
1940年代末美国发明共用天线电视系统,后来逐步发展为有线电视(电缆电视cable television)
1949年美国无线电公司研制成功荫罩式彩色显像管
1952年美国提出NTSC彩色电视制式
1954年美国正式开始彩色电视广播
1958年中国开始黑白电视广播
1963年联邦德国提出PAL彩色电视制式
1964年借助于点同步通信卫星实现通信与电视转播
1964年美国无线电公司发现液晶光电效应,后来发展成液晶显示器(LCD = Liquid Crystal Display)
1966年美国人D.L.比泽和H.G.斯洛托夫发明等离子显示器PDP(plasma display panel)
1966年法国提出SECAM彩色电视制式
1970年代初中国开始彩色电视广播,采用的PAL-D制式
1972年日本广播协会研究所提出模拟高清晰度电视HDTV的MUSE方案
1974年中国开始在高层建筑中安装和使用共用天线电视系统
1979年柯达公司Rochester实验室的邓青云(Ching W Tang汪根祥)发明小分子 OLED(Organic Light Emitting Diode有机发光二极管/有机电激发光显示器) 薄膜电视,1987年英国剑桥大学博士生Jeremy Burroughes证明大分子的聚合物也有场致发光效应.
1980年代中国开始在单位安装电缆电视
1988年汉城奥运会采用MUSE的HDTV转播
1991年日本正式开始MUSE的HDTV广播
1993年欧洲开始制定数字电视广播DVB标准
1994年中国国务院成立了由11个有关部委组成的数字HDTV研究开发小组
1995年美国通过ATSC数字电视标准
1997年中国CCTV进行HDTV广播试验
1999年CCTV用HDTV实况转播50周年国庆
1999年开始研究,2004年9月14日日本的佳能与东芝宣布将共同生产一种比目前的PDP显示器更薄,耗电更低,与LCD不同可以自己发光的先进平面显示器——SED (Surface-Conduction Electron-emitter Display表面传导电子发射显示器)
2005年3月日本索尼公司在爱知世博会上推出50m*10m的激光影院系统.2006年2月,日本三菱公司宣布研制成功激光背投电视.2007年1月,在美国拉斯维加斯国际消费电子展(CES)上,日本索尼公司和美国Novalux公司各自推出基于投影式激光显示技术的多台的激光显示试验样机,包括了55英寸激光背投电视和小型,袖珍式前投影机以及激光数码影院等.
2006年8月18日中国公布强制性国家标准《数字电视地面广播传输系统帧结构,信道编码和调制》.
6.1.2 彩色电视
广播频段的划分
表6-1 广播频段的划分
种类
频段
频率范围(Hz)
波段频道
带宽(Hz)
特点
调幅广播
MF
526.5~1606.5k
中波
10k
国内广播,地/天波可传百/千余公里
TF
2300~5060k
中短波
热带地区的国内广播
HF
3900~26100k
短波
国际广播,电离层反射可传数千公里
电视广播
I(VHF)
48.5~92k
1~5
8M
直线传播,电视广播
调频广播
II(VHF)
87~180M
超短波
200k
直线传播,调频广播
电视广播
III(VHF)
167~223M
6~12
8M
直线传播,电视广播
IV(UHF)
470~566
13~24
V(UHF)
606~988
25~68
8.68M
其中:MF = Medium Frequency中频 TF = Tropic Frequency热带频 HF = High Frequency高频 VHF = Very High Frequency甚高频 UHF = UltraHigh Frequency超高频
彩色电视制式
目前世界上现行的模拟彩色电视制式有三种:NTSC制,PAL制和SECAM制.这里不包括模拟的高清晰度彩色电视.
NTSC(National Television Systems Committee国家电视系统委员会)彩色电视制是1952年美国国家电视标准委员会定义的彩色电视广播标准,称为正交平衡调幅制,1954年开始广播.美国,加拿大等大部分西半球国家,以及日本,韩国,菲律宾等国和中国的台湾采用这种制式.
由于NTSC制存在相位敏感造成彩色失真的缺点,因此德国(当时的西德)于1962年制定了PAL(Phase-Alternative Line相位逐行交变)制彩色电视广播标准,称为逐行倒相正交平衡调幅制,1967年开始广播.德国,英国等一些西欧国家,以及中国,朝鲜等国家采用这种制式.
法国1957年起制定了SECAM (法文:Sequential Coleur Avec Memoire顺序颜色传送与存储)彩色电视广播标准,称为顺序传送彩色与存储制,1967年开始广播.法国,苏联及东欧国家采用这种制式.世界上约有65个地区和国家使用这种制式.
NTSC制,PAL制和SECAM制都是与黑白电视兼容制制式,即黑白电视机能接收彩色电视广播,显示的是黑白图像;而彩色电视机也能接收黑白电视广播,显示的也是黑白图像.为了既能实现兼容性而又要有彩色特性,因此彩色电视系统应满足下列两方面的要求:
(1) 必需采用与黑白电视相同的一些基本参数,如扫描方式,扫描行频,场频,帧频,同步信号,图像载频,伴音载频等等.
(2) 需要将摄像机输出的三基色信号转换成一个亮度信号,以及代表色度的两个色差信号,并将它们组合成一个彩色全电视信号进行传送.在接收端,彩色电视机将彩色全电视信号重新转换成三个基色信号,在显象管上重现发送端的彩色图像.
表6-2 彩色电视制式(宽:高 = 4:3,隔行扫描)
制式
制定
国家
制定/广播
时间
(有效)扫描线
/ 帧数(场频)
使用范围
NTSC
美国
1952/1954
525(480) / 30(60)
美国,日本,加拿大,韩国,台湾
PAL
西德
1962/1967
625(575) / 25(50)
西欧(法国除外),中国,香港,朝鲜
SECAM
法国
1957/1967
法国,俄国,东欧,中东
电视扫描
扫描有隔行扫描(interlaced scanning)和逐行扫描(non-interlaced scanning / progressive scanning)之分.图6-1表示了这两种扫描方式的差别.电视发展的初期,由于技术水平不高,数据传输率受到限制.在低数据传输率下,为了防止低扫描频率的画面所产生的闪烁感,黑白电视和彩色电视都采了用隔行扫描方式,通过牺牲扫描密度来换取扫描频率.而现在已经没有了这些限制,所以计算机的CRT显示器一般都采用非隔行扫描.
(a) 逐行扫描
(b) 隔行扫描
图6-1 图像的光栅扫描
在非隔行扫描中,电子束从显示屏的左上角一行接一行地扫到右下角,在显示屏上扫一遍就显示一幅完整的图像,如图6-1(a)所示.
在隔行扫描中,电子束扫完第1行后回到第3行开始的位置接着扫,如图6-1(b)所示,然后在第5,7,……,行上扫,直到最后一行.奇数行扫完后接着扫偶数行,这样就完成了一帧(frame)的扫描.由此可以看到,隔行扫描的一帧图像由两部分组成:一部分是由奇数行组成,称奇数场,另一部分是由偶数行组成,称为偶数场,两场合起来组成一帧.因此在隔行扫描中,无论是摄像机还是显示器,获取或显示一幅图像都要扫描两遍才能得到一幅完整的图像.
在隔行扫描中,扫描的行数必须是奇数.如前所述,一帧画面分两场,第一场扫描总行数的一半,第二场扫描总行数的另一半.隔行扫描要求第一场结束于最后一行的一半,不管电子束如何折回,它必须回到显示屏顶部的中央,这样就可以保证相邻的第二场扫描恰好嵌在第一场各扫描线的中间.正是这个原因,才要求总的行数必须是奇数.
每秒钟扫描多少行称为行频fH;每秒钟扫描多少场称为场频ff;每秒扫描多少帧称帧频fF.ff和fF是两个不同的概念.
电视的扫描频率之所以取为50场/秒(25帧/秒)或60场/秒(30帧/秒),一个重要的原因是,受当时技术的限制,电视信号还不能完全避免交流电的干扰,因此才将电视的扫描场频与电源的交变频率取成一致.例如,美日交流电的频率是60Hz,所以他们的电视场频也取为60Hz(30帧/秒);而中国和欧洲的交流电频率是50Hz,所以我们的电视场频就取为50Hz(25帧/秒).虽然现在的技术已经有了很大发展,交流电的干扰问题早就获得了解决,但是为了与传统的电视信号兼任,同时也可以避免技术上的复杂性,所以即使是最新的高清晰电视广播,仍然还是保留了这样的扫描频率.
黑白电视国际标准
表6-3 黑白电视的国际标准(宽高比= 4:3)
标准系统
A
M
B,C,G,H
I
D,K,L
E
行数/帧
405
525
625
819
场数/秒
50
60
50
帧数/秒
25
30
25
行数/秒
10125
15750
15625
20475
带宽(MHz)
3.0
4.2
5.0
5.5
6.0
10.0
码率(Mb/s)
48
67.2
80
88
96
160
其中,系统A和I用于英国,M用于北美和日本,E和L用于法国,其余西欧国家用B,C,G和H,中国用D.
彩色电视国际标准
表6-4 彩白电视的国际标准(宽高比= 4:3)
TV制式
PAL(G I D)
NTSC(M)
SECAM(L)
行/帧
625
525
625
帧/秒(场/秒)
25(50)
30(60)
25(50)
行/秒
15625
15734
15625
参考白光
C白
D6500
D6500
声音载频(MHz)
5.5 6.0 6.5
4.5
6.5
γ
2.8
2.2
2.8
彩色副载频(Hz)
4433618
3579545
4250000(+U)
4406500(-V)
彩色调制
QAM
QAM
FM
亮度带宽(MHz)
5.0 5.5
4.2
6.0
色度带宽(MHz)
1.3(Ut) 1.3(Vt)
1.3(I) 0.6(Q)
>1.0(Ut) >1.0(Vt)
彩色分量
根据光电三基色的加法原理,任何一种颜色都可以用R,G,B三个彩色分量按一定的比例混合得到.图6-2说明用彩色摄像机摄取景物时,如何把自然景物的彩色分解为R,G,B分量,以及如何重显自然景物彩色的过程.

图6-2 彩色图像重现过程
为了使彩色电视与黑白电视兼容,同时也为了可以利用人眼对亮度和颜色的不同感知特性进行数据压缩,彩色电视并没有直接采用红绿蓝RGB颜色体系进行信号传输,而是采用了亮度色差颜色体系YC1C2.
YC1C2中的Y表示亮度信号,C1和C2是两个色差信号,C1和C2的含义与具体的制式有关.在NTSC彩色电视制中,C1和C2分别表示I和Q两个色差信号;在PAL彩色电视制中,C1和C2分别表示U和V两个色差信号;在SECAM彩色电视制中,C1和C2分别表示Db和Dr两个色差信号;在CCIR 601数字电视标准中,C1和C2分别表示Cb和Cr两个色差信号.所谓色差是指基色信号中的三个分量信号(即R,G,B)与亮度信号之差.
三种彩电制式的颜色坐标都是从PAL的YUV导出的,而YUV又是源于XYZ坐标.Y为亮度,可以由RGB的值确定,色度值U和V分别正比于色差B-Y和R-Y.YUV坐标与PAL制式的基色值RGB的关系为:
其中为RGB归一化的γ校正后的值,其(1, 1, 1)点对应于PAL/SECAM颜色体系中的基准白色.
NTSC的YIQ坐标中的IQ分量是UV分量旋转33度后的结果:
SECAM制式所采用的YDbDr坐标中的DbDr与YUV中的UV之间有如下关系:
Db=3.059U, Dr=-2.169V
601标准YCbCr是YUV的伸缩平移:
其中,.伸缩后Y=16~235,CbCr=16~240.
在彩色电视中,使用Y,C1C2颜色体系进行信号的发送和接收,有如下两个重要优点:
Y和C1C2是独立的,因此彩色电视和黑白电视可以同时使用,Y分量可由黑白电视接收机直接使用而不需做任何进一步的处理;
可以利用人的视觉特性来节省信号的带宽和功率,通过选择合适的颜色模型,可以使C1C2的带宽明显低于Y的带宽,而又不明显影响重显彩色图像的观看.这为以后电视信号的有效数字化和数据压缩提供了良好的基础.
6.1.3 高清晰数字电视
最开始的电视机只有9或14英寸大,5,6百条扫描线就足够清晰了,可后来电视机越做越大:18,20,25,29,34,39英寸,甚至42,50和63英寸(等离子电视和背投电视),但电视信号却仍然只有5,6百线,观看效果让人难以接受,迫切需要发展高清晰度电视.(其他可供比较的视频信号的扫描线数为:VHR/VCD:200多线,S-VHS:320线,Laser Disc:420线,DVD:576线)
高清晰度电视(HDTV = High-Definition TeleVision)是指图像质量大于1000线(似16 mm电影),环绕立体声(似现代电影院),宽高比为16:9或5:3(似宽银幕电影)的电视.普通电视的图像质量只有5,6百线,单声道或立体声,宽高比为4:3(似普通银幕电影和普通的计算机显示器).可见HDTV的扫描线数是普通彩色电视的2倍,信息量(像素)增加到5倍.参见图6-3和表6-5.
图6-3 HDTV与普通电视的分辨率
表6-5 HDTV与普通彩色电视的比较
参数
HDTV
普通彩色电视
扫描行数
1250
525/625
图幅宽高比
16:9或5:3
4:3
最佳观看距离
3倍屏幕高
5倍屏幕高
水平视角(°)
30(电影60)
10
隔行比
-
2:1
场频(Hz)
50
60/50
Y带宽(MHz)
25
4.2/5.5
C带宽(MHz)
6.5
1.3
行频(kHz)
31.25
15.734/15.625
Y取样频率(MHz)
72
13.5
C取样频率(MHz)
36
6.75
Y取样个数/行
2,304
858/864
Y有效样数/行
1,920
720
Y有效行数
1,152
480/576
C有效样数/行
960
432
C有效行数
576
240/288
像素纵横比
15:16
3:4/15:16
总码率(Mb/s)
25
8.448
压缩比
26.5:1
20:1
最早的HDTV是日本研究与实现的,但主要为模拟系统.后来美国和欧洲相继研究和制定了全数字化的HDTV方案,日本也只好随大流而改用DTV(Digital TV数字电视).现代的HDTV都采用数字方案,数字广播的主要有优越性有:
一个PAL制式的频道可以传输8~10套压缩后的标准分辨率的DTV信号;
数字电视的信号更稳定,抗干扰能力强;
可以实现联网和交互性,如浏览网络信息,VOD(Video-On-Demand视频点播)等.
许多国家的政府为了促进HDTV的使用,都制定了强制性的停播模拟电视的时间表,但一直遭到想保护原有投资的各大电视公司的消极抵制,进展十分缓慢,最近几年才有所改观.
中国为了申请2000年奥运会,也积极开始HDTV的研制,后来由于申请失败,放慢了研制的步伐.但为了2008年的北京奥运会,中国政府会再一次加大投入,加快研制和推广步伐的.
HDTV有不同的实现方案,主要有:
日本ISDB
1972年日本广播协会(NHK)研究所提出MUSE(Multi Sub-Nyquist Sampling Encoding多重奈奎斯特取样编码)的HDTV(在日本叫Hi-vision)方案,1980年代开发了全套HDTV设备,1987年试验成功,1988年转播汉城奥运会,1991年开始每天8小时的正式试播.由于MUSE主要采用的是模拟方法,占用的频带宽,与全数字化的发展趋势相悖,所以于1997年3月决定改为数字系统ISDB(Integrated-Services Digital Broadcasting集成业务数字广播).
ISDB的主要技术特点是:
信源码与系统码——视频,音频及业务数据位流复用编码,均采用MPEG-2标准
信道编码调制——地面传输时,信道内码为卷积码,外码为RS,采用OFDM调制
日本政府计划2000年试播,2003年东京开播,2006年全国开播,2010年停播模拟广播,用十年时间完成模拟到数字广播的转换过程.
1995年NHK又着手开发4000线(似70mm电影)的超高清电视UDTV (Ultra High Definition TV),得到日本100多家公司的支持.2006年4月NHK广播技术研究所和NTT集团公布了可通过IP网络传输的扫描线数达4000条(7680×4320像素)的UDTV影像的系统.
美国ATSC
1983年在美国成立了一个自愿研究数字电视标准的非营利国际组织——先进电视系统委员会(ATSC = Advanced Television Systems Committee)
1987年11月美国的联邦通信委员会(FCC = Federal Communications Commission)成立管理先进电视(ATV = Advanced Television)业务的ACATS(Advisory Committee on ATV Service先进电视业务咨询委员会)
1988年9月共提出了24种ATV方案,ACATS从其中选出6种
1990年5月美国GI公司发布全数字HDTV传输制式DigiCipher(数字密码),引起轰动
1993年淘汰了两种模拟方案EDTV和MUSE,只剩下4种全数字方案
1993年5月FCC成立了由这5个方案的提出者(GI,Zenith,AT&T,Thomson,Sarnoff)参加的HDTV大联盟(GA = Grand Alliance)
1994年4/12月发表GA HDTV规范1.0/2.0
1995年4月通过ATSC数字电视标准作为美国ATV广播标准,参见网站http://www.atsc.org.
为了适应消费电子,计算机和网络的发展,ATSC(GA HDTV)中引入了互操作性和可扩展性,使得HDTV成为信息高速公路上的多媒体终端.其主要技术特点有:
数字图像压缩技术——MPEG-2的子集
传输格式——与ATM兼容
扫描格式——与计算机兼容(方形像素,逐行扫描,宽高比固定)
传输调制——采用8VSB方式
伴音——5.1环绕声系统(以Dollby AC-3为备有系统)
美国政府计划1997年试播(1998年11月已有23个城市正式开播),2006年停播模拟广播,用9年时间完成模拟到数字广播的转换过程.因为转换过程进展缓慢,现在美国又将转换的截止时间推迟到了2010年.
欧洲DVB
1983年欧洲推出新的电视制式——MAC(Multiplexed Analogue Components多元模拟成分),1986年提出HDTV的HD-MAC,并于1992年冬季奥运会上首次使用.在美国的影响下,1993年9月欧洲制定了全数字的HDTV方案——DVB(Digital Video Broadcasting数字视频广播).它也是基于MPEG-2标准,采用Musicam环绕声和AC-3环绕声.参见网站http://www.dvb.org.
1998年10月1日英国开始DVB广播.
台湾HDTV
1997年确定方案,1999年中试播,2001年底开播,2006年停模拟广播,原计划用7年时间完成模拟到数字广播的转换过程,现在也有所推迟.
中国HDTV
1994年中国国务院成立了由11个有关部委组成的数字HDTV研究开发小组
1996年国家科委将HDTV列入国家重大科技产业工程项目(战略研究,八五攻关,样机研制)
1997年7/11月CCTV-长城试验成功/建成闭路电视系统
1998年9月在CCTV试播
1999年10月CCTV用HDTV实况转播50周年国庆
中国的HDTV的信源编码采用的上海交通大学提出的基于MPEG-2的方案(1920×1152,5:3兼容国际标准的1920×1080和1280×720,16:9).积极参加研究的单位有:HDTV总体组,CCTV,清华-赛格高技术研究中心,康佳,TCL,海信,夏华-天津大学,创维-华中科技大学等.
中国的数字电视技术标准及其制定单位:
信道传输技术标准
卫星传输(欧洲DVB-C标准)
有线传输(浙江大学,采用欧洲DVB-S标准)
地面传输(清华大学,上海交通大学)
信源编码技术标准(AVS工作组)
数据与命令格式(系统)
视频编码
音频编码
用户与安全管理标准(信息产业部第三所)
付费管理
加密与解密
除了地面传输标准外,其他国家标准都早已经制定完成.
地面传输标准原计划于2003年推出,最初是由于存在一些技术问题,后来却是因为标准背后利益集团的竞争,使得标准的退出时间一再推迟.主管部门要求将清华大学和上海交通大学的两套方案进行合并,后来又有广播科学研究院的方案参与.标准的制定一拖就是几年,大大影响了我国数字电视特别是高清晰电视广播的发展和普及的进程.
上海交大的ADTB-T单载波方案与现有电视技术兼容性好,实现成本较低,但主要采用的是国外的专利技术,得到了不少电视台的支持;而清华的DMB-T多载波方案(广播科学研究院的TiMi方案与之类似)与网络技术的兼容性好,主要技术是自主开发,更有发展前途,得到了许多电视机厂的支持.将这两套差别很大的方案进行合并,困难非常大.
终于,具有自主知识产权的中国数字电视(包括高清晰电视)地面广播传输系统标准--GB20600-2006《数字电视地面广播传输系统帧结构,信道编码和调制》,于2006年8月18日被国家质量监督检验检疫总局和国家标准化管理委员会正式批准成为强制性国家标准,并于2006年8月30日对外公布,从2007年8月1日起实施(留出了近一年的过渡期).
最终的国家地面数字电视标准是清华和上海交大这两套方案的"融合",其中的单载波部分主要用于没有被有线电视覆盖的城郊和广大农村地区的8亿用户,多载波部分则主要应用于移动和网络电视等.
中国政府计划1998年试播,2005年1/4数字化,2015年停模拟广播,用17年时间完成模拟到数字广播的转换过程.
2003年6月中旬,广电总局发布了《我国有线电视向数字化过渡时间表》:
一,地域划分
除北京,天津,上海,重庆四个直辖市外,分东部,中部,西部三个地区.
东部地区包括广东,福建,江苏,浙江,山东.
中部地区包括湖南,湖北,海南,四川,安徽,江西,广西,河南,河北,山西,陕西,辽宁,吉林,黑龙江.
西部地区包括新疆,西藏,青海,宁夏,甘肃,内蒙古,云南,贵州.
二,时间划分
分2005年,2008年,2010年,2015年四个阶段.
三,过渡计划
第一阶段:到2005年,直辖市,东部地区地(市)以上城市,中部地区省会市和部分地(市)级城市,西部地区部分省会市的有线电视完成向数字化过渡.
第二阶段:到2008年,东部地区县以上城市,中部地区地(市)级城市和大部分县级城市,西部地区部分地(市)级以上城市和少数县级城市的有线电视基本完成向数字化过渡.
第三阶段:到2010年,中部地区县级城市,西部地区大部分县以上城市的有线电视基本完成向数字化过渡.
第四阶段:到2015年,西部地区县级城市的有线电视基本完成向数字化过渡.
上海电视台已于2001.1.1开始试播数字高清晰度电视节目,北京电视台于2003.9.1开始试播,深圳电视台于2003.10.8试播高清频道,广州电视台也于2003.8开始试播.
2006年元旦,中央电视台和上海文广传媒集团,同时开始高清晰度电视节目的正式广播.
6.2 视频及其数字化
视频是电视信号的可视部分(另一部分是伴音),为了进行数字电视广播和视频信号处理与利用,必须先将视频信号数字化.
本节先给出视频的基本概念,视频卡与视频处理,再介绍模拟视频信号数字化的具体方法和标准.
6.2.1 视频
本小节先给出视频的基本概念,然后简单介绍视频卡,视频处理的最基本内容及常用的视频文件格式.
概念
电视指电视广播,包括电视节目的制作,传输和收看,而视频(video)是与电视有关的各种设备,产品和信息等,如录影的录像制作的产品,录像设备和技术,具体如录相带,特别是在电视上复放的包含电影,音乐表演或电视节目的录相带;及视频光盘VCD/DVD等.
人们所收看的电视内容,实际上包括视频和音频两个部分.这里的视频是指电视画面的图像信息,而不包含电视中伴音.
多媒体所说的视频主要指电视画面的系列图像信息.
视频卡
似音频有声卡,视频也有视频卡(video card),可以进行视频信号的采集,处理和播放,包括视频信号的模数和数模转换.
功能
视频卡一般有如下基本功能:
汇集视频源——如TV音像源,录像机VCR,摄像机,数字摄像机DV,激光视盘机LVDP等
硬件数字化——包括实时压缩
支持编辑——如修整,缩放
播放——在显示器上开窗或全屏(叠加)播放
分类
视频捕获/转换卡——模拟视频信号(数字视频信号(存储在计算机中/在显示器上播放
视频回放卡(解压卡/电影卡)——将存储在计算机磁盘或光盘上的视频信号在显示器上播放(早期286/386PC机需要)
电视卡——带高频头,可将计算机(的显示器)变成一台电视机,能收看电视节目.如ATI于2004年初推出的HDTV Wonder TV,是市场上第一个HDTV电视卡产品.参见图6-4.
图6-4 ATI的HDTV电视卡
集成卡
常见——显卡+图形加速卡+TV口
多媒体——视频采集(+视频压缩)+视频输出
视频信息处理
视频信息处理:采集(编辑(应用
采集
D/A (压缩)
视频信息——>数字视频信号——>数据存盘
视频捕获卡
编辑
常见的播放和编辑软件有:
Microsoft的Video for Windows(AVI播放),Windows Media Player播放器(AVI/ASF播放),Windows Media Audio/Video(ASF编码器)
Apple的QuikTime(MOV播放/编辑)
RealNetwork的RealPlayer(RM播放),RealProductor(RM生成)
Ulead的VideoStudio(业余级)
Adobe的Premiere(准专业级)/ After Effects(专业级)
Asymetrix的DVP(Digital Video Producter)
应用
视频播放:
全屏实时模拟信号源播放
全屏数字化视频信号播放
窗口数字化视频信号播放
视频文件格式
常用的视频文件格式有:
AVI = Audio/Video Interleaved音频/视频交错(存储),MS&IBM&Intel Win
MOV = Movie电影,Apple MacOS/Win
rm/rv = RealMedia/RealVideo实媒体/实视频,RealNetworks Win/Unix/Linux
ASF = Advanced Stream Dormat先进流格式,MS Win
MPG = MPEG运动图像专家组,ISO&IEC Win/MacOS/Unix/Linux
DAT = DATA数据,VCD的视频数据文件
6.2.2 视频信号的数字化
与模拟视频相比,数字视频的优点很多.例如,可直接进行随机存储和检索,复制和传输后不会造成质量下降,很容易进行非线性电视编辑,能够进行数据压缩等等.数字视频是现代(高清晰)数字电视广播,家庭影院(VCD/DVD/EVD/BD/HD-DVD等)和网络流媒体等的基础.
在第3章中已经讲过,通过采样和量化可以将音频信号数字化.类似地,也可以通过采样和量化的方法来将视频信号数字化.不过电视信号在空间上是二维的,而且有三个颜色分量YC1C2.因此,除了时间帧(图像)的采样外,还需要进行帧图像的空间点(像素)采样.而对每个像素点的量化,又涉及到三个颜色分量.所以,视频数字化常用"分量数字化"这个术语,它表示对彩色空间的每一个分量进行数字化.
数字化的方法
视频数字化常用的方法有两种:
(1) 先从复合彩色视频中分离出彩色分量,然后数字化.通常的做法是首先把模拟的全彩色电视信号分离成YC1C2或RGB彩色空间中的分量信号,然后用三个A/D转换器分别对它们数字化.
(2) 首先用一个高速A/D转换器对彩色全电视信号进行数字化,然后在数字域中进行分离,以获得所希望的YC1C2或RGB分量数据.
数字化标准
1982年CCIR(International Radio Consultative Committee国际无线电咨询委员会)制定了彩色视频数字化标准,称为CCIR 601标准,现改为ITU-R BT.601标准(601-4:1994.7. / 601-5:1995.10).该标准规定了彩色视频转换成数字图像时使用的采样频率,RGB和YCbCr两个彩色空间之间的转换关系等.
其中的ITU = International Telecommunication Union(联合国)国际电信联盟,R = Radiocommunication Sector无线电部,BT = Broadcasting service (television)广播服务(电视).
彩色空间之间的转换
用8位二进制数表示BT.601的Y'CbCr和R'G'B'的各个颜色分量,而R'G'B'颜色空间使用相同数值范围[0, 219]的分量信号.R'G'B'和Y'CbCr两个彩色空间之间的转换关系,用下式表示:
Y' = 0.299R' + 0.587G' + 0.114B' + 16
Cb = (-0.1687R' - 0.3313G' + 0.500B') + 128
Cr = (0.500R' - 0.4187G' - 0.0813B') + 128
采样频率
BT.601为NTSC制,PAL制和SECAM制规定了共同的视频采样频率.这个采样频率也用于远程图像通信网络中的视频信号采样.
对PAL制,SECAM制,采样频率fs为
fs = 625×25×N = 15625×N = 13.5 MHz, N = 864
其中,N为每一扫描行上的采样数目.
对NTSC制,采样频率fs为
fs = 525×29.97×N = 15734×N = 13.5 MHz, N = 858
其中,N也为每一扫描行上的采样数目.
有效显示分辨率
对PAL制和SECAM制的亮度信号,每一条扫描行采样864个样本;对NTSC制的亮度信号,每一条扫描行采样858个样本.对所有的制式,每一扫描行的有效样本数均为720 (= 864 – 144 = 858 - 138)个.每一扫描行的采样结构如图6-5所示.

图6-5 ITU-R BT.601的亮度采样结构
ITU-R BT.601标准
BT.601用于对隔行扫描视频进行数字化,对NTSC和PAL制彩色电视的采样频率和有效显示分辨率都作了规定.BT.601推荐使用4:2:2的彩色视频采样格式.使用这种采样格式时,Y用13.5 MHz的采样频率,Cb和Cr用6.75 MHz的采样频率.采样时,采样频率信号要与场同步和行同步信号同步.
表6-6给出了ITU-R BT.601推荐的采样格式,编码参数和采样频率.
表6-6 彩色电视数字化参数摘要
采样格式
信号形式
采样频率
(MHz)
样本数/扫描行
数字信号取值范围(A/D)
NTSC
PAL
4:2:2
Y
13.5
858(720)
864(720)
220级(16 ~235)
Cb
6.75
429(360)
432(360)
225级(16 ~240)
(128 ± 112)
Cr
6.75
429(360)
432(360)
4:4:4
Y
13.5
858(720)
864(720)
220级(16 ~235)
Cb
13.5
858(720)
864(720)
225级(16 ~240)
(128 ± 112)
Cr
13.5
858(720)
864(720)
CIF,QCIF和SQCIF
为了既可用625行的视频又可用525行的视频,BT.601规定了CIF(Common Intermediate Format公用中分辨率格式),QCIF(Quarter-CIF,1/4公用中分辨率格式)和SQCIF(Sub-Quarter Common Intermediate Format,子1/4公用中分辨率格式)格式,具体规格如表6-7所示.
表6-7 CIF,QCIF和SQCIF图像格式参数

CIF
QCIF
SQCIF
行数/帧
像素/行
行数/帧
像素/行
行数/帧
像素/行
亮度(Y)
288
360(352)
144
180(176)
96
128
色度(Cb)
144
180(176)
72
90(88)
48
64
色度(Cr)
144
180(176)
72
90(88)
48
64
CIF格式具有如下特性:
视频的空间分辨率为家用录像系统(Video Home System,VHS)的分辨率,即352×288;
使用逐行扫描(non-interlaced scan);
使用NTSC帧速率,视频的最大帧速率为30 000/1001≈29.97幅/秒;
使用1/2的PAL水平分辨率,即288线;
对亮度和两个色差信号(Y,Cb和Cr)分量分别进行编码,它们的取值范围同ITU-R BT.601.即黑色=16,白色=235,色差的最大值等于240,最小值等于16.
图像子采样
图像子采样(subsampling)是指对图像的色差信号使用的采样频率比对亮度信号使用的采样频率低,可以达到压缩彩色电视信号的目的.它利用了人视觉系统的如下两个特性:
人眼对色度信号的敏感程度比对亮度信号的敏感程度低,利用这个特性可以把图像中表达颜色的信号去掉一些而使人不察觉;
人眼对图像细节的分辨能力有一定的限度,利用这个特性可以把图像中的高频信号去掉而使人不易察觉.
试验表明,使用子采样格式后,人的视觉系统对采样前后显示的图像质量没有感到有明显差别.目前使用的子采样格式有如下几种:
4:4:4 这种采样格式不是子采样格式,它是指在每条扫描线上每4个连续的采样点取4个亮度Y样本,4个红色差Cr样本和4个蓝色差Cb样本,这就相当于每个像素用3个样本表示.
4:2:2 这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本,2个红色差Cr样本和2个蓝色差Cb样本,平均每个像素用2个样本表示.
4:1:1 这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本,1个红色差Cr样本和1个蓝色差Cb样本,平均每个像素用1.5个样本表示.数字电视盒式磁带 (digital video cassette,DVC)上使用这种格式;
4:2:0 这种子采样格式是指在水平和垂直方向上每2个连续的采样点上取2个亮度Y样本,1个红色差Cr样本和1个蓝色差Cb样本,平均每个像素用1.5个样本表示.MPEG-1(H.261/H.263)和MPEG-2都使用这种格式.但是它们的具体实现办法并不相同.参见图6-6.

图6-6 两种不同的4:2:0子采样格式
视频的数据率
按照奈奎斯特(Nyquist)采样理论,模拟电视信号经过采样(把连续的时空信号变成离散的时空信号)和量化(把连续的幅度变成离散的幅度信号)之后,数字电视信号的数据量大得惊人,当前的存储器和网络都还没有足够的能力支持这种数据传输率,因此需要对数字电视信号进行压缩处理.
ITU-R BT.601标准数据率
BT.601标准,使用4:2:2的采样格式,亮度信号Y的采样频率选择为13.5 MHz/s,而色差信号Cr和Cb的采样频率选择为6.75 MHz/s,在传输数字电视信号通道上的数据传输率就达到为270 Mb/s(兆比特/秒)!,即
亮度(Y):
858样本/行×525行/帧×30帧/秒×10比特/样本≈135兆比特/秒(NTSC)
864样本/行×625行/帧×25帧/秒×10比特/样本≈135兆比特/秒(PAL)
Cr (R-Y):
429样本/行×525行/帧×30帧/秒×10比特/样本≈68兆比特/秒(NTSC)
429样本/行×625行/帧×25帧/秒×10比特/样本≈68兆比特/秒(PAL)
Cb (B-Y):
429样本/行×525行/帧×30帧/秒×10比特/样本≈68兆比特/秒(NTSC)
429样本/行×625行/帧×25帧/秒×10比特/样本≈68兆比特/秒(PAL)
总计:27兆样本/秒×10比特/样本 = 270兆比特/秒
实际上,在荧光屏上显示出来的有效图像的数据传输率并没有那么高:
亮度(Y):
720×480×30×10≈104 Mb/s (NTSC)
720×576×25×10≈104 Mb/s (PAL)
色差(Cr,Cb):
2×360×480×30×10≈104 Mb/s (NTSC)
2×360×576×25×10≈104 Mb/s (PAL)
总计:≈ 207 Mb/s
如果每个样本的采样精度由10比特降为8比特,彩色数字电视信号的数据传输率就降为166 Mb/s.
VCD视频数据率
如果考虑使用Video-CD存储器来存储数字电视,由于它的数据传输率最高为1.4112 Mb/s,分配给电视信号的数据传输率为1.15 Mb/s,这就意味MPEG电视编码器的输出数据率要限制在1.15 Mb/s.显而易见,如果存储166Mb/s的数字电视信号就需要对它进行高度压缩,压缩比高达166/1.15 ≈ 144:1.
MPEG-1视频压缩技术不能达到这样高的压缩比.为此首先把NTSC和PAL数字电视转换成CIF的数字电视(相当于VHS的质量),于是彩色数字电视的数据传输率就减小到
352×240×30×8×1.5 ≈ 30 Mb/s (NTSC)
352×288×25×8×1.5 ≈ 30 Mb/s (PAL).
把这种彩色电视信号存储到CD盘上所需要的压缩比为:30/1.15 ≈ 26:1.这就是MPEG-1技术所能获得的压缩比.
DVD视频数据率
根据当前成熟的压缩技术,视频的数据率压缩成平均为3.5 Mb/s ~ 4.7 Mb/s时非专家难于区分视频在压缩前后的之间差别.如果使用DVD-Video存储器来存储数字电视,它的数据传输率虽然可以达到10.08 Mb/s,但一张4.7 GB的单面单层DVD盘要存放133分钟的电视节目,按照数字电视信号的平均数据传输率为4.1 Mb/s来计算,压缩比要达到:166/4.10 ≈ 40:1.
如果视频的子采样使用4:2:0格式,每个样本的精度为8比特,数字电视信号的数据传输率就减小到124 Mb/s,即
720×480×30×8×1.5 ≈ 124 Mb/s (NTSC)
720×576×25×8×1.5 ≈ 124 Mb/s (PAL)
使用DVD-Video来存储720×480×30或者720×576×25的数字视频所需要的压缩比为:124/4.1 ≈ 30:1.
6.2.3 AVI文件格式
音频视频交互文件格式(The Audio/Video Interleaved File Format)(*.AVI)是Microsoft为Windows设计的多媒体文件格式RIFF(The Resource Interchange File Format,资源交换文件格式)中的一种(另一种常用的为波形音频文件格式*.WAV).
RIFF由文件头,数据类型标识及若干块(chunk)组成,块中可含多级子块.
AVI文件的组成结构
-------------------------------------------------------------------------------
文件头("RIFF"+文件长度+"AVI ")3*4B(12B)
格式列表块头("LIST"+块长度+"hdr1")3*4B(12B)
主头块("avih"+块长度+MainAVIHeader结构)2*4B+56B(64B)
流列表块头("LIST"+块长度+"str1")3*4B(12B)
流头块("strh"+块长度+AVIStreamHeader结构)2*4B+56B(64B)
流格式块("strf"+块长度+BITMAPINFO/WAVEFORMATEX
即PCMWAVEFORMAT结构)2*4B+48B/18B
[流附加头数据块("strd"+块长度+压缩驱动程序信息)2*4B+nB]
……(可有若干[一般为2个或1个]流列表块)
[垃圾块("JUNK"+块长度+块数据[用于对齐或排队])2*4B+nB]
数据列表块头("LIST"+块长度+"movi")3*4B(12B)
[记录列表块头("LIST"+块长度+"rec")3*4B(12B)]
流数据子块("##wb"/"##db"/"##dc"/"##pc"+块长度+块数据)2*4B+nB
... ...(可有若干流数据子块)
[索引块("idx1"+块长度+若干AVIINDEXENTRY结构)2*4B+n*16B]
------------------------------------------------------------------------------
其中:##可为00或01,分别对应第1或第2个流列表块所描述的流;wb(wave bytes)表示波形音频数据,db(DIB bytes)表示未压缩视频数据,dc(DIB compression)表示压缩视频数据,pc(pallette changes)表示改变调色板的数据.
AVI文件的具体结构内容参见表6-8.
表6-8 AVI文件的结构内容表
类型
内容
变量名
大小
取值
文件头
标识符串
fccFileId
4B
"RIFF"
头后文件长度
dwFileLen
4B
非负整数(=文件长度-8)
类型标识符串
fccTypeId
4B
"AVI "
格式列表块
块头
标识符串
fccChkId
4B
"LIST"
头后块长度
dwChkLen
4B
非负整数
类型标识符串
fccTypeId
4B
"hdr1"
主头块
块头
标识符串
fccChkId
4B
"avih"
头后块长度
dwChkLen
4B
非负整数(56)
块数据 (MainAVIHeader结构)
帧间隔
dwMicroPerFrame
4B
非负整数(微秒数)
最大字节率
dwMaxBytesRate
4B
非负整数(字节数/秒)
垫间隔
dwPaddingGranularity
4B
非负整数(一般为2K)
标志
dw Flags
4B
非负整数(&0x10:有索引块;&0x100:交互式)
总帧数
dwTotalFrames
4B
非负整数
初始帧数
dwInitialFrames
4B
非负整数(交互式初始帧前帧数)
流数
dwStreams
4B
非负整数(1或2)
建议缓冲区大小
dwSuggestedBufferSize
4B
非负整数(可容纳最大的块/纪录)
帧宽
dwWidth
4B
非负整数(象素数)
帧高
dwHeight
4B
非负整数(象素数)
保留
dwReserved
16B
0
流列表块(可有一个或两个,分别用于视频或/和音频流)
块头
标识符串
fccChkId
4B
"LIST"
头后块长度
dwChkLen
4B
非负整数(56)
类型标识符串
fccTypeId
4B
"str1"
块数据
流头块
块头
标识符串
fccChkId
4B
"strh"
块长度
dwChkLen
4B
非负整数
块数据 (AVIStreamHeader结构)
流类型串
fccType
4B
"vids"(视频)或 "auds"(音频)
压缩类型码串
fccHandler
4B
0:无压缩;"RLE " ,"cvid","div3"
标志
dwFlags
4B
非负整数(&0x01:加载才提供数据流;&0x10000:有调色板变化)
优先权数
wPriority
2B
非负短整数
语言编号
wLanguage
2B
非负短整数
初始帧数
dwInitialFrames
4B
非负整数(交互式初始帧前帧数)
播放尺度
dwScale
4B
非负整数(一般为1)
播放速率
dwRate
4B
非负整数(rate/scale=每秒帧数)
起始时间
dwStart
4B
非负整数(一般为0,即从头播放)
序列长度
dwLength
4B
非负整数(帧数或样本数)
建议缓冲区大小
dwSugBufferSize
4B
非负整数(可容纳最大的块/纪录)
数据质量
dwQuality
4B
非负整数
采样大小
dwSampleSize
4B
非负整数
框架矩形
rcFrame
16B
RECT结构
流格式块
块头
标识符串
fccChkId
4B
"strf"
块长度
dwChkLen
4B
非负整数
块数据(视频用BITMAPINFO结构/音频用WAVEFORMAT结构)
BITMAPINFO结构
信息头大小
biSize
4B
字节数(40)
图像宽
biWidth
4B
象素数
图像高
biHeight
4B
象素数
图像平面数
biPlanes
2B
必须为1
每象素位数
biBitCount
2B
1,2,4,8,24
压缩类型
biCompression
4B
0~3
图像数据大小
biSizeImage
4B
字节数
水平分辨率
biXPelsPerMeter
4B
象素数/米(一般为0)
垂直分辨率
biYPelsPerMeter
4B
象素数/米(一般为0)
使用的颜色数
biClrUsed
4B
>0时为颜色表项数
=0时无颜色表(24位色)
或表项数=2^每象素位数
重要的颜色数
biClrImportant
4B
当系统色<使用色时用
调色板指针
bmiColors
4B
指向RGBQUAD结构数组
WAVEFORMAT结构
格式标志
wFormatTag
2B
非负短整数(PCM=1)
声道数
nChannels
2B
非负短整数(1或2)
采样率
nSamplePerSec
4B
非负整数(单声道采样数/秒)
平均字节率
nAvgBytesPerSec
4B
非负整数(字节数/秒)
数据块对齐
nBlockAlign
2B
非负短整数(不足补零)
采样位数
wBitsPerSample
2B
非负短整数(PCM时)
扩展域大小
cbSize
2B
非负短整数(=0时无扩展域)
[扩展域]
extraInfo
nB
扩展信息
[流数据块]
块头
标识符串
fccChkId
4B
"strd"
块长度
dwChkLen
4B
非负整数
块数据
用于压缩驱动程序的信息
nB
由可安装的压缩驱动程序定义的格式和内容
[垃圾块]
块头
标识符串
fccChkId
4B
"LIST"
块长度
dwChkLen
4B
非负整数
块数据
对齐/排队
nB
全0/排队数据
数据列表块
块头
标识符串
fccChkId
4B
"LIST"
块长度
dwChkLen
4B
非负整数
类型标识符串
fccTypeId
4B
"movi"
块数据
[n个]流数据块
块头
标识符串
fccChkId
4B
"##wb"/"##db"/"##dc"/"##pc"(##:00/01)
块长度
dwChkLen
4B
非负整数
块数据
视频/音频数据
nB
pc:调色板数据
[索引块]
块头
标识符串
fccChkId
4B
"idx1"
块长度
dwChkLen
4B
非负整数
块数据(AVIINDEXENTRY结构)
[n个]
块标识
ckid
4B
"##wb"/"##db"/"##dc"/"##pc"
标志
dwFlags
4B
&0x01:列表块;&0x10:关键帧
块位置
dwChunkOffset
4B
非负整数(相对于数据列表块)
块长度
swChunkLength
4B
非负整数(不含块头的8B)
AVI文件中所用的数据结构主要有:
定义在头文件avifmt.h或vfw.h中的MainAVIHeader,AVIStreamHeader,AVIINDEXENTRY;
定义在头文件wingdi.h中的BITMAPINFO,BITMAPINFOHEADER,RGBQUAD;
定义在头文件mmsystem.h 或mmreg.h中的WAVEFORMATEX,PCMWAVEFORMAT,WAVEFORMAT.
6.3 视频编码标准
本节介绍视频编码的国际与国家标准,包括计算机与网络领域的MPEG系列,电子与通信领域的H系列与中国的AVS,重点介绍MPEG-1/2/4/7/21和AVS编码标准.
MPEG-1/2/4标准的具体音视频编码方法,将在第9章"MPEG编码"中介绍.H.264/ AVC和AVS的视频编码方法,则在第10章"H.264/AVC编码"和第11章"AVS视频编码"中介绍.
6.3.1 MPEG系列标准
1988年由ISO (International Organization for Standardization国际标准化组织)和IEC (International Electrotechnical Commission国际电工委员会)联合成立了MPEG(Moving Picture Expert Group运动图像专家组),负责开发视频数据和声音数据的编码,解码和它们的同步等标准.这个专家组开发的标准称为MPEG标准.
到目前为止,已经公布的MPEG标准有MPEG-1/2/4/7/21,其中的MPEG-1,MPEG-2和MPEG-4标准已经得到广泛应用.表6-9是MPEG-1/2/4的典型编码参数.
表6-9 MPEG-1/2/4的典型编码参数
MPEG-1
MPEG-2 (基本型)
MPEG-4
标准化时间
1992年
1994年
1999/2003年
主要应用
VCD,MP3
HDTV,DVD
MP4,可视电话,视频会议,网络流媒体,移动视频通信
空间分辨率
CIF:288 × 360像素
TV:576 × 720像素
可变:QCIF~HDTV,144 × 176 ~ 1080×1920像素
时间分辨率
25 - 30 帧/秒
50-60 场/秒
可变:25 ~ 60 帧/秒
位速率
1.5 Mbit/s
4.7 Mbit/s
可变:64Kbit/s ~ 15 Mbit/s
质量
相当于VHS
相当于NTSC/PAL电视
可变:1/4 VHS ~ HDTV
压缩率
20 ~ 30
30 ~ 40
30 ~ 120
MPEG标准文件的创建过程
与其他ISO标准文件一样,MPEG标准文件的创建过程分成4个阶段:
(1) 工作草案(Working Draft,WD):工作组(Working Group,WG)准备的工作文件
(2) 委员会草案(Committee Draft,CD):从工作组WG准备好的工作文件WD提升上来的文件.这是ISO文档的最初形式,它由ISO内部正式调查研究和投票表决.
(3) 国际标准草案(Draft International Standard,DIS):投票成员国对CD的内容和说明满意之后由委员会草案CD提升上来的文件.
(4) 国际标准(International Standard,IS):由投票成员国,ISO的其他部门和其他委员会投票通过之后出版发布的文件.
MPEG标准系列及其应用
到目前为止已经公布和正在制定的MPEG系列标准有:
MPEG-1——用于数据速率高达约1.5Mbit/s的数字存储媒体的视频和伴音编码(ISO/IEC 11172:1993 Information technology -- Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s),1992年11月成为标准
功能:低分辨率数字视频编码标准
编码:DCT +视觉加权量化+熵编码+运动补偿+帧间预测
格式CIF:25或30帧/秒,288行×360列或240行×352列,8位量化
音频:I~III层,声道——双-单声道,立体声,联合立体声
应用:VCD,MP3
MPEG-2——运动图像和伴音信息的通用编码(ISO/IEC 13818:1996 Information technology — Generic coding of moving pictures and associated audio information ),1994年11月成为标准
功能:高分辨率数字视频编码标准
编码:似MPEG-1
格式:低——352×288×29.79,主——720×480或576×29.79或25,高-1440——1440×1080或1152×30或25,高——1920×1080或1152×30或25
音频:AAC——兼容MPEG-1,另支持5.1/7.1声道(AC-3/DTS)
应用:DVD,HDTV
MPEG-4——视听对象编码(ISO/IEC DIS 14496-1:1999 Information technology -- Coding of audio-visual objects),1999年1月成为标准
功能:分辨率可变的视听对象编码标准
编码:视音频对象,分块/分级/分层,基于内容和对象的编码
格式:支持各种不同的分辨率
音频:支持多种码率——2~64kb/s
应用:可视电话,电视会议,网络流媒体,移动视频通信,IPTV,MP4
MPEG-7——多媒体内容描述接口(ISO/IEC 15938-1:2002 Information technology -- Multimedia content description interface),2001年9月成为标准
功能:多媒体内容描述标准
应用:基于内容的多媒体信息检索
MPEG-21——多媒体框架(ISO/IEC TR 21000-1:2001 Information technology -- Multimedia framework (MPEG-21)),2001年12月成为标准
功能:多媒体框架标准
应用:不同多媒体系统的集成和应用
以上的按数字编号的MPEG标准都已经公布,在本节的后面将逐个进行较为详细的介绍.下面的按字母编号的MPEG标准中的大部分目前还处于开发过程中,本书只在这里做简单的介绍.
MPEG-A——多媒体应用格式(ISO/IEC 23000--Multimedia application format (MPEG-A)):
第1部分:多媒体应用格式的目的(ISO/IEC TR 23000-1:2007 Part 1: Purpose for Multimedia Application Formats),已于2007年1月成为标准
第2部分:MPEG音乐播放器应用格式(ISO/IEC 23000-2:2006/2008 Part 2: MPEG music player application format),已于2006年8月1日成为标准,并于2008年1月推出了修订版
第3部分:MPEG照片播放器应用格式(ISO/IEC 23000-3:2007 Part 3: MPEG photo player application format),已于2007年6月成为标准
第4部分:音乐幻灯播放器应用格式(ISO/IEC 23000-4:2008 Part 4: Musical slide show player application format),已于2008年3月成为标准
第5部分:媒体流播放器(ISO/IEC FDIS 23000-5 Part 5: Media streaming player)
第6部分:专业文档应用格式(ISO/IEC CD 23000-6 Part 6: Professionnal archival application format)
第7部分:开放访问应用格式(ISO/IEC FDIS 23000-7 Part 7: Open access application format)
第8部分:便携视频应用格式(ISO/IEC FCD 23000-8 Part 8: Portable video application format)
第9部分:数字多媒体广播应用格式(ISO/IEC FDIS 23000-9 Part 9: Digital multimedia broadcasting application format)
第10部分:视频监视应用格式(ISO/IEC FCD 23000-10 Part 10: Video surveillance application format)
MPEG-B——MPEG系统技术(ISO/IEC 23001--MPEG systems technologies):
第1部分:针对XML的二进制MPEG格式(Part 1: Binary MPEG format for XML) ,已于2006年4月成为标准
第2部分:片段请求单位(ISO/IEC 23001-2:2008 Part 2: Fragment request units),已于2008年1月成为标准
第3部分:XML的IPMP消息(ISO/IEC FCD 23001-3 Part 3: XML IPMP messages)
第4部分:编解码配置的表示(ISO/IEC NP 23001-4 Part 4: Codec configuration representation)
第5 部分:位流语法描述语言(BSDL)(ISO/IEC 23001-5:2008 Part 5: Bitstream Syntax Description Language (BSDL)),已于2008年2月成为标准
MPEG-C——MPEG视频技术(ISO/IEC 23002--MPEG video technologies):
第1部分:实现整数输出的8×8离散余弦反变换的精度要求(ISO/IEC 23002-1:2006 Part 1: Accuracy requirements for implementation of integer-output 8x8 inverse discrete cosine transform),已于2006年11月成为标准
第2部分:定点8×8 离散余弦反和离散余弦变换(ISO/IEC FDIS 23002-2 Part 2: Fixed-point 8x8 inverse discrete cosine transform and discrete cosine transform)
第3部分:辅助视频和补充信息的表示(ISO/IEC 23002-3:2007 Part 3: Representation of auxiliary video and supplemental information),已于2007年10月成为标准
MPEG-D——MPEG音频技术(ISO/IEC 23003--MPEG audio technologies):
第1部分:MPEG环绕声(ISO/IEC 23003-1:2007 Part 1: MPEG Surround),已于2007年1月成为标准
MPEG-E——多媒体中间件(ISO/IEC 23004--Multimedia Middleware):
第1部分:体系结构(ISO/IEC 23004-1:2007 Part 1: Architecture),已于2007年9月成为标准
第2部分:多媒体应用程序接口(API)(ISO/IEC 23004-2:2007 Part 2: Multimedia application programming interface (API)),已于2007年10月成为标准
第3部分:组件模型(ISO/IEC 23004-3:2007 Part 3: Component model),已于2007年9月成为标准
第4部分:资源与质量管理(ISO/IEC 23004-4:2007 Part 4: Resource and quality management),已于2007年9月成为标准
第5部分:组件下载(ISO/IEC 23004-5:2008 Part 5: Component download),已于2008年2月成为标准
第6部分:故障管理(ISO/IEC 23004-6:2008 Part 6: Fault management),已于2008年2月成为标准
第7部分:系统完整性管理(ISO/IEC 23004-7:2008 Part 7: System integrity management),已于2008年2月成为标准
第8部分:参考软件(ISO/IEC CD 23004-8 Part 8: Reference software),已于2007年7月成为标准
6.3.2 H.26x系列标准
ITU-T(International Telecommunications Union - Telecommunication Standardization Sector国际电信同盟-电信标准化部门)及其前身CCIR(International Radio Consultative Committee国际无线电咨询委员会)制定了一系列音视频压缩编码和通信技术标准.其中的ITU-T H.26x是与MPEG类似的视频编码系列标准,参见表6-10.
表6-10 ITU-T H.26x视频编码系列标准
H标准
H.261
H.262
H.263
H.264
对应MPEG标准
~ MPEG-1
= MPEG-2
~ MPEG-4
= MPEG-4/AVC
发布时间
1993.3
1995.7
1998.2
2003.5
主要应用
可视电话与视频会议
HDTV与DVD
网络与移动视频
DTV,网络与移动视频,蓝光盘
H.261——p×64kb/s码率音像服务的视频编码(Video codec for audiovisual services at p x 64 kbit/s),1993年3月制定,为可视电话与视频会议的编码标准
CIF格式:288×360,QCIF格式:144×180,29.97帧/秒
编码:DCT+运动补偿+视觉加权量化+熵编码
H.262——运动图像和伴音信息的通用编码(Information technology - Generic coding of moving pictures and associated audio information: Video),1995年7月通过,与MPEG-2共同作为ISO/IEC 13818标准(HDTV,DVD)
格式:
低—352×288
主—720×480或576
高-1440—1440×1080或1152
高—1920×1080或1152
25或29.97帧/秒
编码:同H.261
H.263——低比特率通信的视频编码(Video coding for low bit rate communication),1998年2月制定,为低比特率/可变比特率视频编码标准(PSTN网,无线网,因特网)
格式:
CIF与QCIF格式同H.261
Sub-QCIF格式:128×96
4CIF格式:704×576
16CIF格式:1408×1152
编码:H.261+非限制运动矢量模式+基于语法的算术编码+高级预测+PB帧
H.264——针对通用音视频服务的先进[高级]视频编码(Advanced video coding for generic audiovisual services),2003年5月批准,H.264是由ISO/IEC的MPEG与ITU-T的VCEG(Video Coding Experts Group视频编码专家组)联合组成的JVT(Joint Video Team联合视频组[队])共同制定的,MPEG的对应标准为MPEG-4的第10部分MPEG-4/AVC.
格式:同H.263
编码:采用先进视频编码(AVC)= H.263+多参考帧和变块尺寸运动补偿+1/4像素精度的运动估值+基于上下文的二元算数和变长编码+冗余条带+补充增强信息和视频可用信息+辅助图层+图像顺序计数+柔性宏块+排序+整数DCT变换+分层编码+错误约束机制+错误掩盖技术+高效比特流切换技术.
通过引入多种先进的编码技术,使得H.264(MPEG-4/AVC)编码的码率只有H.263(MPEG-4)的一半.当然,提高压缩比的代价,是同时也增加了编解码的复杂性.一般情况下,编码难度增加了2倍,解码难度增加了1倍.
ITU H.264即MPEG-4/AVC标准的详细内容,将在本书的第10章"H.264/AVC编码"中介绍.
与MPEG标准主要用于光存储,广播和流媒体不同,H.26x标准主要用于网络和通信.除了视频编码标准本身之外,H.26x还有配套的系统,音频,控制等相关标准.参见表6-11和图6-7.
表6-11 与H.26x标准配套的其他ITU标准
类别
系统
视频
音频
混合
控制
数据
旧标准
H.320
H.261
G.723
H.221
H.241

新标准
H.324
H.263
G.723.1
H.223
H.246
T.120
图6-7 H.324系统框图
6.3.3 AVS音视频编码标准
AVS(Audio Video coding Standard,音视频编码标准)是中国自主制订的数字电视,IPTV等音视频系统的基础性标准,由数字音视频编解码技术标准工作组(AVS工作组)负责制定.该工作组由国家信息产业部科学技术司于2002年6月批准成立,成员包括国内外从事数字音视频编码技术和产品研究开发的机构和企业.
AVS规定了数字音视频的压缩,解压缩,处理和表示的技术方案,适用于高分辨率和标准分辨率数字电视广播,激光数字存储媒体,互联网宽带流媒体,多媒体通信等应用.
AVS标准包括系统,视频,音频,数字版权管理,移动视频等9个部分,目前已经公布的只有标准的第2 部分"视频"(AVS-P2),该部分规定了多种比特率,分辨率和质量的视频压缩方法,适用于数字电视广播交互式存储媒体,直播卫星视频业务,多媒体邮件,分组网络的多媒体业务,实时通信业务,远程视频监控等应用,并且规定了解码过程.主要针对高清晰度数字电视广播和高密度存储媒体应用.
相比于MPEG-2标准,AVS的编码效率提高2~3倍, 并且实现方案简洁.AVS的算法与H.264/AVC的类似,但是做了很多简化和修订,主要目的是为了规避国外的各种高收费专利.
AVS国家推荐标准系列(GB/T 20090 -- 信息技术 先进音视频编码):
第1部分:系统——GB/T 20090.1:《信息技术 先进音视频编码 第1部分:系统》,已于2008年1月24日送审
第2 部分:视频——GB/T 20090.2-2006:《信息技术 先进音视频编码第2 部分:视频》(Information technology-Advanced coding of audio and video-Part 2:Video),已于2006年年2月22日公布
墨线图——GB/T 20090.2:《信息技术 先进音视频编码 第2部分:视频》墨线图,已于2006年6月8日报批
第3部分:音频——GB/T 20090.3:《信息技术 先进音视频编码 第3部分:音频》,已于2007年12月5日报批
第4部分:一致性测试——GB/T 20090.4:《信息技术 先进音视频编码 第4部分:一致性测试》,已于2008年1月24日送审
第5部分:参考软件——GB/T 20090.5:《信息技术 先进音视频编码 第5部分:参考软件》,已于2008年1月24日送审
第6部分:数字版权管理——GB/T 20090.6:《信息技术 先进音视频编码 第6部分:数字版权管理》,已于2008年1月24日送审
第7部分:移动视频——GB/T 20090.7:《信息技术 先进音视频编码 第7部分:移动视频》,已于2006年8月29日报批
第8部分:用IP网络传输AVS——GB/T 20090.8:《信息技术 先进音视频编码 第8部分:用IP网络传输AVS》,已于2006年3月送审
第9部分:文件格式——GB/T 20090.9:《信息技术 先进音视频编码 第9部分:文件格式》,已于2006年3月送审
AVS标准的第2 部分(视频编码)的详细内容,将在本书的第11章"AVS视频编码"中介绍.
6.4 MPEG编码标准简介
6.4.1 MPEG-1低分辨率数字视频编码
MPEG-1处理的是(与BT.601中CIF类似的)SIF(Standard Interchange format / Source Input Format标准图像交换格式 / 源输入格式)格式的电视信号:
NTSC制式:352像素×240行/帧×30帧/秒
PAL制式:352像素×288行/帧×25帧/秒
压缩后的输出速率定义在1.5 Mbit/s以下.这个标准主要是针对当时具有这种数据传输率的CD-ROM和网络而开发的,用于在CD-ROM上存储数字影视(即VCD)和在网络上传输数字影视.
MPEG-1的标准号为ISO/IEC 11172,标准名称为"信息技术——用于数据速率高达大约1.5 Mbit/s的数字存储媒体的视频和伴音编码"(Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s),已于1991年底由ISO/IEC公布,由如下五个部分组成:
(1)系统(Systems):ISO/IEC 11172-1:1993 Information technology -- Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s -- Part 1: Systems.规定视频数据,声音数据及其他相关数据的同步.
(2)视频(Video):ISO/IEC 11172-2:1993 Information technology -- Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s -- Part 2: Video.规定视频数据的编码和解码.
(3)声音(Audio):ISO/IEC 11172-3:1993 Information technology -- Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s -- Part 3: Audio.规定声音数据的编码和解码.
(4)一致性测试(Conformance testing):ISO/IEC 11172-4: 1995 Information technology -- Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s -- Part 4: Conformance testing.这个标准详细说明如何测试比特数据流(bitstreams)和解码器是否满足MPEG-1前3个部分(Part1,2和3)中所规定的要求.这些测试可由厂商和用户实施.
(5)软件模拟(Software simulation):ISO/IEC TR 11172-5 Information technology —Coding of moving pictures and associated audio for digital storage media up to about 1.5 Mbit/s— Part 5: Software simulation.实际上,这部分的内容不是一个标准,而是一个技术报告,给出了用软件执行MPEG-1标准前3个部分的结果.
图6-8为MPEG-1译码器框图.
图6-8 MPEG-1译码器框图
MPEG-1的视频和音频编码方法,将在第9章MPEG编码方法的第1节和第3节中介绍.
6.4.2 MPEG-2高分辨率数字视频编码
MPEG-2是一个直接与(高清晰)数字电视广播(DTV/HDTV)有关的高质量图像和声音编码标准,同时也用于DVD.MPEG-2可以说是MPEG-1的扩充,因为它们的基本编码算法都相同,只是画面的分辨率更高一些(从352×288→1920×1152).
但是MPEG-2也增加了许多MPEG-1所没有的功能.例如,增加了隔行扫描电视的编码,提供了位速率的可伸缩功能,新增了AAC音频编码,支持环绕立体声等等.
MPEG-2要达到的最基本目标是:速率为4~9 Mbit/s(最高达15 Mbit/s)的电视编码.
标准的组成
MPEG-2的标准号为ISO/IEC 13818,标准名称为"信息技术—运动图像和伴音信息的通用编码(Information technology -- Generic coding of moving pictures and associated audio information )".MPEG-2标准包含10个部分:
(1)系统(Systems)——规定视频数据,声音数据及其他相关数据的同步:ISO/IEC 13818-1 Information technology -- Generic coding of moving pictures and associated audio information-- Part 1: Systems.
(2)视频(Video)——规定电视数据的编码和解码:ISO/IEC 13818-2 Information technology -- Generic coding of moving pictures and associated audio information-- Part 2: Video.
(3)声音(Audio)——规定声音数据的编码和解码,是MPEG-1 Audio的扩充,支持多个声道:ISO/IEC 13818-3 Information technology -- Generic coding of moving pictures and associated audio information -- Part 3: Audio.
(4)一致性测试(Conformance testing)——标准名是ISO/IEC 13818-4 Information technology -- Generic coding of moving pictures and associated audio information -- Part 4: Conformance testing.
(5)软件模拟(Software simulation)——标准名是ISO/IEC TR 13818-5 Information technology -- Generic coding of moving pictures and associated audio information -- Part 5: Software simulation.
(6)数字存储媒体命令和控制扩展协议(Extensions for DSM-CC)——标准名是ISO/IEC DIS 13818-6 Information technology -- Generic coding of moving pictures and associated audio information -- Part 6: Extensions for DSM-CC.
(7)先进声音编码(AAC)——是多声道声音编码算法标准.这个标准除后向兼容MPEG-1 Audio标准之外,还有非后向兼容的声音标准.标准名是ISO/IEC 13818-7 Information technology -- Generic coding of moving pictures and associated audio information -- Part 7: Advanced Audio Coding (AAC).
(8)MPEG-2系统解码器实时接口扩展标准(MPEG-2 Extension for real time interface for systems decoders)——标准名是ISO/IEC 13818-9 Information technology -- Generic coding of moving pictures and associated audio information -- Part 9: Extension for real time interface for systems decoders.
(9) DSM-CC一致性扩展测试(Conformance extensions for DSM-CC)——标准名是ISO/IEC 13818-10 Information technology -- Generic coding of moving pictures and associated audio information -- Part 10: Conformance extensions for Digital Storage Media Command and Control (DSM-CC).
(10)MPEG-2系统上的IPMP(IPMP on MPEG-2 systems)——标准名是ISO/IEC 13818-11 Information technology -- Generic coding of moving pictures and associated audio information -- Part 11: IPMP on MPEG-2 systems.
需要说明的是,MPEG-2的Part 8原计划用于采样精度为10比特的视频编码,但由于目前工业界对此兴趣不大,因此该部分标准已暂停开发.
系统模型
MPEG-2的系统模型如图6-9所示,在标准的第1部分中定义.主要是用来将视频数据,声音数据和其他数据,组合成一个或者多个适合于存储或者传输的基本数据流.
图6-9 MPEG-2的系统模型
MPEG-2中的数据流有两种形式,一种称为程序数据流(Program Stream,PS),另一种称为传输数据流(Transport Stream,TS).程序数据流是组合一个或者多个规格化的即包化基本数据流(Packetised Elementary Streams,PES)而生成的一种数据流,用在出现错误相对比较少的环境下,适合使用软件处理的应用;传输数据流也是组合一个或者多个PES而生成的一种数据流,它用在出现错误相对比较多的环境下,例如在有损失或者有噪声的传输系统中.
MPEG-2的档次和等级
为了适应各种应用,在MPEG-2标准的第2部分定义了视频的各种规格,分为4个等级(level)和6个档次(profile),如表6-12所示.表中的"√"符号表示不同级别的MPEG-2所支持的档次.
表6-12 MPEG-2视频的等级与档次
等级
扫描参数↓ 档次→
SP
MP
SNR
SSP
HP
MVP
4:2:2
HL
1920×1080×30 (16:9)
1920×1152×25 (5:3)


H1440
1440×1080×30 (4:3)
1440×1152×25 (5:4)



ML
720×480×29.79 (3:2)
720×576×25 (5:4)






LL
352×288×29.79 (11:9)


其中:
等级 = level SP = Simple profile简化型
档次 = profile MP = Main profile主型
HL = High level 高级 SNR = SNR scalable profile信噪比可变型
H1440 = High-1440 level 高级1400 SSP = Spatial scalable profile空间分辨率可变型
ML = Main level主级 HP = High profile高级型
LL = Low level 低级 MVP = Multiview profile多视角型
有些人认为使用4:2:0子采样格式的图像质量还不够好,因此在1996年的修订标准中增加了4:2:2子采样格式的图像.MVP也是后来附加的档次.
在MPEG-2标准化阶段,考虑到要适应不同数据速率设备的应用,MPEG专家组定义了三种质量不同的编码方式:信噪比伸缩性(Signal-to-Noise Ratio Scalability),空间可伸缩性(Spatial Scalability)和时间可伸缩性(Temporal Scalability).
信噪比伸缩性(SNR scalability)是指图像质量的折中,对于数据率比较低的解码器使用比较低的信噪比,而对数据率比较高的解码器则使用比较高的信噪比;空间可伸缩性(Spatial scalability)是指图像的空间分辨率的折中,对于低速率的接受器使用比较低的图像分辨率,而对于数据率比较高的接受器使用比较高的图像分辨率;时间可伸缩性(Temporal Scalability)是指图像在时间方向上分辨率的折中,与空间分辨率类似.
MPEG-2为此引入了"档次(Profiles)"和参数"等级(Levels)"的概念.每种档次定义一套新的算法,而每一个等级指定一套参数范围(如图像大小,帧速率和位速率).MPEG-2规定的档次规格如表6-13所示.
表6-13 MPEG-2的档次
档次(Profile)
算法(Algorithms)
High(高档)
支持由空间可伸缩档次(Spatial Scalable Profile)提供的所有功能和其他规定功能
子采样格式:YUV 4:2:0/4:2:2 用于进一步提高图像质量
Spatial scalable
(空间可伸缩)
支持信噪比伸缩档次(SNR Scalable Profile)提供的所有功能和空间可伸缩(Spatial scalable coding)算法(2层)
子采样格式:YUV:4:2:0
SNR scalable
(信噪比可伸缩)
支持主档次(Main Profile)提供的所有功能和信噪比可伸缩编码(SNR scalable coding)算法(2层)
子采样格式:YUV:4:2:0
Main(主)
非可变速率编码算法支持随机存取,B图像预测方式
子采样格式:YUV:4:2:0
Simple(简化)
除不支持主档次(Main Profile)提供的B图像预测功能外,主档次的其他所有功能都支持
子采样格式:YUV:4:2:0
MPEG-2的等级规格如表6-14所示:
表6-14 MPEG-2的等级
等级 (Level)
参数 (Parameters)
HIGH(高级)
16:9或5:3
1920 samples/line (样本/行)
1080或1152 lines/frame (行/帧)
60 frames/s (帧/秒)
80 Mb/s (兆比特/秒)
HIGH 1440
(高级1440)
4:3或5:4
1440 samples/line (样本/行)
1080或1152 lines/frame (行/帧)
60 frames/s (帧/秒)
60 Mb/s (兆比特/秒)
MAIN(主级)
3:2或5:4
720 samples/line (样本/行)
480或576 lines/frame (行/帧)
30 frames/s (帧/秒)
15 Mb/s (兆比特/秒)
LOW(低级)
11:9
352 samples/line (样本/行)
288 lines/frame (行/帧)
30 frames/s (帧/秒)
4 Mb/s (兆比特/秒)
由档次(profile)和等级(level)组合起来的MPEG-2所支持的各种电视规格如表6-15所示.前者定义质量的可伸缩性(scalability)和彩色空间分辨率的句法子集,后者定义图像分辨率和每种档次的最大位速率的参数集.
表6-15 MPEG-2档次和等级
Profile档次
Level等级
Simple
(简化型)
Main
(主型)
SRN Scalability
(信噪比可伸缩型)
Spatial Scalability
(空间可伸缩型)
High
(高档型)
High(高级)
4:2:0
1920×1152×60
80 Mb/s
I, P, B
4:2:0, 4:2:2
1920×1152×60
80 Mb/s
I, P, B
High-1440(高级1440)
4:2:0
1440×1152×60
60 Mb/s
I, P, B
4:2:0
1440×1152×60
60 Mb/s
I, P, B
4:2:0, 4:2:2
1440×1152×60
60 Mb/s
I, P, B
Main(主级)
4:2:0
720×576×30
15 Mb/s
I, P
4:2:0
720×576×30
15 Mb/s
I, P, B
4:2:0
720×576×30
15 Mb/s
I, P, B
4:2:0
720×576×30
20 Mb/s
I, P, B
Low(低级)
4:2:0
352×288×30
4 Mb/s
I, P, B
4:2:0
352×288×30
4 Mb/s
I, P, B
例如,当前使用得最普遍的描述符是MP@ML (Main Profile, Main Level),可译成"主档次@主级电视"或者"主句法子集@主参数级",它指的是具有这种特性的电视:帧速率为30帧/秒,分辨率为720×576×30,子采样格式为4:2:0,位速率达15 Mb/s.MPEG-2标准期待大多数MPEG-2设备都能够支持这种视频,主要用于标清DTV和普通DVD.又如,MP@HL (Main Profile, High Level)描述符指的是帧速率为30帧/秒,分辨率为1920×1152×60,子采样格式为4:2:0,位速率达80 Mb/s的HDTV制电视.
HDTV格式
下面以美国ATSC的HDTV标准为例,说明HDTV与MPEG-2的关系.模拟电视格式再加上HDTV的电视格式(包括计算机显示格式)归纳在图6-10中.ATSC的电视扫描格式见表6-16.
图6-10 数字电视格式(以及与PC显式分辨率的比较)
其中:
ATV = advanced television高级电视,在ATSC中指1280×720格式
HDTV = high definition television高清晰度电视,在ATSC中指1920×1080格式
表6-16 ATSC的电视扫描格式
水平方向像素
垂直方向行数
长宽比
图像速率
1920
1080
16:9
60I 30P 24P
1280
720
16:9
60P 30P 24P
704
480
16:9
60I 60P 30P 24P
640
480
4:3
60I 60P 30P 24P
其中:
I表示隔行扫描(interlaced scanning)
P表示逐行扫描(non-interlaced scanning / progressive scanning)
支持整数和非整数帧速率(60, 59.94;30, 29.97;24, 23.98)
ATSC的视频压缩以MPEG-2 Video标准为基础,采样主型档次(Main Profile),等级从主级(Main Level)到高级(High Level).声音压缩以AC-3系统为基础,采样频率为48 kHz,支持5.1声道的环绕声.
DSM-CC与RTI
MPEG-2的第6部分是一个称为DSM-CC(Digital Storage Media Command and Control数字存储媒体命令和控制)的扩展协议,用于管理MPEG-1和MPEG-2的数据流,使数据流既可在单机上运行,又可在异构网络环境下运行.在DSM-CC模型中,服务器和客户机都被认为是DSM-CC网络的用户.在DSM-CC中定义了一个称为SRM(Session and Resource Manager会话和资源管理)的实体,用来集中管理网络中的会话和资源,如图6-11所示.
图6-11 DSM-CC参考模型
MPEG-2的第9部分是传输数据流(Transport Stream)的实时接口(real-time interface,RTI)标准,它可以用来适应来自网络的传输数据流,如图6-12所示.
图6-12 实时接口参考模型
6.4.3 MPEG-4视听对象编码
MPEG-1主要是为VCD设计的,MPEG-2最初是为HDTV设计的,后来也用于DVD.但是它们都不太适合于网络传输,特别是在低码率和异构网络环境下的音视频信号通信.MPEG-4的目标就是为视听(audio-visual)数据的编码和交互播放开发算法和工具,最初是一个数据速率很低的多媒体通信标准,后来的目标是要在异构网络环境下能够高度可靠地工作(传输的码率可变,图像的分辨率可变,画面的内容可选),并且具有很强的交互功能.
为了达到低码率的目标,必须大幅度提高视频数据的压缩比,而MPEG-1/2所采用的基于象素的的压缩方法,在压缩40到50倍后就几乎达到算法的极限,必须另辟晰迳.为此,MPEG-4引入了基于对象表达(object-based representation)的概念,用来表达视听对象(audio/visual objects,AVO);MPEG-4扩充了编码的数据类型,由自然数据对象扩展到计算机生成的合成数据对象,采用合成对象/自然对象混合编码(Synthetic/ Natural Hybrid Coding,SNHC)算法;在实现交互功能和重用对象中引入了组合,合成和编排等重要概念.MPEG-4系统构造和接收端的构造部件如图6-13~14所示.
图6-13 MPEG-4系统示意图

图6-14 MPEG-4接收端的主要部件
MPEG-4中制定了一个称为传输多媒体集成框架(Delivery Multimedia Integration Framework,DMIF)的会话协议,它用来管理多媒体数据流.该协议在原则上与文件传输协议FTP(File Transfer Protocol)类似,其差别是:FTP返回的是数据,而DMIF返回的是指向到何处获取数据流的指针.DMIF覆盖了三种主要技术:广播技术,交互网络技术和光盘技术,如图6-15所示.
图6-15 DMIF覆盖的三种主要技术
MPEG-4将应用在移动通信和公用电话交换网(public switched telephone network,PSTN)上,并支持可视电话(videophone),电视邮件(video mail),电子报纸(electronic newspapers)和其他低数据传输速率场合下的应用.
MPEG-4的标准名是Information technology -- Coding of audio-visual objects (信息技术--视听对象编码).1999年1月开始成为国际标准,MPEG-4包含有24个部分,它们是:
系统(Systems):ISO/IEC DIS 14496-1:1999/2001/2004 Information technology -- Coding of audio-visual objects -- Part 1: Systems.
视觉(Visual):ISO/IEC DIS 14496-2:1999/2001/2004 Information technology -- Coding of audio-visual objects -- Part 2: Visual.
音频(Audio):ISO/IEC DIS 14496-3:1999/2001/2005 Information technology -- Coding of audio-visual objects -- Part 3: Audio.
一致性测试(Conformance testing):ISO/IEC 14496-4:2000/2004 Information technology -- Coding of audio-visual objects -- Part 4: Conformance testing.
参考软件(Reference software):ISO/IEC 14496-5:2000/2001 Information technology -- Coding of audio-visual objects -- Part 5: Reference software.
传输多媒体集成框架(DMIF)(Delivery Multimedia Integration Framework (DMIF)):ISO/IEC DIS 14496-6:1999/2000 Information technology -- Coding of audio-visual objects -- Part 6: Delivery Multimedia Integration Framework (DMIF).
视听对象编码的优化参考软件(Optimized reference software for coding of audio-visual objects):ISO/IEC TR 14496-7:2002/2004 Information technology -- Coding of audio-visual objects -- Part 7: Optimized reference software for coding of audio-visual objects.
IP网上的ISO/IEC 14496内容传输(Carriage of ISO/IEC 14496 contents over IP networks):ISO/IEC 14496-8:2004 Information technology -- Coding of audio-visual objects -- Part 8: Carriage of ISO/IEC 14496 contents over IP networks.
参考硬件描述(Reference hardware description):ISO/IEC TR 14496-9: 2004 Information technology -- Coding of audio-visual objects -- Part 9: Reference hardware description.
先进视频编码(Advanced Video Coding):ISO/IEC 14496-10:2003/2004/2005 Information technology -- Coding of audio-visual objects -- Part 10: Advanced Video Coding.
场景描述与应用引擎(Scene description and application engine):ISO/IEC 14496-11:2005 Information technology -- Coding of audio-visual objects -- Part 11: Scene description and application engine.
ISO基媒体文件格式(ISO base media file format):ISO/IEC 14496-12: 2004/2005 Information technology -- Coding of audio-visual objects -- Part 12: ISO base media file format.
智能产权管理与保护(IPMP)扩展(Intellectual Property Management and Protection (IPMP) extensions):ISO/IEC 14496-13:2004 Information technology -- Coding of audio-visual objects -- Part 13: Intellectual Property Management and Protection (IPMP) extensions.
MP4文件格式(MP4 file format):ISO/IEC 14496-14:2003 Information technology -- Coding of audio-visual objects -- Part 14: MP4 file format.
先进视频编码(AVC)文件格式(Advanced Video Coding (AVC) file format):ISO/IEC 14496-15:2004 Information technology -- Coding of audio-visual objects -- Part 15: Advanced Video Coding (AVC) file format.
动画框架扩展(AFX)(Animation Framework eXtension (AFX)):ISO/IEC 14496-16:2004/2006 Information technology -- Coding of audio-visual objects -- Part 16: Animation Framework eXtension (AFX).
流文本格式( Streaming text format):ISO/IEC 14496-17:2006 Information technology -- Coding of audio-visual objects -- Part 17: Streaming text format.
字体压缩与流动(Font compression and streaming):ISO/IEC 14496-18: 2004 Information technology -- Coding of audio-visual objects -- Part 18: Font compression and streaming.
合成纹理流(Synthesized texture stream):ISO/IEC 14496-19:2004 Information technology - Coding of audio-visual objects -- Part 19: Synthesized texture stream.
轻量应用场景表示(LASeR)和简单聚集格式(SAF)( Lightweight Application Scene Representation (LASeR) and Simple Aggregation Format (SAF)):ISO/IEC 14496-20:2006 Information technology -- Coding of audio-visual objects -- Part 20: Lightweight Application Scene Representation (LASeR) and Simple Aggregation Format (SAF).
MPEG-J的图形框架扩展(GFX)(MPEG-J Graphics Framework eXtensions (GFX)):ISO/IEC 14496-21:2006 Information technology -- Coding of audio-visual objects -- Part 21: MPEG-J Graphics Framework eXtensions (GFX).
开放字体格式(Open Font Format):ISO/IEC 14496-22:2007 Information technology -- Coding of audio-visual objects -- Part 22: Open Font Format
符号音乐表示(Symbolic Music Representation):ISO/IEC 14496-23:2008 Information technology -- Coding of audio-visual objects -- Part 23: Symbolic Music Representation.
音频与系统交互(Audio and systems interaction):ISO/IEC TR 14496-24: 2008 Information technology -- Coding of audio-visual objects -- Part 24: Audio and systems interaction
6.4.4 MPEG-7多媒体内容描述接口
1.概述
MPEG-7的工作于1996年启动,名称叫做多媒体内容描述接口(Multimedia Content Description Interface) ,目的是制定一套描述符标准,用来描述各种类型的多媒体信息及它们之间的关系,以便更快更有效地检索信息.这些媒体材料可包括静态图像,图形,3D模型,声音,话音,电视以及在多媒体演示中它们之间的组合关系.在某些情况下,数据类型还可包括面部特性和个人特性的表达.
与其他的MPEG标准一样,MPEG-7是为满足特定需求而制定的视听信息标准.MPEG-7标准也是建筑在其他的标准之上的,例如PCM,MPEG-1,MPEG-2和MPEG-4等等.在MPEG-7中,MPEG-4中使用的形状描述符,MPEG-1和MPEG-2中使用的移动矢量(motion vector)等都可能在MPEG-7中用到.
1)范围
图6-16表示了MPEG-7的处理链(processing chain),这是高度抽象的方框图.在这个处理链中包含有三个方框:特征抽取(feature extraction),标准描述(standard description)和检索工具(search engine).特征的自动分析和抽取对MPEG-7是至关重要的,抽象程度越高,自动抽取也越困难,而且不是都能够自动抽取的,因此开发自动的和交互式半自动抽取的算法和工具都是很有用的.尽管如此,特征抽取和检索工具都不包含在MPEG-7标准中,而是留给大家去竞争,以便得到最好的算法和工具.
图6-16 MPEG-7的范围
2)主要特点与意义
MPEG-7致力于视听数据信息编码的表达(表达内容的信息,而不是内容本身).这一点与目标集中在视频/音频数据的压缩与编码的MPEG-1/2/4不同,MPEG-7所表达的不是内容/信息本身,而是表示信息的信息.
MPEG-7聚焦于多媒体材料的通用接口的标准化,关注数据资源的交互性与全球化,数据管理的灵活性.MPEG-7只关心描述本身,而将描述的生成,特征的提取,索引的处理等都排除在标准之外.
MPEG-7提供了可视内容的标准结构和联接机制,以及对可视内容表述的标准化,为实现基于内容的检索提供了应用框架,并使对多媒体数据的创建,交换,检索和重用更加有效.
3)标准系列
MPEG-7标准包含11个部分,从2002年起陆续公布:
(1)系统(Systems):ISO/IEC 15938-1:2002 Information technology -- Multimedia content description interface -- Part 1: Systems
(2)描述定义语言(DDL)(Description definition language):ISO/IEC 15938-2:2002 Information technology -- Multimedia content description interface -- Part 2: Description definition language
(3)视觉(Visual):ISO/IEC 15938-3:2002 Information technology -- Multimedia content description interface -- Part 3: Visual
(4)音频(Audio):ISO/IEC 15938-4:2002 Information technology -- Multimedia content description interface -- Part 4: Audio
(5)多媒体描述方案(Multimedia description schemes):ISO/IEC 15938-5:2003 Information technology -- Multimedia content description interface -- Part 5: Multimedia description schemes
(6)参考软件(Reference software):ISO/IEC 15938-6:2003 Information technology -- Multimedia content description interface -- Part 6: Reference software
(7)一致性测试(Conformance testing):ISO/IEC 15938-7:2003 Information technology -- Multimedia content description interface -- Part 7: Conformance testing
(8)MPEG-7描述的提取和使用(Extraction and use of MPEG-7 descriptions):ISO/IEC TR 15938-8:2002 Information technology -- Multimedia content description interface -- Part 8: Extraction and use of MPEG-7 descriptions
(9)档次与级别(Profiles and levels):ISO/IEC 15938-9:2005 Information technology -- Multimedia content description interface -- Part 9: Profiles and levels
(10)模式定义(Schema definition):ISO/IEC 15938-10:2005 Information technology - Multimedia content description Interface -- Part 10: Schema definition
(11)MPEG-7档次模式(MPEG-7 profile schemas):ISO/IEC TR 15938-11:2005 Information technology -- Multimedia content description Interface -- Part 11: MPEG-7 profile schemas
2.主要内容
1)系统
系统是MPEG-7标准的第1部分,目前它定义了终端体系结构和标准化接口.
MPEG-7的终端体系结构如图6-17所示,最底层为传输/存储介质,用来将复用码流发送到传送层;被传送的MPEG-7数据可以用在各种传输系统上,如MPEG-2传输流或MPEG-4文件或码流;传送层主要实现同步,成帧(framing)和内容复用;MPEG-7内容可以单独或与描述信息同时传送;传送层向压缩层提供MPEG-7基本流;基本流有一些连续独立的最小数据实体——存取单元(access unit)构成.
图6-17 MPEG-7的终端体系结构
(其中:BiM = Binary format for MPEG-7 data = MPEG-7数据的二进制格式)
MPEG-7数据,可以根据实际应用需要,采用文本或二进制格式表示,也可以用两者的混合格式表示.
文本格式的语法在标准的第二部分——描述定义语言DDL中刻画,而二进制格式的语法则在本部分——系统中定义.
MPEG-7对应于这两种数据格式的两个标准接口如图6-18所示:
图6-18 MPEG-7的标准化接口
MPEG-7的标准化接口还包括标准的验证处理(参见图6-19):
图6-19 验证处理
2)描述定义语言DDL
描述定义语言(DDL=description definition language),描述方案(DS=description schemes)和描述符(D=descriptor)是实现MPEG-7描述的主要工具,其中的描述定义语言是MPEG-7的核心部分,它为描述提供了坚实的基础.用户还可以生成和定义自己的描述方案和描述符,参见图6-20.
参见图6-20 不同MPEG-7元素之间关系的图示
描述定义语言DDL的基础为XML Schema,所以DDL被划分为如下(与XML Schema相对应的)三个逻辑标准:
XML规则结构语言组件
XML规则数据类型
MPEG-7的特定扩展
3)音频
MPEG-7的音频(audio)包含如下六个部分:音频描述框架(又包括可缩放音列,低级描述符和统一静音片断),乐器音色(timbre)描述工具,声音识别工具,语音内容描述工具和旋律(melody)描述工具.
4)视觉
MPEG-7的视觉(visual)描述工具由覆盖基本可视特性的基本结构和描述符组成.基本可视特性有:颜色,纹理,形状,运动,定位和其他,每一类都有基本和复杂描述符.
有五种与视觉相关的基本结构:网格布局,时间序列,多视,空间二维坐标和时空插值.
视觉描述符有:颜色描述符,纹理描述符,形状描述符,运动描述符,区域定位符,时空描述符和面部识别描述符.
MPEG-7的视觉描述工具主要包括图形,静止图像,3D造型,动画和视频等方面的可视信息,它们在多媒体信息中占有重要位置.
5)多媒体描述方案
MPEG-7描述符用于描述下列类型的信息:诸如颜色,纹理,运动,声音能量等等低级视听特征;语义对象,事件和抽象概念等高级特征;内容管理过程;关于存储介质等的信息.参见图6-21.
图6-21 MPEG-7的多媒体描述方案
大多数对应于低级特征的描述符可被自动提取,然而生成高级描述符则需要人工干预.
MPEG-7的描述方案DS是在描述符的基础上,通过组合单个描述符以及内有更复杂结构的其他DS,并通过定义组成描述符与DS之间的关系,而扩充而成.参见图6-22.
图6-22 概念方面描述的工具
MPEG-7的DS被划分为两类:
与特定的音频或视频领域相关的DS,如颜色,纹理,形状和音调等;
与一般多媒体描述相关的DS,如与创建,生成,使用和管理多媒体有关的不可变媒体数据;以及描述直接位于多个级别的内容,包括信号结构,特性,模型和语义.
3.应用领域
MPEG-7的应用领域包括:数字图书馆(Digital library),例如图像目录,音乐词典等;多媒体目录服务(multimedia directory services),例如黄页(yellow pages);广播媒体的选择,例如无线电频道,TV频道等;多媒体编辑,例如个人电子新闻服务,多媒体创作等等.潜在应用的应用领域包括:教育,娱乐,新闻,旅游,医疗,购物等等.参见图6-23.
图6-23 MPEG-7可能应用的抽象表示
图6-24~27是若干MPEG-7应用的例子.
图6-24 具有静态区域的图像描述例子
图6-25 片段关系图的视频段和区域例子
图6-26 上例所对应的片段关系图
图6-27 足球视频的分层摘要例子
6.3.7 MPEG-21多媒体框架
1.标准
由于多媒体标准层出不穷,但各个标准之间还存在缺漏,不能真正做到配套衔接,还需要一个综合性标准来协调;随着网络技术和应用的发展,基于多媒体的电子商务需要一个其结构可以理解的共享模式——多媒体框架的支持.
有鉴于此,MPEG于1996年10月提出制定多媒体框架标准的设想,2000年6月正式批准制定MPEG-21标准的计划,2003年起陆续公布各个具体标准.下面是MPEG-21标准系列,共分成18个部分(其中的第13部分已经被取消):
视觉,技术与策略(Vision, Technologies and Strategy):ISO/IEC TR 21000-1:2004 Information technology -- Multimedia framework (MPEG-21) -- Part 1: Vision, Technologies and Strategy
数字项声明(Digital Item Declaration):ISO/IEC 21000-2:2005 Information technology -- Multimedia framework (MPEG-21) -- Part 2: Digital Item Declaration
数字项识别(Digital Item Identification):ISO/IEC 21000-3:2003/2005 Information technology -- Multimedia framework (MPEG-21) -- Part 3: Digital Item Identification
知识产权管理和保护(Intellectual Property Management and Protection Components):ISO/IEC 21000-4:2006 Information technology -- Multimedia framework (MPEG-21) -- Part 4: Intellectual Property Management and Protection Components
版权表示语言(Rights Expression Language):ISO/IEC 21000-5:2004 Information technology -- Multimedia framework (MPEG-21) -- Part 5: Rights Expression Language
版权数据词典(Rights Data Dictionary):ISO/IEC 21000-6:2004 Information technology -- Multimedia framework (MPEG-21) -- Part 6: Rights Data Dictionary
数字项适应(Digital Item Adaptation):ISO/IEC 21000-7:2007 Information technology -- Multimedia framework (MPEG-21) -- Part 7: Digital Item Adaptation
参考软件(Reference Software):ISO/IEC 21000-8:2008 Information technology -- Multimedia framework (MPEG-21) -- Part 8: Reference Software
文件格式(File Format):ISO/IEC 21000-9:2005 Information technology -- Multimedia framework (MPEG-21) -- Part 9: File Format
数字项处理(Digital Item Processing):ISO/IEC 21000-10:2006 Information technology -- Multimedia framework (MPEG-21) -- Part 10: Digital Item Processing
持久结合技术的演化方法(Evaluation Tools for Persistent Association Technologies):ISO/IEC TR 21000-11:2004 Information technology -- Multimedia framework (MPEG-21) -- Part 11: Evaluation Tools for Persistent Association Technologies
MPEG-21资源传送的测试床(Test Bed for MPEG-21 Resource Delivery):ISO/IEC TR 21000-12:2005 Information technology -- Multimedia framework (MPEG-21) -- Part 12: Test Bed for MPEG-21 Resource Delivery
"可伸缩视频编码"——已经被取消,改成MPEG-4标准的第10部分之第1辅助部分(14496-10/AMD1)
一致性测试(Conformance Testing):ISO/IEC 21000-14:2007 Information technology -- Multimedia framework (MPEG-21) -- Part 14: Conformance Testing
事件报告(Event Reporting):ISO/IEC 21000-15:2006 Information technology -- Multimedia framework (MPEG-21) -- Part 15: Event Reporting
二进制格式(Binary Format):ISO/IEC 21000-16:2005 Information technology -- Multimedia framework (MPEG-21) -- Part 16: Binary Format
MPEG资源的片段标识(Fragment Identification of MPEG Resources):ISO/IEC 21000-17:2006 Information technology -- Multimedia framework (MPEG-21) -- Part 17: Fragment Identification of MPEG Resources
数据项流(Digital Item Streaming):ISO/IEC 21000-18:2007 Information technology -- Multimedia framework (MPEG-21) -- Part 18: Digital Item Streaming
2.要素
多媒体的结构化框架有如下8个要素:
数字项声明
内容的识别和描述
内容的管理和使用
内容的创建,发布和表示
用户隐私权
知识产权管理和保护
终端和网络资源
事件报告
多媒体框架的结构参见图6-28.
3.用户与用户需求
MPEG-21中的用户是一个广义的概念,可以是个人,团体,组织,公司,政府,以及其他标准化组织与主体.从技术上讲,MPEG-21认为内容的提供者和消费者同样都是MPEG-21的用户.
用户可以以各种方式使用内容,包括对内容进行发布,传送和消费.参见图6-29
图6-29 用户定义示意图
MPEG-21为用户之间进行以数字信息为目标的相互作用提供了一个多媒体框架.这里的相互作用是指对内容的使用,包括内容的创建,提供,存档,定级,增强,传递,聚集,传输,发表,零售,消费,提交,管制和交易的简化等.
通常,MPEG-21包括如下用户需求:
安全的内容传送与价值交换
容易理解所使用的项目
内容的个性化
在价值链中执行商业和有用的规则
允许在PMEG-21中操作与之兼容的实体
允许在PMEG-21中引入其他多媒体框架,两者之间可以互操作
平衡和支持MPEG之外的已经存在的和未来的标准
有必要遵从通常的规则并体现社会要素
对MPEG-21的功能以及各个部分的通信性能都要给出计量
在价值链中可以增强媒体数据
保护用户的隐私
保证数据项的完整性
内容和交易的跟踪
可为AdHoc提供商业处理过程的视图,或通过电子方法建立独立的商业伙伴
提供一个通用的标准商业内容处理库
在保证长期投资时,允许商业处理与独立发展
用户保护,包括服务的可靠性,债务与保险,损失与破坏,交付处理与危机消除等
规范允许新商业的建立与使用
4.关键问题
多媒体框架的关键问题有:
网络传输
服务质量和灵活性
内容的展示质量
内容的艺术质量
服务和设备的易用性
物理媒体格式的互操作性
付费/订购模型
多平台的解码和绘制
内容的搜索,过滤,定位,检索和存储
消费者的信息发布
消费者的使用权限
消费者的隐私保护
5.数据项
1)概念
数据项(digital item)是MPEG-21的基本和核心概念,关系到什么和谁在多媒体框架中.数据项是一种结构化的数字对象,它在MPEG-21框架内具有标准的表示,标识和元数据.参见图6-30.
图6-30 数字项例子
(UoW = University of Wollongong,[澳大利亚]伍伦贡大学)
2)数据项声明
数据项声明的目的是,建立数据项的统一且灵活的摘要,和数字项的可互操作方案.因为对于同一内容会有许多描述方法,需要有一个强有力的,方便的数字项模型来表示无数种形式中的数字项描述.但是,到目前为止,还没有通用的数字项标准模型和表示方法,也没有一个统一的方法将媒体资源与媒体描述信息联系在一起.
MPEG-21将充分利用MPEG-4/7的有关内容,但同时也涵盖其他媒体资源和描述的声明格式.
数字项声明的需求如下:
数字项是开放和可扩展的,可以扩展到其他所有媒体资源和描述方案中
在不损失子项的结构与特点的前提下,可以将项目组合成新的项目
多个组合项可以共享单元元素
数字项中的单个元素可能被多个地方引用
应用中可以操作数字项,也可以使数字项生效
对数字项及其组件的标识和修正,应该采用开放与可扩展的方式
明确定义元素与相应描述符之间的关系
描述符可以是简单的描述,也可以是整个媒体组件
描述符也可以由其他描述符来描述
定位符必须是可声明的,允许描述符与媒体资源的一个范围或指定点相关,允许描述符通过定位符与媒体资源反向联系
参见图6-31.
图6-31 某些数字项声明模型元素及其关系
3)数字项标识
MPEG-21的数字项标识(digital item identification)提供如下功能:
精确,可靠和独立地标识
不考虑属性,类型和尺寸的情况下,实现实体的无缝标识
相关数字项的稳定与有效的标识方法
数字项的ID和描述,在任何操作和修改下都能够保证其安全与完整性
自动处理授权交易,内容定位,内容检索和内容采集
参见图6-32~33.
图6-32 数字项声明(金色框)与数字项标识(粉红框)部分之间的关系
图6-33 数字项匹配体系结构
复习思考题
电视广播经历了那几个发展阶段
给出电视显示技术的发展过程.
世界上现行的模拟彩色电视制式有哪些 它们分别是什么国家在什么时候制定的 使用范围怎样
给出各种彩色电视制式的扫描参数.
为什么模拟电视要隔行扫描 为什么它们的扫描行数必须是奇数
彩色电视采用的是什么颜色表示法 有什么优点
给出HDTV的英文原文和中文译文.
HDTV与普通彩电的主要区别有哪些 (HDTV定义)
HDTV的扫描线数是普通彩色电视的多少倍 总信息量(像素数)又是多少倍
HDTV一定是数字的吗(举例说明之) 数字电视有哪些好处
给出日美欧及中国的HDTV的方案的名称与实施转换时间.
现行的各种HDTV方案有一个什么共同点 (源编码)4
中国HDTV标准的最高图像分辨率与宽高比是多少 哪个部分是最后标准化的
视频与电视有什么区别
视频卡有哪些功能 如何分类
视频信息处理主要包括哪些部分
常见的视频文件格式有哪些
数字视频有哪些优点
模拟彩电的数字化标准及其代号是什么 解释其中字母缩写的含义.
该标准采用的是什么颜色空间 各个分量的含义是什么
该标准推荐的子采样是什么格式 MPEG-1/2的子采样格式有什么相同和不同
该标准的数字化参数(有效扫描参数)是多少
给出CIF的中英文含义与扫描参数.QCIF及SQCIF与它是什么关系
标准的采样数据率是多少 有效的采样数据率又是多少
MPEG-1(VCD)的扫描参数与采样数据率是多少 数据传输率与压缩比各是多少
MPEG-2(DVD)的扫描参数与采样数据率是多少 数据传输率与压缩比各是多少
给出AVI的中英文含义与用处.
MPEG的含义是什么 它是由哪两个组织联合成立的
已经公布的MPEG标准有哪些 给出它们的含义与主要应用领域.
除了MPEG标准外,还有什么视频编码的国际标准 它们之间有关系吗
给出AVC的英文原文与中文译文,它对应的标准是什么
给出AVS的英文原文与中文译文,AVS是一个怎样的标准 它与AVC标准是什么关系 为什么要制定它
MPEG-1的视频图像采用的是什么格式 其扫描参数是多少
MPEG-1/2有什么区别与联系 主要应用各是什么
MPEG-1/2/4标准有哪些同名的组成部分
为什么MPEG-2的组成部分比MPEG-1的要多很多
给出MPEG-2中的档次(Profiles)和等级(Levels)的含义,有哪些具体的档次和等级
MPEG-2的11个有效的档次和等级组合中,哪几个最重要
MPEG-4与MPEG-1/2的主要区别在哪里
MPEG-4的传输多媒体集成框架DMIF覆盖了哪三种主要技术
MPEG-7/21与MPEG-1/2/4的主要区别是什么 MPEG-7与21有关系吗
MPEG-7有哪些主要特点与意义
MPEG-7有哪两种数据格式
给出DDL,DS和D的中英文含义.
DDL是基于什么语言标准的 它被分成几个逻辑部分
DS被划分为哪两类 举例说明之.
MPEG-7有哪些应用
为什么需要制定MPEG-21标准
多媒体结构化框架有哪些要素和关键问题
MPEG-21中的用户指什么 用户之间以数字信息为目标的相互作用的含义是什么
数据项是什么 它有标准模型和表示方法吗
数据项声明的目的是什么
作业
平时作业8(选做):实现无压缩AVI文件的手工解码和播放.
大作业选题9:MPEG-4/7/21,MPEG-A~E,AVC或AVS标准的研究和探讨.

多媒体技术基础
j
第6章 视频与编码标准
GSTM网
GSTM网
Modem
V.34/V.8
Modem控制
V.25ter
H.246控制协议 SRP/LAPM处理
系统控制
多路复用
去复用
接收传输延时
V.14,LAPM等数据协议
H.263音频编解码器
H.263视频编解码器
T.120用户
应用数据
音频I/O
视频I/O
图6-28 多媒体框架
用户B
交易 / 使用 / 联系
(内容/数字项(
(授权/数值交换(
用户A
数字项声明
内容表达形式
数字项定义和描述
内容的管理和使用
知识产权管理和保护
终端和网络
数字项
交易/使用/联系
用户A
用户B