深圳机场北和机场东:出口成章:IBM ViaVoice语音输入系统详解

来源:百度文库 编辑:偶看新闻 时间:2024/05/05 19:01:55
目前汉字输入的方式主要有四种:键盘输入,手写输入,扫描输入和我们现在要谈到的语音输入。让我们先来了解一下这四种输入方式。

  键盘输入:键盘输入基本上是基于各种输入法,主要又分为字形输入法和拼音输入法。实际上字形输入法是不符合人的写作思维习惯,因为人们在措辞时,头脑中首先反映出的是即将这个词语的语音,所以字形输入法更适合专业录入人员使用。拼音输入法也分两种,一种以词语为输入单位,另一种以语句为输入单位,而后者不符合写作的思维习惯,因为人们在写作时是以词为思考单位。键盘输入法在输入速度有要求的情况下对于键盘操作、指法要求比较高;

  手写输入:手写输入是最容易上手的输入方法,但是同样由于手写输入的先天不足,很难达到较高的输入速度;

  扫描输入:扫描输入对于硬件要求比较高,主要是适用于资料的整理;

  语音输入:语音输入对输入人员的键盘操作能力、指法要求很低,几乎可以说你只要会说汉语,就可以进行语音输入。

  语音输入尤其是汉字语音输入经历了很长时间的研究和应用,到目前已经达到了一个相当的高度,所以为了让更多的人、更多不是非常熟悉电脑的人来使用电脑进行汉字输入,我把多年以来使用IBM VIAVOICE语音输入系统的心得体会写下来,使得语音输入这种新的汉字输入方法能得到更广泛的应用。

  语音输入是基于语音模型的一种输入方法,涉及大量运算,所以它对CPU和内存有一定的要求,CPU频率越高、内存越大,语音输入就能更好地工作。不过也不需要太担心这个问题,我使用的CPU是赛扬433,内存96MB,基本上能很好的进行语音输入。自然,我们还需要一个耳麦。通过使用IBM VIAVOICE,我们发现这个系统对于耳麦要求并不高,我所用的就是十块钱买来的耳麦,当然性能良好的耳麦对于语音输入也有很大的帮助。

  安装完IBM VIAVOICE后,系统会默认增加一个自启动项—IBM VIAVOICE语音中心,我们可以在“开始”—“程序”菜单找到它,另外在菜单中我们还可以看到一个IBM VIAVOICE文件夹。(见图1)


图1一、新建用户,建立自己的语音模型

 

  第一次打开ViaVoice时会出现以下界面。(如图2)


图2

  相应的设置很简单,每个界面都有详细的说明,后面的操作按照提示可以一路点“下一步”完成即可。(如图3、4)


图3


图4完成以上操作之后,进入麦克风设置完毕后,出现以下界面。下面我们要为自己建立语音模型,这对我们之后的语音输入效果非常重要。(如图5)


图5

  语音模型的建立共有五个阶段:

  1.在图5中选择“下一步”,这时会出现一个文本框,提示你读出文本框中所列出的一段话。读完后,系统会进行语音训练,训练完毕后,最简单的语音模型就建立完毕了,当然可以想像得到,这样轻松建立起来的模型效果并不是很好。然后你会看到如下界面。(如图6)


图6

  四个部分的训练内容中A是最基本的,四个部分总共有500多句话,全部训练完需要两个多小时,所以要是想一劳永逸,嗓子可是要受罪,我试过,口干舌燥的,但是就我使用感觉来看,经过A部分的训练,已经可以进行基本的使用了,所以大家可以化整为零,免得一下子说伤了,失去兴趣。IBM ViaVoice系统有自行学习的功能,所以使用时间越长,识别率越高!如同歌里唱的:越来越好,来来来……

  到此,个人用户(语音模型)建立完毕,我们可以正式开始使用语音输入了。
二、语音输入

  启动IBM ViaVoice语音中心,在屏幕上方会出现一个工具条。(如图7)


图7

  在正式输入前,需要进行音频设置。(如图8)


图8

  这也是影响输入效果一个至关重要的因素,出现的界面是我们提到过的图3、4及随后的带有提示的对话框,因为前边已经做过,不再累述。建议在设置完以后,最好不要改动你带耳麦的方式,以保证麦克风相对嘴的位置保持不变,如输入过程中曾经摘下、挪动过耳麦,建议最好重新进行音频设置,当然可以视输入效果是否明显变化而定。

  音频设置完毕后,进入用户选项,点击ViaVoice选项。(如图9)


图9
通过“用户名”下拉菜单选择相应的用户。(如图10)


图10

  其中“语音”、“听写”、“直接听写”和“纠错”涉及一些比较高级的设置,推荐使用默认设置,不要改动,当使用比较熟练后可以做相应调整。(如图11)


图11

  这两项工作(音频设置和用户选项)做好以后,单击工具栏上的麦克风图标,图标变为绿色时,就可以开始正常工作了。(如图12)

图12
这个时候,你就要出言谨慎了,你所说的每一句话系统可能都有反应,你可以对它说:“帮助”,它会调出帮助内容;你可以说“关闭”,它会关闭当前的任务;你打哈欠,它会显示“没听清您说什么,能再说一遍吗?”;你说“格式化”,……(没有反应,开玩笑的)

  ViaVoice可以嵌入Word里,但是推荐使用其自带的语音板,您可以对着麦克风说:“听写到语音板”,也可以通过菜单调出。(如图13)


图13

  出现一个类似“写字板”的编辑界面,其操作很简单,不多说,唯一需要说明的就是“纠错”, 
使用语音输入不可避免的会出现系统的“理解”错误,这个时候纠错对于调整语音模型、编辑文档就格外重要,选中输入错误的词,在下面这个例子中,笔者想输入的是“越应”,而输出的是“也因”,选中后点“纠错”按钮,或者对麦克风说“纠错”,会出现以下界面,如果候选词中没有待选词,可以用其他输入法输入,系统将把这个词作为“新词”加入。(如图14)


图14

  其他一般菜单指令如“全选”“复制”“粘贴”“删除”“格式”“保存”“退出”等都可以通过语音控制,大家可以在熟悉语音输入后加强运用,完全可能用嘴来进行这些编辑操作。

  在完成听写、关闭听写文档以后,IBM ViaVoice系统会依据需要提示用户是否学习刚才输入的文章,并将其中涉及的新词提取出来由用户确定是否学习并加入词汇库中;在完成一定量的语音输入后,系统会适时进行语音训练,以期更好的在日后的输入工作中为用户服务。

  是使用Word还是听写板可以视用户习惯而定,所谓“当前应用程序”,比如你用QQ聊天,只要选择“听写到当前应用程序”,就可以在聊天对话框中进行语音输入,当然这个时候无法享受“纠错”服务了,但是输入速度肯定比手打要快多了。

  你也可以打开FOXMAIL,选择“听写到当前应用程序”说一句“新建邮件”,然后说“收件人”,FOXMAIL就会调出地址簿,选好后(这个时候手选可能还是比嘴好使一些),说“主题”,光标会在主题栏中闪,总而言之,你尽可以用嘴来撰写邮件;其他应用,不一而足,你会发现一旦IBM ViaVoice工作步入正轨,给我们带来的方便是巨大的。
三、更好的发挥IBM ViaVoice的作用

 

  1.坚持使用

  量的积累会导致质的飞跃,系统所建立的个人语音模型会越来越完备,这一点尤其适合有一定口音的用户。

  2.勿忘设置

  每次进行输入前,最好进行“音频设置”,这对于提高识别率有很大的作用,所谓“磨刀不误砍柴工”。

  3.注意文体

  这一点是我的使用体会,在IBM ViaVoice使用手册中没有提到这一点,IBM ViaVoice语音系统一是准确辨认你的实际发音,二是根据语音模型根据上下文推测你实际说的那个词语(同音词毕竟很多),所以其实IBM ViaVoice系统更适合具有一定规范行文格式的文章,如公文、新闻报道、社论、论文等等,如果你试图用这个系统输入散文、诗歌、文言文,会非常困难。

  4.充分开发

  如前文所述,IBM ViaVoice语音输入系统还有一些高级设置,等大家使用得较为得心应手时,可以逐步发掘,让IBM ViaVoice系统更好的发挥作用。

  5.加强备份

  随时备份个人用户档案,必要时,可以将你的模型移植到别人的机器上,这样你不用再重头来过了,这样也扩大了其应用范围。

  四、IBM ViaVoice不足

  1. 相比以前的版本,目前这套IBM ViaVoice系统已经改进很多了,但是语音输入毕竟有其自身的局限性,如何更好识别语音,如何更好猜测还不能让人完全满意,另外易上手、难坚持也阻碍了其应用的推广;

  2. 这套系统对于文体有一定的局限;

  3. 还有一点就是安全性差,不便于办公室使用。因为你必须将所写内容说出来;

  4. 容易口渴,输入时间长的时候对嗓子有伤害。

  谨以此文献给所有和我一样又懒又爱炫耀的人和那些对于电脑有太多神秘感又渴望赶上时代的中、老年朋友。