ITnews 版 (精华区)

发信人: petrel (紫燕*自在飞花轻似梦*燕燕于飞), 信区: ITnews
标  题: Tablet PC的手写识别是如何发明的
发信站: 哈工大紫丁香 (2002年12月02日21:20:31 星期一), 站内信件

  二十多年以来,科学家们一直梦想发明一种真正的P.A.D.D.——那种电影《星际舰
队》中的居民在星际企业间往来时用以记录和访问数据的平板式装置。多年来,人们一
直尝试重现这一梦想,或许Tablet PC将成为第一个成功的范例。这么说有两个原因,其
一是时代的进步——消费者期望计算机可以做到更多,他们希望计算机拥有手写板那样
的功能;其二是研究的发展——多年的努力工作和数据搜集使Tablet PC这一梦想成为现
实。
  Tablet PC是便携式PC的里程碑。它吸收了标准膝上型电脑的优点,并增加了许多新
功能——这些功能甚至会使你产生让自己的膝上型电脑从此“退休”的念头。首先,它
采用多种模式输入——你可以用键盘、笔或语音输入。如果你觉得开会时埋头于计算机
屏幕后奋力敲击键盘有失礼节的话,你一定会感到用Tablet PC记录自己的手写笔迹将是
多么的惬意。
  更值得一提的是,Tablet PC的手写识别可以认识你的手写笔迹(只要你的手写体不
太过于潦草)并把它转换成数字文本;之后,你就可以对这些手写记录进行搜索了。
  一笔、两笔、三笔以及更多
  Tablet PC的手写识别对亚洲消费者来说是一个福音。中文和日文是有成千上万个字
符的图示化语言,将这些字符输入成一个电子文档是一项艰巨的任务。中文中的一个字
符可以是一个单独的象形文字,也可以是由我们称之为“部首”的若干部分组合而成的
字符。但是所有的字符都由单个笔划组成,这和印刷非常类似,但是和英文草体书写却
有着很大的不同。从某些方面讲,由于亚洲手写字笔划之间的界限比英文草体书写的界
限更清晰,因而也就更容易识别。
  微软研究人员佩特里斯?斯姆德、克里斯?米克和波?蒂森已经开发出改进Tablet PC
识别亚洲字符的方法。斯姆德对单笔和两笔笔划的字符进行了研究,米克和蒂森研究用
于改进三笔和四笔笔划字符识别率的算法。与此同时,斯姆德还保持着英文识别技术的
最高纪录。斯姆德说:“我们有一个由各个公司、很多人、应用很多算法尝试过的数据
库,在很短的时间内我就拥有了世界纪录。现在它们都一样,10, 000个字符之内最多仅
有五个错误。”
  他要求在微软公司手写识别组建立的数据库上尝试他的算法。他将作为一个全职软
件开发者所拥有的全部精力都投入到这个项目中。产品研发小组对此留下了深刻的印象
,也指派了一个软件开发人员在新的算法上作研究。
  斯姆德说:“尽管已经拥有一个完全能够使用的高性能系统,他们还是愿意去尝试
其他小组的新方法。这做起来可比表面说说要难得多。”微软研究院的研究人员和手写
产品研发小组共同努力创建了一个新的识别器。
  斯姆德觉得既然他的方法从完全不同的角度解决了识别问题,结果应该显示一些不
同的错误,从而可以改进结果。
  斯姆德说:“手写组的解决方案依赖于时间信息,如笔划顺序。我的方法是抛弃所
有的时间信息,因此我的错误将会完全不同。我告诉他们说,你们已经在这上面花了很
长时间了,我不希望推翻你们的系统。但是如果我的错误不同,我们可以把两个系统结
合起来。”
  斯姆德、米克和蒂森的努力很富有成效,他们的技术将在第一版的Tablet PC中得以
应用。
  不论何种方法,更加提高
  Tablet PC的一个最令人兴奋的特点是微软的日志应用程序。它使你可以在计算机上
把你的想法以饱蘸的数字笔墨反映出来,就像在一张纸上手写一样。在开发的第一阶段
,这种记录应用程序运行良好,但是它有一个的问题。该应用程序允许用户跨页沿整齐
的水平线书写,从左到右,就像上中小学时那样。然而,自从离开学校后,人们就不再
中规中矩地书写,开始歪着、垂直、转圈、在页面空白处随意书写。开发者知道他们必
须找出一种让用户可以按照自己喜欢的方式书写的办法。
  幸运的是,在开发组发现了问题的那段时间,他们还发现了几个技术资源。第一个
就是微软亚洲研究院的小组,他们向比尔?盖茨和Tablet PC组副总裁爱丽斯?劳博展示了
墨水处理技术的工作进展。他们所展示的技术之一就是如何支持歪斜书写而不仅是整齐
水平书写的方法。在探寻如何进行自由数字化记录的历程中,该方法可以说是一个最初
的切入点。
  几个月之后,加州大学伯克利分校的一个博士生——麦克尔?希尔曼作为一名实习生
加入Tablet PC组工作。重复高强度的输入一行行代码迫使他转到在白板上画图,这激发
了他对草图识别的兴趣。
  产品组把希尔曼推荐给了斯姆德。希尔曼说:“对这个问题我已经有了明确的表述
方案,而且对于如何解决这个难题也有了高水品的想法,只是我没有考虑过具体细节。
”而关于细节上的研究,斯姆德已经考虑了多年。
  “刚好我曾经从事过打印文本的解析和编排分析,所以他们找到我,对我说‘我们
是否能对草体做点什么?’。对于如何设计这个算法,我给他们出了些点子。”
  在将计算机当成一个记事簿的过程中,遇到的另一个问题被称为"回流"。斯姆德解
释说:“人们做的事情的确很奇怪。”他说,人们在写带编号的清单时,会先写好数字
编号,然后在数字旁边写上对应的文字内容;人们还喜欢乱画线、插入额外的词语,或
者是用几笔涂鸦和图画来解释他们的文本。所有这些改变都需要使发生“回流”的文本
保持文档的完整性。为了能够做到这一点,计算机需要知道文本和图画的区别,而这可
不是一个简单的任务。
  虽然我们对一页手写材料匆匆一瞥即可了解哪些是文本,哪些又是几笔涂鸦;但是
机器在这方面却难以胜任。如果有人在一段文本的旁边画一个用粗线条组成的人,当机
器没有把它当作一幅图时,你再在画的图旁边加几个字,机器可能会试图“回流”所有
的东西,包括那个粗线条的人形。斯姆德解释说:“如果你开始回流那个粗线条组成的
人形,胳膊和腿会到处都是。所以,你不得不首先探测什么是图形,什么又是文本。这
是一个分类和分组的问题。”
  希尔曼开始实施他和斯姆德通过头脑风暴想出来的新点子。希尔曼说:“我花了整
个夏天研究那些问题,到夏末的时候我已经取得了足够的进展——我知道它接近成功了
。”
  “当我知道他们的雄伟目标和时间表后,我非常怀疑他们能否成功。”斯姆德解释
说,“但是他们工作极为努力,而且他们证明这确实可行——我过去甚至都不知道。我
每周和麦克尔碰一次面,跟踪进度,但是所有的工作都是他们做的。”
  希尔曼和来自亚洲研究院的魏子乐合作。当在雷德蒙总部的微软研究人员从文档布
局分析的角度看待这个问题时,亚洲研究院的研究人员却采取了一个不同的方法。
  希尔曼说:“他们的方法是,看每一个单个的笔划,区分写和画,而我们的方法是
看笔划的整体线条。他们还利用了先后笔划组成线条的时间信息,我们的方法却是纯粹
从空间角度来进行的。你看,对于这个问题,我们有着完全不同的方法来分割。当我们
将两种办法各自的优势结合作一起的时候,一切都开始正常运行了——真令人兴奋。”

  希尔曼和魏子乐与Sashi Raghupathy一起将研究成果转化成产品。希尔曼解释说:
“在只有短短七周开发周期的时间内,丰富的研究经验帮助她成功管理了已经在进行的
研究项目。现在回头看看,真是令人惊奇。”
  尽管小组对他们的创新性工作非常自豪,希尔曼却希望给大家一个告诫:“现在还
没有达到人的精确性水平。真正地解决这个问题,百分之百地解决这个问题是不可能的
。”无论文本写的是什么或者是如何写的,使其完美地回流是一个人工智能范畴的问题

  希尔曼说:“有一个专门的短语用于描述这类问题——人工智能完全问题,基本意
思是说为了让计算机解决这种问题,计算机必须智能化,理解世界上所有的上下文和微
妙的东西。”
  让它变小,让它非常非常小
  Tablet PC并不是一种宣传炒作出来的膝上型电脑。它做到了以前不能做到的事情。
比如,计算机屏幕的一个限制就是我们可以与之交互的能力有限,不能像我们对一张打
印的纸页那样随便操作。
  好比你在给你的某个新产品写技术规格,你召集会议让整个团队的成员一起看这个
文档。大家的评论迅速热烈、此起彼伏,你尽可能多地记下能够记录的东西,在打印好
的纸页的空白处写字或画圈,或者标记巨大的X。你把文档拿回到你桌面上,试图将涂鸦
和文本注释转化成原来的文档,这其实并不好玩。
  Tablet PC让你在数字文档上作标记,并以数字格式保留注释。Raman Narayanan小
组负责开发手写板的这个特性。
  “我们的第一版是完全基于现有的技术,但是使用者的反馈表明表现太慢并且文件
太大。”人们需要通过网络发送文件,传统压缩技术文件大小的改变是不够的。
  Narayanan说:“这时候我们开始审视我们的研究正在做什么。”Narayanan接触了
微软的两个研究人员,斯姆德和通信、协作和信号处理小组的研究经理瑞克?马尔维。
  马尔维和斯姆德开发的技术极大地减小了文件的大小。Narayanan说:“我们将文件
压缩到了现有压缩方法的十分之一,非常令人惊讶。我们在研究中发现了两种压缩技术
,结果出乎意料得好,然后所有问题就解决了。”
  马尔维说:“要把文本转换成图像的话一定要当心,因为你要这些图像具有足够的
分辨率,所以我们需要更好的文件格式。他们开始使用在传真文件中应用的技术,但是
还是要做了很多的改进。”
  马尔维解释说:“问题是传真机分辨率低,很多时候,而不是偶尔的,你都会收到
无法阅读的文档——黑墨块,没有足够的小像素。二十多年前人们想,我要用电话发送
这些东西,发送速度为每秒9000比特,而我只能压缩这么多,所以我每英寸不能超过20
0像素。这就是实际的数字,不够多。有些显示器接近于这种分辨率。普通打印的文档每
英寸有600像素,是传真图像的三倍。所以你会说,加入更多的像素吧,如果达到每英寸
300,、400或600像素,图像看起来会好得多,但是要储存的东西就太多了。”
  所面临的挑战是让任何文档—网页、幻灯片演示、法律文件摘要都可以用数字注释
。这样做的话文档就要被看成是一个图像,但是高分辨率图像文件很大,研究人员决定
把它看成两个独立的问题。
  图像编码的传统格式是JPEG。"我们所要做的是使用比JPEG好的格式,大约能好百分
之五十。所以如果图像是1M字节的JPEG的话,我们的格式是600k。想法基于我们的格式
有一些JPEG所不具备的特性。如果你正在使用JPEG,系统不得不对所有的图像解码,计
算原来图像中所有的像素,据此产生一个小的版本,然后显示。
  “用我们的格式你可以只解码你要的像素,这对于J PEG格式是根本办不到的。你必
须先解码,重新计算一个小的版本。这很花时间,区别却很大。这时,在一些情况下,
当只要部分数据时,我们需要的处理时间或传输时间会少得多。我们的办法是可以提供
访问部分数据而不是全部数据的能力。”
  马尔维和斯姆德一起解决文本压缩问题。他们知道文本的字符可以通过机器识别,
并被编码成为一个完整的图像,而不是对每个像素进行编码斯姆德说:“在传真中,每
个“e”的像素都被同其它的“e”独立进行编码。新技术将一样的墨点集中到一起,按
照出现和位置分别编码。一样的墨点的墨水只编码一次,位置则使用布局分析进行了更
有效的压缩。当我们这样做了以后,我们就把文件大小缩减到十分之一。”
  组合压缩方案使文件大小更小,Narayanan小组需要在Tablet PC上把数字注释变为
现实。
  用墨水思考
  Tablet PC组开发经理查尔顿?路易说,手写板的革命是墨水的技术,“现在人们用
笔和纸做记录,我们所做的是吸取这种经验,并用到Tablet PC上,使计算机让人们可以
‘用墨水思考’,并具有用手写体输入的能力。
  他把成果归功于帮助使墨水技术成为可能的微软亚洲研究院的研究人员,特别是多
模式用户界面组主任研究院王坚。
  管理微软亚洲研究院三个组的沈向洋对王坚在Tablet PC方面所做的工作很有热情。
“王坚是一个非常特殊的人,他的背景非常有趣。专业上他是个心理学家,他是中国所
雇佣的高素质员工之一。他过去是中国一个非常优秀的大学心理学系的主任。”
  “同时王坚有相当好的计算机科学背景,他做事情有很好的意识,非常有灵感。”

  王坚对工作的热情是显而易见的。他说:“这是我一生中做的最伟大的项目。”王
坚说:“两年半之前我加入微软亚洲研究院的时候就开始考虑数字墨水,墨水有它自己
的存在理由,因为它和文本太不同了,这是基本的想法。识别要将墨水变成文本,所以
我想我们的技术应该让墨水就是墨水。我加入微软后马上就有了这个想法。我参观了Ta
blet PC组,并开了第一个会,我觉得我的小组和手写板小组都对墨水技术感到非常兴奋
。”
  路易说:“你将有能力真正操纵你自己的手写墨水,你将可以选择它,并能分出这
些词,并知道都是什么词。人们可以获得识别出的文本,并可以对它进行处理,将它插
到文章中、作为电子邮件发送或者做任何你想做的事情。在这个问题上,微软亚洲研究
院真正帮助我们的是分析墨水语义。”
  路易说:“我们所做的工作之一就是强调用墨水思考的能力,因为人们在百分之九
十五的情况下都喜欢用手写和画,这很好,很有用。有时候它在识别的时候,由于写的
很马虎,就识别不出来。如果打字的话,只是个打字错误,如果写错的话,就是手写错
误。如果有人写的很马虎,我们什么办法也没有。你永远不要希望识别系统会智能化到
能认出连你都认不出的你自己在纸上写的字。”
  路易说:“最好的是我们有多种输入方法,你可以有hunt和peck软键盘,这是百分
之百准确的,如果你敲错了键盘,你仍以为你明确了指定位置。或者你有单个字符识别
器,写起来很累人,但是仍然是准确的。我们的手写板还有语音功能。我们在你可以在
所有功能之间互相切换的位置插入手写输入。这样用户在结束效果不太好的语音输入之
后就可以用手写修正。他们还可以手写输入然后用语音修正。这都做到手写板里面。”

  该技术还具有使用“模糊发现”搜索手写记录的能力。Tablet PC软件设计师亚里克
斯?冈耐尔对模糊发现做了解释,“模糊发现是日志实用程序的特色,用户可以对整个手
写文档进行搜索。例如,我可以在所有的日记记录中搜索单词"research",即便我是用
墨水写的,查找功能都会告诉我在哪篇文档的什么地方用到了那个词。‘模糊’是指我
们用来进行该研究所用的一套启发方法和算法。”
  墨水技术将成为未来几年最具创新性的技术之一。它非常重要,所以微软亚洲研究
院正投入更多的资源来改进现有的版本。新技术开发组开发经理林彬说:“我们最近为
墨水技术刚刚组建了一个特殊的项目小组。目标是使墨水成为‘一等公民’,而不仅是
人们可能会用的东西——就像文本一样。”
  王坚对Tablet PC的未来有着很高的标准:“我真的希望Tablet PC能够得以方便的
使用。你从来不会想你怎么坐到椅子上,我们的计算机设备应该让人不去想该怎么用,
而只是拿起来非常自然地去用。”

--

夜的精灵     ·                     挥洒间                                       
欣然而至                     *      落花与彩蝶逸飞                                    
恣意跳跃的音符                      心中的高山流水 悠然                                                 
又在琴弦上飞舞       &              在莲指间 飘升                                         

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.239.94]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.897毫秒