Google曾经承认:她并不会总是懂你。如果在搜索栏中输入“the 10 deepestlakes in the U.S”(美国最深的10个湖)时,她将优先向你展示基于这些单词或者词组权重最高的句子和网站,Google的同事和其高级副总裁Amit Singhal说Google不明白那是一个问题。我们能做的只有交叉双手然后祈祷有个家伙曾经在网上写过一些关于这个问题的文章或者话题。
但是Goolge的未来搜索技术将完全是另外一番面貌。在一次开放的座谈会上,Singhal,一个在搜索领域工作了20年之久的人,曾经大概描绘过将来的搜索将不仅仅是文字检索,而是要理解每一个字节的意思和他们之间的关系。这也就是说,Goolge的未来搜索引擎将不仅仅理解你的关于湖的问题,而且明白湖是什么意思(有水的地方),甚至会告诉你每个湖的更多细节,例如深度,表面积,温度或者是盐浓度。
要想理解Google的未来会是什么样,必须先懂得她过去是什么样。
Singhal说搜索以前是基于语义,然后进行关键词索引,这种情况一直到20世纪中叶的后期也没多大改变。互联网的出现才使她发生一些改变。突然,搜索有了一个新的朋友:链接。Amit说Google是第一个把链接看作“推荐代理”的。在早些年,Google的搜索结果是基于链接的数量和这些链接的权重的。现在,Google增加了内容和关键词的比重,或者是一个准确的问答也是能增加权重的。
最终,Google将从单纯的检索关键词变成解释关键词。Google能够意识到单词“New”和“York”出现在一起的时候,会突然改变他们单独的意思。Google发展统计部门把这种词组看成是一个新单词。然而,Google现在还不能理解New York是一个有地域有人口的城市。
词序和词义是现在Google能够识别的,但是这对于刚刚被选为国家工程院士的Singhal和Google都是不够的。
大的改变
--------------------------------------------------------------------------------
Google想要把文章里面的句子变成单个字节来理解它们的意思甚至是引申含义,这正是我们的大脑经常做的。但是对于计算机来说,这还属于人工智能的范畴。
Singhal说Google将要建立一个巨大的内部知识库,来储存世界上每一个字节和词组,然后理解你搜索这些字节的目的。这是一个相当有挑战性的任务,但是这项工作已经开始做了。
Google在2010年收购了Freebase,它是一个社区共同创建知识的网站,包含了12000000个权威的词条。一千两百万是一个好的开始,但是Singhal说Google已经投巨资建立一个更庞大的知识库,包含了相关的字节和他们的引申含义。
基于单词的检索变成这种基于知识图表的检索是一个根本性的转变,这将急速增大搜索结果的威力,当然也增加算法的复杂程度。Singhal解释说单词的检索从本质上来讲就同你在印刷书的后面找到的检索一样,而基于知识图标的检索要比单词检索庞大的多而且将不断更新和改进。
Singhal告诉我现在Google正在建设基础设施和购置更多地计算机以应对将来更为复杂的搜索。这些计算机帮助这个搜索巨人建立知识库,它包含了多达2亿条字符,对于这个你只能表示很无语。
起初,大部分只是知道一点点。虽然这种人工智能已经开始在Google的搜索结果中开始显示,但是大部分人没有注意到过它。
知识库
--------------------------------------------------------------------------------
在Google搜索框中输入“莫奈”,在以往的标准结果下面你会发现一小块新区域:“克劳德·莫奈的艺术作品”。这里有他的五个或者是六个代表作的缩略图。Singhal说这表示Goolge已经开始懂得莫奈是一个画家而且对一个画家而言最重要的是他的绘画作品。
当我说道这个新的搜索结果并没有使整个搜索变得面目全非也没有被置于普通搜索结果之前时,Singhal谨慎的说判断这种搜索结果的权重就像判断一个画家一两岁时的作品一样难。
这也可以被看作是Google对她的主要竞争对手——微软的必应——的反击。这个软件巨人有一套严苛的商业法则,他们批评某搜索公司显示的结果缺乏内容相关性,大部分人都知道这个批评是针对Google的,而Google现在正努力提高的她的搜索结果的质量。
当我问Singhal他是否曾经考虑过必应的批评,或者意识到必应一直宣称他们的搜索结果与有用的答案关联度更高而不是链接。他拒绝回答,说他不会对必应也许做了或者也许没做的事情做出评论。
值得注意的是数以百万的人认为他们通过苹果的iphone 4S和Siri接触到了人工智能,它通过手机和互联网能够回答人的语音问题。不管Google的知识图标能做什么,她都必须超越Siri才行。
集中精力瞄准未来搜索也许对于Singhal来说有点难,他说我们也在制造大型强子对撞机,我现在不能预测他将来会产生什么样的粒子。
Singhal在另一方面也承认建立星级迷航式的计算机是他的梦想。在上世纪六十年代科幻电视播出的《星际迷航》中的电脑就像Siri,你可以问它任何问题然后获得一个正确的答案。他说建设这个庞大的知识库和基础设施能够帮助他们更好的处理搜索问题,这也将是他们建立星际迷航式计算机的重要一步。
超越搜索
--------------------------------------------------------------------------------
说到星际迷航,Singhal说有另外一个科技前沿将受益于Google的知识库:机器人学。他说现在还没有任何专家注意到机器人学虽然处于机械工程和计算科学的交叉路口,但是即将引来语言功能的巨大转变。他说我相信我们正处于机器人学习语言合作的时期,而这在将来会变成人机交互合作。
作为一个机器人的狂热爱好者,对我来说这是一个令人兴奋的想法。我开始描绘一幅虽然Singhal并不认同的画面:未来的机器人将会配置Google的这种基于字符的搜索功能,他们甚至能够理解他们照顾的小宝宝(什么?你不准备把小宝宝留给机器人照看?)很小,很脆弱而且总会感到饥饿。机器人能够知道什么时候喂小宝宝,因为在他们的理解中“小宝宝”和“总是饥饿”是联系在一起的,而且它们将组成一个知识库中的一个字符,这个字符还有一些属性,例如“不包含固体食物”。
在我们的谈话中,我意识到2亿个字符虽然很多,但是全世界的知识却更为广博。究竟Google的知识库要存储多少字符才能回答所有问题呢?Singhal没有给出具体数字,而是笑着用另外一种方式回答了这个问题:
人类思想的美在于它能够制造出我们认为不存在的东西,而我认为这个问题最好的答案是人类将不断创造新的知识,我们建立的知识库也能帮助人类创造新的知识。创造是一个数量无限的循环。