chenglong7997

信息爆炸时代与海量数据科技(转)

我们生活在信息爆炸的时代。海量的数据改变了商业和科学研究的方方面面。在基础设施层面,业界的面貌不断地变化,众多的信息科技公司,诸如谷歌、微软、IBM、亚马逊近年来也抗起了“云”的旗帜。在科技前沿,海量数据改变了统计、机器学习、自然语言处理等领域的方法。特别的,在过去的20年,数据的丰富是知识数据库和人工智能领域有的更进一步的发展。

首先我们确实已经生活在了海量数据的时代。按照并不是最新的数据,Facebook使用超过1PB的空间来存储4000亿张照片,谷歌每天处理超过20PB的数据。而人类在过去的世代里所有的文字作品也只有大约50PB的信息。而根据摩尔定律,大概每18个月这些数据的大小还要翻倍。

数据在建模中的作用越来越大。Banko和Brill在2001年所做的研究表明,即使是很粗糙的算法,如果能用更大量的数据来训练模型,往往最终的结果可以超过最初设计时的模型。近年来IT公司之间的并购和合作案中,对方优质数据成为更吸引决策者的因素。谁有了更好的数据,谁就有可能做出更好的服务。举个例子,基于数据的翻译系统会不断的调整自己,最终超过使用严密规则建立起的翻译系统。再如,我们有时被软件要求输入验证码,有的网站的做法是第一个单词它有答案,而第二个单词图片是没有答案的,使用大量用户备选答案来确定。

面对如此明显与快速的革新,我们的准备并不充分。我们的硬件需要提升,需要更快的计算机,更大容量的存储设备。人才方面,计算机专业课程亟待改革,适应日新月异的信息时代,将视野扩大到一个更大的世界。当代计算机专业学生更加有必要学好“统计”,来处理好大规模数据,而事实上现在计算机专业学生中有坚实统计科学基础的还不足百分之五。

现在很多系统的智能性还很差。人们一度坚信,只要考虑的完善,使用数理逻辑的谓词推导,就能用逻辑把智能实现到极致。而很多时候,人类本身的智慧活动并不是很严谨地遵循逻辑的。我们离不开“常识”,而机器往往是没有常识的。人类作推理经常是使用常识的,可能当事人自己都没有意识到,而正是这些没有明白说出来的常识帮助做出了正确的判断。为了建立有人类普遍具有的基本常识的机器系统,2000年到2005年有一个Mindpixel的工程吸引人们对许多真假命题做判断,来充实“常识”数据库。Open Mind Common Sense(http://openmind.media.mit.edu/) 是这一领域另一个先驱,它主要使用让人们填空的形式来充实常识数据库。让机器具有了常识,就有了更好的基础做出更加智能的事情。

posted on 2012-04-02 02:44 Snape 阅读(224) 评论(0)  编辑 收藏 引用 所属分类: 算法


只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理


导航

<2024年4月>
31123456
78910111213
14151617181920
21222324252627
2829301234
567891011

统计

常用链接

留言簿

随笔分类

随笔档案

文章分类

文章档案

my

搜索

最新评论

阅读排行榜

评论排行榜