信息爆炸时代与海量数据科技（转）

Snape — Sun, 01 Apr 2012 18:44:00 GMT

我们生活在信息爆炸的时代。海量的数据改变了商业和科学研究的方方面面。在基础设施层面，业界的面貌不断地变化，众多的信息科技公司，诸如谷歌、微软、IBM、亚马逊近年来也抗起了“云”的旗帜。在科技前沿，海量数据改变了统计、机器学习、自然语言处理等领域的方法。特别的，在过去的20年，数据的丰富是知识数据库和人工智能领域有的更进一步的发展。

首先我们确实已经生活在了海量数据的时代。按照并不是最新的数据，Facebook使用超过1PB的空间来存储4000亿张照片，谷歌每天处理超过20PB的数据。而人类在过去的世代里所有的文字作品也只有大约50PB的信息。而根据摩尔定律，大概每18个月这些数据的大小还要翻倍。

数据在建模中的作用越来越大。Banko和Brill在2001年所做的研究表明，即使是很粗糙的算法，如果能用更大量的数据来训练模型，往往最终的结果可以超过最初设计时的模型。近年来IT公司之间的并购和合作案中，对方优质数据成为更吸引决策者的因素。谁有了更好的数据，谁就有可能做出更好的服务。举个例子，基于数据的翻译系统会不断的调整自己，最终超过使用严密规则建立起的翻译系统。再如，我们有时被软件要求输入验证码，有的网站的做法是第一个单词它有答案，而第二个单词图片是没有答案的，使用大量用户备选答案来确定。

面对如此明显与快速的革新，我们的准备并不充分。我们的硬件需要提升，需要更快的计算机，更大容量的存储设备。人才方面，计算机专业课程亟待改革，适应日新月异的信息时代，将视野扩大到一个更大的世界。当代计算机专业学生更加有必要学好“统计”，来处理好大规模数据，而事实上现在计算机专业学生中有坚实统计科学基础的还不足百分之五。

现在很多系统的智能性还很差。人们一度坚信，只要考虑的完善，使用数理逻辑的谓词推导，就能用逻辑把智能实现到极致。而很多时候，人类本身的智慧活动并不是很严谨地遵循逻辑的。我们离不开“常识”，而机器往往是没有常识的。人类作推理经常是使用常识的，可能当事人自己都没有意识到，而正是这些没有明白说出来的常识帮助做出了正确的判断。为了建立有人类普遍具有的基本常识的机器系统，2000年到2005年有一个Mindpixel的工程吸引人们对许多真假命题做判断，来充实“常识”数据库。Open Mind Common Sense(http://openmind.media.mit.edu/) 是这一领域另一个先驱，它主要使用让人们填空的形式来充实常识数据库。让机器具有了常识，就有了更好的基础做出更加智能的事情。

Snape 2012-04-02 02:44 发表评论

串的模式匹配【转自Orisun】

Snape — Tue, 27 Mar 2012 18:26:00 GMT

摘要: 串的模式匹配就是从一个主串中找到子串出现的位置,如主串是"asd234",子串是"d2",那么算法返回的结果就应该是2.一种最朴素的想法就是BF算法,我就不讲了," 最朴素"嘛,就是你脑子里现在想的那种算法.比较优一点的是KMP算法.更优的是BM算法.BM的改进算法是Sunday Algorithm.现在我给出BF和Sunday两种算法的代码,然后再和STL中string在find函数进... 阅读全文

Snape 2012-03-28 02:26 发表评论

C++博客-chenglong7997-文章分类-算法

信息爆炸时代与海量数据科技（转）

串的模式匹配【转自Orisun】