杰

杰哥好,哈哈!
要有魄力,即使失败,也不要让自己的人生平庸! 如果您觉得看过的文章还不错,请帮我点一个右边广告(没有任何副作用),谢谢!
 
 

常用链接

  • 我的随笔
  • 我的评论
  • 我参与的随笔

留言簿(57)

  • 给我留言
  • 查看公开留言
  • 查看私人留言

随笔分类

  • Matlab(58) (rss)
  • Optimization(7) (rss)
  • Python(4) (rss)
  • Search(30) (rss)
  • 名人(9) (rss)
  • 软件使用(Software)(66) (rss)
  • 学术(102) (rss)

随笔档案

  • 2021年3月 (2)
  • 2021年2月 (1)
  • 2021年1月 (1)
  • 2020年10月 (1)
  • 2020年9月 (1)
  • 2019年2月 (1)
  • 2018年10月 (1)
  • 2018年9月 (2)
  • 2018年8月 (1)
  • 2018年7月 (2)
  • 2018年6月 (1)
  • 2018年5月 (1)
  • 2018年4月 (1)
  • 2018年3月 (4)
  • 2018年2月 (2)
  • 2018年1月 (1)
  • 2017年12月 (4)
  • 2017年11月 (2)
  • 2017年9月 (2)
  • 2017年8月 (1)
  • 2017年7月 (1)
  • 2017年6月 (4)
  • 2017年5月 (3)
  • 2017年4月 (1)
  • 2017年1月 (1)
  • 2016年12月 (8)
  • 2016年11月 (3)
  • 2016年10月 (3)
  • 2016年9月 (2)
  • 2016年8月 (2)
  • 2016年7月 (4)
  • 2016年6月 (6)
  • 2016年5月 (7)
  • 2016年4月 (1)
  • 2016年3月 (3)
  • 2016年2月 (1)
  • 2016年1月 (2)
  • 2015年12月 (6)
  • 2015年11月 (3)
  • 2015年10月 (4)
  • 2015年9月 (3)
  • 2015年8月 (5)
  • 2015年7月 (6)
  • 2015年6月 (7)
  • 2015年5月 (8)
  • 2015年4月 (9)
  • 2015年3月 (4)
  • 2015年2月 (1)
  • 2015年1月 (3)
  • 2014年12月 (4)
  • 2014年11月 (2)
  • 2014年10月 (5)
  • 2014年9月 (3)
  • 2014年8月 (5)
  • 2014年7月 (7)
  • 2014年6月 (4)
  • 2014年5月 (1)
  • 2014年4月 (1)
  • 2014年3月 (2)
  • 2013年12月 (4)
  • 2013年11月 (3)
  • 2013年9月 (4)
  • 2013年8月 (3)
  • 2013年7月 (6)
  • 2013年6月 (4)
  • 2013年5月 (1)
  • 2013年4月 (1)
  • 2013年3月 (2)
  • 2013年2月 (1)
  • 2013年1月 (3)
  • 2012年12月 (3)
  • 2012年11月 (10)
  • 2012年10月 (11)
  • 2012年9月 (2)
  • 2012年8月 (6)
  • 2012年7月 (6)
  • 2012年6月 (4)
  • 2012年5月 (1)
  • 2012年4月 (3)
  • 2012年3月 (5)
  • 2012年1月 (1)
  • 2011年12月 (1)
  • 2011年11月 (4)
  • 2011年10月 (3)
  • 2011年9月 (3)
  • 2011年8月 (1)
  • 2011年7月 (1)
  • 2011年6月 (2)
  • 2011年5月 (2)
  • 2011年2月 (1)
  • 2011年1月 (3)
  • 2010年12月 (7)
  • 2010年11月 (5)
  • 2010年10月 (7)
  • 2010年9月 (3)
  • 2010年8月 (7)
  • 2010年7月 (7)
  • 2010年5月 (5)
  • 2010年3月 (6)
  • 2010年1月 (5)
  • 2009年12月 (5)
  • 2009年11月 (4)
  • 2009年10月 (5)
  • 2009年9月 (4)
  • 2009年8月 (1)
  • 2009年7月 (2)
  • 2009年6月 (3)
  • 2009年5月 (1)
  • 2009年4月 (3)
  • 2009年3月 (5)
  • 2009年2月 (2)
  • 2009年1月 (1)
  • 2008年12月 (1)
  • 2008年10月 (1)
  • 2008年9月 (1)
  • 2008年8月 (1)
  • 2008年7月 (4)
  • 2008年5月 (2)
  • 2008年1月 (1)
  • 2006年11月 (1)
  • 2006年4月 (1)

相册

  • 搞笑图片

Other

  • 安徽电力公司客服网站
  • 编程
  • 程序员联合开发网
  • 经典歌曲
  • 两全其美
  • 新雨丝
  • 中国工商银行
  • 中国建设银行
  • 中国建设银行信用卡
  • 中国农业银行

Paper submission

  • ACM Computing Surveys
  • AI in medicine
  • amino acids
  • Artificial Intelligence Review
  • Bioinformatics
  • BMCBioinformatics
  • conference Rankings
  • conference(CVPR)
  • conference(ICML)
  • conference(NIPS)
  • conferences
  • Current Bioinformatics
  • CVIU
  • Electronics Letters
  • IJCM
  • IJCV
  • IJPRAI
  • Image and Vision Computing
  • Neural Computing and Applications (NCA)
  • Neural Networks
  • Neurocomputing
  • Pattern Recognition
  • Pattern Recognition Letters
  • pieee
  • TASE
  • TBD
  • Tbiom
  • TCDS
  • TCSS
  • TCSVT
  • TCYB
  • TDSC
  • TGRS
  • TIFS
  • TII
  • TIP
  • TKDE
  • TMM
  • TNNLS
  • TPAMI
  • TSMCS
  • TVT

福彩

  • 安徽福彩网
  • 双色球玩法规则介绍

留学相关

  • Google翻译
  • 爱词霸在线词典
  • 美国总领事馆
  • 普特英语听力
  • 太傻论坛
  • 在线科技词典

论坛

  • 科大bbs
  • 科学岛论坛
  • 模式识别爱好者论坛

搜索

  • arxiv
  • google ipv6
  • google台湾
  • google香港
  • google学术搜索
  • Journal citation reports (JCR)
  • scholarpedia
  • wikipedia维基百科
  • 北京天气预报
  • 电驴
  • 合肥天气预报
  • 乐乎(下载电影)
  • 微软学术搜索

学者

  • Dacheng tao
  • Deng Cai
  • Dengyong Zhou
  • dodo
  • Jian Yang
  • Jie Gui
  • Meina Kan
  • Tianyi Zhou
  • Tongliang Liu
  • Weifeng Liu
  • Xiaojin Zhu
  • yong xu (hit)
  • Zhen Lei (ia)
  • 桂卫华
  • 中科院水生所所长桂建芳

邮箱

  • 126邮箱abroad
  • 126邮箱国内
  • google 邮箱
  • hotmail
  • Seu (东南大学)
  • 科大校友邮箱
  • 科大邮箱
  • 中科院

中科大和中科院

  • Niu Group (inside)
  • Niu Group (Outside)
  • 合肥研究院图书馆
  • 智能所

搜索

  •  

最新评论

  • 1. re: Office 2010中删除Endnote web 插件
  • 真是救了我呀!
  • --ss
  • 2. re: metric learning(度量学习)
  • 76765
  • --656
  • 3. re: 全新的美国计算机学科排名[未登录]
  • 随便拉出一个来就能秒天朝的 北*大学,清*大学到火星...
  • --chipset
  • 4. re:【超智多能思维科学研究所】致 蒲慕明教授的eMail
  • 评论内容较长,点击标题查看
  • --江伟
  • 5. re: Adobe distiller: Cambria not found, using Courier. 报错解决办法
  • 解决了,谢谢!
  • --lyh

阅读排行榜

  • 1. [转贴]Google被封、gmail.com邮箱、gmail登录不了的办法(25675)
  • 2. arg min的含义是什么?(24487)
  • 3. latex问题集锦(19440)
  • 4. matlab命令窗口输出函数disp和display(17328)
  • 5. MATLAB字符串数组(15451)

评论排行榜

  • 1. K近邻分类器的matlab代码(Matlab code of k-nearest neighbors)(13)
  • 2. LibSVM学习记录(6)
  • 3. 全国接听免费附加套餐(5)
  • 4. EndNote 乱码 解决方案(5)
  • 5. 孟岩blog理解矩阵一、二, 三(5)

Powered by: 博客园
模板提供:沪江博客
C++博客 | 首页 | 发新随笔 | 发新文章 | 联系 | 聚合 | 管理

杨强教授十问大数据
http://www.idcun.com/news/2015012641947.html

在互联网时代,大数据炙手可热,许多人言必称大数据,但能够真正说清大数据为何物的人并不多,更遑论如何借助大数据挖掘出巨大的商业价值。究竟如何定义大数据?大数据有哪些特征?本文旨在厘清大数据概念,阐明大数据应用方式及探究未来大数据发展之道。

  Q1:大数据是商业炒作吗?

  业界给大数据的定义是4 个“V”:体量大(Volume)、种类多(Variety)、速度快(Velocity) 和真实性高(Veracity)。但这个定义其实并未抓住大数据本质。如果仅仅看这几个维度,大数据就是一种炒作,因为它们只是表面现象。

  大数据的本质应该是如何为企业带来一种更新更好的商业运作模式,而大数据应用的成功,也是依靠决策者提出好的商业问题及与其相关的商业模式。这些商业问题可以非常简单,但问题背后必须有一系列相关的商业模式。

  比如,如何运用智能手机应用商城的数据, 来提高对用户APP 推荐的精度? 随后,利用应用商城的大数据,可以产生上百万维的数据表,进而建立可靠准确的推荐模型,使得用户体验水平大幅提升。

  大数据应用成功的关键也正取决于是否有一个明确的商业(或科学)目的,商业模式的定义是其前提条件。

  Q2:数据越多越有用?

  首先,如果收集大数据的目的是建立一个对位置数据的预测模型,那么,得到这一模型的训练数据一定要包含所需的信息。但问题恰恰是,事前并不知道哪些特征是重要的,因此,需要把尽量多的数据整合起来,让机器去寻找。

  然而,这个问题为什么不能去咨询该领域内的专家们呢?事实证明,专家们虽然会自己解决问题,但大都说不清他们是如何解决这些问题的。这也就是为什么在大数据应用中,专家的作用更多体现在帮助连接、聚合尽量多的数据上。

  除 此之外,要建立一个好的预测模型, 用来训练模型的数据总量也要足够多。如果历史数据少于一定规模,就会出现所谓“过拟合”(为了得到一致假设而使假设变得过度复杂)现象。例如,如果一个服 装品牌按照某一个模特的身材来设计,衣服很可能做得偏瘦,以至于绝大多数其他消费者无法使用。这种“过拟合”现象在建立大数据下的预测模型时也会发生。

  那 么,数据的总量越大,是不是预测模型需要学习的时间就一定越长呢?答案是否定的。研究成果表明,在一定条件下, 当数据变得越大,实际所需要的训练时间反而越短。为什么会这样呢?可以想象:如果一个学生在学习某种概念时,只有少数习题,那么这个学生想透彻学会这个概 念,就需要把每一个习题翻来覆去地看, 加以扩展,这样学习的过程会比较慢。相反,如果他有许多不同类的习题,只需要把每一个习题过一遍,即可应付未来的大部分情况。因此,习题多的学生,学到同 样水平的时间反而会短。

  Q3:人工智能将超过人类大脑?

  经过几十年的探索,可以相信:机器的智能只能从针对大数据的学习中得来,而大数据只能从人与人的交互、人与机器的交互中得来。如果想要这些交互产生足够多的数据,就一定要让这些交互为人类提供有用的服务。

  如今,什么数据最为充分?充分的数据首先是最容易被记录的那一部分,比如语音、图像、文字等。能不能直接获取人类大脑活动信息,并以此来充实我们的智能呢? 当今的这种技术(如磁共振脑图成像技术) 还不够精确,因此,通过学习得到的系统虽然在单方面可以超过人类大脑(如IBMWatson),但就通用性而言,现阶段的人工智能比起人类大脑还差得很 远!

  有没有可能在不久之后的某天,具有人工智能的机器人成为人类的敌人呢?这是有可能的。但前提是:这些机器人的领袖一定是人类。

  Q4:用户隐私问题如何解决?

  隐私问题的出现其实比大数据要早, 但隐私真正成为家喻户晓的议题,却是在大数据成为热点之后。从斯诺登揭秘到苹果数据上传,随着越来越多媒体的爆料,大家对隐私的关心程度也与日俱增。隐私 问题的最大矛盾在于,一方面,数据被严严实实地包起来,另一方面,它又要被运用来发现有用的东西,不得不将之开放和上传。

  目前看来,数据隐私问题有三个考虑: 1. 技术;2. 用户利益;3. 社会接受程度。

  从技术上来说,以前有关数据的解决方式大都是把数据从终端迁移到计算端(如计算中心),得出结果后再把结果送到终端。这种方式无疑会引发隐私问题,因为一旦数据离开用户的个人终端,就无从保证谁将有权利接触数据,数据的隐私也就无从保护了。

  要保护隐私,一种新的模式是“计算随着数据走”,也就是利用终端自身的强大计算功能,在终端算好一个结果(如一个预测模型,即本地模型),再把这个模型与某 一个通用模型加以整合。这种模式无疑会引入更多计算量与复杂性,目前还属于前沿研究领域。这种方法就像是有人要买股票,但又不想别人知道他自己的需求,只 读取网上有关股票的信息,与自己知道的需求结合起来,做出买卖决策。只要每个人足够聪明,又有足够的计算能力,这样的系统就会最大程度地保护每个人的隐 私。

  另一种做法是,仍把数据传输到计算中心,但在传输之前,将数据加以改变, 使其中的关键隐私信息在传输和计算中被隐藏起来,让人无法反推原始的敏感数据(如用户性别、住址等),同时又保证计算结果的真实性和可用性。实际上,一个 更难的问题是:无论如何隐藏和加密原始数据,用户心里总有不放心的一点阴影。由于这个阴影的存在,用户永远不会相信一个单纯靠技术的隐私保护计划。可以预 见,在未来,隐私问题的解决程度将成为用户选取产品的重要依据。

  可是,大数据已经来到人们身边。今天社会上的每个人,实际上都是大数据的使 用者。同时,又在不断暴露自己的隐私。比如,用户使用免费的电子邮件账户,即便知道这些服务商在挖掘我们的邮件信息;用户使用搜索引擎询问各种问题,尽管 这令我们的问题被记录在案。既然如此,为何用户在使用大数据服务的时候,依旧乐此不疲呢?答案在于用户利益与隐私暴露的费用比:如果用户得到的利益大于个 人数据泄露的价值,用户还是会同意接受并分享这些数据的。因此,隐私问题的关键是,如何让系统和用户在矛盾中寻找到一个平衡点。

  最后,随着 技术的发展,社会对于数据分享的接受程度也会改变。上一代人所不能接受的事物,到下一代可能就不是大问题了。Facebook 就是个例子: 实名制允许人们访问他人的主页,并看到许多信息,这一点在最开始引起不小的质疑,但最后,广大青少年热烈地拥抱这一新技术,并纷纷加入其中。

  Q5:运营商管道vs 互联网用户大数据?

  互联网与电信运营商的关系,可以用一个例子来理解:马路上形形色色的车辆可以视为互联网,车上所装的货物、乘客及运输系统可以视为互联网的数据和各种应用, 而车辆所走的高速公路类似于运营商提供的管道。对于互联网而言,它更关心乘客和货物,关心如何把他们安全送到目的地。但从运营商角度而言,它更关心的是道 路是否通畅。从这一点来说,互联网的数据有关乘客和货物,运营商的数据是车流量、道路拥塞的程度。所以,互联网的数据是终端用户数据,运营商的数据是关于 数据的数据。

  什么是关于数据的数据呢?以照片为例,像素点就是数据,而照片大小、类型、照片文件的产生时间与地点,就是数据的数据。

  数据的数据在电信行业意义重大。但其前提是:资源无论到何时都是有限的。管道再宽,也是有限的。那么,从运营商的角度来说,他们希望知道什么呢?还是以车和路来比喻:

  你想知道如何为一些重要的常客开辟一条快速通道吗?那就首先要知道哪些是重要的常客。只有知道了常客的群体,常客的特征,才能有效抓取到他们。

  你想知道哪些重要车辆所属的公司在受竞争对手的高速公路公司吸引,正考虑换路吗?那就要分析这些车辆公司的痛点何在。

  你想知道哪些路段需要特别维护,并派一些常驻维护车辆驻守吗?那就需要分析哪些是容易受损的路段。

  这些对数据分析的需求随着运营技术的前进而提升。在5G 的场景下,运营商需要给大众提供更密集、更快、更个性化的电信服务,由此也就知道用户的使用规律、痛点、服务软肋在哪里。一个如影随形的高端服务并非由无 数服务员在所有用户可能出现的地方等待,而是由一个聪明的服务员在用户需要的时候及时出现。未来的网络技术,如软件定义网络(SDN), 就更需要大数据的支持:SDN 的大脑可以根据网络大数据的深度挖掘所产生的修改,而变得越来越聪明。

  Q6:大数据和云计算、物联网是什么关系?

  如果把整个IT 流程看做一棵树的话, 物联网就是这棵树的叶子和枝干。如果传感器网络所感知的信息是有关“人”的信息,比如用户在网上购买商品的信息,或与人的移动行为和动机相关的信息,那么 它就会有极大的商业价值,对这种数据的需求也会剧增。人的心理因素是世上最复杂的,对应着某种动机和意识的行为、动作也千差万别。人与人的关系组成了无穷 多的维度,而大数据正是这些维度叠加而成的。这些数据不仅包括人本身的语言、文字、动作、视觉数据,更是人与人之间关系的数据。凡是与人相关的活动数据, 都是最值得收集的数据,与之相关的需求则永远存在。

  所以说,关于人的数据才是大数据。物联网只有考虑到人这种广义的“物”,才最有价值。否则,物联网所传输的数据无论从复杂度还是商业目的而言,都极为有限。

  大数据和云计算的关系则在于,大数据的成功应用除了“大”,还有三个必要条件:实时在线、对事件的全面描述以及产生差异化的效果。云计算使得这三个必要条件得以满足。

  首先,云计算使人们可以随时随地使用存储和计算,使大量数据得以及时被采集和分析。手机上APP 应用云的服务就是一个云计算的例子。由于存储和计算成本的降低,云计算起到了实时在线的作用, 从而使得更多的人愿意使用云服务,大数据的雪球由此可以滚动起来。

  云计算的另一个好处是可以实现大规模的数据整合。当今世界并不是为大数据应用准备的,因为大量数据集散落在不同地方,以不同方式存放,其拥有者也是不同的 人。在云计算条件下,很多大规模数据整合的问题都会得到解决。当大家数据放在一起时,数据整合的门槛会大幅降低,因此,大数据也会像核物理的聚变一样, 产生成倍的效果。

  Q7:有了大数据,我们还需要专家吗?

  在大数据时代,专家的一部分作用确实可以被大数据应用所取代。例如,推荐金融产品时,专家需要将特定金融产品推荐给特定客户。这些客户有以下特点:接受这一 推荐的可能性很高,同时,对其他客户的影响力也很强,在接受这一产品的同时,他们很有可能会把产品消息向亲朋好友传播。这一重要的市场工作过去是由专业的 市场部门经理来完成的。然而在大数据应用中,通过对大数据的整合分析得出的大规模推荐模型的推荐效果,是市场部专家的二十倍以上。

  这个例子 说明:首先,在传统商业领域,大数据的功效确实能够取代并超越人的作用。在过去的实践中,市场专家最多能够判别十几维的数据,而数据挖掘模型却可以处理几 万维甚至几千万维的数据;其次,取得这么好的效果需要做许多前期工作,如搭建数据平台、整合不同数据、建立分析预测模型,以及利用模型对未来数据进行分析 决策。这些研究人员具有三个突出特点:一是非常强的驾驭数据管理系统和快速编程的能力,二是和业务专家沟通并理解业务目标及约束能力、分析数据的能力,三 是与模型连接并预测到业务决策的能力。具有这些能力的人,我们称其为数据科学家。

  所以,有了大数据之后,专家依然是需要的,只不过专家在决 策过程中的作用与焦点改变了:专家已经不能独享成功,而一定要和大数据系统共同完成一项复杂的任务。大数据做了以往专家在数据分析领域的工作,但专家对于 专业领域的价值和经验依旧无法取代。建立数据分析模型需要理解业务及业务目标,这仍需要专家的研究和贡献,毕竟外行还是不能领导内行。

  Q8:大数据最适合做什么?

  大数据的发展和其他任何技术的发展路径一样,都需要经过“初始化- 极端膨胀- 较大失望- 理性思考- 成功应用”这个逐渐成熟的过程。在历史上,听起来先进的技术在这个过程中却消失的例子比比皆是。那些成功的技术一定要经得起理性的思考和时间的考验,以找 到它们在实践中最合适的落脚点。

  目前,大数据有一个作用可能还没有被注意到——大数据可以连接大量不同的数据孤岛,使得大数据所覆盖的范围更大更广, 也使得大数据驱动的业务随着这个雪球越滚越大。这样,使用者可以不断得到新的数据, 而用户也能不断得到新的服务。

  从现在大数据成功应用的领域来推断, 应用最多的应该是集中在对过去事件的存储、抽取,以及对不同数据的聚合联通、总结统计上。大数据聚合的重要作用之一是关联不同数据之间发生的个别事件。通 过连通,实时发现事件真相。有了这样的数据就可以做以下分析:某个事件在发生的同时还会发生什么其他事件?如何通过过去数据来预测未来可能发生的事件?如 何能够自动建议,用某种行为来促使某些事件发生,或保证某些事件不发生?等等。

  Q9:大数据不能做什么?

  大数据明显不是万能的,那么,大数据不能做什么呢?

  不能替代有效的商业模式。大数据的应用不能没有商业模式,比如如何在大数据业务中为用户带来价值,使得数据成长和商业增长同步等等。而商业模式显然不是能从大数据本身挖掘的,而是由具备丰富经验的专家来确定的。

  不能没有领导的决断力。在今天的大部分公司中,数据的存在形式无异于一个个孤岛。把这些数据整合起来不仅是个技术活,还有很强的管理因素。往往在同一个公司 的不同部门会有很多竞争,数据就是一个部门的资产。虽然把几种不同数据聚合在一起会很有价值,但能真正做到这一点的公司却会发现,要成功做到数据整合需要 更高级领导的决断力。这也是为什么一些很有前瞻性的公司会专门有一个部门来负责全公司的数据业务。

  不能无目的地挖掘。在大数据的初学者当中,有一个普遍的错觉:当我们有了足够的数据,就可以在其中漫无目的地找到知识。这样的错觉实际上是不科学的。数据挖掘需要约束与目标,否则就是大海捞针,必然是徒劳的。比如,开普勒的成功是建立在以太阳为焦点的椭圆形假设上的。

  不能没有专家。上文提到,大数据在不同应用领域会需要不同的专业知识来指导。而不同的领域, 需要专家们的参与程度也会不同。G o o g l e 实验室有一个在大量图片和视频数据中, 让计算机自动识别猫脸的例子。但这样的深度学习很难推广到其他大数据的领域。因为,成功的先决条件之一是该领域本身具有非常直观的层次结构, 就像图片的构成一样。如果某个领域的数据不具备这样的层次结构, 就很难用同样的方法自动发现规律。而这样一个结构是需要数据科学家来定义的。

  不能一次建模, 终生受益。一个好的模型需要不断更新, 需要终生学习(Lifelong Machine Learning) 来不断改进。例如,在奥巴马的竞选中,科学家建立了一个用户投票模型,来预测选民可能的立场,而这个模型是每周利用更新的数据来更新一次的。

  不擅长做全局性的优化分析。大数据下的主要数据处理方法是“分而治之”,即把大的数据分为小块,一块一块地处理, 然后再把结果合并。这个过程也许要经过很多次,但总的思想是这样分化、合并之后的结果,与全局计算的结果是一样的。但是,还有很多问题是不能这样来解决 的。比如,在下围棋的时候,每一个棋子的目的可能和整个战略都相关,所以分而治之的想法是行不通的。

  不能没有对其语义的标注。目前只能通过 对数据的标识赋予其意义。比如,推荐系统在没有用户反馈的情况下效果很差,而通过现有的心理学模型等加强其效果都无效。一般来说,如果试图从数据中发现知 识,则需要大量的数据标注。往往在一个和用户有直接互动的应用中是可以得到这样的标识数据的。要得到大量的标识数据,不仅需要一个平台来承载有用的应用, 而且需要一个对人、对大数据系统的双赢经济学模型。

  不能仅用有偏的数据。数据一定要全面地反映未来, 对各个方面都有所涉及。如果数据是有偏的,则很难对未来进行有效地判断。

  不能保证包含有效的信息。当数据中的关键特征缺失时,大数据就无法矫正数据与现实之间的偏差,尤其是对于那种与人的心理和行为相关的数据,非常容易产生偏 差。问题的关键是:研究之前,专家并不知道哪些特征是关键特征。比如股价受到“黑天鹅”事件影响,使得无法用大数据预测关键事件发生的概率。这就像一个输 入管道:垃圾输入导致垃圾输出。这也是为什么某些电影的实际票房和从网上评价数据得来的结果是背道而驰的。

  不能保证减小噪音。这是因为在大数据里面,噪音数据的出现往往会以有意义的模式的形式出现,从而骗过知识挖掘系统。这样,大数据可能带来更大的噪音。

  Q10:后大数据时代的技术趋势是什么?

  大数据所带来的变革,只不过是计算机技术为整个人类带来变革当中的一步。计算机从上世纪五十年代起,就在人类历史上开始了潜移默化的革命。这个革命的根本标 志就是人类社会和行为的数字化,以及两个世界(物理世界和虚拟世界)的无缝融合。在这场革命中,人类传统的行业一个接一个被数字化行业取代:从金融系统到 电子商务,从机器人制造到无人驾驶汽车……

  所以,大数据变革与人类历史上其他重要变革是一样的,需要经过资源( 即大数据) 的原始积累,商业和社会服务的差异化,直到人类对虚拟世界的行业、社会进行再规范,以解决数据资源分配。这个历史过程在上一个工业革命(十八世纪机器革 命)时经过了一百多年,但在这一次的革命中,将以更快的形式发生。

 以此推论,由大数据引发的下一代技术很可能是更大规模的、面向数字化行业 的转变, 这使得现在物理世界里的众多传统行业将全面或部分地转向数字世界,进行融合。这个转变也让许多领域以另一种形式出现, 使得许多行业在整体“食物链条”上下游有所改变。到了那一天,医生、科学家和教师等“高大上”行业是否会成为大数据输送原料的数据采集和解释分析结果的 “工人”? 或是成为在大数据驱动下的人工智能机器人的伙伴?这些都引人深思。

来源:《互联网经济》 作者:杨强
阅读记录: read twice
posted @ 2015-01-29 20:24 杰哥 阅读(537) | 评论 (0) | 编辑 收藏
 
[zz] 上载了Intro. to SVMs的术语列表的翻译
     摘要: 发信人: GzLi (笑梨), 信区: DataMining标  题: [合集]上载了Intro. to SVMs的术语列表的翻译发信站: 南京大学小百合站 (Sat May 10 18:51:40 2003)GzLi (笑梨) ...  阅读全文
posted @ 2015-01-15 16:43 杰哥 阅读(478) | 评论 (0) | 编辑 收藏
 
专访美国工程院院士李凯:科研和创新不是一回事
http://news.sciencenet.cn/htmlnews/2015/1/310825.shtm

1977年毕业于吉林大学,1981年毕业于中国科学技术大学研究生院,1986年于耶鲁大学取得博士学位,后于普林斯顿大学任教。

在科研领域,1980年代中,李凯提出了分布式共享内存技术,开创了新的研究方向,成为1990年代国际计算机系统结构领域研究的热点,而他本人也在1998年当选为ACM Fellow;在创新领域,2001年,李凯与合伙人共同创办了Data Domain公司,研制出世界上第一款商用重复数据删除产品,2009年这家公司被EMC以24亿美元收购。因为这次收购,李凯也被媒体冠以“身价最高的华人教授”。由于在科研与创新领域均作出突破性贡献,2012年李凯当选美国工程院院士。

□科研是将金钱转换为知识的过程,而创新则是将知识转换为金钱的过程。

□很多团队转向做“反向工程”或“山寨”产品,却没有创造核心知识产权。

□对政府而言,应该投资在科研上,而不应当扮演风投的角色。

--------------------------------------------------------------------

美国工程院院士、普林斯顿大学讲席教授李凯经常被问到这样一个问题:您认为中国计算机领域的高科技创新如何?

李凯的回答略显直白:“不行。”

他以运转了28年的“863计划”为例:近年来国家每年投入的经费达到20亿美元,但是在高科技创新方面,尤其是在计算机领域,却找不到一个通过承担863项目产生核心知识产权并且占领国际市场的成功商业案例。

“如果从培养人的角度来说,863计划是培养出了一批人才,但是,如果从科研创新的角度而言,我认为它是失败的。”李凯说。他的评价基于三个标准:第一,是否产生颠覆性技术;第二,是否在某个领域的国际市场上占据领头羊地位;第三,是否通过核心知识产权创造出很高的毛利。

有人认为李凯定的标准太高,但李凯不同意:“这是世界工业界公认的标准,不是我的标准。”

去年,为了纪念《中国计算机学会通讯》出版100期,作为中国计算机学会的海外理事,李凯系统梳理了这个思考多年的问题,应邀写了一篇长文《促进中国高科技科研创新的想法》。在这篇文章中,他尖锐地指出当前教育和科研制度的弊端,尤其是科研制度将科研和创新混为一谈。

虽然知道直言不讳地道出这样的结论会让一些人不快,可李凯依然坚持做《皇帝的新衣》里那个说真话的孩子,因为“在科学与工程领域,想要成功,首先要实事求是”。

在学术界与工业界的成功跨界经历,李凯对科研与创新的联系有深入的思考和亲身的体会。

近日,在接受中国青年报记者专访时,李凯再次重申自己的观点:“你不实事求是,就看不清自己的位置;你要想真正前进,发现新知识、创新,必须实事求是,否则就达不到目的。你要衡量做得有多好,要同一领域的评价,而不是政府来评或者领域外的人来评。”

科研和创新不是一回事

过去几年中国一直在增加科研投入。2013年,中国的科研支出达2580亿美元,虽然占GDP的比例还低于欧美、日韩与以色列等发达国家,但科研投入总量已居世界第二,比美国少36%。在高科技产业领域,中国占全世界高科技产品的出口份额从2000年的6.5%一路攀升到2013年的36.5%。与此同时,中国也跃升为世界论文第一大国。

一个不容回避的核心问题是——政府对高科技创新的投入有多大效果?

“如果向国际高科技界询问这个问题,大多数会回答:并不有效。”李凯说,根据科技部披露的数据,2011年中国出口高科技产品份额中,82%由外资企业或合资企业生产。

作为世界第二大经济体,高科技发展是中国从制造大国向基于核心知识产权的高价值经济体转型的关键。一个明显的事实是,相当多的学者已经学会了如何把钱换成“纸”,也就是书面的论文,但是还不太擅长如何把书面的论文,也就是“纸”转换成金钱。

为什么政府在高技术领域的科研经费投入效果很差?为什么论文第一大国掌握不了“纸变钱”的游戏规则?在李凯看来,原因主要在两个方面。第一个方面就是科研与创新合二为一的政策,并对所资助的研究性项目提出不切实际的商业成功要求。

“从表面上来看,科研与创新合二为一的政策对政府和宣传是很有吸引力的,但其实这是混淆了科研与创新的基本概念。”李凯对第一个原因阐释道。

以发明即时贴闻名世界的3M公司的杰弗里·尼科尔森博士曾经对两者给出明确的定义:“科研是将金钱转换为知识的过程”,而“创新则是将知识转换为金钱的过程”。

“如果把金钱转化成金钱,就去华尔街,不需要找科研人员。”李凯直言。

李凯认为,将科研资助与创新资助混为一体所带来的问题显而易见。

第一个明显问题是此举会带来两种激烈的冲突。李凯举例,一个受到资助的团队必须发表新知识来衡量他们的研究是否成功,但同时又要保护他们的知识产权以实现商业成功。这在知识产权保护还较弱的环境下是非常困难的。

另一个冲突是大学会变成营利机构。当一所大学拥有了公司,它将成为产业界的竞争者。这样的利益冲突偏离了大学的主要目标——培养学生。

李凯认为,第二个明显的问题是要在2~3年内既要产出成功的科研成果又要实现成功的创新产品是不现实的。

“即使不考虑发表论文,哪怕是拥有了一支有经验丰富的高素质工程师团队,要想在这么短的时间内开发出在市场上获得成功的高科技产品已经是非常困难的,更何况这支团队是由没有产品开发经验的研究生新生组成的。”李凯说。

这样的后果就是——很多团队转向做“反向工程”或“山寨”产品,却没有创造核心知识产权;很多聪明的研究人员开展影响力不大的研究项目,开发没有市场竞争力的产品;很多发表的论文或者只有一些小的改进,或者根本没有新的想法。

然而,为了继续获得未来的经费支持,不仅每个团队都必须宣传自己的项目是成功的,而且经费管理机构也必须宣传他们资助的大多数项目是成功的。

“也许这就是为什么‘863计划’资助了28年后,所资助的项目仍然是在‘追赶’而不是做真正的创新。”李凯说。

政府不要扮演风投的角色

对科研进行5年规划的方式,导致资助的研究方向与高科技领域的快速变化出现大量脱节,是李凯认为的导致政府对科研高投入却效率不高的第二个原因。

也曾经有国内的科技部门主管官员向李凯咨询:我们要做5年规划,您在信息科学方面有什么建议?

李凯直言:脱离5年计划。“针对未来5年设立的项目,大多数方向很快会过时,这会在国家层面上造成时间和金钱的极大浪费。”他实事求是地告诉这位官员,“任何人不知道信息技术类会发生什么变化。你们不如拿一部分钱支持5年计划,更大的一部分钱支持不是5年计划的项目。这样支持的项目才有可能产生推动型的科研成果。”

“当政府经费管理机构确定科研与创新方向时,他们认为这些方向将会对中国经济有利。但是,因为没有产品开发与管理的经验,他们也不了解市场需求。同样,一些权威科学家建议设立某些方向,多数科学家自己也没有创业经历,也不了解市场需求。”李凯说。

在李凯看来,其中最大的问题是:“计划的决策大多是由技术驱动的,而那些大型成功企业的决策是由市场主导的。”

美国也曾经有过这方面失败的案例。美国政府设立一个叫“SBIR”的计划用来为技术转化提供种子资金支持。这个计划年度预算相当大,但成功的案例很少。科研与创新混为一体的一个弊端是“要求政府经费资助机构充当风险投资公司角色,但他们并没有遴选创业公司的经验”。

李凯认为,对政府而言,“应该投资在科研上,而不应当扮演风投的角色。”

科研与创新分离的优点大于缺点

当然,科研与创新分离也有缺点。资助研究的政府机构在短期内无法看到研究成果商业化和创造就业机会的结果。但是,李凯说,科研与创新分离的优点大于缺点。

首先,这能鼓励研究人员专注于影响力巨大的新技术新发现,而不必担心商业化;其次,将科研与创新分离,创业人员与投资者也更可能成功;另外,因为他们没有短期成果的压力,政府的经费资助机构拥有更多的资源来资助有大影响力的想法和潜在的颠覆性想法。

李凯个人经历就验证了这一点。2001年,他选择“no paid leave”(即我们常说的停薪留职),暂时离开普林斯顿大学,一个学生也没带,就来到位于西海岸的硅谷创业。因为知道自己擅长技术而不擅长管理,所以他与几个合伙人从一开始就积极寻找了一名合适的CEO,并在摸清市场需求后,再找一批很好的人来做技术。

公司刚刚起步的时候,李凯还记得,做一个小的演示,用五千到一万行程序代码就可以解决了;2004年,第一个产品推出来的时候,需要30多万行程序代码;2011年,一个产品的程序已经是500多万行代码了。

“谁来写两个数量级中间的东西?”李凯问,“只能是找最好的人。”而早在2004年,李凯公司的创新已经“颠覆了这个市场”。

“如果我当时还坚持在普林斯顿大学,一边做科研,一边做公司搞创新,就是我们常说的脚踩两只船:可能一艘船比较快,就会掉到河里了;如果两边都做,只能让两边走得都不快。”李凯说。

慢慢来不是创新的态度

要取得科研和创新的成功,也必须改革现有的衡量标准。

李凯到国内的一些学校访问,发现他们在介绍自己的科研成绩时喜欢用同一个指标:科研经费。

一所高校计算机学院的院长在介绍学院发展时说:现在院里很好,科研经费超过亿元。

李凯忍不住问:你最主要的科研成果是什么?对方说不出来。李凯直言:我认为拿的钱越少,做出的成果越多越好。研究与创业类似,都应该追求用最少的钱做出有价值的工作,在硅谷一个只会拉风投而不能把企业做大的CEO没人愿意雇佣。他们说,你说的很对。只过了5分钟,对方又开始说某位教授做得有多好,拿了多少经费。

文章也是国内高校介绍科研成果时一个常常挂在口头的指标。李凯忍不住自嘲:如果按照现在的规定,博士期间只发表了一篇文章的自己根本没有办法毕业。

李凯的建议是:政府不要设定统一的衡量标准来约束所有的大学和研究机构,应该下放权力给大学和研究所,要相信他们的判断力,并让他们自行制定合适的衡量标准。

李凯有些着急:“863计划执行到现在已经有28年了,你可以说中国的事情要慢慢来,可是还需要多慢?慢慢来的态度就不是创新的,创新就要颠覆以前的事情。成功不是在一个受保护的市场里,而是在国际市场上。”

“我相信如果这样的改革能实施,我们将会看到高校与研究机构培养出大批有天赋的科研人员和有才能的企业家。”李凯说。(原标题:创新:政府不应扮演风投的角色——专访美国工程院院士李凯)
阅读记录: read twice

posted @ 2015-01-10 21:19 杰哥 阅读(286) | 评论 (0) | 编辑 收藏
 
加大伯克利分校著名科学家:大数据的“冬天”即将到来
http://mp.weixin.qq.com/s?__biz=MjM5NzM5ODQ4Mg==&mid=202369542&idx=1&sn=9fef36f14033872fda5f0ed2fe1b6a24&scene=2&from=timeline&isappinstalled=0#rd

今年以来,“大数据技术”和“大数据分析”明显显得更加的“火热”。然而,鲜有理性的声音存在。美国顶尖公立研究型大学、世界上最负盛名且最顶尖的公立大学——加州大学伯克利分校,其Pehong Chen Distinguished Professor(校陈丕宏杰出教授)、美国科学院院士、美国工程院院士、美国艺术与科学院院士、ACM会士、IEEE会士、AAAS会士、AAAI会士、ASA会士、IMS会士、机器学习领域国际著名学者Michael I. Jordan教授近日接受IEEE《频谱》杂志采访时,在Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts一文中指出,现在大家炒作大数据过了头、大数据可能只是一场“空欢喜”、大数据的“冬天”即将到来、大数据要在几十年之后才能真正有用、大家要能真正沉下心来做完整的工程统计分析等。以下是对访谈全文的编译。

IEEE S:现在我们不妨将话题转到大数据上。您的言论中始终认为当前对大数据的执着里有把“黄铜当金子”的成分。比如您就曾预测公众即将经历一场大数据项目带来虚警的“流行病”。


Michael I. Jordan:当你有了大量的数据之后,你就会想提出更多的假设。而一旦提出假设的速度超出了数据的统计内涵,那么你的推断里有很多都可能是错误的。它们也许就只是“白噪声”。


IEEE S:为什么会这样?


Michael I. Jordan:在传统的数据库里,你有比方说几千个人的数据。你不妨把他们看成数据库中的行,而列就对应了这些人的属性:年龄、身高、体重、收入等等。


现在,这些列的组合数目是以指数的速度随着列数增加的。因此如果你有非常非常多的列(现代的数据库里的确如此),那么对每个人你都会得到数以百万计的特性。


假如我现在开始查看这些属性的所有组合——你是否在北京生活,是否骑自行车上班,是否从事某项工作,是否处于某个特定的年龄——那么你得某种疾病或者你喜欢我的广告的概率是多少呢?我将得到数以百万计的属性组合,并且这些组合的数目是指数级别的;它会达到宇宙中的原子数目的规模。


这些就是我想要考虑的假设。在任何一个特定的数据库里,我都能找到这些列的某种组合来完美地预测任何结果,哪怕只是随机地挑选。如果我只是查看所有发生过心梗的人,把他们同所有未发生过心梗的人作比较,并寻找可预测心脏病的列的组合,我就的确能够找到列的各种各样的疑似组合,这是因为它们数量庞大。


这就好像让好几十亿只猴子在那儿打字,总有一个会写出莎士比亚。


IEEE S:您认为大数据的这一面目前没有得到重视吗?


Michael I. Jordan:当然。


IEEE S:有哪些东西是人们承诺大数据能带来的而您认为其实是无法兑现的?


Michael I. Jordan:我认为数据分析能够按某些质量标准发布一些推断,然而我们必须交代清楚这些质量标准到底是什么样的。我们必须在我们所有的预测上加上误差线,而这正是在目前很多机器学习文献中所欠缺的。


IEEE S:如果处理数据的人并不理会您的建议会发生什么情况呢?


Michael I. Jordan:我喜欢使用“造桥”来做类比。假设我不依从任何准则,毫无科学根据地建造了上千座桥梁,那么它们有很多都会崩塌,造成巨大的灾难。与此类似,假设人们使用数据并根据这些数据做出推断而完全没有考虑误差线、数据异构、噪声数据、采样模式,以及所有那些作为一个工程师和统计学家必须慎重对待的事情,他们就会做出很多的预测,并且有很大可能会偶尔解决一些真正有意思的问题。但是时不时地还会做出一些灾难性的糟糕决定。这其中的差别你事先是不会知道的。你就只能做出预测然后祈祷一切顺利。


这就是我们的现状。许多人在(用大数据)做一些事情,期望它们能有用,有时它们确实起

作用了。从某种意义上讲,这么做也无可指摘,这本就是探索性的工作。但是就整个社会而言,不能放任这种情况发展,我们不能只是“但愿”它们有用,到头来我们还是要给出切实的保证。


土木工程师最终学会了如何建造能够持久屹立的桥梁。那么说到大数据,我猜可能还要过几十年才能形成一个真正的工程学方法,以便你能够有一定程度的保证说,你正在公布合理的答案并且在对出错的可能性进行量化分析。


IEEE S:我们现在有提供那些误差线的工具吗?


Michael I. Jordan:我们正在着手把这门工程科学组装起来。我们有许多想法,它们来自于数百年的统计学和计算机科学的研究,我们正致力于把它们融合到一起,让它们具有可扩展性。过去30年间涌现了许多关于如何控制所谓的“族群误差”的想法,也就是在有多个假设的情况下想知道误差率。但这些想法仍有许多还没有从实际计算的角度进行研究。解决这些问题是很难的数学和工程课题,并且需要时间。


这不是一两年的问题,而是需要几十年才能做好。我们仍旧在学习如何用好大数据。


IEEE S:在阅读关于大数据和医疗保健的报道时,差不多每三篇就有一篇在谈我们将几乎完全自动地靠着从每个人身上(尤其是通过“云”)收集数据来获得令人惊叹的临床诊断的发现。


Michael I. Jordan:对这种事,你既不能全盘怀疑也不能彻底乐观,应该就在这两个极端之间。但是如果你把某些数据分析中得到的假设全部列出来,那么总有一部分是有用的,你只是不知道是哪一部分。


所以如果你随便挑出几条来——比如说“吃燕麦麸就不会得胃癌”之类的,因为从数据上看似乎如此,那么你会有一些走运的机会。数据是能提供某种支持的。


但是这还是在赌博,除非你真的做了完整的工程统计分析来给出误差线并且量化错误率。虽

然它比没有数据就直接赌博要好些,那是纯粹的轮盘赌。而这是一种部分的轮盘赌。


IEEE S:如果我们继续在您描述的那条(错误的)轨迹上前进,大数据将会面对怎样的不利后果?


Michael I. Jordan:最主要的就会是一次“大数据的冬天”(暗指20 世纪七八十年代的“人工智能的冬天”)。在一场泡沫之后——人们已经投了钱,一大批公司作了承诺却又拿不出严肃的分析结果——泡沫会破碎。并且很快,在2~5 年间,人们就会说“大数据来了又走了,它死了,并且是错的。”我预言的是那样。


当炒作过了头的时候,这就是在那些循环往复之中会发生的事情。这些炒作或者说断言,既不是基于对真正的问题是什么的理解,也不是基于解决问题可能要好几十年或者说我们会取得逐步进展的理解,而是基于一种我们还没有在技术进步中取得关键性跨越的理解。在此之后可能会有一个时期,获取资源来做数据分析变得十分困难。(当然)这个领域会继续发展,因为它是真实的也是有实际需求的。不过这种反弹势必会对一大批重要的研究项目造成不利影响。


微信号:wwwDVBCNcom

阅读记录: read twice
posted @ 2014-12-17 19:01 杰哥 阅读(311) | 评论 (0) | 编辑 收藏
 
【邢波】机器学习需多元探索,中国尚缺原创引领精神
http://mp.weixin.qq.com/s?__biz=MzA4MjE5NjAzMg==&mid=202277145&idx=1&sn=45e0b167916596add40b0c34b712ae22&3rd=MzA3MDU4NTYzMw==&scene=6#rd

【静.沙龙】推出【主题分享】,围绕大数据、人工智能、前沿科技与人文等主题进行微信群的在线交流与探讨。

【静.沙龙主题分享】第18期 机器学习需多元探索,中国尚缺原创,引领精神


主讲嘉宾:邢波 Eric P. Xing

主持人:中国经济网经营顾问 杨静

嘉宾介绍:

【邢波Eric P. Xing】清华大学物理学、生物学本科;美国新泽西州立大学分子生物学与生物化学博士;美国加州大学伯克利分校(UC,Berkeley)计算机科学博士;现任美国卡耐基梅隆大学(CMU)计算机系教授,2014年国际机器学习大会(ICML)主席。美国国防部高级研究计划局(DARPA)信息科学与技术顾问组成员。(他在中国大数据技术大会上的报告请参考阅读原文链接)

Professor of Carnegie Mellon University Program Chair of ICML2014

Dr. Eric Xing is a Professor of Machine Learning in the Schoolof Computer Science at Carnegie Mellon University. His principal researchinterests lie in the development of machine learning and statisticalmethodology; especially for solving problems involving automated learning,reasoning, and decision-making in high-dimensional, multimodal, and dynamicpossible worlds in social and biological systems. Professor Xing received aPh.D. in Molecular Biology from Rutgers University, and another Ph.D. inComputer Science from UC Berkeley.


【杨静lillian】这次您受邀来中国参加大数据技术大会,在您看来,中国大数据相关技术和生态发展到了什么水平?与美国的差距主要体现在哪些方面?

【邢波Eric P. Xing】中国的大数据技术与题目跟进国外趋势还做得不错。但在原创性部分有欠缺。也许由于工程性,技术性上的原创工作通常不吸引眼球且风险极大这样的特点,所以没人愿意啃硬骨头。整体不算太差,但缺少领军人物,和领先的理念。还有在导向上,倾向于显著的效益和快的结果,但对于学术本身的追求不是很强烈。如果效果不是立竿见影,愿意碰的人就少。大部分人都这样,就是趋向于平庸。整个生态系统上看,中国大数据发展水平与欧洲、日本比并不差,公众的认知也热烈。整个环境还蛮好。与中国学生有点像,群体不见得差,但缺少特别杰出的领袖,和有胆识的开拓者。


人工智能的目标没有上限,不应以人脑为模板

【杨静lillian】您说过深度学习只是实现人工智能目标的一种手段,那么在您看来,人工智能的目标到底是什么?抛开《奇点临近》的科学性,您认为机器智能总体超越人类这个目标在2050年前后有可能实现么?或者说在2050年前后,世界的控制权会不会由人工智能主导?

【邢波 Eric P. Xing】人工智能的目标其实是没有上限的。人工智能的目标并不是达到动物或人类本身的智力水平,而是在可严格测量评估的范围内能否达到我们对于具体功能上的期待。例如用多少机器、多长时间能达成多少具体任务?(这里通常不包含抽象,或非客观任务,比如情绪,感情等。)人的智力不好评价,尤其标准、功能、结果及其多元,很多不是人工智能追求的目标。科幻家的浪漫幻想和科学家的严格工作是有区分的。大部分计算机科学家完成的工作可能不那么让人惊叹,但很多任务已经改变世界。例如,飞机自动驾驶装置可能没有人的智能,但它完成飞行的任务,却比人类驾驶员好。

再比如弹钢琴,机器也可以弹钢琴,精确程度肯定超过人。但是否有必要发明机器人代替人弹钢琴来上台表演,或机器人指挥家甚至机器人乐队?从这个角度看,我个人没有动力或必要去发明机器人来弹钢琴,至少我不认为应该去比较机器和人类钢琴家。钢琴大师如霍洛维茨,鲁宾斯坦是不能被机器替代的、比较的,虽然他们也弹错音。一个武术大师,如果现在用枪来和他比武力,把他打死,有意义吗?那么标准是什么?我认为我们应该去想和做一些更有意义和价值的事情。

关于2050年的未来预测,如果非要比较的话,我认为人工智能不会达到超越人类的水平,科学狂人或科幻家也许喜欢这样预测未来,博得眼球,但科学家需要脚踏实地做有意义的工作。所谓奇点是根本不可能的。未来学家这样去臆测也许是他们的工作;政治家、企业家、实践学家向这个方向去推动则是缺乏理性、责任和常识;而科学家和技术人员去应和,鼓吹这些则是动机可疑了?

人工智能脱离人类掌控?这种可能性不能排除。但要是咬文嚼字的话,如果是计算机的超级进步涌现出智能,以至脱离人类掌控而自行其道,那还何谓“人工”?这就变成“自然智能”。我认为“世界的控制权会不会由人工智能主导”这类题目定义就不严肃,无法也无益做科学讨论,也不能被科学预见。


【Ning】能否通俗科普一下机器学习的几个大的技术方向,和它们在实践中可能的应用。

【邢波 Eric P. Xing】很难科普的讲,不使用专业术语。机器学习不过是应用数学方法体系和计算实践的一个结合,包罗万象。比如图模型(深度学习就是其中一种),核(kernel)方法,谱(spectral)方法,贝叶斯方法,非参数方法,优化、稀疏、结构等等。我在CMU的机器学习课和图模型课对此有系统全面的讲解。

机器学习在语音、图形,机器翻译、金融,商业,机器人,自动控制方面有广泛的应用。很多自然科学领域,例如进化分析,用DNA数据找生物的祖先(属于统计遗传的问题),需要建模,做一个算法去推导,数学形式和求解过程与机器学习的方法论没有区别。一个成熟的,优秀的机器学习学者是应被问题、兴趣和结果的价值去激励、推动,而不是画地为牢,被名词所约束。我本人在CMU的团队,就既可以做机器学习核心理论、算法,也做计算机视觉、自然语言处理,社会网络、计算生物学,遗传学等等应用,还做操作系统设计,因为底层的基本法则都是相通的。

【李志飞】大数据,深度学习,高性能计算带来的机器学习红利是不是差不多到头了?学术界有什么新的突破性或潜在突破性的新算法或原理可以把机器学习的实际应用性能再次大幅提升?

【邢波 Eric P. Xing】大数据、深度学习、高性能计算只是接触了机器学习的表层,远远不到收获红利的时候,还要接着往下做。算法的更新和变化还没有深挖,很多潜力,空间还很大。现在还根本没做出像样的东西。另外我要强调,机器学习的所谓红利,远远不仅靠“大数据、深度学习、高性能计算”带来。举个例子,请对比谷歌和百度的搜索质量(即使都用中文),我想即使百度自己的搜索团队也清楚要靠什么来追赶谷歌。

【Ning】世界各国在机器学习方面的研究实力如何?从科普的角度来看,人的智能和人工智能是在两个平行的世界发展么?

【邢波 Eric P. Xing】不太愿意评价同行的水平。人的智能和人工智能可以平行,也可以交互。

【杨静lillian】您既是计算机专家,还是生物学博士,在您看来,如果以未来世界整体的智能水平作为标准,是基因工程突破的可能性大,还是人工智能领域大,为什么?

【邢波 Eric P. Xing】基因工程其实突破很多。在美国和全球转基因的食品也有很多。胰岛素等药物也是通过转基因菌株来生产,而不是化学合成。诊断胎儿遗传缺陷的主要手段也基于基因工程技术。但是舆论风向在变,也不理性。例如我小时候读的《小灵通看未来》里,“大瓜子”等神奇食品现在已经通过基因技术实现。从技术上看,我们已经实现了这个需要,但公众是否接受,是个问题。科学家要对自己的责任有所界定。例如造出原子弹,科学家负责设计制造,但怎么用是社会的事。

人工智能领域也已经有很多应用型的成果,但也还有很大空间。人工智能就是要去达到功能性的目标,有很多事情可以用它去达成,但这里不见得包括感情思考。人的乐趣就是感情和思考,如果让机器代替人思考,我认为没有这个需要。

靠基因工程提升人的智能基本不可能,人的成就也未必与基因完全相关,例如冯.诺依曼,很大程度是后天环境教育形成的。基因只是必要条件,而非充分条件。作为一个生物学博士,我反对用基因工程改变人的智能的做法,认为这很邪恶。科学家应该对自然法则或上帝有所敬畏。在西方,优生学是不能提的,因为它违反了人本主义的原则和人文人权的理念。我个人认为这个题目在科学道德上越界了,是不能想象的。

【杨静lillian】您说过美国的大脑计划雷声大雨点小,请问欧盟的大脑工程您怎么看,会对人工智能发展起到促动作用么?或者说,人工智能研究是否应以人的大脑为模型?

【邢波 Eric P. Xing】欧洲大脑工程的争议很大,包括目标和经费分配。但这个目标也提升了社会和公众的对于科学的关注,工程的目的不用过于纠结。这个项目就是启发式的,培养人才,培养科学实力的种子项目。

大脑工程,无论欧洲和美国,对人工智能发展没有直接的促进作用。以仿生学来解释人工智能工程上的进步,至少在学术上不是一个精确和可执行的手段,甚至是歧路。只是用于教育公众,或者通俗解释比较艰深的科学原则。

人工智能不必也不应以人脑为模型。就像飞机和鸟的问题,两者原理手段完全不同。人工智能应该有自己的解决办法,为什么要用人脑的模型来限制学科的发展?其实有无数种路径来解决问题,为什么只用人脑这一种模板?


机器学习领域应多元探索,巨大潜力与空间待挖掘

【李志飞】更正一下我的问题: 现有的机器学习算法如深度学习在利用大数据和高性能计算所带来的红利是不是遇到瓶颈了?(至少我所在的机器翻译领域是这样) 接下来会有什么新机器学习算法或原理会把大数据和高性能计算再次充分利用以大幅提升应用的性能?我觉得如果机器学习领域想在应用领域如机器翻译产生更大的影响,需要有更多人做更多对应用领域的教育和培训,或者是自己跨界直接把理论研究跟应用实践结合起来

【邢波 Eric P. Xing】机器学习的算法有几百种,但是目前在深度学习领域基本没有被应用。尝试的空间还很大,而且无需局限在深度学习下。一方面机器学习学者需要跨出自己的圈子去接触实际,另一方面应用人士也要积极学习,掌握使用发展新理论。


【杨静lillian】您认为谷歌是全球最具领导性的人工智能公司么?您预测人工智能技术会在哪几个领域得到最广泛的应用?人工智能产业会像互联网领域一样出现垄断么?

【邢波 Eric P. Xing】谷歌是最具有领导性的IT公司。世界上没有人工智能公司,公司不能用技术手段或目标定义名称和性质。人工智能是一个目标,而不是具体的一些手段。所以有一些界定是不严肃的。关于应用领域前面已经谈过了。

【杨静lillian】您曾经比喻,中国的人工智能领域里,有皇帝和大臣,您怎么判断中国人工智能产业的发展水平和发展方向?最想提出的忠告是什么?

【邢波 Eric P. Xing】中国整个IT领域,以至科学界,应该百花齐放,有的观点占领了过多的话语权,别的观点就得不到尊重。目前业界形成一边倒的局面,媒体的极化现象比较严重。建议媒体应该平衡报道。中国目前深度学习话语权比较大,没人敢批评,或者其他研究领域的空间被压缩。这种研究空间的压缩对机器学习整个领域的发展是有害的。学界也存在有人山中装虎称王,山外实际是猫的现象。坦率的说,目前中国国内还没有世界上有卓越影响的重量级人工智能学者,和数据科学学者。中国需要更多说实话,戳皇帝新衣的小孩,而不是吹捧的大臣、百姓和裸奔的皇帝。不要等到潮水退去,才让大家看到谁在裸奔。

现在一些舆论以深度学习绑架整个机器学习和人工智能。这种对深度学习或以前以后某一种方法的盲目追捧,到处套用,甚至上升到公司、国家战略,而不是低调认真研究其原理、算法、适用性和其它方法,将很快造成这类方法再次冷却和空洞化,对这些方法本身有害。行外人物、媒体、走穴者(比如最近在太庙高谈阔论之流)对此的忽悠是很不负责的,因为他们到时可以套了钱、名,轻松转身,而研发人员投入的时间、精力和机会成本他们是不会在乎的。美国NSF、军方和非企业研究机构与神经计算保持距离是有深刻科学原因的,而国内从民到官这样的发烧,还什么弯道超车,非常令人怀疑后面的动机和推手。


【杨静lillian】确实如您所说,现在大多数中国企业或学术机构,被一个大问题困扰。就是缺乏大数据源,或者缺乏大数据分析工具,那么怎样才能搭上大数据的时代列车呢?

【邢波 Eric P. Xing】首先我没有那样说过,我的看法其实相反。即使给那些企业提供了大数据,他们真会玩么?这有点叶公好龙,作为一个严肃的研究,应该把工具造出来。得先有好的技术,别人才会把数据提供给你。有时小数据都没做好,又开始要大数据,没人会给。可以用模拟,更可以自己写爬网器(crawler)自己在网上抓。例如我们的实验室,学生就可以自己去找数据源。研究者的心态有时不正确,好像社会都需要供给他,自己戴白手套。其实人人都可以搭上“大数据”这个列车,但需要自己去勤奋积极努力。

【杨静lillian】Petuum开源技术系统会成为一种大数据处理的有效工具么?可以取代Spark?

【邢波 Eric P. Xing】希望如此。更客观地说,不是取代。是解决不同的问题,有很好的共生、互补关系。


中国学术界的原创性待提高,缺乏灯塔型领军人物

【刘成林】@杨静lillian问题提的好!期待详细报道。另外我加一个问题,请Eric给中国人工智能学术界提点建议,如何选择研究课题和如何深入下去。

【邢波 Eric P. Xing】希望中国人工智能学术界要对机器学习、统计学习的大局有所掌控,全面判断和寻找,尚未解决的难题。这需要很多人静下来,慢下来,多读,多想。而不是跟风或被热点裹挟。得有足够的耐心,屏蔽环境的影响和压力。在技术上得重视原创性,如果只把学术看成是一个短时期的比赛,价值就不大。得找有相当难度,而自己有独特资源的方向,就保证了思想的原创性和资源的独特性。要分析清楚自己的优势。

例如我们做的Petuum,很多人就不敢碰。我们开始时甚至都不懂操作系统,从头学;我们放缓了步子,两年近十人只出两篇文章。但不尝试怎么知道?得给自己空间。

【张宝峰】邢老师提到过在机器学习领域,美国可以分成几个大的分支,比如Jordan

算一个,能否再详细的阐述还有哪些其他分支和流派?

【邢波 Eric P. Xing】这算八卦。原来有几个流派,但现在流派的界限已经非常模糊了。

【刘挺-哈工大】您认为哪些方向或组织有希望出现领军人物?

【邢波 Eric P. Xing】国内的同行思路有些短板,所以研究领域比较割裂。上层不够高,下层也不够深,横向也不宽,因此扎根不够,影响有限。所以比较缺憾,体现为很多割裂的领域。

在中国的企业界和学术界哪里会出现领军人物?这个问题我认为:对什么叫“领军人物”国内的同行的定义还相当肤浅,功利。除了商业上的成功,或者学术上获奖,这些显性成就,还需要有另外的维度。例如从另外一个角度,具有个人魅力,他的思想、理论、人格被很多人追随和推崇的,有众多门生甚至超越自己的,就没有。中国的研究者不善于建立自己的体系,去打入一个未知的境界,做一个灯塔型的人物。这种人物在中国特别少,基本上没有。

在美国M.Jordan就是这样的人物,就有灯塔型的效应,被众人或学术界效法,敬佩,和追随,包括他的反对者。他也不是中国最典型的最年轻教授等成功人物,而是大器晚成,到了45岁才开始发扬光大,上新台阶。但他的做为人的魅力(会五国语言,年轻时弹琴挣钱,平时风趣博学);他的勤奋自律(到Berkeley后正教授了还和我们一起在课堂听课,从头学统计,优化,到现在还天天读文献);他的工作和生活的平衡(现在自己组乐队,和孩子玩儿);他的众多学生的成就(很多方向和他大不相同,甚至相对);他的严谨,严肃的学风;和他的洞察力。这些都是除了学术成就之外他成为领军人物的要素。我们国内知识分子接近这个境界的太少了。不要说学术上的差距,就连上餐桌品酒、懂菜,说话写作遣词造句的造诣都差不少。所以,先不要急出领军人物;先从文化上培育土壤,培育认真、一丝不苟的习惯和精神,培育热爱教学、热爱学生的责任;培育洁身自好、玉树临风的气质;注重细节、小节、修养,再由小至大、由士及贤、由贤入圣。在这个境界上,学问就变成一种乐趣了,就可以做出彩了。

【张宝峰】欢迎回国,把Pleuum变成实际产业标准。

【邢波 Eric P. Xing】不是没有可能,但也需要好的平台和环境、机缘。这次回国参会,很兴奋的是,学术界和产业界都对机器学习的技术有很大的热情,也有信念去获取成功,相当积极。我个人的观点,通过交流,收获很大。期望这种交流继续,也期待国内的学界、媒体、企业能够共同促进产业生态的发展,利益多样化。可以是金钱的成功,也可以是原创性的增长。而不是被某一个目标来一统天下。

如果回国发展,应该有更多商业上的机会。但是国内的起点低,有些规则两国不一样。现在人生的目标不是钱,而是对乐趣的满足,以及服务社会。实现自我的价值,也让家人,朋友,学生,师长,同事开心。

下个月还有机会回国,到时也期待与大家继续交流互动。非常感谢@杨静lillian 提供这个和大家交流的机会。也钦佩她专业敬业。这次结识很多朋友,后会有期!

【李志飞】以前看您的论文时觉得比较理论化,而从应用研究者的角度很难快速的知道怎么去实用到自己领域中。以后论文是不是都加一个session, 指导性的讲讲怎么应用到相关领域。当然这是假设该论文有实用价值,有很多机器学习论文都是没有的

【邢波 Eric P. Xing】我自己的论文,相当一部分是非常适于应用的(比如我们在ACL,EMNLP,ISMB等的获奖论文,我们在CVPR上的很多工作,和最近我们Petuum的工作。)你要是去看机器学习专业论文,那就应该谦卑的去服从他们的规则。就像我本人看纯数学家的论文需要花几个月去搞懂背景知识;我看生物、语言学文章也需自己从他们模糊的不精确的表述中提炼严格的数学形式一样。我认为这是我作为读者的责任和乐趣。每一个成熟的研究者和工程师应该有能力从论文中读出自己能用的东西。

【Ning】很赞Eric 回答问题的思路。他是典型的厚积薄发。@杨静lillian 沙龙很有范儿! 这些讨论很有启发性。

【静点评】感谢邢波教授此次回国特地安排时间与群友沟通分享。虽然他平时在群里讨论或行文时言辞犀利,但见到他本人时,却发现他是一个风度翩翩、玉树临风、儒雅渊博的“中国式”学者,甚至比许多中国本土学者还有“中国风”——邢教授经常围着一条有范儿的围巾,看起来像是从电影里走出来的民国时期名教授。他的许多观点得到了大家的赞许,例如知识分子要有自己的独立思考,不宜盲目跟风,或者仅仅追求名利以及短期利益,也应该有长远眼光和缜密判断。在美国,科学家并不像中国这样,是公众舆论的中心,但也让他们可以安心学术,少受环境干扰。针对国内一个普遍的问题,如有庞大数据和计算能力支撑的大企业才能玩转大数据,邢波教授他们研发了开源的Pleuum系统,让更多开发者有更多机会搭上大数据的列车。

邢波教授感叹中国业界缺乏灯塔级的领军人物,但国内学术界和产业界都对机器学习的技术有很大的热情,获取成功的动机强烈,也意味着机遇。他在美国机器学习领域已经成为了主流学术的中坚,他的学生们也纷纷在学界业界成为新一代领袖,我们也期待他的研发成果与学术经验能更给中国业界更多启迪与反思。相信这类线上线下的交流,能为中国大数据和人工智能业界创造更多双赢空间。


作者: 杨静 微信公众号:杨静lillian 转载请注明
阅读记录: read once

posted @ 2014-12-17 09:23 杰哥 阅读(688) | 评论 (0) | 编辑 收藏
 
The matlab code to normalize each feature of training data and test data to unit mean and zero variance
    %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
    fea_Train = fea(:,trainIdx);
    gnd_Train = gnd(trainIdx);
    fea_Test = fea(:,testIdx);
    gnd_Test = gnd(testIdx);
    train_size = length(gnd_Train);
    test_size  = length(gnd_Test);
   
    %%%%%%%%%%%%%%%%%%%%%%%Normalization begins%%%%%%%%%%%%%%%%%%%%%%%
    train_data_std = std(fea_Train');
    train_data_mean = mean(fea_Train');
    train_data_std_matrix = ones(train_size,dim)*diag(train_data_std);
    train_data_std_matrix(train_data_std_matrix==0)=1;
    train_data_mean_matrix = ones(train_size,dim)*diag(train_data_mean);
    train_scale_data = (fea_Train' - train_data_mean_matrix)./train_data_std_matrix;
    clear train_data_mean_matrix train_data_std_matrix;
    fea_Train = train_scale_data';
    clear train_scale_data;
   
    test_data_std_matrix = ones(test_size,dim)*diag(train_data_std);
    test_data_mean_matrix = ones(test_size,dim)*diag(train_data_mean);
    clear train_data_mean train_data_std;
    test_data = (fea_Test' - test_data_mean_matrix)./test_data_std_matrix;
    clear test_data_std_matrix test_data_mean_matrix;
    fea_Test = test_data';
    clear test_data;
    %%%%%%%%%%%%%%%%%%%%%%%Normalization ends%%%%%%%%%%%%%%%%%%%%%%%
posted @ 2014-12-05 12:32 杰哥 阅读(455) | 评论 (0) | 编辑 收藏
 
[zz] Facebook人工智能实验室主任反对奇点理论
http://mp.weixin.qq.com/s?__biz=MjM5OTExNDI0Nw==&mid=200268130&idx=1&sn=67f49e08564d1314d369f56276e8daf7&scene=1&from=groupmessage&isappinstalled=0#rd

对话Facebook人工智能实验室主任、深度学习专家Yann LeCun

Yann LeCun(燕乐存),Facebook人工智能实验室主任,NYU数据科学中心创始人,计算机科学、神经科学、电子电气科学教授。他1983年在ESIEE获得电气工程学位,1987年在UPMC获得计算机博士学位。在多伦多大学做了一段时间博士后,于1988年加入位于新泽西州的AT&T贝尔实验室。1996年他成为图像处理研究部的主任,2003年,在普林斯顿NEC研究院经历短暂的Fellow生活以后,加入NYU。2013年,他被Facebook聘请为人工智能实验室主任,同时仍在NYU兼职。

他目前的研究兴趣在于:机器学习,计算机认知,移动机器人以及计算神经学。在这些领域他发表了180余篇论文和图书,涉及主题有神经网络、手写体识别、图像处理和压缩以及计算机认知的专用电路和架构。他在贝尔实验室研发的字符识别技术,被全世界多家银行用于识别支票,早在2000年左右,该程序识别了全美10%-20%的支票。他发明的图片压缩技术DjVu,被数百家网站和出版商采纳,拥有上百万用户。他研发的一个识别方法,卷积网络,是AT&T、Google、微软、NEC、IBM、百度以及Facebook等公司在文档识别,人机交互,图片标注、语音识别和视频分析等等技术的奠基石。

LeCun教授是IJCV、PAMI和IEEE Trans的审稿人。CVPR06的程序主席、ICLR2013和2014的主席。他是IPAM(Institute for Pure and Applied Mathematics)的顾问。他是2014年IEEE神经网络领军人物奖获得者。

本文的采访者是另一位大牛Gregory Piatetsky,KDD会议创始人,是1989,1991和1993年KDD的主席,SIGKDD第一个服务奖章获得者,KDnuggets网站和周刊的维护者。

本文主要内容有,是什么给深度学习带来了今日如此令世人瞩目的成绩,Yann Lecun和Vapnik关于神经网络和核函数(支持向量机)的争论,以及Facebook理想中的AI是什么样子的。

以下为采访原文:

问:人工神经网络的研究已经有五十多年了,但是最近才有非常令人瞩目的结果,在诸如语音和图像识别这些比较难的问题上,是什么因素让深度学习网络胜出了呢?数据?算法?硬件?

答:虽然大部分人的感觉是人工神经网络最近几年才迅速崛起,但实际上上个世纪八十年代以后,就有很多成功的应用了。深度学习指的是,任何可以训练多于两到三个非线性隐含层模型的学习算法。大概是2003年,Geoff Hinton,Yoshua Bengio和我策划并鼓动机器学习社区将兴趣放在表征学习这个问题上(和简单的分类器学习不同)。直到2006-2007年左右才有了点味道,主要是通过无监督学习的结果(或者说是无监督预训练,伴随监督算法的微调),这部分工作是Geoff Hinton,Yoshua Bengio,Andrew Ng和我共同进行的。

但是大多数最近那些有效果的深度学习,用得还是纯监督学习加上后向传播算法,跟上个世纪八十年代末九十年代初的神经网络没太大区别。

区别在于,我们现在可以在速度很快的GPU上跑非常大非常深层的网络(比如有时候有十亿连接,12层),而且还可以用大规模数据集里面的上百万的样本来训练。过去我们还有一些训练技巧,比如有个正则化的方法叫做dropout,还有克服神经元的非线性问题,以及不同类型的空间池化(spatial pooling)等等。

很多成功的应用,尤其是在图像识别上,都采用的是卷积神经网络(ConvNet),是我上个世纪八九十年代在贝尔实验室开发出来的。后来九十年代中期,贝尔实验室商业化了一批基于卷积神经网络的系统,用于识别银行支票(印刷版和手写版均可识别)。

经过了一段时间,其中一个系统识别了全美大概10%到20%的支票。最近五年,对于卷积神经网络的兴趣又卷土重来了,很多漂亮的工作,我的研究小组有参与,以及Geoff Hinton,Andrew Ng和Yoshua Bengio,还有瑞士IDSI的AJargen Schmidhuber,以及加州的NEC。卷积神经网络现在被Google,Facebook,IBM,百度,NEC以及其他互联网公司广泛使用,来进行图像和语音识别。(Gregory Piatetsky注:Yann Lecun教授的一个学生,最近赢得了Kaggle上猫狗识别的比赛,用的就是卷积神经网络,准确度98.9%。)

问:深度学习可不是一个容易用的方法,你能给大家推荐一些工具和教程么?大家都挺想从在自己的数据上跑跑深度学习。

答:基本上工具有两个推荐:

  • Torch7

  • Theano + Pylearn2

他们的设计哲学不尽相同,各有千秋。Torch7是LuaJIT语言的一个扩展,提供了多维数组和数值计算库。它还包括一个面向对象的深度学习开发包,可用于计算机视觉等研究。Torch7的主要优点在于LuaJIT非常快,使用起来也非常灵活(它是流行脚本语言Lua的编译版本)。

Theano加上Pylearn先天就有Python语言带来的优势(Python是广泛应用的脚本语言,很多领域都有对应的开发库),劣势也是应为用Python,速度慢。

问:咱俩很久以前在KXEN的科学咨询会议上见过,当时Vapnik的概率学习理论和支持向量机(SVM)是比较主流的。深度学习和支持向量机/概率学习理论有什么关联?

答:1990年前后,我和Vapnik在贝尔实验室共事,归属于Larry Jackel的自适应系统研究部,我俩办公室离得很近。卷积神经网络,支持向量机,正切距离以及其他后来有影响的方法都是在这发明出来的,问世时间也相差无几。1995年AT&T拆分朗讯以后,我成了这个部门的领导,部门后来改成了AT&T实验室的图像处理研究部。部门当时的机器学习专家有Yoshua Bengio, Leon Bottou,Patrick Haffner以及Vladimir Vapnik,还有几个访问学者以及实习生。

我和Vapnik经常讨论深度网络和核函数的相对优缺点。基本来讲,我一直对于解决特征学习和表征学习感兴趣。我对核方法兴趣一般,因为它们不能解决我的问题。老实说,支持向量机作为通用分类方法来讲,是非常不错的。但是话说回来,它们也只不过是简单的两层模型,第一层是用核函数来计算输入数据和支持向量之间相似度的单元集合。第二层则是线性组合了这些相似度。

第一层就是用最简单的无监督模型训练的,即将训练数据作为原型单元存储起来。基本上来说,调节核函数的平滑性,产生了两种简单的分类方法:线性分类和模板匹配。大概十年前,由于评价核方法是一种包装美化过的模板匹配,我惹上了麻烦。Vapnik,站在我对立面,他描述支持向量机有非常清晰的扩展控制能力。“窄”核函数所产生的支持向量机,通常在训练数据上表现非常好,但是其普适性则由核函数的宽度以及对偶系数决定。Vapnik对自己得出的结果非常自信。他担心神经网络没有类似这样简单的方式来进行扩展控制(虽然神经网络根本没有普适性的限制,因为它们都是无限的VC维)。

我反驳了他,相比用有限计算能力来计算高复杂度函数这种能力,扩展控制只能排第二。图像识别的时候,移位、缩放、旋转、光线条件以及背景噪声等等问题,会导致以像素做特征的核函数非常低效。但是对于深度架构比如卷积网络来说却是小菜一碟。

问:祝贺你成为Facebook人工智能实验室的主任。你能给讲讲未来几年Facebook在人工智能和机器学习上能有什么产出么?

答:非常谢谢你,这个职位是个非常难得的机会。基本上来讲,Facebook的主要目标是让人与人更好的沟通。但是当今的人们被来自朋友、新闻、网站等等信息来源狂哄乱炸。Facebook帮助人们来在信息洪流中找到正确的方向。这就需要Facebook能知道人们对什么感兴趣,什么是吸引人的,什么让人快乐,什么让人们学到新东西。这些知识,只有人工智能可以提供。人工智能的进展,将让我们理解各种内容,比如文字,图片,视频,语音,声音,音乐等等。

问:长期来看,你觉得人工智能会变成什么样?我们会不会达到Ray Kurzweil所谓的奇点?

答:我们肯定会拥有智能机器。这只是时间问题。我们肯定会有那种虽然不是非常聪明,但是可以做有用事情的机器,比如无人驾驶车。

至于这需要多长时间?人工智能研究者之前很长的一段时间都低估了制造智能机器的难度。我可以打个比方:研究进展就好像开车去目的地。当我们在研究上发现了新的技术,就类似在高速路上开车一样,无人可挡,直达目的地。

但是现实情况是,我们是在一片浓雾里开车,我们没有意识到,研究发现的所谓的高速公路,其实只是一个停车场,前方的尽头有一个砖墙。很多聪明人都犯了这个错误,人工智能的每一个新浪潮,都会带来这么一段从盲目乐观到不理智最后到沮丧的阶段。感知机技术、基于规则的专家系统、神经网络、图模型、支持向量机甚至是深度学习,无一例外,直到我们找到新的技术。当然这些技术,从来就不是完全失败的,它们为我们带来了新的工具、概念和算法。

虽然我相信我们最终一定会制造出超越人类智能的机器,但是我并不相信所谓的奇点理论。大部分人觉得技术的进展是个指数曲线,其实它是个S型曲线。S型曲线刚开始的时候跟指数曲线很像。而且奇点理论比指数曲线还夸张,它假设的是渐进曲线。线性、多项式、指数和渐进以及S曲线的动态演变,都跟阻尼和摩擦因子有关系。而未来学家却假设这些因子是不存在的。未来学家生来就愿意做出盲目的预测,尤其是他们特别渴望这个预测成真的时候,可能是为了实现个人抱负。

问:你还在NYU数据科学中心当兼职主任,你怎么权衡或者结合在Facebook的工作?

答:我在NYU数据科学中心已经不再担任实际职务了,而是名誉主任。在新的主任选举出来以前,代理主任是S.R. Srinivasa “Raghu” Varadha,世界上最有名的统计学家。NYU已经展开了新主任的遴选工作。在数据科学中心的建立过程中,我花费了相当大的精力。我们现在书据科学方面有硕士生项目,未来会有博士生项目。现在中心有9个工作空缺,和Berkeley和华盛顿大学合作,我们从Moore和Sloan基金会拿到了非常大的一个五年基金支持,中心现在和Facebook等各大公司都有合作伙伴关系,我们马上要盖新大楼。下一任中心主任将会非常热爱自己的工作!

问:“数据科学”这个词,近来经常出现,被认为是统计学、商业智能等学科的交叉。这个数据科学和之前的“数据挖掘”或者“预测分析”有什么不同?它是一个新学科?它的公理和原则有哪些?

答:数据科学指的是自动或半自动地从数据中抽取知识。这个过程涉及很多的学科,每个学科对它都有自己的名字,包括概率估计,数据挖掘,预测分析,系统辨识,机器学习,人工智能等等。

从各个学科的角度,统计学、机器学习以及某些应用数学,都可以声称是数据科学的起源。但是实际上,数据科学之于统计学、机器学习以及应用数学,正如上个世纪六十年代的计算机科学之于电子电气、物理和数学。后来计算机科学变成了一个完全成熟的独立学科,而不是数学或者工程的子学科,完全是因为它对社会非常重要。

当今的数字时代,数据指数级别的疯涨,从数据中自动抽取知识这个问题,已经逐渐成为了人们的焦点。这正促进数据科学成为一个真正独立的学科。也促进着统计学、机器学习和数学重新划定自己的学科界限。数据科学还创造了“方法学科”的科学家和“领域学科”如自然科学、商科、药学和政府的工作人员紧密交流的机会。

我预测,未来十年,很多顶尖大学都会设立数据科学系。

问:您对于“大数据”这个词怎么看?作为一种趋势或者一个时髦词,它有多少成分是夸大,多少是真实的?

答:对于这个词,我觉得最近社交网络上比较流行的那个笑话非常贴切,把大数据比作青少年性行为:每个人都在谈论它,没人知道到底怎么做,每个人都以为其他人知道怎么做,所以每个人都声称自己也在做,这个笑话我是从Dan Ariely的Facebook上看到的。

我碰到过一些人,哪怕是闪盘可以存下,笔记本可以处理的数据,都坚持使用Hadoop来处理。

这个词确实被夸大了。但是如何收集、存储和分析海量数据这个问题是实际存在的。我经常怀疑的是诸如“大数据”这样的名字而已,因为今日的大数据,将成为明日的小数据。还有,很多问题都是因为数据量不足而产生的,比如基因和医疗数据,数据永远都不会够用。

问:数据科学家被称为“二十一世纪最性感的职业”。你给想要进入这个领域的人们提一点建议?

答:如果你是个本科生,多学数学、统计学还有物理学,更重要的是你要学着写代码(学三到四门计算机课程)。如果你有本科学位,那么你可以申请NYU数据科学中心的硕士项目。

问:你最近对哪本书比较感兴趣?不接触计算机和手机的时候你都在干些什么?

答:在我空闲的时候,我会造一些微型飞行器,我非常喜欢3D打印,我还经常研究带微控制器的电路板,我还希望能更好的制造音乐(我收集电子风门控制器)。大多数非小说的作品我都看,还听可多的爵士乐(或者类似的音乐)。

查看英语原文:http://www.kdnuggets.com/2014/02/exclusive-yann-lecun-deep-learning-facebook-ai-lab.html


感谢吴甘沙对本文的审校,感谢包研对本文的策划。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

posted @ 2014-12-03 09:03 杰哥 阅读(339) | 评论 (0) | 编辑 收藏
 
姓名测试打分
http://xm.xingzuopei.com/Page.aspx?FN=CeShi
posted @ 2014-11-23 11:01 杰哥 阅读(380) | 评论 (0) | 编辑 收藏
 
No Free Lunch参考文献

M. Koppen, D.H. Wolpert, W.G. Macready, “Remarks on a recent paper on the '' No free lunch '' theorems, ” IEEE Trans. Evolutionary Computation, vol. 5, pp. 295-296, 2001.

posted @ 2014-11-21 11:07 杰哥 阅读(331) | 评论 (0) | 编辑 收藏
 
笔记本电脑充电时最好别用 这个时候辐射强
http://cq.qq.com/a/20111124/000044_1.htm
笔记本电脑在接通电源的情况下,测得最高辐射值为3000多微瓦/平方厘米。可是,当我们将笔记本电源断掉,只使用它的电池时,辐射值几乎为0。 我们从这个实验可以看出,在使用笔记本时,应该先充好电后,断电使用。
posted @ 2014-10-31 16:52 杰哥 阅读(311) | 评论 (0) | 编辑 收藏
 
仅列出标题
共39页: First 11 12 13 14 15 16 17 18 19 Last