杰

杰哥好,哈哈!
要有魄力,即使失败,也不要让自己的人生平庸! 如果您觉得看过的文章还不错,请帮我点一个右边广告(没有任何副作用),谢谢!
 
 

常用链接

  • 我的随笔
  • 我的评论
  • 我参与的随笔

留言簿(57)

  • 给我留言
  • 查看公开留言
  • 查看私人留言

随笔分类

  • Matlab(58) (rss)
  • Optimization(7) (rss)
  • Python(4) (rss)
  • Search(30) (rss)
  • 名人(9) (rss)
  • 软件使用(Software)(66) (rss)
  • 学术(102) (rss)

随笔档案

  • 2021年3月 (2)
  • 2021年2月 (1)
  • 2021年1月 (1)
  • 2020年10月 (1)
  • 2020年9月 (1)
  • 2019年2月 (1)
  • 2018年10月 (1)
  • 2018年9月 (2)
  • 2018年8月 (1)
  • 2018年7月 (2)
  • 2018年6月 (1)
  • 2018年5月 (1)
  • 2018年4月 (1)
  • 2018年3月 (4)
  • 2018年2月 (2)
  • 2018年1月 (1)
  • 2017年12月 (4)
  • 2017年11月 (2)
  • 2017年9月 (2)
  • 2017年8月 (1)
  • 2017年7月 (1)
  • 2017年6月 (4)
  • 2017年5月 (3)
  • 2017年4月 (1)
  • 2017年1月 (1)
  • 2016年12月 (8)
  • 2016年11月 (3)
  • 2016年10月 (3)
  • 2016年9月 (2)
  • 2016年8月 (2)
  • 2016年7月 (4)
  • 2016年6月 (6)
  • 2016年5月 (7)
  • 2016年4月 (1)
  • 2016年3月 (3)
  • 2016年2月 (1)
  • 2016年1月 (2)
  • 2015年12月 (6)
  • 2015年11月 (3)
  • 2015年10月 (4)
  • 2015年9月 (3)
  • 2015年8月 (5)
  • 2015年7月 (6)
  • 2015年6月 (7)
  • 2015年5月 (8)
  • 2015年4月 (9)
  • 2015年3月 (4)
  • 2015年2月 (1)
  • 2015年1月 (3)
  • 2014年12月 (4)
  • 2014年11月 (2)
  • 2014年10月 (5)
  • 2014年9月 (3)
  • 2014年8月 (5)
  • 2014年7月 (7)
  • 2014年6月 (4)
  • 2014年5月 (1)
  • 2014年4月 (1)
  • 2014年3月 (2)
  • 2013年12月 (4)
  • 2013年11月 (3)
  • 2013年9月 (4)
  • 2013年8月 (3)
  • 2013年7月 (6)
  • 2013年6月 (4)
  • 2013年5月 (1)
  • 2013年4月 (1)
  • 2013年3月 (2)
  • 2013年2月 (1)
  • 2013年1月 (3)
  • 2012年12月 (3)
  • 2012年11月 (10)
  • 2012年10月 (11)
  • 2012年9月 (2)
  • 2012年8月 (6)
  • 2012年7月 (6)
  • 2012年6月 (4)
  • 2012年5月 (1)
  • 2012年4月 (3)
  • 2012年3月 (5)
  • 2012年1月 (1)
  • 2011年12月 (1)
  • 2011年11月 (4)
  • 2011年10月 (3)
  • 2011年9月 (3)
  • 2011年8月 (1)
  • 2011年7月 (1)
  • 2011年6月 (2)
  • 2011年5月 (2)
  • 2011年2月 (1)
  • 2011年1月 (3)
  • 2010年12月 (7)
  • 2010年11月 (5)
  • 2010年10月 (7)
  • 2010年9月 (3)
  • 2010年8月 (7)
  • 2010年7月 (7)
  • 2010年5月 (5)
  • 2010年3月 (6)
  • 2010年1月 (5)
  • 2009年12月 (5)
  • 2009年11月 (4)
  • 2009年10月 (5)
  • 2009年9月 (4)
  • 2009年8月 (1)
  • 2009年7月 (2)
  • 2009年6月 (3)
  • 2009年5月 (1)
  • 2009年4月 (3)
  • 2009年3月 (5)
  • 2009年2月 (2)
  • 2009年1月 (1)
  • 2008年12月 (1)
  • 2008年10月 (1)
  • 2008年9月 (1)
  • 2008年8月 (1)
  • 2008年7月 (4)
  • 2008年5月 (2)
  • 2008年1月 (1)
  • 2006年11月 (1)
  • 2006年4月 (1)

相册

  • 搞笑图片

Other

  • 安徽电力公司客服网站
  • 编程
  • 程序员联合开发网
  • 经典歌曲
  • 两全其美
  • 新雨丝
  • 中国工商银行
  • 中国建设银行
  • 中国建设银行信用卡
  • 中国农业银行

Paper submission

  • ACM Computing Surveys
  • AI in medicine
  • amino acids
  • Artificial Intelligence Review
  • Bioinformatics
  • BMCBioinformatics
  • conference Rankings
  • conference(CVPR)
  • conference(ICML)
  • conference(NIPS)
  • conferences
  • Current Bioinformatics
  • CVIU
  • Electronics Letters
  • IJCM
  • IJCV
  • IJPRAI
  • Image and Vision Computing
  • Neural Computing and Applications (NCA)
  • Neural Networks
  • Neurocomputing
  • Pattern Recognition
  • Pattern Recognition Letters
  • pieee
  • TASE
  • TBD
  • Tbiom
  • TCDS
  • TCSS
  • TCSVT
  • TCYB
  • TGRS
  • TIFS
  • TII
  • TIP
  • TKDE
  • TMM
  • TNNLS
  • TPAMI
  • TSMCS
  • TVT

福彩

  • 安徽福彩网
  • 双色球玩法规则介绍

留学相关

  • Google翻译
  • 爱词霸在线词典
  • 美国总领事馆
  • 普特英语听力
  • 太傻论坛
  • 在线科技词典

论坛

  • 科大bbs
  • 科学岛论坛
  • 模式识别爱好者论坛

搜索

  • arxiv
  • google ipv6
  • google台湾
  • google香港
  • google学术搜索
  • Journal citation reports (JCR)
  • scholarpedia
  • wikipedia维基百科
  • 北京天气预报
  • 电驴
  • 合肥天气预报
  • 乐乎(下载电影)
  • 微软学术搜索

学者

  • Dacheng tao
  • Deng Cai
  • Dengyong Zhou
  • dodo
  • Jian Yang
  • Jie Gui
  • Meina Kan
  • Tianyi Zhou
  • Tongliang Liu
  • Weifeng Liu
  • Xiaojin Zhu
  • yong xu (hit)
  • Zhen Lei (ia)
  • 桂卫华
  • 中科院水生所所长桂建芳

邮箱

  • 126邮箱abroad
  • 126邮箱国内
  • google 邮箱
  • hotmail
  • Seu (东南大学)
  • 科大校友邮箱
  • 科大邮箱
  • 中科院

中科大和中科院

  • Niu Group (inside)
  • Niu Group (Outside)
  • 合肥研究院图书馆
  • 智能所

搜索

  •  

最新评论

  • 1. re: Office 2010中删除Endnote web 插件
  • 真是救了我呀!
  • --ss
  • 2. re: metric learning(度量学习)
  • 76765
  • --656
  • 3. re: 全新的美国计算机学科排名[未登录]
  • 随便拉出一个来就能秒天朝的 北*大学,清*大学到火星...
  • --chipset
  • 4. re:【超智多能思维科学研究所】致 蒲慕明教授的eMail
  • 评论内容较长,点击标题查看
  • --江伟
  • 5. re: Adobe distiller: Cambria not found, using Courier. 报错解决办法
  • 解决了,谢谢!
  • --lyh

阅读排行榜

  • 1. [转贴]Google被封、gmail.com邮箱、gmail登录不了的办法(25670)
  • 2. arg min的含义是什么?(24472)
  • 3. latex问题集锦(19430)
  • 4. matlab命令窗口输出函数disp和display(17326)
  • 5. MATLAB字符串数组(15446)

评论排行榜

  • 1. K近邻分类器的matlab代码(Matlab code of k-nearest neighbors)(13)
  • 2. LibSVM学习记录(6)
  • 3. 全国接听免费附加套餐(5)
  • 4. EndNote 乱码 解决方案(5)
  • 5. 孟岩blog理解矩阵一、二, 三(5)

Powered by: 博客园
模板提供:沪江博客
C++博客 | 首页 | 发新随笔 | 发新文章 | 联系 | 聚合 | 管理

[zz]龙星计划学习总结
http://www.cnblogs.com/seasamsun/p/samsun.html

2013/07/22-26 于合肥科大

这几天在合肥参加了由熊辉老师主讲的DM(Data Mining),收获不少。老师讲的方式正如他所说的是独一无二的,通过案例的方式介绍算法,深入浅出,通俗易懂。5天的时间,天气很热,课上大家基本上没有睡觉的。老师认为DM主要分为4大块:Classification, Association Rule Discovery, Clustering和Anomaly Detection。中间还介绍了对人生,社会,教育等的独特见解。

1.几个问题和概念

1)为什么要有DM

硬件的发展。硬件越来越强大也越来越便宜,为我们利用计算机解决大规模计算问题提供了物质基础。

商业竞争的需要。现在有大量数据需要收集和存贮,如何利用这些数据在同行竞争中占据优势很关键。

人性化需要。高质量,更方便,更舒适,更安全,更宜居的生活是人的本能需求,利用计算机对每个人的历史数据进行分析和挖掘可以更好地满足人的需要。

城市的发展。随着社会信息化的进行,交通、医疗、教育、服务等各行各业都需要合理监督和优化配置。

科学发展的需要。未来科学的发展离不开计算机的支持,科学家需要更好的理解和分析数据。

2)DM的定义(定义很多,选取一种)

从 数据中获取之前不知道,但有用的信息。挖掘之前是一堆数据,挖掘之后还是一堆数据,只是挖掘之后的数据是经过提炼的,人们所能理解的信息。数据挖掘必须要 有数据,没有数据做不好数据挖掘。数据是信息的载体,现实生活中的信息不一定可以被计算机直接处理,所以需要分析和抽象并预处理为计算机能处理的数据。挖 掘到的信息准不准,有不有用还需要验证和检验。

3)DM && ML

数据挖掘重在挖掘的流程,机器学习重在算法的调优。两者的共同点离不开数据,算法和验证。

4)数据的来源

做DM是从数据开始的,如果数据一开始就是坏的,不要指望能挖掘到好的、有用的信息。

5)数据预处理

原 始数据通常是含有噪声的,这些噪声数据对结果影响很大,需要找到并移除。数据的预处理内容还包括:整合,取样,降维,特征提取。整合就是把多个数据源的原 始数据合并在一起,取样是选取部分样本作学习样本,降维简单的理解就是选择哪些属性,特征提取提取麻烦点涉及到构造特征空间,它主要是进一步提炼原始数 据。

6)数据可视化

做DM需要有较好的图像展示能力。一堆数据和一个图像在一起一定是图像更直观,更有说服力。通过图像可以帮助我们分析和理解数据。

7)什么是大数据

大数据不是数据体积大,数量多。它应该用单位时间内能处理的能力来衡量。如果在能接受的时间和代价内,数据非常多但能被处理完毕,那么可以认为该数据还不够大。

2. 挖掘技术

2.1. 分类

分类就是通过训练出的模型判断一个未知样本属于哪个类。最常见的就是2分类问题,2分类问题在金融欺诈,疾病诊断用的比较多。分类比聚类容易,分类有参考系,聚类没有。分类一般是监督性学习。

常见的分类算法有:Decision Tree,K-Nearest-Neighbor,Neural Network,SVM,Naive Bayesian等。 判断一个算法的好坏要从速度,准确性,可理解性,性能几个方面综合考虑。没有一个算法是万能的,具体选择哪一个算法需要视情况而定。另外学习算法应该先从 该算法的复杂度,优缺点,使用范围入手。学习一个算法最快的就是看简单的案例,如果将来需要对某一个算法深入研究才要看其实现的过程。

分类的流程一般是训练--->评估--->调整--->训练。评估会用到混合矩阵,一般会使用ROC曲线去描述。

1)Decision Tree

决策树就是找出满足什么条件得到什么结果一系列的最大可能性的规则。

决策树需要解决的难点:该用哪一个属性,什么时候停止分叉,如何分叉。如何分叉通用的3种方法:增益(Gini),信息商(Entropy),分类错误(Misclassification error)。它们的共性就是减少问题的不确定大小。

有时候树越大,越容易过拟合。过拟合(overfitting)和欠拟合(underfitting)是相对的两个概念。过拟合拿到做人上就是太较真了,欠拟合就是做什么都无所谓。

决策树的优点:计算复杂度底,可解释性强,使用方便。

缺点:不是全局最优,属性需要是离散的。

关于可解释性想要再说一点就是政府和公司决策者喜欢DT,因为它清楚,满足什么条件就有什么结果,而且还告诉你准确率是多少。SVM和Neural Network是一个黑箱,虽然大多数情况下这两个比DT的准确率高几个百分点,但决策者更加倾向于DT。

2)KNN

k最近邻点算法原理就是看这个人是什么样,就找他身边最近几个人看是什么样,然后求一个平均值。

KNN需要解决的问题:如何衡量最近的人,是经常在一起的男(女)朋友,同事,哥们还是其他人;找几个人,3,5个还是10个。

KNN的优点:思想简单,训练时间短。

缺点:k会影响准确度,分类时间长(lazy)。

3)SVM

SVM就是找到一个超平面把两个类分开,越开越好。

关于SVM理解几个概念。hyperplane(超平面),margin(度量分开的程度),quadratic programing(二次规划),slack variables(松弛变量,消除噪音用),kernel function(转化为对偶问题时需要用),support vectors(部分样本,分类结果由这几个向量决定)。

优点:小样本性能都较好,准确度高,稳定性好。

缺点:调参数难,训练时间较长,可理解性较差,维数灾难(核函数引起)。

关于分类就介绍这3种算法。补充2个问题。

噪音和异常

噪声(noise)是错误,异常(outlier)不是。通过情况下异常对问题的发现具有重要意义。如金融异常发现等。

训练样本&&验证样本&&测试样本

验证样本是训练样本的一部分,测试样本和训练样本严格分开,测试样本只用一次。验证的方法一般采用5-flod-validation 或 10-flod-validation。5-flod-validation的意思就是将训练样本平均分为5份,标记1,2,3,4,5。先拿2,3,4,5份训练,第1份测试;然后1,3,4,5份训练,第2份测试;... ,求5次的评价错误即为错误率。

2.2. 关联分析

关联规则又称频繁项挖掘。主要用来找出两个同时出现的项(item),这些项之间没有直接的因果关系。与聚类的比较相似,聚类针对对象,关联针对对象中的某些属性值。

关联的几个概念:项集(itemset),支持数(support count),支持度(support),频繁项集(frequency itemset),关联规则(association rule),规则评估量(rule evaluation metric)。

抽取规则的过程需要借助一些过滤条件,这些过滤条件的阈值与规则评估量有关,例如support与confidence。现在confidence被证明有问题,但为了描述经典算法apriori还继续使用它。

关联规则难点在于计算,如果一条记录有n个属性,那么它的项集是一个组合,2n个。在指数级空间被进行频繁项搜索是一个NP难问题,更加费时间的是每一次需要扫描数据库做统计运算。所以可以从2个方面改进,减小搜索项空间和加快数据库查询速度。前者的思想是apriori算法的基础,后者是FP-tree算法的基础。

由于关联规则特点,用计算机去发现频繁项是非常耗时的,这一点与人的思维恰恰相反,人的思维可以跳跃式思考,而计算机不行。

借助关联分析的特点可以帮助我们做人做事,情报机构大部分就是在做关联分析。我们和人打交道也有关联分析的影响,通常有经验的人会在几秒钟之内知道你的身份,工作,地位,年龄及收入等,不是说这个人有什么特异功能,而是他有经验,这个经验用DM的术语讲就是关联规则。关联规则强调细节,细节决定成败,有些人从细节上会看到别人看不到,看不懂的东西。

人的大脑具备很强的学习能力,只是我们没有给它数据进行学习,这个数据很多都是失败的经历还有自我的不满足,所以说人的经历多了,见识多了就变得更加老练和聪明。

2.3. 聚类

聚类是一个非常有挑战性的问题,原因在于没有一个统一的标准去衡量聚类结果的好坏。聚类就是将相似的个体放在一起,它可以帮助我们更好的总结和理解事物。分类主要有分割式(partitional)和分层式(hierarchical)两大类算法。前者是全局的(global),后者是贪婪的(greedy)。前者可描述社会主义社会,后者可以描述资本主义社会,社会主义轻个人重国家,资本主义重个人轻国家。好社会应该利用两种社会制度的优点,它应该是国富民强,少异常少噪声,每个人都有机会,中间大两头小,幸福指数均值大、方差小满足正态(正常状态)分布的社会。

聚类算法的难点在于聚类衡量标准和分类数目。分割式聚类代表性算法是k-means,分层式有group average,dbscan,min,max等。

1)k-means

k-means的思想很简单。先随机选择k的点做初始点;然后每一个点与这k个点作比较,这个点与这k个点哪一个最近就属于哪个点(类); 求出每一个类的中心点,总共k个,以新的k的点作为类标记按照同样的方式划分所有的点;满足结束条件结束。

算法的优点:简单容易理解,复杂度低,速度快。

缺点:对k值和初始值敏感,数据分布的稀疏程度有影响,样本是球形结果才好,抗噪音能力低。

在运用k-means进行聚类分析时,为了减小k值的影响可以先将k值取很大(譬如100),然后再分层聚类,或者先将所有样本分层1个类再分成2,3... ,多个(Bisecting k-means)。在减小初始值随机性的影响时,可以采取多次选取求大概率的方法。

2)group average

该方法是分层聚类方法,一般在多元统计课程里会讲到。它是分层聚类常用的方法,基本思想是类与类的距离由该类中所有点加权决定,有效的消除了噪声的干扰。一般来说,group average整体性能比min和max要好,但是其计算量较大。min也有自己的优势,在密度大的聚类时抗噪能力较好。

3)dbscan

该分层聚类方法canopy方法类似,都是为了提高算法的抗噪能力。它有3个概念:core point,border poing和noise point。难点是确定core point中点的个数。

算法的优点:2,3维聚类效果很好。

缺点:高维效果不好。

2.4. 异常检测

异常检测一般是非监督性学习,异常检测得到的异常可以看成是聚类结果的一种特殊形式。异常和噪声有区别,异常通常是有用的,从它入手很可能发现新问题,而噪声通常是错误。异常检测主要用在发现不寻常的事物,在网络欺诈和疾病检测中用的比较多。

异常的来源主要是因为它们出现的概率比较低,或者被非正常的篡改。由于是小概率事件,发现它们是非常困难的。

处理这类问题的方法有:分类,统计分布,回归,几何和图论。以聚类的方法为例,由于异常样本较小,一般聚类方法不适用。因为聚类方法对大类的预测较好,异常检测是要大概率识别出异常,即使正常数据预测的再高,但异常检测不到也是没有效果的。

用分类做检测常用的做法是加大异常样本的权重。这样一来会将一部分正常的数据预测为异常的数据,但是可以接受,在欺诈检测方面:误判比漏判好。

2.5. 小结

在介绍DM中4大问题时,没有给出算法的计算公式。不是说公式不重要,要想深入研究公式是必要的,在解决实际问题时,从宏观上(思想,优缺点,使用范围)对每一个算法进行把握就够了。

3. 好话

在上课的过程中,老师不时穿插他对社会,国家和人生的见解。一方面讲算法容易使人睡觉,讲这些我们不犯困;另一方面,让我们增加见识,学会做事做人。

1) 赞美人的话多说,损害人的话少说,谎话不能说,真话不全说

人都是喜欢听赞美的话;因一时气愤说话攻击别人,到头来即使赢了,也会受伤;表里不一就会失掉做人的根本---诚信;有些话自己说出来本意是好,但是会伤害其他人。

2)如果自己不会做事情,找到会做的人,跟着他们做

不是所有的事自己都会做,遇到必须做自己又不会做的事情时,选择擅长做这件事的人很重要。

3)方向比能力重要

最可悲的是一个人能力非常强,但是选错了方向,结果他越努力,错的越远。

4)vip不好做

当你成为vip后,你享受利益和尊贵时,也许你已经被盯上了,社会知道你太多的信息,随着信息化加速发展,你所有的信息都会被记录。普通人机器扫描不过来,vip数量有限是可以扫描的。用显微镜去发现一个人的问题,谁都逃不过。所以vip不好做,普通人也有普通人的好处。

5)不要入即将被标准化的行业

入错行对每一个人都是比较大的打击,入错行意味着你的收入,发展都会受到不良影响。这个行指的是标准化的行业。一旦某一个行业被标准化,绝大部分事都用机器来做时,就没人什么事了。

6)让自己无法被人替代

拥有自己的核心竞争力很重要。如果你能做的事别人都能做,对公司来讲你就是其他人的一个子集,那你就没有任何乘数效应可言了。

7)个人的发展由个人知识集,家庭知识集,人际关系知识集决定

年轻的时候对我们影响最大的就是家庭,其次是自己。家庭教育和决策在一个人发展之初是非常重要的,所以做父母的不容易。但随着年龄增加,最重要的变成个人和人际关系。

8)自己会做蛋糕比切蛋糕更加了不起

一块蛋糕(利益)在你手上,如何分让大家皆大欢喜是一件困难的事,因为你要考虑到以后还有没有人愿意和你分蛋糕。但如果你自己就会做蛋糕,到时候就不缺求你分蛋糕给他的人。

9)放下身段,做长远打算

如果你目前什么都没有,无技术,无money,无权利,拼不过爹,也拼不过爷。似乎是一无所有,怎么办,还好你还有时间,还有目标,还有机会。你可以放下自己的身段,选定正确方向后给老板低价打工。在这个平台下,你要积蓄力量,沉淀自己,坚持下去总有一天你会证明自己,聪明的老板会设法留下你。这是一个苦b的过程,但却值得。

posted @ 2014-08-08 13:36 杰哥 阅读(339) | 评论 (0) | 编辑 收藏
 
微信
http://jingyan.baidu.com/album/4d58d541c9bcab9dd5e9c041.html
微信接收的文件在哪里?存储卡(或手机存储)/tencent/MicroMsg/Download

被邀请入超过100人群的微信好友必须是已开通微信支付的用户:http://tech.qq.com/a/20140704/068206.htm。
微信开放平台改版,可申请微信支付https://open.weixin.qq.com/cgi-bin/frame?t=resource/res_main_tmpl&target=res/app_wx_pay_apply&lang=zh_CN , 已和yatao wang discuss,这是微信的提供的一个接口,可以在此基础上开发APP
微信支付开通/添加银行卡方法:http://kf.qq.com/faq/120322fu63YV13080626Bruq.html 
请进入微信中的“我”(android平台点击右上角功能键)=》我的钱包=》右上角功能键=》添加银行卡=》填写银行卡信息=》输入验证码即可。添加银行卡即可使用微信支付功能。
posted @ 2014-08-03 10:45 杰哥 阅读(359) | 评论 (0) | 编辑 收藏
 
沈向洋谈做研究的那些事儿
http://blog.sina.com.cn/s/blog_4caedc7a0102exkh.html

编者按:微软公司今日正式任命沈向洋博士为微软全球执行副总裁,负责技术和研究。在此之前,沈向洋博士曾为微软亚洲研究院院长,也是最早参与筹建微软亚洲研究院的元老之一。沈向洋博士曾于2009年在清华,浙大等高校以讲座形式倾囊传授“做研究”的秘诀。微软亚洲研究院将网友记录的讲座内容进行整理,与君共享。

                             内容整理自网络

关于阅读

1.很多研究者花费一半以上的时间用来阅读。在研究生开始两年,尽量用课余的时间阅读有关于你topic的课本和journal articles。

2.了解自己相关topic最为核心的杂志。每年去图书馆翻阅过去一年相关研究者做的technical reports。

3.不要详细阅读每一片paper。第一步,看看哪里是引起兴趣的地方。顺序为abstract,table of contents, conclusion section and introduction。如果还是毫无发现,那么放过它。第二步,一旦发现你感兴趣的地方,看看这个paper有什么good stuff。这个往往因人而异,也许对你来讲很好的point并不是作者的重点。第三步,重读整个文章,评判它的价值。

4.带着问题阅读。“我可以怎么用?”“作者的claim是否经得起推敲?”“如果……会怎样?”搞清作者的motivations, 做出某种选择的原因,假设和建议的方向。

5.随时编程。看到paper中陈述的idea,做simulation。

6.如果有人递给你一篇paper,询问他们推荐的原因。也许在他们脑海里,某些他们认为对你有用的idea已经春光乍现,而你始终不知所云。

关于networking

1.加入一些你认为活跃的论坛和email list。

2.如果和其他领域的人讨论问题时,听到他说:“你有没有读过某某书?”那么“书非借而不能读也”。

3.发现自己感兴趣的paper, 发给你觉得可能会感兴趣同仁,告诉他们你感兴趣的地方,你可能同样因此受益。

4.看看你的同事办公桌上正在阅读的paper,询问他们原因,这样比自己查图书馆要效率高的多。

5.写出自己idea的draft,或者你写好的paper,分发给你觉得可能会感兴趣的同事包括老板,并且要求他们的评论。

6.尽可能和不同领域的人讨论。

7.做reference log。这样也许通过树图,你会通过引用率勾勒出目前占据这块山头的几组大佬。

8.参加会议时,记得带上名片,给别人介绍一种牢记你名字的办法。也许你会看到大多数会议的paper实在是boring and silly,所以你参加会议的目的是认识不同的人。他们会给你传播信息,邀请你去talk,给你一个summer job。认识他们很简单,走近他们说“我对你的paper很有兴趣。”然后问一个问题。

9.夏天的时候不要呆在自己的实验室,走出去认识新的朋友。他们也许会给你展示另一种不同的看待事情的眼光。寻找summer job的方法,询问那些正在找工作的毕业生吧。

关于相关的领域

1.选一门这个领域的研究生课程。

2.阅读一本这个领域的bible 。

3.你知道这个领域最好的杂志么?

4.知道这个领域的翘楚和他们的必杀绝技么?阅读兵器谱。

5.查看这个领域的公告牌,看最新的announcement。可以的话,找一个美女或者帅哥拍拖。

6.从查看自己学校的department开始,近水楼台先得月。

7.在“尚能饭否”前,永远不要忘记数学。不要只做听众,不惜找一个死党用枪逼着你做题。

8.问自己一个问题:“如果我知道x,是不是问题会变得简单一点?”如果回答“是”,go to 1。

关于笔记

没有航海日志的船长是失职的。

1.无论你觉得你现在的idea多么垃圾,给它一个墓志铭。

2.给出问题可能的解,考验直觉的时候到了!

3.总结引起你兴趣的reference,向图书馆套磁。

4.时而不时的回头读你的笔记,莫做无情郎。

5.按照title, abstract, section headings, fragments of text的格式组织你的笔记,即使你不打算发表,或者很快就变了心思。

关于project

1.知道做什么

2.开小口,不要指望靠这个造论文。先把实际问题解好,think simple。

3.动手,做原型。对于EE的学生尤为重要,好的idea在实验中产生。

4.使用tools,站在巨人的肩膀上。

5.Collaborate。和别人合作,让他人乐意与你合作。

总结

方法是一件不太难寻找的事情,问题总会有解的。

“世上本没有学问的,做的时间长了,就好像有学问了”

​-- Harry Shum (沈向洋)

沈向洋博士:

微软全球执行副总裁,负责技术和研究。沈向洋博士曾任微软亚洲研究院院长,也是最早参与筹建微软亚洲研究院的元老之一。在职业生涯中,沈向洋博士因在技术领域中的广泛建树和团队管理中杰出的领导力而饱受赞誉。他在计算机视觉、计算机图形、模式识别、统计学习和机器人学领域发表了100余篇论文,并拥有50多项美国专利。

阅读记录:read twice

posted @ 2014-07-20 09:21 杰哥 阅读(422) | 评论 (0) | 编辑 收藏
 
最高学历和最高学位
最高学历:博士研究生;最高学位:工学博士

参考:
促进会
http://zhidao.baidu.com/link?url=jjmqwii6tFPPLE2-oUQCIi7GNXyqYTmKWPpnKI_3re-fJdQiIqBdfRbli-l0mGddI6cMeakeVm198b8Xr4qWZK :外国本科以上教育是没有学历之说的,属于学位教育,最高的学位是博士学位,博士后和院士只是工作者身份,不是学历和学位。在中国,学历和学位是分开的,最高学历是博士研究生,对应博士学位。

副研究员是高级职称吗?
答:是的。高级职称是职称中最高级别,分正高级和副高级。http://baike.baidu.com/view/4314286.htm,在本页搜索“副研究员”即可
posted @ 2014-07-19 16:41 杰哥 阅读(975) | 评论 (0) | 编辑 收藏
 
怎么安装*.jar文件?

http://featureselection.asu.edu/software.php中的Information Gain,运行会提示,错误:Undefined variable "weka" or class "weka.attributeSelection.InfoGainAttributeEval".

这个软件包是*.jar文件,原以为解压就能找到安装文件,但没有。Weiqiang讲要安装java软件。Feature Selection Package软件安装过程如下

第一步:安装java(使用我电脑中的“JAVA 虚拟机”),并配置环境变量:计算机->属性->高级系统设置->环境变量->lenovo的用户变量->Path(如果没有PATH,新建一个变量PATH即可)->编辑->(加入”; C:\Program Files (x86)\Java\jre1.6.0_02\bin”到“变量值”,注意此处路径名可能不同);

 

第二步:安装FeatureSelection-Installer.jar到E: \Feature Selection Package: 运行cmd->E:(定位到E盘);cmd->cd E:\Kingsoft\other\matlab 2007a\work\Feature selection\说明(目的,定位到FeatureSelection-Installer.jar所在目录) ->java -jar FeatureSelection-Installer.jar

在安装过程中会有提示:

what to do once you've installed Feature Selection Package:

1.   Open MATLAB

2.   Use MATLAB's 'cd' function to navigate to the folder you

       installed Feature Selection Package into.

3.   Run the load_fspackage function with the command: 'load_fspackage'

4.   Select all of the commands you have run in this session, right click,

       and select 'Create Shortcut'. This will give you a shortcut which

       you can use to open Feature Selection Package at your choosing.

只要到这里的2,3和4不要管,Weiqiang也不知此处4步代表啥含义,没管这一步。

 

第三步:将load_fspackage.m的最开始一句”curPath = pwd;”(pwd的含义查matlab帮助即可,就是当前目录)中将pwd换成load_fspackage.m所在的目录'E:\Feature Selection Package\fspackage'即可。在要使用该工具包的程序的最开始加上加上run('E:\Feature Selection Package\fspackage\load_fspackage.m'),这样就不会出现如下错了:Undefined variable "weka" or class "weka.attributeSelection.InfoGainAttributeEval".

 

已经按照上述步骤,在我台式机成功安装FeatureSelection-Installer.jar软件(台式机原来没安装java软件)。This is with Weiqiang Ren's help.

posted @ 2014-07-14 15:47 杰哥 阅读(1134) | 评论 (0) | 编辑 收藏
 
科研不是比赛,而是一种对未知和完美的自我追求——跟邢波(Eric Xing)面对面聊科研
http://blog.sina.com.cn/s/blog_4caedc7a0102uwvu.html

编者按:6月26日,2014年国际机器学习大会(ICML)在北京国际会议中心完美落幕。作为机器学习领域两大顶尖年会之一,这是 ICML大会30多年来首次来到中国和远东,在国内的机器学习界震动不小。身为本次大会主席的卡耐基梅隆大学计算机系教授邢波(Eric Xing)为此做了诸多努力。作为在美国机器学习领域前沿为数不多的华人学者,许多国内计算机专业学生渴望投身其门下。借着此次大会的举办,我们也有幸和Eric坐下来,面对面的聊一聊他对科研的态度以及对后辈们的建议。

问:从生物学博士到计算机科学博士,再到机器学习领域的佼佼者,这样的转变是如何发生的?
Eric:“为什么会选择进入一个新的专业?因为兴趣。当时对手头做的研究项目兴趣不够,而同时又有其他的东西让自己很着迷,所以在完成前项工作后就选择了转变。现在回头看,这样的转变在我的生活中并不少见,比如,我最近开始在做计算机系统相关的研究。操作系统跟机器学习是很不一样的领域,这种转变的距离和我之前的转变一样远,但兴趣使然。15年前,人工智能和机器学习在美国学术圈很冷门,中国人不多、美国人也不多,当时基于兴趣选择转专业,现在也一样。当选择改变时,不要把它当个大事,要把生理和心理障碍压到最低。”
 
问:不少人认为,做科研极为枯燥。你认为这里面有误解吗?
Eric:“确实有人觉得科研枯燥、与产品的结合不够紧密,像是对未来的虚幻想象。这其中有一些误解。很多人基于片面的理解或有限的经验,简单的把理论研究和应用研究对立起来,并由此产生一种肤浅的排他思想;比如有些“基础研究”学者瞧不起“应用研究”学者,认为后者不严格正统,或者有些业界的工程师程序员也鄙视大学里的研究者,认为后者不实用。抱有这种想法的人很难成为领先的学者和工程师。其实计算机科研是最不枯燥的研究,优秀的计算机研究往往体现着理论和现实问题的紧密结合。它不是纯粹推导公式、设计模型,证明定理;也不是埋头编程,调参,试错。严谨的计算机科研需要跟数学打交道,这可能对于某些人来说,有些枯燥;但对于另一些人来说,这仍然很有趣并令人兴奋。事实上,谷歌的搜索引擎、微软的Kinect等都是由基础研究衍生出来的产品——当你把研究跟实际应用结合起来,兴趣是很容易产生的。或许研究过程中会比较理论,但我们是基于现实应用问题来提出研究问题。当你希望用一个漂亮的方法(正规、严密,普适,可独立重复的方法)解决问题时,你自然会使用数学手段;但是最后的实现、评估、证明等是从理论和实际应用两个方面来出发,这样就会很有意思。
 
问:有传闻说您每天只睡4-5个小时,做科研这么忙吗?
Eric:“我不是为了忙而忙,而是顺其自然。就好像弹琴有的地方弹得快了后,慢了自己都不好意思,快反而是一种自然的节奏。有时候会更慢一些、有时候会更快一些,也没有刻意去保持。当然,其实从生活质量来说,也没有那么可怕。我也有进行规律的健身锻炼,业余爱好,跟家人一起玩,等等,我不提倡把自己弄得很憔悴、不顾家庭或不跟朋友交往。如何做到呢?不要浪费时间。睡几个小时是个人生理特征,但是在不睡觉的时间里,要怎么用?大部分人在大部分时间处于什么都没做的状态,他们既没有做公事,也没有做私事,但我基本上不存在这样的时间,我要不就做一些跟工作有关的事,要不就抽空锻炼、弹琴,听音乐,看书,或跟家人一起活动。虽然没有一个明显的工作到生活的某个切换点,但找准了工作和生活的节奏,还是很自然。对于我来说,研究、健身等事情不是要‘坚持’才能做到的事儿,而是我迫不及待要去做,这些都不是很难受的事儿。”
 
问:国内不少学生都想当您的学生,那您是如何挑选学生的呢?
Eric:“首先我要通过你向同学们对我们工作的兴趣表示感谢!我很希望能满足同学们的愿望。有时候,这不仅仅是学生的问题,也是我自己的精力和资金的问题。在美国,招学生是一个相当昂贵的事情,每人每年要资助近十万美元。我的组现在有将近20个学生,再大的话,钱也不够,我的精力也不够。我带学生还是比较认真的,比如每星期至少有一次讨论,20个学生就有20次,一星期排下来也差不多了。在挑选学生的时候,我比较注重文化,风格,兴趣的多样性和平衡,而非单纯的高产,不会偏重某个国家人特别多,也力求性别的平衡。
除了这些原因,还需要一些研究兴趣的匹配,以及研究之外的东西。我招学生的时候,可能会注重一个人的个人修养或人品——就是他/她作为一个普通人的价值,而不仅仅是作为研究者所拥有的能力。研究方面的能力是可以培养的,无论是跟着我还是其他老师,学生的能力都一定会有提高。研究的起点不见得非要高,但是对学生的个人性格或修养有要求,我个人比较喜欢学生在我的组里产生正能量。更细致地话,我比较看重这四点:
一、有独立精神以及独立思考的能力。不是说我师兄师姐在做什么选题、最近最热是什么选题,我都去问问然后听从。敢于卓尔不群,坚持自己的观点;但同时也谦虚理性,而非顽固不化。
二、要有一些理想主义。不是做每一件事都有一个精准的投资回报率,要有一些纯粹为了兴趣和爱好而努力、为了尽善尽美而下功夫的追求。享受过程,而不是苛求结果,把结果当成过程的副产品,有了很好、没有也不沮丧,这样才能真正享受过程。
三、诚实而豁达。有一种简单、率真的性格,不能工于心计。
四、知书达理,有良好教养,礼貌,易于也乐于和别人共事。
我相信拥有以上四点的同学可以成为我组里很好的团队成员。
 
问:每次您来微软亚洲研究院做讲座,总是座无虚席,人特多。您和微软亚洲研究院有什么渊源?
Eric:“微软研究院一直以来都和CMU(卡耐基梅隆大学)有众多的交流与合作。对于我个人而言,微软亚洲研究院至今都是国内为数不多的顶级计算机研究机构,培养的学生大都非常优秀。加上我在这里有很多的朋友,他们也经常邀请我过来和同事学生们交流交流,我也都十分乐意,也学到很多东西。
 
问:最近在线教育(MOOC)比较火,不知道您有没有打算在网上开机器学习相关课程?
Eric:“现在MOOC很火,也颇具争议。从普及知识的角度,Coursera做了一件大好事。但作为想对某个领域有深度了解的同学来说,也必须对自己有一个清楚的定位。如果你的终极目标是对某个话题有一定了解,通过MOOC来学习是个还不错的选择。但如果你要以学习的某个方向为职业的话,就需要更多考量。现在的年轻人比较容易从众,可能会出现的一种情况是,从极度自卑到极度膨胀的距离可能会变得非常短。我个人认为,MOOC更重要的一个作用是普及教育,是扫盲用的。
然而作为一个博士研究生,你是需要普及知识,还是更高级的知识?我现在还没有加入在线教育,未来可能会,具体视CMU的政策而定。MOOC在普及知识的方面已经做得非常好了,但不见得是我最需要做的事情了。我尝试提供一些更高端、更适合专业研究需要,听众少一点、技术含量更高一点的课,所以我最近把概率图模型这门课录像、并通过CMU放到网上。Daphne Koller教授也开过这门课,在MOOC上有,但我的课教得比较前沿、更难,内容更多些,进度也可能也快些,提供给已经有扎实基础,需要深入研究机器学习的学生。今后我还会公开一门高级机器学习课。“
 
问:机器学习、人工智能,现在火得不行。您觉得是因为它到时候该火起来了,还是炒作的成分居多?
Eric:“二者兼有吧。现在的确是到了机器学习的时代——计算机应用的需求超过了原来普通的编程、普通的数据库所能提供的解决方案。数据很大,人肯定处理不过来,数据库不懂得提供一个足够智能的处理服务。机器学习虽然也没能提供解决方法,但它提供了一个大的思路、有意思的思路。有些人可能对机器学习存在一些比较庸俗的想法见解。比如说停留在‘机器学习到底是不是经典意义的人工智能的问题上,贬低一些现在在机器学习、深度学习领域的工作,认为这些不是真正的人工智能,哲学或物理意义上不深刻。还有一种观点认定机器学习,甚至只是深度学习已经可以解决一切的问题,只不过是缺乏一步一步去实现。这两种观点都不够成熟客观。我们需要更冷静一些,平台是对的、大方向是对的,但是还是有很多空白需要去填补、很多突破还没有实现。不要急着去摘一些果子,或者闪开就算过了,其实可以扎进去做一些有深度、有分量的东西。”
 
问:作为华人,在美国做科研,会有民族的包袱吗?
Eric:“我个人在文化上是非常东西兼容的,对东西方文化都有认真学习和较广泛的了解和心得。在文化层面,我可能较很多国内朋友更接近中国传统知识份子——对中国传统文化非常了解和欣赏,爱古文,诗词,历史;欣赏秦汉,魏晋之风。但说到学术研究,我不希望它被包装成民族之间的比赛。做科研,不能做成比赛,而是一种对未知和完美的自我追求。当成比赛本质上是功利性的,是做不出来一流成果的,更需要对问题有一种本质性的好奇,希望去理解、解决这个问题。比别人快、击败别人只是副产品。我老跟我的学生说一个例子,写论文与做研究就像花样滑冰、体操比赛一样,如果老想着我的动作能得10分、满分、对手怎么样,你的动作肯定走形、做不好。如果你想着——我要在舞台上享受表演,你肯定会做得很好。”
 
问:在您的研究领域中,数学重要吗?扮演着怎样的角色?
Eric:“重要!数学从方法论上提供解决方法,从思维上来讲它可以培养一种严谨的态度,从而为问题寻找一个比较严格的、普适的、甚至更好的解决方法。但是我不太建议单独强调数学或物理某一个学科知识的作用。就像在战场上,我身边有武器,什么合适我就抓起来用,而不是说我一定要从始到终用某一种武器。在研究的时候,我需要寻求一个经得起考验的解决方案,它是从数学来、从工程来、从物理来都不重要。只是,当你在寻求解决方案时,你会发现数学是一个避不开的因素,它自然而然地影响你的选择。
 
问:最后,能否给有志于从事计算机科学研究的学生提些您的个人建议?
Eric:其实之前了分享过很多次了,但都是以英文的方式。今天借着这个机会,希望也能让更多的中国学生们看到:
一、清楚地认识到什么是你的目标以及什么是你在技术能力和心智上的优势和不足,这两点对于你的成功同等重要。根据这些分析,再来设定自己的目标,规划自己的行动。
二、当你发觉有必要做出改变时不要犹豫。改变自己的职业方向永远不嫌太晚,只要这个改变是严肃的,且你能够保证在新的方向上全力以赴。那些浪费在犹豫、等待上的时间经常会比你去适应新生活的时间更长。我曾经处于自己新职业方向的谷底,因为在我更换专业的时候,我对机器学习(machine learning)一无所知。但我知道,我会爱上它,因为这个领域的美与力量。从机器学习方向的入门者到成为CMU的教授,我花了五年时间。
三、你需要非常努力地工作。在我的研究生和之后的职业生涯中,一周7天,我每天平均工作12小时,并保持着高度集中的注意力和高效率。(当然,我其实并不把我做的这些看做工作,我觉得它们和娱乐活动同样甚至更为有趣。)
四、你努力工作的动力不应该来自你的上司给予的压力,而是因为你受到工作的启发与触动,并爱上了工作。我经常告诉我的学生和朋友,我的研究就是我的生活,而不是仅仅把它看做工作。相比于看电视和玩纸牌,我更享受从事研究。
五、与此同时,你仍然可以拥有一个多彩的、充满活力的生活。我是体育迷和音乐迷,也喜欢做其他许多事情,享受和家人、朋友在一起的时光。所以我从不消磨时间。当我不在工作时,我尽情地娱乐或锻炼身体(比如去健身房,弹钢琴……),并花时间和家人、朋友们相处。
六、你需要让自己变得非常有创造力,非常独立。实话说,我研究生阶段的很多研究点子并不来自于我的导师,而是我自己想出来的。我从Berkeley的导师那里获得的,更多的是研究上的精神和资金支持、研究方式和研究品味上的启发、诚实的品质和自豪感,以及他们的友谊。
七、要了解你研究领域中最新的进展。每年读一千篇论文并不是一件耸人听闻的事。事实上如果想成为领域内的顶尖学者,你要了解一切,不仅在本领域,还有许多的相关领域。
八、当你做出突破性成果的同时,你也应该尊重领域内权威们的成果。不要认为他们愚蠢而自己更聪明,并且要去问自己为什么多年以前他们没有像你这样做。另一方面,当你确信你确实获得了权威们没有的洞见时,你也要有超越他们的勇气。
九、要变得学识广博而灵活。许多问题和技术都是相关的,不要在一棵树上吊死。
十、在研究中做一个完美主义者或理想主义者从来不是一件坏事。拥有一个乐观的性格和强健的体魄是非常重要的。不要愚蠢地假设自己因为比别人更聪明,所以能不那么努力。事实上,大多数我认识的顶尖科学家都是既绝顶聪明,又会长时间工作并保持高效。所以你需要健康的身体来与他们竞争。我自己在大学时代就是一个半专业的运动员。比起那些比我年轻10-20岁以上的学生们,我至今仍能更高强度、更长时间地连续工作和娱乐。
十一、学会沟通的艺术。乐意去与同事和竞争者讨论、分享你的观点。不仅向同事学习,也要向竞争者学习。
十二、最重要的是,请保持诚实、开放、耐心、快乐和富于远见,而不是变得卑鄙、封闭、急躁、苦涩和短视。
 
人物简介
邢波(Eric Xing)博士现任卡耐基梅隆大学计算机科学系教授。他的主要研究兴趣集中在机器学习和统计方法论的发展及大规模计算系统和架构,希望能够解决在复杂系统中的高维、多峰和动态的潜在世界中的自动化学习、推理以及决策问题。邢波教授拥有美国罗格斯大学分子生物学博士学位和美国加州大学伯克利分校计算机科学博士学位。
 
邢波教授目前正在进行的研究工作包括:1. 统计学习基础,包括针对估测时间或空间变化系数模型的理论和算法,稀疏的结构化输入/输出模型和非参数贝叶斯模型的理论和算法;2.在分布式系统或云端,搭建基于大模型和大数据规模的并行机器学习的框架;3. 针对基因调节、遗传变异和疾病相关性的计算和统计分析;4. 将统计学习应用到社交网络,数据挖掘和计算机视觉中。
 
邢波教授至今已发表了超过200篇受同行审议的论文。他是美国统计协会杂志(JASA)、应用统计年鉴(AOAS)、IEEE模式分析与机器智能学报(PAMI)和PLoS计算生物学杂志(the PLoS Journal of Computational Biology)的副主编,机器学习杂志(MLJ)和机器学习研究杂志(JMLR)的执行主编。他是美国国防部高级研究计划局(DARPA)信息科学与技术顾问组的成员,美国国家科学基金会(NSF)事业奖、Alfred P. Sloan学者奖、美国空军青年学者奖、 以及IBM开放协作研究学者奖获得者。

阅读记录:read twice
posted @ 2014-07-11 19:27 杰哥 阅读(326) | 评论 (0) | 编辑 收藏
 
[zz]2014-7-7 Andrew NG 自动化所演讲回放:DeepLearning Overview and Tre
http://blog.sina.com.cn/s/blog_671b7c800102ux1k.html

7月7日,笔者有幸在中科院自动化所现场听取了Andrew Ng以《Deep Learning:Overview and Trends》的精彩演讲。现将Andrew演讲内容整理出来,希望对大家有所帮助。演讲中,Andrew主和大家分享了深度学习为何产生和发展成果,展望了未来发展趋势,以及百度在人工智能上的使命。现场录音包括Andrew演讲内容和会后现场问答,希望对大家有帮助~

演讲录音链接:http://pan.baidu.com/s/1ntHRSxV

特别说明:本文不是Andrew的演讲实录,只是笔者记录下来的内容;此外,由于全程英文和笔者技术水平有限,有不准确或遗漏之处,还请见谅。

深度学习为何产生?
一直以来,在人工智能领域,我们试图达到获得大量数据、做出优秀产品和赢得广大用户三者之间的良性循环,但传统的机器学习算法表现并不够好,良性循环也未能实现。

深度学习相比于传统方法有很多优势,如下面这个很直观的图,随着训练量的提高,传统方法遇到了瓶颈,但深度学习的效果却蓬勃发展,不断提高。

深度学习有哪些发展?
当年在斯坦福大学,我和我的团队曾经有一个想法,让机器人去识别咖啡杯。但机器人看到的东西和人完全不一样,我们会看到一个具体的杯子,但机器能看到的只有数据,这也是计算机视觉(computer vision)难点所在,那就是要搞明白这些数字代表了什么。

过去我们的研究主要集中在三个领域。第一个是计算机视觉,目的是发现物体特征,然后描绘这种特征。第二个是语音识别(speech recognition),比如对机器说:“请找到我的咖啡杯”,机器就会识别这句话的意思。第三个是文本识别,这个有助于我们更好的应用,比如机器翻译、网络搜索等。

很长一段时间,我们设计了大量program,也发了一些paper,但研究没有什么突破性进展。直到大概七年前,我和我的学生突然有一个想法:人脑中大部分感知器是一个非常简单的计算过程。

而对于人脑的研究也表明,这个“one program”的假设是有可能的。我们可以从大脑如何听、如何看开始,去了解大脑的神经元如何工作,并进而为深度学习提供理论依据。


有了这个依据,我们开始从有标记数据(tagged data)中学习,也就是有监督学习(supervised learning)。在给机器看了50000张咖啡杯图片后,我们让机器人在斯坦福计算机系办公楼里找咖啡杯,效果非常好。进一步研究后,我们认识到bigger is better,即特征越多,实验效果越好。

 

于是,我就开始寻找谁拥有更多的计算资源,于是找到了谷歌,开始了谷歌大脑这个项目,并建立了当时世界最大的神经网络,达到10亿个神经元。而我们的研究也推动了谷歌产品的发展,提升了用户的体验,比如谷歌地图,以及语音识别方面的应用。


谷歌在硅谷确实很牛,但相比于谷歌,百度能够更迅速地把深度学习技术应用到更多的产品中,比如最值得骄傲的是百度图像搜索,准确度已超过谷歌,此外还有百度语音识别,广告预估等。


过去很多深度学习的成功,很大原因是利用了有标记数据。像百度、谷歌、Facebook这些公司,拥有海量的有标记数据,相较于其他技术,深度学习更适合利用这些数据并获得好的表现。

但这并不是深度学习发展的唯一方向,想想宝宝是如何学习的?他们并不是从有标记数据中获得认知,即使是最最深沉地爱着自己孩子的父母,也不会找出5万个咖啡杯的照片指认给自己的孩子看,来让他认识什么是咖啡杯的。另外一点,标记数据可能存在用完的问题。所以大家认为使用未标记数据来学习,会是未来的发展方向。

实际上,人类大脑如何处理图片的过程就是visual cortex寻找图片中Lines/edges的过程,而每一个visual cortex的神经元就是一个Model。


基于生物学中visual cortex的工作原理,发现人脑处理的过程是:像素->边缘->对象部分->对象模型。深度学习的过程是反向的。深度学习就是找到小patch再将其进行组合,就得到了上一层的特征(feature),递归地向上学习特征( feature)。在不同对象(object)上做训练是,所得的边缘(edge)是非常相似的,但对象部分(object parts)和模型(models) 就会完全不同。

(笔者:讲到这里,Andrew秀出了他的演讲中唯一的一个公式,还和大家开玩笑的说道,I hope you can enjoy it. 由于笔者的水平,这段听的不太明白,就把公式贴出来,大家自己琢磨吧。)


我们曾使用Youtube视频作为未标记数据,让机器自主学习。这个过程中我们发现人脸在视频中出现的频率非常高,神经网络可以学习如何认出人脸。但令人惊喜的是,机器通过自学辨别出了猫脸。


当时我作报告时,经常会有人过来对我说:深度学习听起来真的很酷,但如果没有造价昂贵的16000个 CPU,我们还能在深度学习上有所进展么?所以我和Adam、Bryan(两周前刚刚加盟百度)就致力于寻找到更便宜的研发方法。后来我们决定用GPU(Graphic Processing Unit)替代CPU,降低造价。于是,具有100亿个节点的神经元网络便出现了。

深度学习未来去向何方?
我认为0-2年内仍以标记数据为主导发展方向,之后的3-5年,标记数据和未标记数据将共同发展。但关于深度学习的未来更长远的发展,我认为将会更依赖于无标记的数据,因为这与人类和动物认知世界的过程更为类似。


具体地说,在计算机视觉方面,预计在6年内,我认为深度学习将会颠覆现有的所有方法。


在语音识别方面,目前还处于起步阶段,未来将会有爆发式增长。语音识别和语音合成会在近几年产生巨大的影响。语义理解方面,发展的过程将会是从单词的理解到一个句子,再到文章理解(document representation)。推荐系统和广告方面,百度做的很好,有效提高了广告表现。机器人方面,未来将会出现真正的智能机器人。


此外,就是对获取数据的创新。现在的很多研究都是基于海量数据,未来或许我们可以通过某种传感器训练摄像头来捕捉更多的数据。我甚至想和朋友在空闲的时间里,成立一个国际数据获取大会(conference of data acquisition),很遗憾,我没有这个时间。而未来的挑战将会集中在规模化和算法这两方面。

百度研究院的使命
创立coursera时,我的愿望是让每个人可以平等地获得学习的机会。如今,谁能助我成就人工智能的梦想呢?最终我选择了百度。


之所以选择百度,我看到了百度拥有大数据和强大的计算能力;有敏捷的机构,能快速地调配资源去需要的地方,也能够将技术快速落地,比如GPU的落地;同时,我被我所遇到的人所折服,比如Robin、王劲、余凯和张潼。

我相信未来百度研究院将研发出最棒的工具和技术,构建最佳的员工职业发展之路,努力打造一个最好的环境来吸引优秀工程师和研究人员加入我们,成就未来深度学习领域的英雄(future hero of Deep Learning)。

posted @ 2014-07-09 10:25 杰哥 阅读(365) | 评论 (0) | 编辑 收藏
 
[zz]2014-7 Andrew Ng 自动化所报告听后感
http://blog.sina.cn/dpool/blog/s/blog_593af2a70102uwhl.html?ref=weibocard&from=timeline&isappinstalled=0

一早出发,8点20就赶到现场, 人越聚越多,Ng提前几分钟到达现场,掌声一片。 Ng的报告总体上提到了五个方向。
1)Deep Learning相比于传统方法的优势
首先,一个很直观的图,随着训练量的提高,传统方法很快走到天花板,而Deep Learning的效果还能持续走高,后来这个在提问环节也有同学问道,是否会一直提高,Andrew Ng也坦诚需要面对不同的问题来讨论,而且任何方法都有天花板。

这个问题蛮关键的,我补充回答一下,其实这是一个特征表达力的问题,传统方法特征表达力,不如Deep Learning的多层学习得到的更有效果的表达。举个例子,假定有一种疾病,这种疾病容易在个高且胖的人群,以及个矮且瘦的人群中易感。那么任意从给一个特征角度上看,比如肥胖,那么胖的这部分人中,得此病的概率为50%,不胖的也是50%,那么'胖'这个特征没有表达力。

用学术上的术语来说,身高和体型是两个Marginally independent的变量,即如果观察到了他们产生的结果,他们就不独立了。也就是如果身高和体型在用于检测这种疾病的时候,他们就不独立了,因此需要有一种特征表示的方式来表示他们的这种不独立性,能够combine他们以形成更好的特征。而这种更结构化的特征,需要大量的语料才能training到位。而独立性的特征,往往少部分语料就可以获得很好的结果,但随着语料数量的提高,无法observe到结构化的特征,因此更多的语料就浪费了。我们都知道这是AI领域的XOR问题,也就是二层 神经网络就能求解,换言之,多层神经网络mining出来更好的特征。

接着Ng也直观的展示了,从像素级特征(表达力最弱)到edges级特征,直到object级特征。 从edges特征大家看到的这个形式,其实是深度神经网络的edges中的一个小块,就是input layer到第一个hidden layer之间的一组边(如果是RBM 的话)或者是第一个hidden layer到output layer的一组边,这组边可以理解成training的成果。而hidden layer是一个sparse coding的向量,用来combine不同组的边来还原出input layer。
因此可以看到,通过深度学习的处理,无需tagged data,通过自学习的方式,就可以做到特征的表达力从像素级,提高到了 object models,多么美妙啊,难怪Ng用了Amazing这个词,而且再一次地露出了特有的微笑。
2)Deep Learning存在的问题
Ng提到了,通常学生试验在10 million connections这个水平,因为在大已经超出计算的能力,但如果采用并发的方法,160000万个CPUs的情况下,可以达到1 billion connections这个水平。如果采用特制的GPU来计算,可以达到10 billion connections的水平。
从我自己的实验结果看,目前做千万connection是没问题的,时机成熟我就开放出来,但受限于CPU在向量计算的劣势,再大的话,每一轮训练的时间就会大大提高,变得不可计算,而分布式Parameter server的搞法,虽然能够第一步把语料shard一下,然后各自训练,到了最高层用类似transform learning的法子再combine(这段话是我自己猜测的,Ng的报告这里我没听太懂,图片是按照记忆画出)

我个人的理解,就是一个巨大语料切成n个部分,每个部分产生表达力强的特征,而这些表达力强的特征在一个阶段,就是那个长条哪里进行combine,也就是这个hidden layer可以很好的表达来自不同shard的特征,最后在展开各层,用不同shard上的tagged data来进一步调整每条边的权重。
3)Deep Learning的Idea

这个可能没什么可说的,但我认为很重要,这段话不难翻译,人脑中大部分感知器是一个非常简单的计算过程。但通过组合可以达到很高的理解力。但问题是如何组合,感知的过程如何从低级阶段到高级阶段,从明暗,色彩的感知,到人类喜怒哀乐的情感,整个过程的每一步可能都是naive得,但整个认知链条的末端一定是语义的,有感情的,上升到概念的。另外,通常还有一个体会,比如看一本小说,脑海中就能自然浮现画面,可见不同神经感知器也不是完全独立的,而是彼此联系的。
4)Deep Learning的一些成果
报告中提到很多成果,特别是提到了图像识别中,在DL面前,SIFT特征提取算法弱爆了,我还是为Ng的自信和霸气,略震了一下。按照常规,学术界的同志应该谦虚,尊重下老前辈,尊重下传统的。。
后来的提问环节,也有同学问到,那些old算法框架怎么办呢?Ng说无论怎样,这就是科学技术的趋势,当一个东西产生明显效果后,越来越多的方法会采用这些新方法,而传统方法,不是说研究者就立马到zero,但的确会fewer and fewer。当时我心里想,无论如何如何,总得有留下少部分坚守的同志,没准10年后翻身也难说,但大部队应该扑新方法的。

5)未来趋势

未来趋势基本是一些喜闻乐见的东西,没什么新意,包括后来提问环节也有人提问,让Ng透露未来的一些计划。Ng说未来的事情总是千变万化的,如果真是希望了解产业界的一些计划,可以来百度打工,和最优秀的工程师一起做事。
提问环节有很多有趣的话题,比如有人问百度,以及Andrew Ng本人对Spark的评价,Ng回答到,百度用了很多开源工具,但机器学习的很多问题太Uniq了,太特殊了,而Spark这种通用的东西很难满足需求,当然不是说SPark不好,只是Ng本人也很少用(用了Less这个词汇)。还有包括为什么效忠百度,Ng说了三个原因,第一他认为机器学习是Transform世界,Transform互联网的一种方式,相比coursera更加感兴趣。第二百度拥有大量优秀的科学家,高质量的同事,比如余凯,张潼,李伟同志等等。第三,百度拥有大量的data, 还有个同学要DL的Reading List,Ng给了个这个:http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Recommended_Readings,还说里面有邓侃号召中国青年的贡献在里面。另外根据网友@fiona_duan的反馈。最后Andrew提到的是他出生于香港,长在英国和新加坡,之后在美求学和生活。他和媳妇都在美国。他媳妇叫Carol Reiley. Carol 是约翰·霍普金斯大学的医学博士以及在读计算机博士,研究方向是生物医学方向的机器人应用。
整个报告大概就是这样,我的理解也难免偏颇,水平难免有限,但我坐在第一排,努力的听每一个细节,并快速思考,能量消耗蛮大的,另外就是百度来了几个美女,看上去比较有知识,跑前跑后的拍照。
上次在清华的报告,这里也一并推荐阅读下:http://blog.sina.cn/dpool/blog/s/blog_593af2a70101bqyo.html?vt=4
posted @ 2014-07-08 08:52 杰哥 阅读(366) | 评论 (0) | 编辑 收藏
 
Adobe distiller: Cambria not found, using Courier. 报错解决办法
http://blog.sina.com.cn/s/blog_4cf8aad301017uk2.html

调整PDF print属性。将
Rely on system fonts only; do not use document fonts.
取消勾选.即可

如图:
posted @ 2014-07-06 16:53 杰哥 阅读(9566) | 评论 (1) | 编辑 收藏
 
The feelings of attending the 31st International Conference on Machine Learning (ICML 2014)
Under construction.
posted @ 2014-06-27 21:46 杰哥 阅读(350) | 评论 (0) | 编辑 收藏
 
仅列出标题
共39页: First 13 14 15 16 17 18 19 20 21 Last