杰

杰哥好,哈哈!
要有魄力,即使失败,也不要让自己的人生平庸! 如果您觉得看过的文章还不错,请帮我点一个右边广告(没有任何副作用),谢谢!
 
 

常用链接

  • 我的随笔
  • 我的评论
  • 我参与的随笔

留言簿(57)

  • 给我留言
  • 查看公开留言
  • 查看私人留言

随笔分类

  • Matlab(58) (rss)
  • Optimization(7) (rss)
  • Python(4) (rss)
  • Search(30) (rss)
  • 名人(9) (rss)
  • 软件使用(Software)(66) (rss)
  • 学术(102) (rss)

随笔档案

  • 2021年3月 (2)
  • 2021年2月 (1)
  • 2021年1月 (1)
  • 2020年10月 (1)
  • 2020年9月 (1)
  • 2019年2月 (1)
  • 2018年10月 (1)
  • 2018年9月 (2)
  • 2018年8月 (1)
  • 2018年7月 (2)
  • 2018年6月 (1)
  • 2018年5月 (1)
  • 2018年4月 (1)
  • 2018年3月 (4)
  • 2018年2月 (2)
  • 2018年1月 (1)
  • 2017年12月 (4)
  • 2017年11月 (2)
  • 2017年9月 (2)
  • 2017年8月 (1)
  • 2017年7月 (1)
  • 2017年6月 (4)
  • 2017年5月 (3)
  • 2017年4月 (1)
  • 2017年1月 (1)
  • 2016年12月 (8)
  • 2016年11月 (3)
  • 2016年10月 (3)
  • 2016年9月 (2)
  • 2016年8月 (2)
  • 2016年7月 (4)
  • 2016年6月 (6)
  • 2016年5月 (7)
  • 2016年4月 (1)
  • 2016年3月 (3)
  • 2016年2月 (1)
  • 2016年1月 (2)
  • 2015年12月 (6)
  • 2015年11月 (3)
  • 2015年10月 (4)
  • 2015年9月 (3)
  • 2015年8月 (5)
  • 2015年7月 (6)
  • 2015年6月 (7)
  • 2015年5月 (8)
  • 2015年4月 (9)
  • 2015年3月 (4)
  • 2015年2月 (1)
  • 2015年1月 (3)
  • 2014年12月 (4)
  • 2014年11月 (2)
  • 2014年10月 (5)
  • 2014年9月 (3)
  • 2014年8月 (5)
  • 2014年7月 (7)
  • 2014年6月 (4)
  • 2014年5月 (1)
  • 2014年4月 (1)
  • 2014年3月 (2)
  • 2013年12月 (4)
  • 2013年11月 (3)
  • 2013年9月 (4)
  • 2013年8月 (3)
  • 2013年7月 (6)
  • 2013年6月 (4)
  • 2013年5月 (1)
  • 2013年4月 (1)
  • 2013年3月 (2)
  • 2013年2月 (1)
  • 2013年1月 (3)
  • 2012年12月 (3)
  • 2012年11月 (10)
  • 2012年10月 (11)
  • 2012年9月 (2)
  • 2012年8月 (6)
  • 2012年7月 (6)
  • 2012年6月 (4)
  • 2012年5月 (1)
  • 2012年4月 (3)
  • 2012年3月 (5)
  • 2012年1月 (1)
  • 2011年12月 (1)
  • 2011年11月 (4)
  • 2011年10月 (3)
  • 2011年9月 (3)
  • 2011年8月 (1)
  • 2011年7月 (1)
  • 2011年6月 (2)
  • 2011年5月 (2)
  • 2011年2月 (1)
  • 2011年1月 (3)
  • 2010年12月 (7)
  • 2010年11月 (5)
  • 2010年10月 (7)
  • 2010年9月 (3)
  • 2010年8月 (7)
  • 2010年7月 (7)
  • 2010年5月 (5)
  • 2010年3月 (6)
  • 2010年1月 (5)
  • 2009年12月 (5)
  • 2009年11月 (4)
  • 2009年10月 (5)
  • 2009年9月 (4)
  • 2009年8月 (1)
  • 2009年7月 (2)
  • 2009年6月 (3)
  • 2009年5月 (1)
  • 2009年4月 (3)
  • 2009年3月 (5)
  • 2009年2月 (2)
  • 2009年1月 (1)
  • 2008年12月 (1)
  • 2008年10月 (1)
  • 2008年9月 (1)
  • 2008年8月 (1)
  • 2008年7月 (4)
  • 2008年5月 (2)
  • 2008年1月 (1)
  • 2006年11月 (1)
  • 2006年4月 (1)

相册

  • 搞笑图片

Other

  • 安徽电力公司客服网站
  • 编程
  • 程序员联合开发网
  • 经典歌曲
  • 两全其美
  • 新雨丝
  • 中国工商银行
  • 中国建设银行
  • 中国建设银行信用卡
  • 中国农业银行

Paper submission

  • ACM Computing Surveys
  • AI in medicine
  • amino acids
  • Artificial Intelligence Review
  • Bioinformatics
  • BMCBioinformatics
  • conference Rankings
  • conference(CVPR)
  • conference(ICML)
  • conference(NIPS)
  • conferences
  • Current Bioinformatics
  • CVIU
  • Electronics Letters
  • IJCM
  • IJCV
  • IJPRAI
  • Image and Vision Computing
  • Neural Computing and Applications (NCA)
  • Neural Networks
  • Neurocomputing
  • Pattern Recognition
  • Pattern Recognition Letters
  • pieee
  • TASE
  • TBD
  • Tbiom
  • TCDS
  • TCSS
  • TCSVT
  • TCYB
  • TGRS
  • TIFS
  • TII
  • TIP
  • TKDE
  • TMM
  • TNNLS
  • TPAMI
  • TSMCS
  • TVT

福彩

  • 安徽福彩网
  • 双色球玩法规则介绍

留学相关

  • Google翻译
  • 爱词霸在线词典
  • 美国总领事馆
  • 普特英语听力
  • 太傻论坛
  • 在线科技词典

论坛

  • 科大bbs
  • 科学岛论坛
  • 模式识别爱好者论坛

搜索

  • arxiv
  • google ipv6
  • google台湾
  • google香港
  • google学术搜索
  • Journal citation reports (JCR)
  • scholarpedia
  • wikipedia维基百科
  • 北京天气预报
  • 电驴
  • 合肥天气预报
  • 乐乎(下载电影)
  • 微软学术搜索

学者

  • Dacheng tao
  • Deng Cai
  • Dengyong Zhou
  • dodo
  • Jian Yang
  • Jie Gui
  • Meina Kan
  • Tianyi Zhou
  • Tongliang Liu
  • Weifeng Liu
  • Xiaojin Zhu
  • yong xu (hit)
  • Zhen Lei (ia)
  • 桂卫华
  • 中科院水生所所长桂建芳

邮箱

  • 126邮箱abroad
  • 126邮箱国内
  • google 邮箱
  • hotmail
  • Seu (东南大学)
  • 科大校友邮箱
  • 科大邮箱
  • 中科院

中科大和中科院

  • Niu Group (inside)
  • Niu Group (Outside)
  • 合肥研究院图书馆
  • 智能所

搜索

  •  

最新评论

  • 1. re: Office 2010中删除Endnote web 插件
  • 真是救了我呀!
  • --ss
  • 2. re: metric learning(度量学习)
  • 76765
  • --656
  • 3. re: 全新的美国计算机学科排名[未登录]
  • 随便拉出一个来就能秒天朝的 北*大学,清*大学到火星...
  • --chipset
  • 4. re:【超智多能思维科学研究所】致 蒲慕明教授的eMail
  • 评论内容较长,点击标题查看
  • --江伟
  • 5. re: Adobe distiller: Cambria not found, using Courier. 报错解决办法
  • 解决了,谢谢!
  • --lyh

阅读排行榜

  • 1. [转贴]Google被封、gmail.com邮箱、gmail登录不了的办法(25667)
  • 2. arg min的含义是什么?(24468)
  • 3. latex问题集锦(19430)
  • 4. matlab命令窗口输出函数disp和display(17324)
  • 5. MATLAB字符串数组(15445)

评论排行榜

  • 1. K近邻分类器的matlab代码(Matlab code of k-nearest neighbors)(13)
  • 2. LibSVM学习记录(6)
  • 3. 全国接听免费附加套餐(5)
  • 4. EndNote 乱码 解决方案(5)
  • 5. 孟岩blog理解矩阵一、二, 三(5)

Powered by: 博客园
模板提供:沪江博客
C++博客 | 首页 | 发新随笔 | 发新文章 | 联系 | 聚合 | 管理

数据挖掘领域的全球专家列表
发布一个数据挖掘领域的全球专家列表,http://t.cn/RGlEOWy 包含300多位专家,既有学术界的,也有工业界的,提供每位专家详细profile(基本信息、联系方式、研究兴趣),还包括性别、能讲的语言(比如中文)。更多专家列表将随后发布。
posted @ 2016-03-04 10:16 杰哥 阅读(576) | 评论 (0) | 编辑 收藏
 
[zz] 一篇高引用的综述文章是如何写成的
http://mp.weixin.qq.com/s?__biz=MzA4Njk3NjAwMg==&mid=401456849&idx=3&sn=8694cb5acea6dc69c2d671da255ecfc4&scene=1&srcid=0227QhOyKgoGn2e1BL9D12PL&from=groupmessage&isappinstalled=0#wechat_redirect

1
 为什么写综述


从一篇文献开始,看几篇相关文献整理出大致思路,找出一个切入点就开始实验。在做实验的过程中还要看文献,针对不同问题有选择性的看。之后实验完成,整理成文章发表的时候,为了写前言部分而看一些文献。开题 - 实验 - 发表,每个步骤都要看文献,这是我的科研过程。

但这些步骤里看文献是不全面的,从解决一个问题开始,到解决一个问题结束,涉及到的都是具体的文献。如果要对整个课题方向全面把握,写一篇综述是十分有必要的。而且,在做过较长时间的相关研究后,写综述文章有以下几个好处:

大的方面,能够提高对整个课题方向的把握能力。通过详细的、全面的文献检索和阅读,可以对这个课题方向的发展脉络、研究进展和最新成果会有一个整体的把握和了解。

其次,是对自己工作的总结升华。经过多年的相关研究,自己心中必定有不少思考和疑问,此时的大量阅读对自己的固有知识是一个归纳升华的过程。写完应该有顿悟之感。

再次,对以后的实验研究具有重要的指导作用。写完综述后,通过对整个课题方向的了解,知道了哪些问题已经解决、哪些地方还存在问题、哪些问题是热点、哪些是难啃的骨头,是制约课题发展的关键所在。这样设计以后的实验时就能有的放矢。

小的方面,综述也是一篇文章呢。现在国内评估要看个人成果,综述也是一种发文章的方法。另一个方面,能够提高自己在同行中的地位。一般来讲,综述文章的引用次数相对研究文章高,因此也就扩大了自己在同行中的知名度。

2
 准备工作之文献检索


在开始写综述之前,很重要的一个准备工作是文献检索。虽然经过"开题 - 实验 - 发表"三个阶段的阅读,可能存储有足够的知识点,这对你的实验有用,这还不够一个综述文章。综述文章要全面,要综合概况所评述的问题,因此,详尽的文献检索是十分有必要的。

这里说的全面不是说把几十年的文章全部下载下来读一遍,这样工作量太大了,这是其一;其二,早期的文章可能已经被总结过了。因此,找几篇综述文章看看就可以了。此处的全面是指多换几个关键词检索和多换几个数据库检索。先说关键词,每个作者倾向的关键词不同,而且新兴领域还没有约定俗成的术语时,更需要多换几个关键词了。再说数据库,因为每个数据库收录的期刊都是不全面的,这里重要的检索工具必不可少。例如 Scopus、Pubmed、Web of Science 和 google Scholar,会收录比较全面的信息,但会比专门数据库晚(晚多长时间不清楚,Pubmed 会晚几个月,Scopus 更新快些)。

还有两个小技巧来获得相关文献。一是所读文章中引用的文献,这个好理解,文后的参考文献就是。另一个是看哪篇文章引用了所读文章,这也是相关文献。像 Google Scholar 有一个引用次数,点开里面就可以看到哪篇文章引用了此篇文章。

通过以上几个方法,才能找全相关的文献。

3
 准备工作之大量阅读


找全文献后,下一步就开始读了。

首先,没必要全部通读,这样耗时太长,工作量太大。但是,近两年的文章要通读。两年,对比较热的领域来说是一个合理的综述文章的时间点。这两年的文章要通读,重点读,也是综述的重点所在。不通读不足以知晓解决了什么问题、如何解决问题;不通读就写综述有点不负责任。

两年前的文章没必要通读,因为,可以从近两年的文章中的前言部分读到对这些文章的评述,也可以从综述文章中获得相关信息。这些文章着重读摘要就可以了,还有就是对某一个问题针对性阅读。

4
 文献的阅读方法


阅读上百篇文献可不是一件容易的事,如果仅仅是浏览一遍,就只能留下一个大概印象,过一段时间或者说随着阅读文献的增多,这个模糊的印象也失去了。对知识点的记忆是写作和创作的基础,记不住怎么组织语言,即使是查,也不知道从几百篇文献上千页中哪里去查。

我的导师教导我读书要辩证去读,在思考中记忆,不要在书上涂画。不否认这种方法适合聪明的大脑。我资质愚钝,试行几年之后,脑子里只有墨盒的味道,却没有文字,结果连我赖以凭借考上大学和研究生的写写划划也丢失了。对于我,更适合“好记性不如烂笔头”,这也适合我的德国同事们。他们把文献用A4纸打印出来,在重要的语句上用高亮笔划出。读完之后抄录到A5纸上,订到原来的文献上,作为精选。这个摘录是对你真正有用的知识点,其他大部分文章都是铺垫,或者是已经在你记忆中了。“高亮笔划出+ 读书笔记”能够有效的帮助记忆。

这样读书虽然刚开始很慢,随着十几二十篇文献做下来,你的积累多了,后面的摘录就越来越少了。而且,你的阅读速度也越来越快了。因为人都是基于旧有的知识去领悟新知识。刚开始的时候,你的知识储备少,一篇文章的知识点难以用自己的语言解释,或者大脑中不能浮出有效的实例去解释,所以接收起来非常困难[1]。而随着积累的增加,理解越来越容易,也理解越来越充分,速度也越来越快。阅读速度的增加一定不是线性的,而是指数型的,这就是知识的马太效应[2]。

你的读书笔记需要分类,你的知识需要管理。这与其他知识的管理一样,需要一套完整的系统。这得需要另辟一篇博文讨论,此处不再展开讨论。仅对文献的管理进行说明。

5
 文献的管理


在下载了上百篇文献之后,文献的管路就成了一个问题。就像十个八个人的小公司,老板一个人可以兼职财务、人事、市场等多重角色,而上百上千人的大公司,其中任何一个角色,都足以让你忙的焦头烂额。这个时候,专业人士能够轻松处理让你手忙脚乱的杂事。对于文献管理,Endnote就是这样一个专业人士,能够有效地把庞大的文献有效地组织起来,给你提供全面的信息,作者、期刊、年份、题目、卷期页码,以及摘要等信息。有些期刊在投稿时要求提供DOI,Endnote也能做到。Endnote在文章编排中的作用是巨大的,是综述写作、论文写作、书籍写作的必备(其他文献管理工具也不错,ReferenceManager,Biblioscape,NoteExpress等)。它的使用方法见王超的《ENDNOTE使用方法,常用!》[3]。

虽然电子版很方便,我还是倾向于阅读用纸版。一是看电脑屏幕时间长了,眼睛疼,大脑容易木化,陷于僵滞的状态;二是多动手,有助于记忆。在电脑屏幕上看时,仅仅使用一根手指头:是指双击打开或关闭和滚动滑轮翻页。除了食指,整个身体的其他部分都一动不动。眼睛慢慢变成像死鱼眼一样,拉直了视线,呈现出发呆的神态来。这种阅读方式不适合长时间大量阅读,偶尔查阅还行。我喜欢把文献打印出来,统一编号(跟Endnote一致,Endnote中的Label可以添加编号)后打孔,放入活页文件夹。活页夹和打孔器见图片。

这里也提一下活页文件夹。这种简单、灵活、有效的文件管理方式,我竟然在我整个求学过程中闻所未闻,未见任何同学使用过。大家都是打印出来,订书机一订就摞在桌头上。文件多了经常滑落下来洒一地。更难受的是管理,你不能把它码整齐,也不能随手取出想要的文献。直到在歌德学院学德语才第一次接触文件夹。当时报名时,一人发一个活页文件夹,教室里有打孔器。老师发下的材料自己打孔后放入。而且还可以用隔页分类存档不同内容的资料。方方正正的文件夹,往桌子上一放就能站住,文件再多也能排放整齐。在实验室里,导师应该给每个研究生配发活页夹供学生使用,方便学生。而且学生毕业后,可以把文件夹和打印的文件同时收回,留给后续的学生使用。从而,既利于科研又避免浪费。

6
 文章的架构


文献的阅读是一个从“无可非议”、“似是而非”、“大是大非”到“无事生非”的过程。

刚开始阅读,由于自己的知识有限,前几篇文章提出的方法和结果对自己都是全新的,自己的知识储备不足以评判其中的观点。因而,刚开始阅读时会对文章中的所有内容全盘接受,很难产生质疑的观点出来,对看的任何内容都是“无可非议”。等看过十篇八篇的文献之后,所了解的方法和观点较多了,有些可能观点相左,这是怀疑会跳出来,对所阅读的论点进行挑剔,却又不能凭借一两篇文章而确定某种方法完全胜过另一种方法。每种方法都各有千秋,从而达到“似是而非”的境界。只有看过足够量的文章之后,才能够做出完整的评价,所获得的优劣比较结果也有充足的论据。这时候就达到了一种“大是大非”的境界。

综述文章,一部分是综合别人的工作,另一部分,还在于论述自己的观点。大是大非也还只是综合的一步,应该更进一步,通过对“大是大非”的把握,要能发现新的问题、新的优点或者缺点、提出改进方法,以及对未来工作和发展前景的建议和设想,更有甚者,跳出对原有实验细枝末节的讨论,从一个更高的层面,从原理上、方法论上和系统性上加以评价。这当然很难,故而,多数综述文章综而不述,让读者看完之后,对过去有些了解,对未来仍是茫然。当然,论述的越多,耗费的时间和精力越大。鲜明的例子是,赵立平[4]历时两年增删二十多次才写出为未来5-10年的发展方向提出自己独到的见解的文章,方知“述”之不易。

如果阅读完成之后,能够达到“大是大非”的经济,即可提笔写作了。写作,要先搭框架,对所要综述的内容分门别类,不断细分。分的越细越好,至少要三级,三级标题下还可能有四级五级标题。这样做有以下好处:

@框定要综述的问题,缩小范围。不要让自己的写作“随兴所至”而偏离了方向,失了重点。也容易分清主次,而不是眉毛胡子一把抓。这不是写书,没有太多的篇幅去展宽全面的讨论,所以要限定自己综述的范围。

@写作压力小。想到写一篇文章时,会联想到“写下至少五千文字和阅读一百篇文献”,一霎那压力倍增,而且不知道从何处入手。而细分之后,所要想的仅仅是对某个方法的某个参数进行讨论,只需一个小段落的文字。这样简单的多,可以立即完成,没有太大压力。

@有条不紊。所有要讨论的问题列在那里,就像一个 TO-DO LIST,完成一项划去一项,一件一件来,有条不紊,进度非常直观。

7
 写作的小细节


文章细分成一个一个小节之后,就可以动手完成每个小段落了。在这里有几个小技巧,非常有效。

@注重写作的连贯性:写作最好是一气呵成,不要在写A问题时去思考B的问题。这里有两层意思,写作A问题时发现了对B问题有用的材料;另一层意思是,写作A问题时发现了B问题存在的错误、疏漏或者其他。这个时候,不要停下来,只需要用便签备注一下(我习惯使用ONENOTE做备注还收集材料),备注完之后,继续对A问题的写作,直到完成。再回过头来,整理B问题。

@二次文献:为了论证一个结论,可以需要引用文章主题之外的文献,或者需要从文献引用的文献里去找论据,是谓二次文献。对文献中引用他人的数据有必要去查证,避免错引文献和错引数据。

@图片处理:一是图片的版权,这个不用担心。你投到期刊,期刊的编辑会去搞定;二是图片的质量。从其他文献中摘取图片时,不要使用截屏的方法,这样图片的分辨率不够。应该用PHOTOSHOP打开PDF文件,对所需的图片进行裁剪,再另存为TIFF/JPEG格式。在PPT中绘制的图,千万不要用PPT的“图片另存为”功能,那个分离度太弱了。应该讲PPT另存为PDF,然后用PHOTOSHOP处理。

@参考文献的修改。前期写作的时候,必须使用ENDNOTE对插入WORD中的文献进行索引。如果文章已经成型,ENDNOTE已经导出参考文献了,经过其他作者修改后,要增删参考文献。增删一个文献,其他文献的索引号都要变更。这个时候容易出错。我使用以下方法:对每个要改动的文献索引后加“*”标注;“*”后加上新的参考文献索引号;使用查找功能确认每个需要改动的文献都与“*”相连(应该出现两次,比如增加一个参考文献121,122应该有两个,121*122,122*123,即是121变为122,122变为123);删除“*”和前面的索引号。改变完成。

@英语句子,短句比长句好。被理解最重要,短句子容易理解,定语从句太多,能把人给绕晕了。

8
 文章的亮点


一个篇文章,要有一些“干货”才能被更多地引用。因此在写作之前,看看你所下载的文章的被引用次数。哪个文章被引用次数最高?为什么?

从个人引用文章的习惯看来,以下文章会被引用:

@第一篇文章:本领域的开山之作,不引用没天理;

@里程碑式文章:文章达到一个之最,最高、最大、最快等,或者突出的进展,是要引用的;

@讨论的是核心问题。

除此之外,我还喜欢引用有总结性结论的句子,比如某个技术的优点是。。。;和量化的句子,比如目前70%的文章采用了某方法。

如果你的综述里能提供这些内容,必定会增加他引次数。前面三个干货,是研究型文章干的事,后面这两个也不容易。第一个要你自己概况总结,第二个要统计大量的数据。

备注:这里把自己的一点经验拿出来与大家讨论,希望有经验的朋友多加指正,以冀对初次写综述的科研人员做个参考。


【图文转自】微信公众平台   壹学者

posted @ 2016-02-28 19:34 杰哥 阅读(268) | 评论 (0) | 编辑 收藏
 
刘铁岩:在微软大学的三次华丽转型
http://blog.sina.cn/dpool/blog/s/blog_4caedc7a0102w57s.html?wm=3049_a111

一个理想的研究人员成长轨迹应该是什么样的?
微软全球执行副总裁沈向洋博士认为一个酷酷的研究员应该是这样的:“挑选一个雄心勃勃的目标,致力于端到端的研究,长久的坚持,而他的研究伙伴们也应该有着同样的激情,但最重要的是始终乐在其中。”
如果以这个标准来看,微软亚洲研究院首席研究员刘铁岩博士可谓是研究员的范本。2003年,从清华大学电子工程系博士毕业之后,刘铁岩直接进入了微软亚洲研究院,在这一待就是十余年。这十多年间,刘铁岩博士由原本的多媒体信号处理方向的博士,逐步成长为国际机器学习和信息检索领域的知名学者。这些转型在外人看起来十分巨大,但“三清”(本科、硕士和博士都就读于清华大学)出身的刘铁岩博士说:“微软亚洲研究院其实是我的第二所大学,这是一个培养人的地方,有了她的帮助,这一切其实过渡地非常自然。”
开放环境带来的首次转型
在结束了九年的清华校园学习时,摆在刘铁岩面前的选择有很多,例如知名大学教职等等,而微软亚洲研究院吸引刘铁岩的除了全球领先的研究环境之外,更重要的是可以和自己敬仰已久的顶尖行业大牛一起工作,对于一个刚开始入行的年轻研究员来说无疑动力巨大。因此,刘铁岩于2003年正式加入了微软亚洲研究院,并由原来的多媒体信号处理方向的研究转入了互联网搜索与挖掘领域,从此开始了对信息检索这一全新领域的探索。
这是刘铁岩在研究院的第一次转型,但这次转型并不像人们想象的那么艰难,因为微软亚洲研究院为研究人员提供了一个十分开放的科研环境,让研究员们有充分的自由和资源来调整自己的研究兴趣。在这里刘铁岩和很多不同研究方向的资深研究员们进行了交流,其中包括他后来的老板,现在的微软亚洲研究院常务副院长马维英博士。同时,借助研究院这个平台刘铁岩还与众多国际知名学者进行了深入交流,进一步拓宽了其科研视野,刘铁岩博士首次转型的领路人便是卡内基梅隆大学的文本分类领域的资深专家杨颐明授。2004年暑假,正处于转型期的刘铁岩博士遇见了前来微软亚洲研究院交流的杨教授,便一拍即合地展开了合作。他们当时共同搭建了当时世界上最大的、近三十万类的文本分类系统,相关论文收到了广泛关注,短短几年间就被引用了数百次。这次和杨教授的合作也成了刘铁岩进入到文本信息处理领域的第一个敲门砖。从那个时候起,刘铁岩开始了解什么是信息检索,什么是文本分类系统,他的首次转型也逐步成型。
挑选一个雄心勃勃的目标:排序学习
第一次转型之后,刘铁岩作为信息检索领域的新人,始终保持着旺盛的好奇心,不断思考着能为这个领域带来哪些新东西。当时围绕搜索引擎所开展的研究十分火热,信息检索更是人们关注的重中之重。通过大量的文献研究,刘铁岩发现这个方向大多数的研究者都是数字图书馆专业背景,因此研究方法都偏向经验化,缺少了对于优化系统方式和目标的科学思考。
基于对行业的洞察,刘铁岩开始深入学习机器学习的相关知识,并试图把机器学习的思想引入信息检索领域。由此,刘铁岩博士在学术界的第一个成名工作——排序学习(learning to rank)就这样诞生了,该方法为信息检索领域带来了重大变革。
随后,刘铁岩的研究便围绕排序学习展开。在2007到2008年,刘铁岩和他的团队在SIGIR、WWW、ICML等顶级学术会议上发表了大量的关于排序学习的论文,还在主流会议上做主题讲座、主持专题研讨会。他的表现受到了学术界越来越多的关注,更多的研究人员跟随他进入到这个领域中来,短短的几年时间刘铁岩及其团队的研究实力便在全世界的信息检索领域内遥遥领先。而刘铁岩博士出的第一本学术专著也与排序学习相关。该专著已被多所大学作为教科书、并被其他学者引用了近千次。
致力于端到端的系统性研究 在2008年到2009年左右,排序学习领域尽管很繁荣,但是多数人仍把排序学习作为应用级的研究。在机器学习领域的主流学术会议中,排序学习通常也会被分到应用领域(application track)。
刘铁岩很快就发现了这其中的原因:一个研究领域如果缺少科研理论的话,是无法被广泛认可的。因此在后来的几年时间里,刘铁岩和他的研究团队花费了大量时间从理论的角度把排序学习领域正式化,去阐述这个领域是什么、目标是什么、各种算法的关系是什么、有什么样的理论性质等等。他们在ICML、NIPS、COLT等顶级机器学习会议上发表了大量排序学习的理论文章,即使到今天这些论文的影响力也十分深刻。在这整个的研究周期内,刘铁岩及其团队把排序学习打造成一个完整的研究领域,并通过从算法到理论的一系列研究成果,让这个领域真正的火了起来,刘铁岩也成了这一研究领域当之无愧的代表人物。
这就是微软亚洲研究院里一个典型的研究案例。刘铁岩在微软内部的导师Rakesh Agrawal院士曾告诉他:“对于研究人员来说,并不是为了发表论文而发论文,而是要在特定的历史阶段,针对一个重要的问题,从表面到核心全部做到位。”一直到今天,排序学习一直都是很多会议的主要方向之一,仍然有很多学者在进行研究。正是因为这些工作,刘铁岩博士完成了他的第二次转型——由信息检索转变到了机器学习。
第三次转型:博弈机器学习
在微软亚洲研究院,研究员的研究成果除了作为论文发表出来之外,还会应用到微软的各个产品中。通过与产品部门合作,研究员们可以发现实际应用中的新问题。刘铁岩团队与微软的在线广告部门的合作就是其中一个非常有代表性的实例。
这项合作始于排序学习,刘铁岩和团队成员帮微软广告部门离线训练了一个效果极佳的机器学习模型用于必应广告搜索中的竞价排名。上线之初模型立刻带来了很大的效益,但随着时间的推移,广告效益却大打折扣。刘铁岩和他的团队发现了这个问题,并找到了奇怪现象的根源:广告竞价排名过程常常涉及到人(广告主)的因素,广告主会因为算法的改变带来的价格变化,敏锐地调整自己的广告投放策略,这是一个动态过程。如果不考虑经济规律和人的动态策略,离线地进行机器学习模型的训练,结果自然会产生很大的偏差。
如果想把广告竞价这个动态问题解释清楚,仅有机器学习的知识背景显然是不够的。所以刘铁岩便带领其团队开始学习博弈论,计算经济学等等,组名也改成了“互联网经济研究组”,这便是他第三次转型的开始。在这个转型过程中,他发明了一种全新的技术,称为“博弈机器学习”,把博弈论的思想引入到机器学习的过程中,来对人的动态策略进行建模,从而解决上文提到的难题。
如果你了解博弈论和机器学习分别是什么的话,就会发现这两个领域差别巨大,完全是不同的体系,那么这次转型的难度也可想而知。刘铁岩博士说:“对于任何一位研究人员,如果不是在微软亚洲研究院的话,这种转型都是非常困难的。因为,如果你开始学习新东西,想要有这个领域的人认识、认可你,并产生顶级的影响力是十分艰难的。但当我们真正去做的时候,发现微软亚洲研究院给了我们很多帮助,这让我们对新领域的研究变得轻松不少。”当刘铁岩和他们组的研究员们开始涉足互联网经济领域时,不仅有来自微软其他研究院在博弈论领域颇有建树的同事(如Noam Nisan)的帮助、也有很多来自学界的博弈论专家(如邓小铁教授、叶荫宇教授等)抛出了橄榄枝。他们互相访问,一起参加各种学术活动,互相交流,在很短的时间内,刘铁岩他们就对博弈论这一研究方向有了很多深刻的认识:不仅在算法博弈论领域的顶级会议上发表了多篇论文,还在互联网经济研究组成立不到两年的时间里,以程序委员会主席的身份把全世界第二的算法博弈论会议——互联网经济大会(WINE)带到中国。
黄金三镖客:电子,数学和计算机  微软亚洲研究院 人工智能组三次转型,成就了刘铁岩博士一路创新不断的探索和发现,然而这背后也离不开其整个研究团队的支持与努力。现在,刘铁岩博士带领的团队更名为“人工智能组”,继续在当下火热的机器学习和人工智能领域进行深耕。不久前,微软亚洲研究院对外开源的DMTK(分布式机器学习工具包)便是这个小组的研究成果。
如果给这个研究组寻找一个关键词的话,那一定是“求知欲”。从刘铁岩的三次转型中也不难发现,现名为人工智能组的研究员们绝非循规蹈矩之人,他们有着强烈的求知欲,就像初生牛犊不怕虎一样,知难而进,什么不会学什么,什么难做什么,朝气十足。
而另一方面,该团队的组合十分有趣,就像微软亚洲研究院的一个小小缩影一样。研究员们的专业覆盖面既不是全部精钻于机器学习,也不是全部埋头在博弈论上。目前,人工智能组有三分之一的研究员出自数学系,专业包括计算数学、概率论和组合数学,这涵盖了该团队所需要的所有数学基础。另外三分之一的研究员,包括刘铁岩在内都是来自电子工程专业,刘铁岩博士认为,电子工程专业出身的人有一个很大的优点便是有着非常好的直觉,并且不局限自己的思路,十分开放。而其余三分之一的研究员则是计算机专业出身,他们都拥有很强的计算机技能。当数学、电子和计算机三拨精英碰撞在一起的时候,就没有什么研究方向能难得住他们了。
此外,人工智能组还是一个十分重视学术和工程实践相结合的团队。他们的很多启发与灵感都来自于与微软产品部门的合作,因此,这是一个不断提出新问题的团队。在人工智能组发表的论文中你可以看到一个很明显的特点:团队很少循规蹈矩地解决别人提出的问题,而是经常提出新的问题,并给出一个力所能及范围内的最优解。这样的论文常常有很高的引用数,平均下来,刘铁岩和他的团队发表的论文几乎每篇都有上百次的引用。
三次转型带来了如今人工智能研究组的团队凝聚力。一加一大于二,小组的很多论文都有至少一个电子,一个计算机和一个数学背景的研究员参与,这样的论文都非常有特点,也能满足各种要求,无论是定力证明、直觉、还是实现的精巧,都可圈可点。
“争吵文化”与“真理不辨不明” 刘铁岩博士带领的人工智能组还有一个十分有趣的“争吵文化”。在接受采访时,笔者对刘铁岩博士嘴里说出的“争吵文化”感到十分难以置信。坐在对面的刘铁岩博士穿着经典款的男士衬衫,外套一件淡灰色的羊毛开衫,学院气息浓厚,让人似乎很难将他与“争吵”联系在一起。
“我们团队几乎会天天争吵。”刘铁岩博士笑言。但这其实是研究组最有活力的状态,开会的时候,大家不会在乎职位高低,就一个问题会针锋相对地表达自己的观点。人工智能组全组上下都坚持的一个信条是“真理不辨不明”。在刘铁岩的带领下,整个组会相互批判的看问题,就连待久一点的实习生也会自然的融入其中,和他的导师间也是一种互相辩论,互相学习的关系。
因此,对于实习生来说,进入微软亚洲研究院会带来巨大的成长。首先是知识的积累,很多实习生在进研究院之初知识非常有限。但微软亚洲研究院计算机专家资源密集,超过两百名的计算机专家们的研究经历、方向和视角各不相同,向他们学习一定会有所收获。其次,实习生们在这里学会的更多是研究经验和研究方法,“争吵文化”在这里便得到了很好的体现。无论是什么大牛发了什么论文,都应该抱有一种“破坏性”的思想,先客观地分析,从中立甚至批判的视角来研究。因此,人工智能组培养出的实习生也都个性十足,颇有“小牛”风范,从不盲目崇拜。
在微软亚洲研究院大学:成长于中国,却能影响世界 作为三清毕业的博士、微软亚洲研究院首席研究员,刘铁岩博士的研究之路始终都未离开中国本土。而作为国际机器学习和信息检索领域的知名学者,他的国际影响力也毋庸置疑。刘铁岩的论文多次获得最佳论文奖、最高引用论文奖;他担任了SIGIR、WWW、NIPS、AAAI等众多顶级学术会议的程序委员会主席或领域主席,ACM信息系统会刊(TOIS)、ACM万维网会刊(TWEB)等主流学术期刊的副主编;他和他的研究成果也被美国国家公共电台、中国中央电视台、MIT技术评论等国内外知名媒体所报道。此外,他还受邀在包括卡内基梅隆大学(CMU)、诺丁汉大学在内的国内外知名高校担任客座教授、博士生导师。对于所获得的诸多成就,刘铁岩无不感动地说:“最重要的原因其实是我来自微软亚洲研究院,如果我博士毕业没有来到研究院,我都不敢想象会有今天的影响力。”
微软亚洲研究院从1998年11月成立的第一天开始,就在国际学术界扮演着举足轻重的作用。这么多年来,研究院以一贯开放的心态,与学术界展开积极的合作,而研究院开放的学术环境也为研究人员们构建了一座与学术界的桥梁,两者相辅相成。甚至有国外学者戏称微软亚洲研究院是一个让人“又爱又恨”的机构。爱在它的研究成果,为学术界带来了诸多创新,也“恨”在其彪悍的实力,让别人望尘莫及。
除了学术合作,微软亚洲研究院为研究员们还提供了接触用户,服务用户的可能。微软亚洲研究院的研究员也和微软的产品部分积极展开合作。刘铁岩博士带领的人工智能组的技术转化也体现在微软必应搜索的搜索结果排序和广告排序,小冰的自动问答技术等微软的产品和服务中。
刘铁岩博士谦虚的表示,“能成为包括CMU在内的众多知名高校的客座教授,很大程度源于学术界对微软亚洲研究院的信任。甚至人工智能组的实习生,也成为了CMU的offer收割机,这都得益于我们开放的科研环境和紧密的学术交流。因为微软亚洲研究院,我们的研究被更多人关注,我们的新人也被更多人认可,这就形成了一个良性循环。类似于国外的师承关系,从这个角度来看,微软亚洲研究院着实就像是一所大学了。”
阅读记录:read twice
posted @ 2016-01-21 10:05 杰哥 阅读(350) | 评论 (0) | 编辑 收藏
 
pm 2.5
http://www.bjnews.com.cn/world/2014/02/09/304351.html 

PM2.5超70要停课

  当每立方米PM2.5浓度达到70微克时,要告知市民。因为日本的环保专家认为,PM2.5浓度超过70毫克/立方米就会对人体健康构成威胁。
http://zx.bjmemc.com.cn/web/index.aspx
http://aqicn.org/city/beijing/dongchengdongsi/cn/

posted @ 2016-01-15 15:20 杰哥 阅读(231) | 评论 (0) | 编辑 收藏
 
为什么 1 + x ≤ e^x 这个不等式会在机器学习中频繁出现
全部的机器学习都可以归根到 1 + x ≤ e^x 这个不等式及(从这个不等式证明出来的)切尔诺夫界。为什么这个不等式会在机器学习中频繁出现呢?http://t.cn/R4Ld6B8
posted @ 2015-12-19 16:00 杰哥 阅读(347) | 评论 (0) | 编辑 收藏
 
机器之心: 干货:七步打造深度学习专
http://www.almosthuman.cn/2015/12/16/rhnvh/


本文作者Ankit Agarwal是面向开发者的神经网络平台提供商Silversparro Technologies的CTO和创始人。

1,第一步,了解什么是机器学习,最佳入门资源就是 Andrew Ngs (Ex-Google, Stanford, Baidu), an online course at coursera. 讲座让你足够了解机器学习的基础,不过课后作业会提升你对机器学习的了解。

2,接下来需要培养对神经网络的直觉。所以,继续编写你的第一个神经网络,和它玩耍吧

3,了解神经网络很重要,但是简单神经网络没有足够能力解决大多数有趣问题。变量-卷积神经网络很善于解决视觉问题。斯坦福课程笔记以及幻灯片:CS231n Convolutional Neural Networks for Visual Recognition(notes), 和CS231n: Convolutional Neural Networks for Visual Recognition (讲座幻灯片)。 here和 here是两个很棒的有关CNNs的视频。

4,接下来就是自己电脑上运行你的第一个CNN

  • 买 GPU 和安装 CUDA
  • 安装 Caffe 及 Digit
  • 安装 Boinc(这个对你的学习没帮助,但是能让其他研究人员在在它闲置的时候使用你的GPU从科学工作)

5,Digit提供上会给少数几个算法,比如 用来性格识别的Lenet ,图像分类的 Googlenet。你要下载 相关数据库( dataset for Lenet 和 dataset for Googlenet )来运行这些算法。可以修改算法并尝试其他有趣的视觉图像识别任务,就像我们尝试过的( here)。

6,就各种NLP任务而言,RNNs是最佳选择。学习RNNs最好的地方是斯坦福的演讲视频(Stanford lecture videos here)。你可以下载 Tensorflow,用它来建造RNNs.

7,现在,继续选择一个深度学习问题吧,无论是面部识别还是语音识别、无人驾驶汽车等等,试着解决它。

如果你完成了所有步骤,恭喜!去申请谷歌、百度、微软、脸书或者亚马逊的职位吧。没多少人能做这些。


来自linkedin,机器之心编译出品。编译:微胖。

posted @ 2015-12-18 20:11 杰哥 阅读(487) | 评论 (0) | 编辑 收藏
 
应用 | 机器学习商业应用入门及七个实例
http://read.haosou.com/article/?id=a13a234da860a2902a8c5629e79c438f

来自infoworld

机器之心编译出品

编译:汪汪,赵云峰

你可能听说过谷歌和Facebook这样的公司如何利用机器学习来开车、识别语音和分类图片。你可能会想,这很酷。但这和你的工作有什么关系呢?好吧,来看看这些公司如何使用机器学习吧。

  • 一家支付处理公司在几十亿次交易中,实时检测到了欺诈行为,每月减少损失达100万美元。

  • 一家汽车保险公司用详细的地理空间数据,预测保险索赔的损失,让他们能够对极端天气对生意的影响进行建模。

  • 有了车载通信技术提供的数据,一家厂商发现了运营指标的规律,并用它们来驱动前瞻性主动维护业务。

这些成功的故事中有两个相同的主题。首先,每个应用都基于大数据——极大数量的、格式不同的快速数据。第二,每个案例中,机器学习都揭示出了新的洞察,并驱动了价值的增长。

机器学习的技术基础已有超过50年历史了,但是直到最近,学术界之外的人才注意到它的能力。机器学习需要大量的计算能力,但早期的使用者们缺乏成本划算的基础设施。

近期,机器学习引起了许多人的兴趣,逐渐活跃起来,这归功于一些正在融合的趋势。

  • 摩尔定律极大降低了计算成本;大规模计算能力可用最小的成本获得。

  • 具有独创性的新算法提升了计算速度。

  • 数据科学家积累了许多理论和实践知识,提升了机器学习的效率。

总的来说,大数据带来的飓风创造了许多无法用传统统计学方法解决的分析问题。需要是发明之母。旧的分析方法已经不适用于今天的商业环境。

机器学习技术

目前,世界上共有几百种不同的机器学习算法。最近,仅在分类方面,有一篇论文就测试了超过150个算法。这个概览覆盖了数据科学家用来驱动价值的关键技术。

数据科学家将机器学习分为监督式学习和非监督式学习。监督式学习技术需要结果的先验知识。例如,如果我们正在研究一个市场活动的历史数据,我们可以根据市场是否产生预期的反应来对数据进行分类,或决定下一步要花多少钱。监督式学习技术为预测和分类提供了强大的工具。

然而,经常会出现的情况是,我们并不知道一个事件「最终」的结果。例如,在某些欺诈的案例中,只有当事情发生很久以后,我们才可能知道某次交易是不是欺诈。在这种情况下,与其试图预测哪些交易是欺诈,我们不如使用机器学习来识别那些可疑的交易,并做出标记,以备后续观察。但我们对某种特定的结果缺乏先验知识、但仍希望从数据中汲取有用的洞察时,就要用到无监督式学习。

使用最广泛的监督式学习技术包括以下这些:

  • 广义线性模型(GLM,Generalized linear models):这是线性回归的一种高级形式,支持不同的概率分布和 联系函数,能让分析师更有效地对数据进行建模。GLM用格点搜索进行加强,是经典统计学和最先进的机器学习的混血产物。

  • 决策树:这是一种监督式学习模型,能够学习一组将总体逐步划分为若干小片段的规则。这些小片段对目标变量来说是同质的。

  • 随机森林:一种流行的集成学习方法,可以训练许多决策树,然后将这些决策树进行平均,做出预测。这个平均的过程产生了一个更一般的解,过滤掉了数据中的随机噪声。

  • 梯度提升机器(GBM,Gradient boosting machine):这种方法通过训练一系列决策树来产生一个预测模型,在其中,后序决策树会校正前序决策树所产生的预测误差。

  • 深度学习:这种方法能用复杂多层网络的形式对数据中的高级模式进行建模。由于深度学习是对问题建模来说最一般的方法,因此有潜力解决机器学习中最具有挑战性的问题。

无监督式学习的关键技术包括以下这些:

  • 聚类:一种将物体分成小类的技术。这些类别在许多度量上彼此相似。顾客细分就是聚类的一个实际例子。现在有许多不同的聚类算法,应用最广泛的是k-均值算法。

  • 异常检测:这是一种识别意外事件或结果的过程。在安全和防欺诈领域,不可能对每一次交易都进行调查;我们需要系统对那些最可疑的交易做出标记。我们之前在监督式学习部分讨论过的深度学习,也可以用来进行异常检测。

  • 维数缩减:这个过程可以减少纳入考虑的变量数量。随着企业和组织获取的数据量越来越多,可能的预测因子(或特征)迅速增长。想要识别数据对某一特定问题提供了什么有价值的信息是一件很重要的工作。主成分分析(PCA)会对一组原始特征进行评估,并将它们减少为彼此独立的索引。

在机器学习中,某些技术总是比其他的技术表现好,但对某一个特定的问题来说,很难说哪一个技术是最好的。这样,大多数数据科学家更喜欢尝试多种技术,并从中选择最好的模型。由于这个原因,高性能就显得非常必要,因为它可以让数据科学家在更少的时间内尝试更多的选项。

机器学习实战

在工业和商业领域,企业们都在使用机器学习来提升收入和降低成本,因为在许多任务上它们比人类更加高效。下面就是7个例子,证明机器学习的多功能性和广泛的适用性。

  1. 预防欺诈:PayPal是在线支付产业的龙头老大,每年拥有超过1.5亿活跃的电子钱包用户,支付额超过2000亿美元。在这个体量下,即使是小比率的欺诈也会带来极大的损失。在过去,这家公司在欺诈行为上的损失曾达到每月1000万美元。为了解决这个问题,PayPal建立了一个由顶尖研究者组成的团队,他们使用最先进的机器学习技术构建了一个能实时识别欺诈性交易的模型。

  2. 选择电子广告的目标客户。广告科技公司Dstillery用机器学习来帮助Verizon和Williams-Sonoma这样的公司在实时竞价平台上定位电子广告的目标。Dstillery使用了用户的浏览历史、访问、点击和购买信息,能在每秒内做出几千次预测,同时处理几百个广告活动。这样,这家公司在广告定位上的表现极大地超过了人类市场分析人员,优化了每美元所带来的市场影响。

  3. 内容推荐。Comcast公司基于每个交互式电视服务的顾客的历史观看习惯,提供了个性化的实时内容推荐。Comcast用机器学习技术分析了几十亿个历史记录,对每一个顾客做出了独特的品味描述,然后将顾客的品味分成不同的类别。对每一类顾客,Comcast都能实时跟踪和显示最流行的内容,这样顾客就能看到目前正在火爆的潮流。最后的结果就是:更好的推荐系统,更高的利用率,更满意的顾客。

  4. 建造更好的汽车。捷豹路虎生产的新汽车上装有60个机载计算机,每天在2万个参数上产生1.5GB的数据。这家公司的工程师利用机器学习来提取数据并理解顾客如何与汽车互动。有了这些真实的使用数据,设计师就能预测零件失效和潜在的安全问题,有助于他们设计车况更好的汽车。

  5. 瞄准最好的潜在市场。市场人员用「购买倾向」模型作为工具来决定最好的潜在销售市场,并提供最好的产品。思科的产品系列很多,从路由器到有线电视盒子,应有尽有。它的市场分析团队在几小时内训练了6万个模型,对1.6亿个潜在市场进行了打分。他们使用了一系列的技术(例如决策树和梯度提升机器),极大提升了模型的精确度。这些模型提升了销售量,减少了无用的销售电话,也提升了销售代表的满意度。

  6. 优化媒体。NBC环球公司存储了几百TB分配到国际有线电视的媒体文件。对这些在线资源的有效管理对互联网客户的分配支持是非常必要的。这家公司使用了机器学习,基于多参数的组合来预测每个项目的未来需求。基于这样的预测,这家公司将预测需求较低的媒体文件移入低成本的离线存储。机器学习带来的预测比基于单参数(例如文件年龄)的随机规则更加高效。结果,NBC环球在保持客户满意度的情况下,降低了总体存储成本。

  7. 改善医疗保障服务。对医院来说,病人再次入院是一个严重的问题,这不仅会影响病人的健康和福利。如果一家医院的再入院率高,将面临美国联邦医疗保险和私人保险公司的处罚,所以考虑到经济利益,医院通常只会允许那些恢复得很好、看起来会保持健康的病人出院。卡罗莱纳州医疗系统 (CHS)使用机器学习,对病人的风险进行打分,帮助病例管理员决定某个病人是否应该出院。这个系统提升了护士和病例管理员的效率,并根据风险和病症的复杂性对病人进行排序。结果,CHS的再入院率从21%降到了14%。

机器学习的软件要求

适合机器学习的软件随处可见,机构在开发功能时有许多选择,以下是评估机器学习时应该考虑的需求:

  • 速度

  • 实现价值的时间

  • 模型准确性

  • 集成简便

  • 灵活部署

  • 可用性

  • 可视化

让我们分别来看一看:

  • 速度。时间就是金钱,运算快速的软件能够使你高薪雇用的数据科学更具生产力。实践中的数据科学往往需要不断实验和迭代,一个项目可能数百次测试,运算速度上的微小改善可能就会显著的提升效率。考虑到每天的数据量,高性能的机器学习软件必须在分布式平台上运行,这样你就可以就工作量分散在多台服务器上。

  • 实现价值的时间。执行期的表现只是「实现价值的时间」中的一部分。公司生意的度量标准应该是整个项目的完成时间,从数据获取到部署完成。在现实情况下,这意味着你的机器学习软件应该将Hadoop和云格式整合起来,并且应该输出的预测模型的代码能够被部署在公司的任何其他地方。

  • 模型准确性。准确性关系重大,尤其是设计到高风险行业。例如交易中的欺诈监测,在准确性上提高一点就能每年节省数百万美元。你的机器学习软件应该给予数据科学家充分授权,让他们可以使用公司的所有数据,而不是只让他们处理某些样本。

  • 集成简便。你的机器学习软件应该与你生产过程中复杂的大数据软件共存。理想化的机器学习软件应该是运行在日常硬件上,而不需要专门的高性能计算设备,也不需要GPU芯片等外加设备。

  • 灵活部署。你的机器学习软件应该在一定范围内提供多种部署选择,包括Hadoop上的主机托管或者独立的计算机集群。如果云服务是公司架构中的一部分,务必要寻找那些能够运行在多种云平台的软件,包括AWS、微软Azure和谷歌云平台。

  • 可用性。数据科学家会使用不同的软件工作来进行工作,包括R、Python、Scala等分析语言。你的机器学习平台应该可以非常简便的将这些工具集成起来。另外,精心设计的机器学习算法应该包含以下几种省时功能:1)处理缺失数据的能力;2)转化分类数据的能力;3)管理复杂性的规则化技术;4)适用于测试及学习自动化的网格搜索能力;5)自动化的交叉验证。

  • 可视化。成功的预测模型需要数据科学家和商业用户进行合作,因此,你的机器学习软件应该为你的商业用户提供相应的工具,便于他们对预测模型的特性和各类特征进行可视化评估。

许多开发者相信,机器学习将变得像搜索引擎一样无处不在和使用简便。在搜索引擎方面,谷歌、雅虎等公司向普通用户释放了Web的力量,让他们能在浩如烟秒的网页中找到自己想要的信息。同样的,机器学习也能帮助各种各样的企业利用现代化的数据集获取有价值的洞察。目前,我们还未做到这一点。要达到理想的未来,还需要更多的投入——不仅来自机器学习开发者,还来自那些数据量和分析需求早已超出传统方法处理范畴的商业用户。

©本文由机器之心原创编译,转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心(全职记者/实习生):hr@almosthuman.cn

投稿或寻求报道:editor@almosthuman.cn

广告&商务合作:bd@almosthuman.cn
阅读记录:read twice

posted @ 2015-12-11 22:34 杰哥 阅读(210) | 评论 (0) | 编辑 收藏
 
刷新神经网络新深度:ImageNet计算机视觉挑战赛微软中国研究员夺冠
http://mp.weixin.qq.com/s?__biz=MzAwMTA3MzM4Nw==&mid=400607098&idx=1&sn=933c7328221cfec90e358314be8602e3&scene=1&srcid=1211pUOOAQdspFZkl74STys9&from=groupmessage&isappinstalled=0#wechat_redirect

世界上最好计算机视觉系统有多精确?就在美国东部时间12月10日上午9时,ImageNet计算机视觉识别挑战赛结果揭晓——微软亚洲研究院视觉计算组的研究员们凭借深层神经网络技术的最新突破,以绝对优势获得图像分类、图像定位以及图像检测全部三个主要项目的冠军。同一时刻,他们在另一项图像识别挑战赛MS COCO(Microsoft Common Objects in Context,常见物体图像识别)中同样成功登顶,在图像检测和图像分割项目上击败了来自学界、企业和研究机构的众多参赛者。


ImageNet计算机视觉挑战赛由来自全球顶尖高校和公司的研究员组织举办,近年来已经成为计算机视觉领域的标杆,其比赛结果总能十分直观地反映出计算机视觉这一热门领域中各研究机构的研究进展和突破。MS COCO数据库是由微软资助建立,其挑战赛目前由学术界几所高校联合组织,独立运行。


这两个挑战赛的侧重点各有不同:ImageNet 倾向于评测识别图像中显著物体的能力,而MS COCO倾向于评测识别复杂场景的各类物体的能力。能同时在两个世界级的比赛中获得冠军,足以说明研究组的技术突破是通用的——它可以显著地改善计算机视觉领域的各项研究,甚至计算机视觉领域以外的研究,比如语音识别。那么究竟是什么样的技术突破?


在计算机视觉领域,深层神经网络的方法常常被研究人员用来训练计算机识别物体,微软也不例外。但微软亚洲研究院的研究员们在此次ImageNet挑战赛中使用了一种前所未有,深度高达百层的神经网络。该网络的层数比以往任何成功使用的神经网络的层数多5倍以上。


要实现这一技术,背后的挑战巨大。起初,连研究员们自己都不确信训练非常深的网络是可能或有用的。“我们没想到这样一个简单的想法意义却如此重大。” 微软亚洲研究院首席研究员孙剑坦言。完成这项技术突破的团队由4位中国研究员组成:孙剑与何恺明来自微软亚洲研究院视觉计算组,另外两人为微软亚洲研究院的联合培养博士生,分别是来自西安交通大学的张祥雨和中国科学技术大学的任少卿。



微软亚洲研究院主管研究员何恺明


当然,这个重大的技术突破震惊的不仅仅是这个研究团队的研究员们。微软全球资深副总裁Peter Lee表示,“从某种意义上说,他们完全颠覆了我之前对深层神经网络的设想。”


ImageNet挑战赛去年获胜的系统错误率为6.6%,而今年微软系统的错误率已经低至3.57%。事实上,该研究团队早在今年一月就首次实现了对人类视觉能力的突破。当时,在题为“Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”的论文中,他们系统的错误率已降低至4.94%。此前同样的实验中,人眼辨识的错误率大概为5.1%。



滴水穿石:这是一个关于耐心与创新的故事


近几十年来,科学家们一直都在训练计算机做各种各样的事情, 例如图像或语音识别。但很长一段时间内,这些系统的误差巨大,难以消弭。


大约在五年前,研究人员们开始重新使用 “神经网络”的技术并使其再次焕发出新的活力。神经网络的复兴让图像和语音识别等技术的精度实现了大幅度飞跃。微软的SkypeTranslator实时语音翻译技术就得益于此,它能够更好地识别语音,从而不断完善机器翻译的准确性。


类似于人脑,神经网络包含多级非线性处理层。从理论上说,越多的层级应该能带来越好的学习结果。但实际实验中的最大挑战是,在通过每一层级的反传训练中,反穿监督信号幅度会迅速衰减,这让整个神经网络系统的训练极为困难。


孙剑回忆到:“三年前,当计算机视觉和机器实际领域训练出8层的深层神经网络系统时,识别精度有了质的飞跃。去年出现了足有20到30层的深层神经网络,识别精度又被大幅刷新。”


孙剑和他的组员们认为网络还可以更深。过去的几个月来,他们用各种方式来添加更多的层级,同时还要保证结果的准确性。他们经历了大量错误的尝试,也吸取了很多的经验教训。最后,一个被他们称之为“深层残差网络(deep residual networks)”的系统在微软亚洲研究院成功诞生。


这个“深层残差网络”正是他们用于ImageNet挑战赛的系统,它实现了惊人的152层,比以往世界范围内的任何系统都深5倍以上。它还使用了一个全新的“残差学习”原则来指导神经网络结构的设计。残差学习最重要的突破在于重构了学习的过程,并重新定向了深层神经网络中的信息流。残差学习很好地解决了此前深层神经网络层级与准确度之间的矛盾。



借水行舟:从科研探索到智能产品


神经网络有一个非常重要的优点,就是学习到的内部表示或特征可以在不同任务中复用。Skype Translator就是一个很好的例子,英语与德语之间的翻译准确率可以随着英语与中文翻译的不断增加而提高。


孙剑表示,他们的深层残差网络具有非常强的通用性。他们把该系统用于ImageNet挑战赛的分类任务后,他们发现这一系统学到的内部表示或特征能显著提高其它三项任务:检测(detection),定位(localization)和分割(segmentation)。“从我们极深的深层神经网络中可以看出,深层残差网络力量强大且极为通用,可以预见它还能极大地改善其它计算机视觉问题。”


事实上,孙剑团队多年来在计算机视觉领域的研究成果已经转化到众多微软的智能产品和服务中,例如,微软牛津计划中的人脸识别和图像识别API、Windows 10中的Windows Hello“刷脸”开机功能、必应的图像搜索、微软小冰的多个图像“技能”,OneDrive中的图片分类功能,以及广受好评的口袋扫描仪Office Lens等等,不胜枚举。


以微软牛津计划为例,该计划开放了一系列机器学习相关的API,让没有机器学习背景的开发人员也能构建自己的智能应用。而其中人脸识别API作为牛津计划最先开放的API,受到广泛使用。此前火遍全球的How-old.net(微软颜龄机器人)和Twins or Not(微软我们)就是在人脸识别API基础上,通过几行简单的代码实现的。


通过和微软产品部门的紧密合作,这些来自于微软亚洲研究院的全球领先的计算机视觉技术得以应用在几亿人的生活中。而这些来自中国研究员的研究成果,正在为我们的生活带来一场“隐形革命”,为全球用户提供更智能的生产力工具和更个性化的计算体验。


微软全球资深副总裁、微软亚洲研究院院长洪小文博士表示,“与视觉在人类感官中的重要性相同,计算机视觉的一次次重大突破无疑为人工智能的整体发展提供了强大动力。让计算机看懂多彩的世界,一直是激励微软研究院及计算机领域同仁在这条充满挑战的道路上前行的重要力量。未来,还有更多突破等着我们去挑战!”


“微软亚洲研究院成立17年了,她的研究环境和气氛为中国IT届培养了众多的人才; 我在这里工作了12年,静下心来你就能在这样的环境中收获激动人心的发现。今天,我对我的团队说,请享受一天获得NBA冠军的感觉!”孙剑说。
阅读记录:read twice

posted @ 2015-12-11 22:28 杰哥 阅读(343) | 评论 (0) | 编辑 收藏
 
Softmax-Loss
     摘要: After discussing with Chong Wang of IIM, I have understood completely http://deeplearning.stanford.edu/wiki/index.php/Softmax_Regression. This is a good reference. The matlab code can be found in my c...  阅读全文
posted @ 2015-12-10 17:20 杰哥 阅读(990) | 评论 (0) | 编辑 收藏
 
"见附件"用英语怎么说
2015年12月02日
美国教授给我126邮箱回复: See attachment.  
2016年12月11日
美国教授给我126邮箱回复: See attached. 20170429澳洲一老师给我126邮箱回复: Please see the attached for the writing of my previous promotion application regarding ...
2017年4月1日
美国教授给我126邮箱回复: My CV is attached. 20170429一trans主编126邮箱回复: Attached please find the slides.
posted @ 2015-12-03 15:27 杰哥 阅读(1149) | 评论 (0) | 编辑 收藏
 
仅列出标题
共39页: First 5 6 7 8 9 10 11 12 13 Last