杰

杰哥好,哈哈!
要有魄力,即使失败,也不要让自己的人生平庸! 如果您觉得看过的文章还不错,请帮我点一个右边广告(没有任何副作用),谢谢!
 
 

常用链接

  • 我的随笔
  • 我的评论
  • 我参与的随笔

留言簿(57)

  • 给我留言
  • 查看公开留言
  • 查看私人留言

随笔分类

  • Matlab(58) (rss)
  • Optimization(7) (rss)
  • Python(4) (rss)
  • Search(30) (rss)
  • 名人(9) (rss)
  • 软件使用(Software)(66) (rss)
  • 学术(102) (rss)

随笔档案

  • 2021年3月 (2)
  • 2021年2月 (1)
  • 2021年1月 (1)
  • 2020年10月 (1)
  • 2020年9月 (1)
  • 2019年2月 (1)
  • 2018年10月 (1)
  • 2018年9月 (2)
  • 2018年8月 (1)
  • 2018年7月 (2)
  • 2018年6月 (1)
  • 2018年5月 (1)
  • 2018年4月 (1)
  • 2018年3月 (4)
  • 2018年2月 (2)
  • 2018年1月 (1)
  • 2017年12月 (4)
  • 2017年11月 (2)
  • 2017年9月 (2)
  • 2017年8月 (1)
  • 2017年7月 (1)
  • 2017年6月 (4)
  • 2017年5月 (3)
  • 2017年4月 (1)
  • 2017年1月 (1)
  • 2016年12月 (8)
  • 2016年11月 (3)
  • 2016年10月 (3)
  • 2016年9月 (2)
  • 2016年8月 (2)
  • 2016年7月 (4)
  • 2016年6月 (6)
  • 2016年5月 (7)
  • 2016年4月 (1)
  • 2016年3月 (3)
  • 2016年2月 (1)
  • 2016年1月 (2)
  • 2015年12月 (6)
  • 2015年11月 (3)
  • 2015年10月 (4)
  • 2015年9月 (3)
  • 2015年8月 (5)
  • 2015年7月 (6)
  • 2015年6月 (7)
  • 2015年5月 (8)
  • 2015年4月 (9)
  • 2015年3月 (4)
  • 2015年2月 (1)
  • 2015年1月 (3)
  • 2014年12月 (4)
  • 2014年11月 (2)
  • 2014年10月 (5)
  • 2014年9月 (3)
  • 2014年8月 (5)
  • 2014年7月 (7)
  • 2014年6月 (4)
  • 2014年5月 (1)
  • 2014年4月 (1)
  • 2014年3月 (2)
  • 2013年12月 (4)
  • 2013年11月 (3)
  • 2013年9月 (4)
  • 2013年8月 (3)
  • 2013年7月 (6)
  • 2013年6月 (4)
  • 2013年5月 (1)
  • 2013年4月 (1)
  • 2013年3月 (2)
  • 2013年2月 (1)
  • 2013年1月 (3)
  • 2012年12月 (3)
  • 2012年11月 (10)
  • 2012年10月 (11)
  • 2012年9月 (2)
  • 2012年8月 (6)
  • 2012年7月 (6)
  • 2012年6月 (4)
  • 2012年5月 (1)
  • 2012年4月 (3)
  • 2012年3月 (5)
  • 2012年1月 (1)
  • 2011年12月 (1)
  • 2011年11月 (4)
  • 2011年10月 (3)
  • 2011年9月 (3)
  • 2011年8月 (1)
  • 2011年7月 (1)
  • 2011年6月 (2)
  • 2011年5月 (2)
  • 2011年2月 (1)
  • 2011年1月 (3)
  • 2010年12月 (7)
  • 2010年11月 (5)
  • 2010年10月 (7)
  • 2010年9月 (3)
  • 2010年8月 (7)
  • 2010年7月 (7)
  • 2010年5月 (5)
  • 2010年3月 (6)
  • 2010年1月 (5)
  • 2009年12月 (5)
  • 2009年11月 (4)
  • 2009年10月 (5)
  • 2009年9月 (4)
  • 2009年8月 (1)
  • 2009年7月 (2)
  • 2009年6月 (3)
  • 2009年5月 (1)
  • 2009年4月 (3)
  • 2009年3月 (5)
  • 2009年2月 (2)
  • 2009年1月 (1)
  • 2008年12月 (1)
  • 2008年10月 (1)
  • 2008年9月 (1)
  • 2008年8月 (1)
  • 2008年7月 (4)
  • 2008年5月 (2)
  • 2008年1月 (1)
  • 2006年11月 (1)
  • 2006年4月 (1)

相册

  • 搞笑图片

Other

  • 安徽电力公司客服网站
  • 编程
  • 程序员联合开发网
  • 经典歌曲
  • 两全其美
  • 新雨丝
  • 中国工商银行
  • 中国建设银行
  • 中国建设银行信用卡
  • 中国农业银行

Paper submission

  • ACM Computing Surveys
  • AI in medicine
  • amino acids
  • Artificial Intelligence Review
  • Bioinformatics
  • BMCBioinformatics
  • conference Rankings
  • conference(CVPR)
  • conference(ICML)
  • conference(NIPS)
  • conferences
  • Current Bioinformatics
  • CVIU
  • Electronics Letters
  • IJCM
  • IJCV
  • IJPRAI
  • Image and Vision Computing
  • Neural Computing and Applications (NCA)
  • Neural Networks
  • Neurocomputing
  • Pattern Recognition
  • Pattern Recognition Letters
  • pieee
  • TASE
  • TBD
  • Tbiom
  • TCDS
  • TCSS
  • TCSVT
  • TCYB
  • TDSC
  • TGRS
  • TIFS
  • TII
  • TIP
  • TKDE
  • TMM
  • TNNLS
  • TPAMI
  • TSMCS
  • TVT

福彩

  • 安徽福彩网
  • 双色球玩法规则介绍

留学相关

  • Google翻译
  • 爱词霸在线词典
  • 美国总领事馆
  • 普特英语听力
  • 太傻论坛
  • 在线科技词典

论坛

  • 科大bbs
  • 科学岛论坛
  • 模式识别爱好者论坛

搜索

  • arxiv
  • google ipv6
  • google台湾
  • google香港
  • google学术搜索
  • Journal citation reports (JCR)
  • scholarpedia
  • wikipedia维基百科
  • 北京天气预报
  • 电驴
  • 合肥天气预报
  • 乐乎(下载电影)
  • 微软学术搜索

学者

  • Dacheng tao
  • Deng Cai
  • Dengyong Zhou
  • dodo
  • Jian Yang
  • Jie Gui
  • Meina Kan
  • Tianyi Zhou
  • Tongliang Liu
  • Weifeng Liu
  • Xiaojin Zhu
  • yong xu (hit)
  • Zhen Lei (ia)
  • 桂卫华
  • 中科院水生所所长桂建芳

邮箱

  • 126邮箱abroad
  • 126邮箱国内
  • google 邮箱
  • hotmail
  • Seu (东南大学)
  • 科大校友邮箱
  • 科大邮箱
  • 中科院

中科大和中科院

  • Niu Group (inside)
  • Niu Group (Outside)
  • 合肥研究院图书馆
  • 智能所

搜索

  •  

最新评论

  • 1. re: Office 2010中删除Endnote web 插件
  • 真是救了我呀!
  • --ss
  • 2. re: metric learning(度量学习)
  • 76765
  • --656
  • 3. re: 全新的美国计算机学科排名[未登录]
  • 随便拉出一个来就能秒天朝的 北*大学,清*大学到火星...
  • --chipset
  • 4. re:【超智多能思维科学研究所】致 蒲慕明教授的eMail
  • 评论内容较长,点击标题查看
  • --江伟
  • 5. re: Adobe distiller: Cambria not found, using Courier. 报错解决办法
  • 解决了,谢谢!
  • --lyh

阅读排行榜

  • 1. [转贴]Google被封、gmail.com邮箱、gmail登录不了的办法(25675)
  • 2. arg min的含义是什么?(24487)
  • 3. latex问题集锦(19440)
  • 4. matlab命令窗口输出函数disp和display(17328)
  • 5. MATLAB字符串数组(15451)

评论排行榜

  • 1. K近邻分类器的matlab代码(Matlab code of k-nearest neighbors)(13)
  • 2. LibSVM学习记录(6)
  • 3. 全国接听免费附加套餐(5)
  • 4. EndNote 乱码 解决方案(5)
  • 5. 孟岩blog理解矩阵一、二, 三(5)

Powered by: 博客园
模板提供:沪江博客
C++博客 | 首页 | 发新随笔 | 发新文章 | 联系 | 聚合 | 管理

Linux

uts服务器是linux系统.命令行方式,打开matlab,必须用命令行方式启动matlab, 不像windows双击打开matlab(Pycharm可以双击运行;tensorflow是一个工具包,不是双击可运行);打开matlab后,打开相应的m文件用右键open比较容易打开,双击相应的m文件不太容易打开

程序dataName = '..\Parmprint.mat';要改为dataName = '../Parmprint.mat';在linux中路径使用反斜杠'/',widows中正斜杠和反斜杠都可以,编程序最好都使用反斜杠。

在linux系统中输入密码,密码是显示不出来的,不要以为没输入进去.
matlab的拷贝复制,采用Ctrl+C和
Ctrl+V,设置:preference->keyboard->shortcut->Active settings选择Windows Default set即可。

pwd:
Linux中用 pwd 命令来查看”当前工作目录“的完整路径。 简单得说,每当你在终端进行操作时,你都会有一个当前工作目录。 在不太确定当前位置时,就会使用pwd来判定当前目录在文件系统内的确切位置。见:http://www.cnblogs.com/peida/archive/2012/10/24/2737730.html

ls: ls命令就是list的缩写,缺省下ls用来打印出当前目录的清单,如果ls指定其他目录,那么就会显示指定目录里的文件及文件夹清单。见: http://www.9usb.net/201005/linux-ls.html 
clear:这个命令将会刷新屏幕,本质上只是让终端显示页向后翻了一页,如果向上滚动屏幕还可以看到之前的操作信息。一般都会用这个命令。
cd .. :返回上一层目录,注意"cd"和".."之间有空格
mkdir: 用来创建指定的名称的目录。例如mkdir rst就是创建rst这个目录

How do we install software in Ubuntu?
Guangtao Wang said that we need to use commands to install most softwares and we can use double click as Windows to install a few softwares. For example, if you want to install PyCharm, search "Ubuntu PyCharm install" and there will be instructions to show you how to use commands to install PyCharm step by step. If you want to learn Ubuntu commands, search "Ubuntu commands".
rm: Use this command to remove or delete a file in your directory.这是命令行方式,右键Move to Trash也行。不知怎么删除文件夹, 20180410自己到谷歌搜索: linux remove folder, 第一个网页https://www.computerhope.com/issues/ch000798.htm,用如下命令即可:

When attempting to remove a directory using a command such as the rmdir command, you may receive a prompt such as "rmdir: 'dir': Directory not empty" and be unable to delete the directory.To remove a directory that contains other files or directories, use the following command.

rm -r mydir

rm -rf rst
rst is a folder (文件夹). Zhengxia said that r好像是到根目录root;f好像是不提示任何信息。所以慎用rf。上句的意思就是删除rst文件夹

rm –rf logfile model    是logfile和model两个文件夹,也可以分两句写
rm –rf logfile
rm –rf model


Guangtao Wang 20180330和我说Ubuntu打开matlab和windows完全一样,说相信他,程序完全一样,因为这个是matlab在不同的系统windows和linux,应该是一样的,就像Java一样具有平台兼容性。都用反斜杠即可。他说linux常见系统Ubuntu和Redhat,他的是Ubuntu. Ubuntu是基于Linux系统。
打开matlab, 目录在Computer/usr/local/MATLAB/R2017a/bin.可以用cd不断定位;Guangtao Wang建议的另一种方式: 通过左侧的Files -> Computer -> usr不断打开目录直到bin
./matlab 就能运行了。有的目录不能new folder,比如usr/local/MATLAB/R2017a/bin。Guangtao说安装的软件一般都在usr/local/目录下面,这是默认目录。
其他一些使用方法,见电脑"Umich\server\服务器"

其实linux应该无所谓,因为澳洲服务器也是linux.
怎么重启?shutdown里面有restart
Ubuntu能同时打开多个目录吗?
可以,将原来的窗口最小化。通过左侧的Files,右键open new window -> 即可。再单击Files,所有的窗口都会出现。
Terminal一样,可以同时打开多个Terminal,将原来的窗口最小化,再单击Terminal,所有的命令窗口都会出现。得到Guangtao确认。
guangtao电脑回收站的位置:点File,左侧有Trash

"YeLab-Servers Note", Section 3
posted @ 2012-06-17 08:54 杰哥 阅读(487) | 评论 (0) | 编辑 收藏
 
中国移动国际漫游统一资费表
http://www.10086.cn/focus/roaming/international/xwgg/201004/t20100427_16137.htm 
posted @ 2012-05-12 14:02 杰哥 阅读(414) | 评论 (0) | 编辑 收藏
 
metric learning(度量学习)
      度量学习也可以认为是相似度。knn最合适的是学习马氏距离,怎么学?要给出先验知识,哪两个数据更相似,欧式距离不可靠。SVM也是metric learning的一种,因为kernel matrix就是相似度。state of art的metric learning方法LMNN,有代码可以下载。也未必效果最好,用得很多,因为有代码。度量就是相似度,任何方法只要用到相似度,就可以用到度量学习。度量学习主流就是学习马氏距离!(listen to the report of Kaizhu Huang).
      度量学习首篇是Eric Xing在NIPS 2002提出,nannan wang讲现在metric learning基本都是通过子空间学习,就是子空间学习换了个说法,没啥太多实际意义。

代码
http://www.cs.cmu.edu/~liuy/distlearn.htm  其中的Principal Component Analysis(PCA)是有蔡登老师开发 
http://www.cse.wustl.edu/~kilian/Downloads/LMNN.html有Large Margin NN Classifier (LMNN)的代码

在Dodo的blog中提到:在此有必要提提Lawrence Saul这个人。在Isomap和LLE的作者们中,Saul算是唯一一个以流形学习(并不限于)为研究对象开创学派的人。Saul早年主要做参数模型有关的算法。自从LLE以后,坐阵UPen创造了一个个佳绩。主要成就在于他的两个出色学生,Kilian Weinberger和 Fei Sha,做的方法。拿了很多奖,在此不多说,可以到他主页上去看。Weinberger把学习核矩阵引入到流形学习中来。他的这个方法在流形学习中影响到不是很显著,却是在 convex optimization 中人人得知。

但看Kilian Weinberger主页,其论文真的很少,第一作者数量:04年1篇,05年2篇,06年3篇,07年2篇,08年3篇,09年2篇.这与灌水风格差异还是很大的 

                                               DISTANCE METRIC LEARNING FOR LARGE MARGIN NEAREST NEIGHBOR CLASSIFICATION的MATLAB代码
程序中lmnn,Parameters注释下面都是其自由参数,validation = (def 0) fraction of training data to be used as validation set
On line 4 of Page 225 of his paper (JLMR): To guard against overfitting, we employed a validation set consisting of 30% of the training data and stopped the training early when the lowest classification error on the validation set was reached.
Wei Bian做实验室时,采用的默认的也就是验证集是0.虽然论文说了用30%,他觉得这样不太合理。但根据http://en.wikipedia.org/wiki/Early_stopping  (Mingming gong send this link to me) ,应该是合理的
posted @ 2012-04-19 23:03 杰哥 阅读(11919) | 评论 (2) | 编辑 收藏
 
ICML Workshop on Representation Learning (see my gmail)
In this workshop we consider the question of how we can learn meaningful and useful representations of the data.  There has been a great deal of recent work on this topic, much of it emerging from researchers interested in training deep architectures.  Deep learning methods such as deep belief networks, sparse coding-based methods, convolutional networks, and deep Boltzmann machines, have shown promise as a means of learning invariant representations of data and have already been successfully applied to a variety of tasks in computer vision, audio processing, natural language processing, information retrieval, and robotics. Bayesian nonparametric methods and other hierarchical graphical model-based approaches have also been recently shown the ability to learn rich representations of data. 
posted @ 2012-04-10 21:56 杰哥 阅读(417) | 评论 (0) | 编辑 收藏
 
IEEE的期刊总结了未来十年的11项顶级技术
IEEE的期刊总结了未来十年的11项顶级技术(智能手机、社交网路、LED照明等),其中没有一项是中国创造的。 
posted @ 2012-04-06 14:13 杰哥 阅读(442) | 评论 (0) | 编辑 收藏
 
Matlab画图
KDD17_Linearized GMM Kernels, Figure 7, 第一个子图左上角 "Letter: b = 8"怎么弄的?见本机matlab\function\plot_\SH\PlotFigure.m中:
text(0.02,0.06,[method ': ' num2str(loopbits(i)) '-bit'],'fontsize',20,'fontweight','bold','color','r');
关于多个子图
     不要用subplot, 见我SRDA正则化参数估计大论文第一版Fig3这样排版,缺点:各个图靠在一起,太紧,区分不开,而且没法给每个子图取自标题,如果用matlab命令title,Zhenan老师讲这不是一种很好的方式,一般标题在表的下面,类似SRDA TKDE 2008的Fig 5。用Latex命令subfloat(见我的教材P326页)可以解决,这样必须每个子图单独画一个图。调用subfloat,必须使用宏包\usepackage{subfig}

字体设置
20180122 Ping Li老师skype建议set(gca, 'fontsize',20), 他说设置成20总是没有错的。
最好的例子:
set(gca,'FontSize',20);
加了这一句,title、xlabel和ylabel包括legend的字体均变成20号字体!!!这一句要放在title 、xlabel和ylabel之前,放在之后效果是不同的
-------------------------------------------【以下可不看,一般论文画图以上足以。以下适合对图形做仔细调整】 ------------------------------------------- 
如何将画好的图坐标轴的线变粗?
答:将*.fig用matlab打开,点击菜单栏下面最右边“show plot Tools and Dock figure”,点击坐标轴,点击下面more properties,将LineWidth改为2.7。选中坐标轴,X Scale可以换成Log或者linear,log就是对数坐标(例如画ROC曲线); X Limits就是设置横坐标的范围。
如何将xlabel加粗?
方法1:
x=0:pi/50:2*pi;
y=sin(x);
plot(x,y,'LineWidth',2.5,'MarkerSize',10);
title('Sin(x)','FontSize',18,'FontName','Times New Roman','FontWeight','Bold');
xlabel('x','FontSize',18,'FontName','Times New Roman','FontWeight','Bold');
ylabel('y','FontSize',18,'FontName','Times New Roman','FontWeight','Bold');
方法2: 
将*.fig用matlab打开,选中x轴标注,不必到More properties中修改,直接在图下面修改font属性,改为Times New Roman字体,12号,Bold
posted @ 2012-03-28 12:14 杰哥 阅读(1394) | 评论 (0) | 编辑 收藏
 
LibSVM采用高斯核时,网格法调整两个参数的代码
% 目录:E:\other\matlab 2007a\work\DCT\DCT_original\network.m and DCTForClassification.m
%此处代码相当于网格法来搜索这两个参数,Cvalue取10个值分别是100,200到1000.Gamma取60个值,分别是0.00002
%到0.00009;0.0002到0.0009;0.002到0.009;依次类推
% This code has been checked by Libing Wang. It should not have any problem.
Cvalue = 0;
Fold = 4; % 4 fold cross validation
C=0;
G=0;
Loocv=10;
for i = 1:10
    Cvalue=Cvalue+100;
    Gamma=0.00001;
    
    for j =1:60
        if Gamma>=1
            Gamma=Gamma+1;
        elseif Gamma>=0.1 
            Gamma=Gamma+0.1;
        elseif Gamma>=0.01
            Gamma=Gamma+0.01;
        elseif Gamma>=0.001 
            Gamma=Gamma+0.001;
        elseif Gamma>=0.0001
            Gamma=Gamma+0.0001;     
        elseif Gamma>=0.00001;
            Gamma=Gamma+0.00001;
        end
              
        SVMParameter=sprintf('-c %f -g %f -v %d',Cvalue,Gamma,Fold);
        LoocvTemp = svmtrain(gnd_Train, fea_Train, SVMParameter);        
        if LoocvTemp > Loocv
           Loocv=LoocvTemp;
           C=Cvalue;
           G=Gamma;
        end
    end
end
SVMParameter = sprintf('-c %f -g %f',C,G);
model = svmtrain(gnd_Train, fea_Train,SVMParameter);
[predict_label, rate, dec_values] = svmpredict(gnd_Test, fea_Test, model); 
accuracy = rate(1) %recognition rate 
posted @ 2012-03-26 17:43 杰哥 阅读(860) | 评论 (0) | 编辑 收藏
 
合肥电影院
合肥电影网 http://www.0551dy.cn/dyy 
时光网可以查到全国各个剧院的信息 http://theater.mtime.com/China_Anhui_Province_Hefei_Luyang/1328/ 
合肥解放电影院QQ群93097782
posted @ 2012-03-18 10:06 杰哥 阅读(459) | 评论 (0) | 编辑 收藏
 
[转载]自己整理的Bag of Words/Bag of Features的Matlab源码
由于自己以前发过一篇文章讲bow特征的matlab代码的优化的《Bag-Of-Words中K-Means聚类的效率优化》,其中的代码也用过Spatial Pyramid Code的代码里面的几个函数,不过大部分还是根据本地的需要,根据大数据量计算的需要自己整合修改的,经过不少同学的改错,现在已经基本没有错误了,注释没怎么写,以后慢慢补上,如果有什么问题可以交流。

下载地址是我的实验室的链接,希望不要盗链了:

  • PG_SPBOW.zip: Matlab code for computing the bag of visual words at different levels of spatial pyramid of images.

下面再次说一下基本的理解:

1、个人感觉Bag of Words/Bag of Features原理都差不多,个人还是当一个概念来理解的,可能bag of features涵盖的内容更加具体,特征更有代表性吧。

2、聚类的初始点可以自己选取,也可以随机选取,其实对于聚类的结果虽然有影响,但是最后用于分类的时候影响没那么明显。

————-

最初的Bag of words,也叫做“词袋”,在信息检索中,Bag of words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词 是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。

现在Computer Vision中的Bag of words来表示图像的特征描述也是很流行的。大体思想是这样的,假设有5类图像,每一类中有10幅图像,这样首先对每一幅图像划分成patch(可以是 刚性分割也可以是像SIFT基于关键点检测的),这样,每一个图像就由很多个patch表示,每一个patch用一个特征向量来表示,咱就假设用Sift 表示的,一幅图像可能会有成百上千个patch,每一个patch特征向量的维数128。

接下来就要进行构建Bag of words模型了,假设Dictionary词典的Size为100,即有100个词。那么咱们可以用K-means算法对所有的patch进行聚 类,k=100,我们知道,等k-means收敛时,我们也得到了每一个cluster最后的质心,那么这100个质心(维数128)就是词典里德100 个词了,词典构建完毕。

词典构建完了怎么用呢?是这样的,先初始化一个100个bin的初始值为0的直方图h。每一幅图像不是有很多patch么?我们就再次 计算这些patch和和每一个质心的距离,看看每一个patch离哪一个质心最近,那么直方图h中相对应的bin就加1,然后计算完这幅图像所有的 patches之后,就得到了一个bin=100的直方图,然后进行归一化,用这个100维德向量来表示这幅图像。对所有图像计算完成之后,就可以进行分 类聚类训练预测之类的了。

转自:http://www.shamoxia.com/html/y2010/2362.html

自我整理:
通过与Bingli讨论,对LLC (CVPR 2010)已经完全掌握,这个流程,包括coding,pooling再SVM分类就叫Bag of words,他也没细看,只是组会听讲学到这么多。得到的pooled features,再输入到SVM或者最近邻进行分类。


posted @ 2012-03-13 09:51 杰哥 阅读(1136) | 评论 (0) | 编辑 收藏
 
[zz]Bag of words模型

        Bag of words,也叫做“词袋”,在信息检索中,Bag of words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。     

     这种假设虽然对自然语言进行了简化,便于模型化,但是其假定在有些情况下是不合理的,例如在新闻个性化推荐中,采用Bag of words的模型就会出现问题。例如用户甲对“南京醉酒驾车事故”这个短语很感兴趣,采用bag of words忽略了顺序和句法,则认为用户甲对“南京”、“醉酒”、“驾车”和“事故”感兴趣,因此可能推荐出和“南京”,“公交车”,“事故”相关的新闻,这显然是不合理的。

     解决的方法可以采用SCPCD的方法抽取出整个短语,或者采用高阶(2阶以上)统计语言模型,例如bigram,trigram来将词序保留下来,相当于bag of bigram和bag of trigram,这样能在一定程度上解决这种问题。

    简言之,bag of words模型是否适用需要根据实际情况来确定。对于那些不可以忽视词序,语法和句法的场合均不能采用bag of words的方法。
网址:http://blog.csdn.net/pennyliang/article/details/4325664

posted @ 2012-03-13 09:42 杰哥 阅读(672) | 评论 (0) | 编辑 收藏
 
仅列出标题
共39页: First 22 23 24 25 26 27 28 29 30 Last