﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>C++博客-blog-随笔分类-数据挖掘学习</title><link>http://www.cppblog.com/cdy20/category/12714.html</link><description>qq：286402937  
weibo： http://weibo.com/caidongyun
群：41830909</description><language>zh-cn</language><lastBuildDate>Wed, 10 Oct 2012 13:04:35 GMT</lastBuildDate><pubDate>Wed, 10 Oct 2012 13:04:35 GMT</pubDate><ttl>60</ttl><item><title>机器学习相关数据库 备份</title><link>http://www.cppblog.com/cdy20/archive/2012/10/10/193134.html</link><dc:creator>蔡东赟</dc:creator><author>蔡东赟</author><pubDate>Wed, 10 Oct 2012 11:53:00 GMT</pubDate><guid>http://www.cppblog.com/cdy20/archive/2012/10/10/193134.html</guid><wfw:comment>http://www.cppblog.com/cdy20/comments/193134.html</wfw:comment><comments>http://www.cppblog.com/cdy20/archive/2012/10/10/193134.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.cppblog.com/cdy20/comments/commentRss/193134.html</wfw:commentRss><trackback:ping>http://www.cppblog.com/cdy20/services/trackbacks/193134.html</trackback:ping><description><![CDATA[<br /><br /><br /><h3>资料库</h3><ul style="font-family: arial, verdana, tahoma, geneva; line-height: normal; "><li style="padding: 2px; "><strong><a href="http://www.sigkdd.org/kddcup/index.php" style="color: #551a8b; text-decoration: none; ">KDD杯的中心</a>，所有的数据，任务和结果。</strong></li><li style="padding: 2px; "><a href="http://kdd.ics.uci.edu/" style="color: #551a8b; text-decoration: none; "><strong>UCI</strong></a>机器学习和知识发现研究中使用的大型数据集<a href="http://kdd.ics.uci.edu/" style="color: #551a8b; text-decoration: none; "><strong>KDD数据库存储库</strong></a>。</li><li style="padding: 2px; "><a href="http://archive.ics.uci.edu/ml/" style="color: #551a8b; text-decoration: none; ">UCI机器学习数据库</a>。</li><li style="padding: 2px; "><a href="http://aws.amazon.com/publicdatasets/" style="color: #551a8b; text-decoration: none; ">AWS（亚马逊网络服务）公共数据集</a>，提供了一个集中的资料库，可以无缝集成到基于AWS的云应用程序的公共数据集。</li><li style="padding: 2px; "><a href="http://www.jcheminf.com/content/pdf/1758-2946-1-21.pdf" style="color: #551a8b; text-decoration: none; ">生物测定数据</a>，在&nbsp;<em>虚拟筛选，生物测定数据</em>，对化学信息学，J.由阿曼达Schierz的，有21个生物测定数据集（有效/无效的化合物）可供下载。</li><li style="padding: 2px; "><a href="http://www.data.gc.ca/" style="color: #551a8b; text-decoration: none; ">加拿大开放数据</a>，许多政府和地理空间数据集的试点项目。</li><li style="padding: 2px; "><a href="http://www.causality.inf.ethz.ch/repository.php" style="color: #551a8b; text-decoration: none; ">因果关系工作平台</a>的数据存储库。</li><li style="padding: 2px; "><a href="http://shop.oreilly.com/product/0636920018254.do" style="color: #551a8b; text-decoration: none; ">数据源手册</a>，指南公开数据，由皮特&#183;沃登，奥莱利（2011年1月）。</li><li style="padding: 2px; "><a href="http://data.gov.uk/" style="color: #551a8b; text-decoration: none; ">Data.gov.uk</a>，英国（<a href="http://data.london.gov.uk/" style="color: #551a8b; text-decoration: none; ">伦敦数据存储</a>的公开数据&nbsp;）。</li><li style="padding: 2px; "><a href="http://www.data.gov/education" style="color: #551a8b; text-decoration: none; ">Data.gov /教育</a>，中央指导教育数据资源，包括高价值的数据集，数据可视化工具，课堂上的资源，创建开放数据和更多的应用程序。</li><li style="padding: 2px; "><a href="http://datamarket.com/" style="color: #551a8b; text-decoration: none; ">DataMarket</a>，可视化世界的经济，社会，自然，与行业，与100万次系列由联合国，世界银行，欧盟统计局和其他重要的数据提供者。</li><li style="padding: 2px; "><a href="http://datamob.org/" style="color: #551a8b; text-decoration: none; ">Datamob</a>，公共数据善加利用。</li><li style="padding: 2px; "><a href="http://datasf.org/" style="color: #551a8b; text-decoration: none; ">DataSF.org</a>，从旧金山市与县，CA的数据资料交换所。</li><li style="padding: 2px; "><a href="http://dataferrett.census.gov/" style="color: #551a8b; text-decoration: none; ">DataFerrett</a>，数据挖掘工具，访问和操纵TheDataWeb，许多美国上线的电子政务数据集的集合。</li><li style="padding: 2px; "><a href="http://www.cs.toronto.edu/~delve" style="color: #551a8b; text-decoration: none; ">钻研</a>，评估学习有效的实验数据</li><li style="padding: 2px; "><a href="http://inforumweb.umd.edu/econdata/econdata.html" style="color: #551a8b; text-decoration: none; ">EconData</a>，成千上万的经济时间序列，产生一些美国政府机构。</li><li style="padding: 2px; "><a href="http://www.cs.cmu.edu/~enron/" style="color: #551a8b; text-decoration: none; ">安然邮件数据集</a>，约150个用户的数据，主要是安然公司的高级管理人员。</li><li style="padding: 2px; "><img src="http://www.kdnuggets.com/images/newr.gif" alt="新" height="12" width="25" />&nbsp;<a href="http://data.europeana.eu/" style="color: #551a8b; text-decoration: none; ">Europeana的数据</a>，包含2000万的文本，图像，视频和声音Europeana的-欧洲文化遗产内容的信任和全面的资源收集的开放的元数据。</li><li style="padding: 2px; "><a href="http://www.fedstats.gov/" style="color: #551a8b; text-decoration: none; ">FEDSTATS</a>，美国的统计数据，更全面的信息来源</li><li style="padding: 2px; "><a href="http://fimi.cs.helsinki.fi/" style="color: #551a8b; text-decoration: none; ">FIMI频繁项集挖掘</a>，实现和数据集<a href="http://fimi.cs.helsinki.fi/" style="color: #551a8b; text-decoration: none; ">库</a>。</li><li style="padding: 2px; "><a href="http://fisher.osu.edu/fin/fdf/osudata.htm" style="color: #551a8b; text-decoration: none; ">财务数据搜索在OSU</a>，大的目录的财务数据集。</li><li style="padding: 2px; "><a href="http://www.ncbi.nlm.nih.gov/geo/" style="color: #551a8b; text-decoration: none; ">全球环境展望（GEO基因表达OMNIBUS）&nbsp;</a>，基因表达/分子的丰富存储库支持MIAME兼容的数据提交，并策划，网络资源的基因表达数据的浏览，查询和检索。</li><li style="padding: 2px; "><a href="http://geodacenter.asu.edu/datalist/" style="color: #551a8b; text-decoration: none; ">GeoDa中心</a>，地理空间数据。</li><li style="padding: 2px; "><a href="http://ngrams.googlelabs.com/datasets" style="color: #551a8b; text-decoration: none; ">的谷歌ngrams数据集</a>，从数以百万计的谷歌扫描图书的文字。</li><li style="padding: 2px; "><a href="http://www.grainmarketresearch.com/" style="color: #551a8b; text-decoration: none; ">粮食市场调研</a>，财务数据，包括股票，期货等。</li><li style="padding: 2px; "><a href="https://bitly.com/bundles/hmason/1" style="color: #551a8b; text-decoration: none; ">希拉里&#183;梅森研究质量的大数据集</a>的集合-许多文本和图像数据集。</li><li style="padding: 2px; "><a href="http://www.icwsm.org/2009/data/" style="color: #551a8b; text-decoration: none; ">ICWSM-2009年的数据集</a>包含4400万8月1日和2008年10月1日的博客文章。</li><li style="padding: 2px; "><a href="http://infochimps.org/" style="color: #551a8b; text-decoration: none; ">Infochimps</a>，公开目录和市场数据。您可以共享，出售，牧师和下载任何东西，一切有关的数据。</li><li style="padding: 2px; "><a href="http://www.investorlinks.com/" style="color: #551a8b; text-decoration: none; ">投资者的链接</a>，包括财务数据</li><li style="padding: 2px; "><a href="http://kevinchai.net/datasets/" style="color: #551a8b; text-decoration: none; ">凯文湾仔数据集列表</a>，文本，SNA，和其他领域。</li><li style="padding: 2px; "><a href="http://konect.uni-koblenz.de/" style="color: #551a8b; text-decoration: none; ">KONECT</a>，科布伦茨网络的收集，与所有类型的大型网络数据集，以执行网络挖掘领域的研究。</li><li style="padding: 2px; "><a href="http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData" style="color: #551a8b; text-decoration: none; ">关联开放数据</a>项目，数据免费提供给大家。</li><li style="padding: 2px; "><a href="http://labrosa.ee.columbia.edu/millionsong/" style="color: #551a8b; text-decoration: none; ">万首歌曲数据集</a></li><li style="padding: 2px; "><a href="http://www-genome.wi.mit.edu/cgi-bin/cancer/datasets.cgi" style="color: #551a8b; text-decoration: none; ">麻省理工学院癌症基因组基因表达数据和出版物</a>，从麻省理工学院怀特黑德基因组研究中心。</li><li style="padding: 2px; "><a href="http://mldata.org/" style="color: #551a8b; text-decoration: none; ">ML数据</a>，数据存储库的，欧盟Pascal2网络。</li><li style="padding: 2px; "><a href="https://data.nasdaq.com/" style="color: #551a8b; text-decoration: none; ">纳斯达克Data Store数据存储系统</a>，提供市场数据的访问。</li><li style="padding: 2px; "><a href="http://www.archive-it.org/" style="color: #551a8b; text-decoration: none; ">国民政府统计网站</a>，数据，报告，统计年鉴，新闻发布，以及来自约70个网站，其中包括来自非洲，欧洲，亚洲和拉丁美洲的国家。</li><li style="padding: 2px; "><a href="http://nssdc.gsfc.nasa.gov/" style="color: #551a8b; text-decoration: none; ">国家空间科学数据中心</a>（NSSDC），美国航空航天局的数据集从行星探测，空间和太阳物理，生命科学，天体物理学，和更多。</li><li style="padding: 2px; "><a href="http://opendata.socrata.com/" style="color: #551a8b; text-decoration: none; ">OpenData Socrata</a>，访问超过10,000的数据集，包括商业，教育，政府和乐趣。</li><li style="padding: 2px; "><a href="http://www.delicious.com/pskomoroch/dataset" style="color: #551a8b; text-decoration: none; ">彼得Skomoroch数据集书签</a></li><li style="padding: 2px; "><a href="http://www.pubgene.org/" style="color: #551a8b; text-decoration: none; ">PubGene（TM）基因数据库和工具</a>，基因组学相关的出版物数据库</li><li style="padding: 2px; "><a href="http://www.econ.yale.edu/~shiller/data.htm" style="color: #551a8b; text-decoration: none; ">罗伯特&#183;席勒</a>住房，股市，并从他的著 &#8203;&#8203;作<em>&#8220;非理性繁荣的</em><a href="http://www.econ.yale.edu/~shiller/data.htm" style="color: #551a8b; text-decoration: none; ">数据</a>。</li><li style="padding: 2px; "><a href="http://genome-www5.stanford.edu/MicroArray/SMD/" style="color: #551a8b; text-decoration: none; ">SMD：斯坦福微阵列数据库</a>，从微阵列实验的原料和标准化的数据存储。</li><li style="padding: 2px; "><a href="http://www.nd.edu/~oss/Data/data.html" style="color: #551a8b; text-decoration: none; ">SourceForge.net研究资料</a>，包括历史和状态统计，约10万的项目和超过100万注册用户的活动，在项目管理网站。</li><li style="padding: 2px; "><a href="http://lib.stat.cmu.edu/datasets/" style="color: #551a8b; text-decoration: none; ">StatLib</a>，债务工具中央结算系统的数据集存档。</li><li style="padding: 2px; "><a href="http://www.statoo.com/en/resources/anthill/Datamining/Data/" style="color: #551a8b; text-decoration: none; ">STATOO数据集的第1部分</a>和&nbsp;<a href="http://www.statoo.com/en/resources/anthill/Data_Sets/" style="color: #551a8b; text-decoration: none; ">STATOO数据集的第2部分</a></li><li style="padding: 2px; "><a href="http://robjhyndman.com/TSDL/" style="color: #551a8b; text-decoration: none; ">时间序列资料库</a></li><li style="padding: 2px; "><a href="http://hcil.cs.umd.edu/localphp/hcil/vast/archive/viewbm.php" style="color: #551a8b; text-decoration: none; ">可视化分析测试资源库</a>。</li><li style="padding: 2px; "><a href="http://www.cs.ucr.edu/~eamonn/time_series_data/" style="color: #551a8b; text-decoration: none; ">UCR的时间序列数据存档</a>，提供数据集，文件，链接和代码。</li><li style="padding: 2px; "><a href="http://www.census.gov/" style="color: #551a8b; text-decoration: none; ">美国人口调查局</a>。</li><li style="padding: 2px; "><a href="http://wikiposit.org/" style="color: #551a8b; text-decoration: none; ">Wikiposit</a>，（虚拟）合并（主要是金融）从许多不同的网站的数据，使用户能够合并来自不同来源的数据</li><li style="padding: 2px; "><a href="http://webscope.sandbox.yahoo.com/catalog.php" style="color: #551a8b; text-decoration: none; ">雅虎沙盒的数据集</a>，语言，图形，资信评级，广告和市场营销，竞争</li><li style="padding: 2px; "><a href="http://www.yelp.com/academic_dataset" style="color: #551a8b; text-decoration: none; ">Yelp的学术资料集</a>，所有的数据和评论的250企业，30所大学的学生和学者探索和研究。</li></ul><img src ="http://www.cppblog.com/cdy20/aggbug/193134.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.cppblog.com/cdy20/" target="_blank">蔡东赟</a> 2012-10-10 19:53 <a href="http://www.cppblog.com/cdy20/archive/2012/10/10/193134.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>晒掉论文《BP神经网络的异常点检测应用可行性研究》</title><link>http://www.cppblog.com/cdy20/archive/2010/06/17/118048.html</link><dc:creator>蔡东赟</dc:creator><author>蔡东赟</author><pubDate>Thu, 17 Jun 2010 00:50:00 GMT</pubDate><guid>http://www.cppblog.com/cdy20/archive/2010/06/17/118048.html</guid><wfw:comment>http://www.cppblog.com/cdy20/comments/118048.html</wfw:comment><comments>http://www.cppblog.com/cdy20/archive/2010/06/17/118048.html#Feedback</comments><slash:comments>10</slash:comments><wfw:commentRss>http://www.cppblog.com/cdy20/comments/commentRss/118048.html</wfw:commentRss><trackback:ping>http://www.cppblog.com/cdy20/services/trackbacks/118048.html</trackback:ping><description><![CDATA[<strong>想了几个月。<br />捣鼓了十多天实验，和分析搞出来的。BP神经网络的异常点检测应用可行性研究<br />这就是我杯具的毕业设计。<br /><br />在这些日子，积压的 还有 一切的一切，我失去了你。<br /></strong><br />&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br /><a href="http://www.cppblog.com/Files/cdy20/2.4.rar">http://www.cppblog.com/Files/cdy20/2.4.rar</a><br /><br /><br /><a href="http://www.cppblog.com/Files/cdy20/2.4.rar"><br /><span style="font-family: '黑体'; font-size: 22pt; font-weight: bold; mso-spacerun: 'yes'">
<p style="text-align: center; line-height: 150%; margin-top: 0pt; margin-bottom: 0pt" class="p0"><span style="font-family: '黑体'; font-size: 16pt; font-weight: bold; mso-spacerun: 'yes'">摘</span><span style="font-family: '黑体'; font-size: 16pt; font-weight: bold; mso-spacerun: 'yes'">&nbsp;&nbsp;</span><span style="font-family: '黑体'; font-size: 16pt; font-weight: bold; mso-spacerun: 'yes'">要</span><span style="font-family: '黑体'; font-size: 16pt; font-weight: bold; mso-spacerun: 'yes'"><o:p></o:p></span></p>
<p style="text-align: center; line-height: 150%; margin-top: 0pt; margin-bottom: 0pt" class="p0"><span style="font-family: '黑体'; font-size: 16pt; font-weight: bold; mso-spacerun: 'yes'"><o:p></o:p></span></p>
<p style="text-align: left; line-height: 150%; margin-top: 0pt; text-indent: 21pt; layout-grid-mode: char; margin-bottom: 0pt" class="p0"><span style="font-family: '宋体'; font-size: 12pt; mso-spacerun: 'yes'">异常点数据是指数据集中与众不同数据。这部分数据的量小，但是对于我们的日常生产生活的影响极大。因此，异常点检测被广泛应用于网络入侵检测，金融保险，天气预报以及新药研制等领域。相对于大量的正常数据挖掘而言，异常点检测被称作小模式数据挖掘。BP算法是一种常用的数据挖掘算法。但是BP算法进行实际数据的异常点数据挖掘过程中存在：实际数据的维数较高，存在冗余特征的干扰，以及在高维特征下，数据量不充分的问题。因此，本文分析BP神经网络处理各种数据的情况，并得到以下结果。（1）BP神经网络能够较好的分离特征单一的仿真数据；但是（2）特征相似性较大的数据集，难以分离判断；（3）正常数据不充分或者不具有代表性，因此正常数据类学习不充分，从而导致异常无法判断。针对以上问题，本文提出了以下的改进措施：（1）BP算法前进行特征约简（映射）从中选取有益于异常检测的特征（2）多神经网络融合，不同神经网络识别不同的特征，相互取长补短，融合后得到最终的结果。</span><span style="font-family: '宋体'; font-size: 12pt; mso-spacerun: 'yes'"><o:p></o:p></span></p>
<p style="text-align: left; line-height: 150%; margin-top: 0pt; margin-bottom: 0pt" class="p0"><span style="font-family: '宋体'; font-size: 12pt; mso-spacerun: 'yes'"><o:p></o:p></span></p>
<p style="text-align: left; line-height: 150%; margin-top: 0pt; margin-bottom: 0pt" class="p0"><span style="font-family: '宋体'; font-size: 12pt; mso-spacerun: 'yes'"><o:p></o:p></span></p>
<p style="text-align: left; line-height: 150%; margin-top: 0pt; margin-bottom: 0pt" class="p0"><span style="font-family: '宋体'; font-size: 12pt; mso-spacerun: 'yes'"><o:p></o:p></span></p>
<p style="text-align: left; line-height: 150%; margin-top: 0pt; text-indent: 21pt; margin-bottom: 0pt; margin-left: 21pt" class="p0"><span style="font-family: '黑体'; font-size: 14pt; font-weight: bold; mso-spacerun: 'yes'">关键字</span><span style="font-family: '宋体'; font-size: 12pt; mso-spacerun: 'yes'">：异常，<font face="Times New Roman">BP</font><font face="宋体">，异常点检测，神经网络</font></span><span style="font-family: '宋体'; font-size: 12pt; mso-spacerun: 'yes'"><o:p></o:p></span></p>
<p style="text-align: center; line-height: 150%; margin-top: 0pt; margin-bottom: 0pt" class="p0" align="left"><!--endfragment--><br /></p>
</span></a><br /><br /><br />引用论文注明出处。妈的国内还没有一个人做，国外tmd都是聚类，神经网络只是辅助 <br /><br /><br /><br />add&nbsp; ps：你们反应也太激烈了吧！吓死我。祝大家工作生活顺利！~<img src ="http://www.cppblog.com/cdy20/aggbug/118048.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.cppblog.com/cdy20/" target="_blank">蔡东赟</a> 2010-06-17 08:50 <a href="http://www.cppblog.com/cdy20/archive/2010/06/17/118048.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>Outlier Detection Search  keyword</title><link>http://www.cppblog.com/cdy20/archive/2010/01/12/105523.html</link><dc:creator>蔡东赟</dc:creator><author>蔡东赟</author><pubDate>Tue, 12 Jan 2010 15:32:00 GMT</pubDate><guid>http://www.cppblog.com/cdy20/archive/2010/01/12/105523.html</guid><wfw:comment>http://www.cppblog.com/cdy20/comments/105523.html</wfw:comment><comments>http://www.cppblog.com/cdy20/archive/2010/01/12/105523.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.cppblog.com/cdy20/comments/commentRss/105523.html</wfw:commentRss><trackback:ping>http://www.cppblog.com/cdy20/services/trackbacks/105523.html</trackback:ping><description><![CDATA[保存下关键字<br><br>毕业设计做相关&nbsp;Outerlies Detection算法相关的。<br><br>老师给我们译出 异常点检测，google百度不到啥东西<br><br>原来有 译成 孤立点，离群点，等等说法。<br>save先
<img src ="http://www.cppblog.com/cdy20/aggbug/105523.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.cppblog.com/cdy20/" target="_blank">蔡东赟</a> 2010-01-12 23:32 <a href="http://www.cppblog.com/cdy20/archive/2010/01/12/105523.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss>