杰 - C++博客

latex编译出错,用WinEdit,错误能快速定位到对应行吗?

20170924在Webchat, My posts(朋友圈)提问这个问题。有朋友提供方案：编译中断的地方输入e再回车，有可能可以。
在我的表格中，因为在下面的列中增加了一列，在\begin{tabular}{c| c| c c c c c c c}中也要增加一个c，这种错误未必能定位到对应的行:\begin{tabular}{c| c| c c c c c c c}。定位到在你增加列的那一行

posted @ 2017-09-24 22:32 杰哥阅读(1037) | 评论 (0) | 编辑收藏

怎么取消微博的精彩微博推荐

采用下面方法

http://iask.sina.com.cn/b/QxCdI0TRZS.html

http://iask.sina.com.cn/b/20960025.html
再按照Junfeng提供的方法：apple手机，设置 -> 通知 -> 关闭微博通知(Settings->Notifications->Weibo->Set "Allow Notifications" to off)。这样虽然有更新，但是不停点“微博”按钮就没有了

posted @ 2017-08-19 01:22 杰哥阅读(181) | 评论 (0) | 编辑收藏

美国生活

zhihua老师20170723转发的一个微博很不错:
见了太多美国警察开枪击毙司机的事，作为一个曾经在美国游学6年的我，也曾经三次被警察拦下，这里单独开帖给大家分享一下:

1.警察拦截司机，英语叫pull over, 原因很多，不要问为什么，好奇害死猫。
2. 被截停后，千万不要主动下车并且走向警察，因为警察会认为他的生命受到威胁而突然开枪。
3. 等待时间会很长，因为警察先在车里会呼叫总台，查证你的车牌历史，比如说是否偷来的，也会查这台车的司机有无犯罪或违章记录，你要做的就是耐心等，再急的事情都不要下车走向警察!千万记住!
4.你可以在车里等的时候先掏好驾照和保险单。
5.警察过来的时候，你的双手一定要放在方向盘上!要让警察看见你的双手!
6.我看见警察走向被拦截车辆的时候，标准动作就是一只手放在腰上的枪柄上，一副随时开枪的准备。
7.警察过来跟你说话，通常第一句就是要驾照、车保险单、车的registration, 还会问你相关的问题。听到警察的话后，你的手才开始动，之前千万不要动，老老实实放在方向盘上。
8.如果你知道自己违章了，可以选择争辩，可以选择跟警察简单求情，也可以保持沉默。我试过求情不成功吃罚单的，也试过警察大手一挥放过的，这就看个人运气。

现在到美国旅游和留学的国人越来越多，在美国千万不要把警察当成中国警察，否则会死的很冤。希望大家把这简单的帖子分享出去。

posted @ 2017-07-23 22:37 杰哥阅读(182) | 评论 (0) | 编辑收藏

笔记本电脑无线网络找不到

20170625在家能用无线网络，0626到单位不能用。电话肥维修站，解决方案：think官网,http://think.lenovo.com.cn/ -> 服务与支持 -> 驱动下载 -> ThinkPad笔记本电脑 -> 输入主机编号查询下载，下载无线网卡的驱动即可。还是不能解决，建议到维修站。管理 -> 设备管理器 -> Intel(R) Wireless-N 7265，原来这个禁用了，启用即可.
20170710又出现这个这个问题，我到设备管理器，没有"Intel(R) Wireless-N 7265"这个选项。特地到维修站看维修师傅怎么处理的。他按 F8健，看到"Bluetooth通信"的状态是关闭，他点“开启”，使状态是“开启”。师傅说X1 Carbon蓝牙和无线是一体的。管理 -> 设备管理器 -> Intel(R) Wireless-N 7265，原来这个禁用了，启用即可.为什么会出现这个问题？师傅说，可能还是系统的问题，最好重装系统。我说最近太忙了，他说不怕麻烦，也可以出现这个问题，就按这种方式处理。问师傅两次有没有进行其他操作，他说没有。

posted @ 2017-06-26 15:03 杰哥阅读(147) | 评论 (0) | 编辑收藏

[zz] 七招教你处理非平衡数据——避免得到一个“假”模型

https://yq.aliyun.com/articles/93547?utm_content=m_22922

摘要：这篇博客主要介绍处理不平衡数据的技巧，给出了七种适用于特定问题及数据集的方法，避免由于数据集不平衡而得到的一个假的好模型。另外作者也指出本文不是一个技术列表，建议读者不局限于此、尝试结合不同的方法设计出合适的模型。

更多深度文章，请关注：https://yq.aliyun.com/cloud

这篇博客主要介绍处理不平衡数据的技巧，那么什么是不平衡数据呢？比如说一位医生做了一个病例对照研究，数据集由病例10人和对照990人组成，建立好一个逻辑回归模型后，并对建立的模型进行内部验证，居然发现其正确率高达99%，然后把他兴奋坏了，觉得可以将该成果发表到顶级期刊上，从此走上人生巅峰。然而，我们可以发现，该模型不管怎么预测，都能得到正常的结果，所谓的99%的正确率，原来是建立在1000个人中10个病例都发现不了的基础上。从这个例子可以看出，当遇到不平衡数据时，以总体分类准确率为学习目标的传统分类算法会过多地关注多数类，从而使得少数类样本的分类性能下降。

介绍

不平衡数据广泛存在于各个领域，但在二分类问题中尤其常见，表现为其中的一个类别所占的比例远远高于另外的一个类。比如：银行欺诈检测、市场营销、网络入侵检测等领域。

这些领域中的数据集有哪些共同点呢？可以发现在这些领域中使用的数据通常不到1％，但一旦发生就是一件“有趣”的事件（例如使用信用卡的欺诈者的违规交易，用户点击广告或原本已损坏的服务器在扫描其网络）。然而，大多数机器学习算法对于不平衡数据集都不能很好地工作。以下七种技术可以帮助我们训练分类器来检测异常类。

2ae13c80b331928efad71567a7330c04252616b7

1. 使用正确的评估指标

对使用不平衡数据生成的模型应用不当的评估指标是相当危险的。想象一下，模型训练数据如上图所示，若使用精度来衡量模型的好坏，将所有测试样本分类为“0”的模型将具有很好的准确性（99.8％），但显然这种模型不会为我们提供任何有价值的信息。

在这种情况下，可以应用其他评估指标替代精度指标，例如：

准确度/特异度：有多少个选定的实例相关。
召回率/灵敏度：选择了多少个相关实例。
F1评分：准确度和召回率的调和平均数。
Matthews相关系数（MCC）：观察和预测的二元分类之间的相关系数。
ROC曲线下的面积（AUC）：真阳性率与假阳性率之间的关系。

2. 重新采样训练集

除了使用不同的评估标准外，还可以使用不同的数据集。有两种方法使不平衡的数据集来建立一个平衡的数据集——欠采样和过采样。

2.1. 欠采样

欠采样是通过减少丰富类的大小来平衡数据集，当数据量足够时就该使用此方法。通过保存所有稀有类样本，并在丰富类别中随机选择与稀有类别样本相等数量的样本，可以检索平衡的新数据集以进一步建模。

2.2. 过采样

相反，当数据量不足时就应该使用过采样，它尝试通过增加稀有样本的数量来平衡数据集，而不是去除丰富类别的样本的数量。通过使用重复、自举或合成少数类过采样等方法（SMOTE）[1]来生成新的稀有样品。

注意到欠采样和过采样这两种方法相比而言，都没有绝对的优势。这两种方法的应用取决于它适用的用例和数据集本身。另外将过采样和欠采样结合起来使用也是成功的。

3. 以正确的方式使用K-fold交叉验证

值得注意的是，使用过采样方法来解决不平衡问题时应适当地应用交叉验证。这是因为过采样会观察到罕见的样本，并根据分布函数应用自举生成新的随机数据，如果在过采样之后应用交叉验证，那么我们所做的就是将我们的模型过拟合于一个特定的人工引导结果。这就是为什么在过度采样数据之前应该始终进行交叉验证，就像实现特征选择一样。只有重复采样数据可以将随机性引入到数据集中，以确保不会出现过拟合问题。

K-fold交叉验证就是把原始数据随机分成K个部分，在这K个部分中选择一个作为测试数据，剩余的K-1个作为训练数据。交叉验证的过程实际上是将实验重复做K次，每次实验都从K个部分中选择一个不同的部分作为测试数据，剩余的数据作为训练数据进行实验，最后把得到的K个实验结果平均。

4. 组合不同的重采样数据集

成功泛化模型的最简单方法是使用更多的数据，问题是像逻辑回归或随机森林这样开箱即用的分类器，倾向于通过舍去稀有类来泛化模型。一个简单的最佳实践是建立n个模型，每个模型使用稀有类别的所有样本和丰富类别的n个不同样本。假设想要合并10个模型，那么将保留例如1000例稀有类别，并随机抽取10000例丰富类别。然后，只需将10000个案例分成10块，并训练10个不同的模型。

f9a59c227cde6aabc6ddd5f9035956d2c0146e73

如果拥有大量数据，这种方法是简单并且是可横向扩展的，这是因为可以在不同的集群节点上训练和运行模型。集合模型也趋于泛化，这使得该方法易于处理。

5. 用不同比例重新采样

之前的方法可以很好地将稀有类别和丰富类别之间的比例进行微调，最好的比例在很大程度上取决于所使用的数据和模型。但是，不是在整体中以相同的比例训练所有模型，所以值得尝试合并不同的比例。如果10个模型被训练，有一个模型比例为1：1（稀有：丰富）和另一个1：3甚至是2：1的模型都是有意义的。一个类别获得的权重依赖于使用的模型。

920fa684f3e3e1bd3ebeaaa48002906991eac111

6. 集群丰富类

Sergey Quora提出了一种优雅的方法[2]，他建议不要依赖随机样本来覆盖训练样本的种类，而是将r个群体中丰富类别进行聚类，其中r为r中的例数。每个组只保留集群中心（medoid）。然后，基于稀有类和仅保留的类别对该模型进行训练。

7. 设计自己的模型

所有之前的方法都集中在数据上，并将模型保持为固定的组件。但事实上，如果设计的模型适用于不平衡数据，则不需要重新采样数据，著名的XGBoost已经是一个很好的起点，因此设计一个适用于不平衡数据集的模型也是很有意义的。

通过设计一个代价函数来惩罚稀有类别的错误分类而不是分类丰富类别，可以设计出许多自然泛化为稀有类别的模型。例如，调整SVM以惩罚稀有类别的错误分类。

76dfa88e5a25555eb589b82a0f23ecee900bc56a

结束语

本文不是一个排外的技术列表，而是处理不平衡数据的一些建议。没有适合所有问题的最佳方法或模型，强烈建议尝试不同的技术和模型来评估哪些方法最有效并尝试创造性地结合不同的方法。同样值得注意的是，在不平衡类别发生的许多领域中，随着“市场规则”的不断变化，需要检查过去的数据是否过时。

推荐阅读

作者信息

Ye Wu在营销和销售预测方面具有会计和实践经验的背景，在IE商学院攻读业务分析与大数据硕士学位。

Rick Radewagen是一位有抱负的数据科学家，拥有计算机科学的背景，在IE商学院攻读业务分析与大数据硕士学位。

本文由北邮@爱可可-爱生活老师推荐，阿里云云栖社区组织翻译。

文章原标题《7 Techniques to Handle Imbalanced Data》，作者：Ye Wu, Rick Radewagen，译者：海棠，审阅：6816816151

附件为原文的pdf

文章为简译，更为详细的内容，请查看原文

posted @ 2017-06-10 08:40 杰哥阅读(188) | 评论 (0) | 编辑收藏

beamer

(1) http://deic.uab.es/~iblanes/beamer_gallery/index_by_theme.html

只要把主题参数按照这个网页的改一下就可以换主题了。Qingyuan发给我的是Madrid。语句：\usetheme{Madrid}

(2) Putting a bibliography citation at bottom of beamer slide:
Method 1: Qingyuan suggests using vspsace.
Method 2: https://tex.stackexchange.com/questions/219982/putting-a-bibliography-citation-at-bottom-of-beamer-slide

\documentclass{beamer}

\usepackage{biblatex}

\begin{document}

\begin{frame}

Hello,World\footfullcite{Write something here, anything you like}

\end{frame}

\end{document}

(3) http://bbs.pinggu.org/thread-3985040-1-1.html
beamer 中文日期的显示
\renewcommand{\today}{\number\year 年\number\month 月\number\day 日}
\today

This is with Qingyuan Jiang's help.

posted @ 2017-06-06 20:57 杰哥阅读(324) | 评论 (0) | 编辑收藏

【突破】深度学习计算消耗降低95%，KDD2017哈希法研究加速神经网络进化

摘要: 【新智元导读】莱斯大学两位研究员使用一种基于 Hashing 的新技术，大幅减少了训练和测试神经网络所需的计算量。他们称：“1000 个神经元的网络我们能节能 95％，根据数学推导，10 亿个神经元的网络我们就能节能 99%”。phys.org报道称，这对谷歌、微软和Facebook等有着大量深度学习神经网络训练的大公司来说事关重大。美国莱斯大学（R... 阅读全文

posted @ 2017-06-02 13:33 杰哥阅读(293) | 评论 (0) | 编辑收藏

Windows7休眠后自动开机

http://jingyan.baidu.com/article/8cdccae9603f41315513cd46.html

http://jingyan.baidu.com/article/ac6a9a5e1db0482b653eac99.html

posted @ 2017-05-30 06:34 杰哥阅读(296) | 评论 (0) | 编辑收藏

ICLR 最佳论文作者张驰原演讲全文：理解深度学习，为何我们需要重新思考泛化问题？（附视频）| ICLR 2017

http://www.leiphone.com/news/201704/GBnvhRmwDoBw9zmJ.html

雷锋网(公众号：雷锋网) AI 科技评论按：ICLR 2017 上，争议最大的 best paper 莫过于这篇名为《Understanding Deep Learning Requires Rethinking Generalization》（《理解深度学习，需要重新思考泛化问题》）的论文。作者名单可谓群星荟萃，分别为 MIT 博士生张驰原，谷歌大脑团队、深度学习三巨头 Yoshua Bengio 的亲兄弟 Samy Bengio、谷歌大脑团队 Modiz Hardt、加州伯克利大学的 Benjamin Racht，以及谷歌 DeepMind 的 Oriol Vinyals。

虽然关于这篇论文的讨论很多，但张驰原在发给雷锋网的邮件中表示，他没有计划对论文进行公开解读或接受访谈。因此在 ICLR 的现场，张驰原的现场演讲便成为了为数不多的了解论文思路的方式。雷锋网对他的演讲全文进行听译及整理，未经许可不得转载。

ICLR 最佳论文作者张驰原演讲全文：理解深度学习，为何我们需要重新思考泛化问题？（附视频）| ICLR 2017

posted @ 2017-05-03 07:28 杰哥阅读(327) | 评论 (0) | 编辑收藏

价值250亿美元的特征向量：Google背后的线性代数

【价值250亿美元的特征向量：Google背后的线性代数】《The $25,000,000,000 eigenvector: The linear algebra behind Google》K Bryan, T Leise (2006) http://t.cn/zlnwlj5

functicons 网页版转发于2017-05-01 06:46

The weights of the web pages is the eigenvector of the link matrix. This is mathematically simple and beautiful, the real challenge is the scale of the matrix: 10B * 10B, but because it’s sparse, the real scale is 10B * c.

posted @ 2017-05-02 08:03 杰哥阅读(572) | 评论 (0) | 编辑收藏

常用链接

留言簿(57)

随笔分类

随笔档案

相册

Other

Paper submission

福彩

留学相关

论坛

搜索

学者

邮箱

中科大和中科院

搜索

最新评论

阅读排行榜

评论排行榜