新手区最新随笔(rss)

[Collection] Spark partition related things.

Partition:
Understanding:
1. https://www.dezyre.com/article/how-data-partitioning-in-spark-helps-achieve-more-parallelism/297
2. http://dev.sortable.com/spark-repartition/ -- example of partition & repartition to avoid data-imbalance.
3. https://acadgild.com/blog/partitioning-in-spark/ -- real case on existing partitioner & self-created partitioner.

Programming guidence.
Avoid using GroupByKey https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/prefer_reducebykey_over_groupbykey.html

Reference 1 says: Applying transformations that return RDDs with specific partitioners. Some operation on RDDs that hold to and propagate a partitioner are-
  • Join
  • LeftOuterJoin
  • RightOuterJoin
  • groupByKey
  • reduceByKey
  • foldByKey
  • sort
  • partitionBy
  • foldByKey
groupByKey is one of them, My understanding is such operations may cause extra shuffle, but repartition also helps relieve data imbalance if well considered, so use head please! :)

2017-05-18 14:29 作者: wythern【评论:0】【阅读:3】 

C/C++中volatile与 mutable,explicit 关键字详解

     摘要:   C/C++ 中的 volatile 关键字和 const 对应,用来修饰变量,通常用于建立语言级别的 memory barrier。这是 BS 在 "The C++ Programming Language" 对 volatile 修饰词的说明:A volatile specifier is a hint to a compiler that an object may change...  阅读全文

2017-04-13 13:39 作者: C++技术中心【评论:0】【阅读:61】 

SVN分支/合并原理及最佳实践(转)

     摘要: 使用svn几年了,一直对分支和合并敬而远之,一来是因为分支的管理不该我操心,二来即使涉及到分支的管理,也不敢贸然使用合并功能,生怕合并出了问题对团队造成不良影响,最主要的原因是,自己对分支的目的和合并的方法不甚了解,这才是硬伤。最近由于适配机型的需要(本人从事手机客户端的开发),需要经常接触分支和合并两项工作,突然发现这玩意整不明白很难开展工作,遂这两天着重研究了一下,有点收获,怕以后忘了,故趁着...  阅读全文

2017-04-12 15:15 作者: C++技术中心【评论:0】【阅读:34】 

Windows环境下wampserver的配置教程——超级详细

     摘要: 对于初做PHP网站的朋友来说,第一步肯定是希望在自己电脑是搭建PHP环境,省去空间和上传的麻烦!但搭建环境也不是件容易的事情,特别是对于新手同学来说!因此在这里跟大家介绍我作为一名新手在使用的方便好用的PHP服务器架设软件,那就是wampserver,这款软件在安装的过程中就已经把Apache、MySQL、PHP继承好了,而且也做好了相应的配置,除此之外,还加上了SQLitemanager和Php...  阅读全文

2017-04-08 17:32 作者: 虚空骄阳【评论:0】【阅读:17】 

aoi--地图视野处理

     摘要: AOI主要有九宫格、灯塔和十字链表的算法实现。本文阐述十字链表的实现和尝试。 1. 基本原理 根据二维地图,将其分成x轴和y轴两个链表。如果是三维地图,则还需要维护多一个z轴的链表。将对象的坐标值按照大小相应的排列在相应的坐标轴上面。 2. 基本接口 对对象的操作主要有以下三个接口: add:对象进入地图; leave:对象离开地...  阅读全文

2017-03-07 15:09 作者: C++技术中心【评论:0】【阅读:77】 

MMORPG服务器架构(转)

     摘要: 转自http://www.blogjava.net/landon/archive/2012/07/14/383092.htmlMMORPG服务器架构一.摘要1.网络游戏MMORPG整体服务器框架,包括早期,中期,当前的一些主流架构2.网络游戏网络层,包括网络协议,IO模型,网络框架,消息编码等。3.网络游戏的场景管理,AI,脚本的应用等。4.开源的网络服务器引擎5.参考书籍,博客二.关键词网络协议...  阅读全文

2017-03-06 16:01 作者: C++技术中心【评论:0】【阅读:78】 

技 术 改 变 世 界

网站分类

统计信息

聚合

Blog客户端API

推荐客户端

博客排行榜[前61人]