内存池技术学习笔记

linux内存管理策略
   linux低层采用三层结构，实际使用中可以方便映射到两层或者三层结构，以适用不同的硬件结构。最下层的申请内存函数get_free_page。之上有三种类型的内存分配函数
（1）kmalloc类型。内核进程使用，基于slab技术，用于管理小于内存页的内存申请。思想出发点和应用层面的内存缓冲池同出一辙。但它针对内核结构，特别处理，应用场景固定，不考虑释放。不再深入探讨。
（2）vmalloc类型。内核进程使用。用于申请不连续内存。
（3）brk/mmap类型。用户进程使用。malloc/free实现的基础。
有关详细内容，推荐http://www.kerneltravel.net/journal/v/mem.htm。http://www.kerneltravel.net上有不少内核相关知识。
malloc系统的内存管理策略
   malloc系统有自己的内存池管理策略，malloc的时候，检测池中是否有足够内存，有则直接分配，无则从内存中调用brk/mmap函数分配，一般小于等于128k（可设置）的内存，使用brk函数，此时堆向上（有人有的硬件或系统向下）增长，大于128k的内存使用mmap函数申请，此时堆的位置任意，无固定增长方向。free的时候，检测标记是否是mmap申请，是则调用unmmap归还给操作系统，非则检测堆顶是否有大于128k的空间，有则通过brk归还给操作系统，无则标记未使用，仍在glibc的管理下。glibc为申请的内存存储多余的结构用于管理，因此即使是malloc(0)，也会申请出内存(一般16字节，依赖于malloc的实现方式），在应用程序层面，malloc(0)申请出的内存大小是0，因为malloc返回的时候在实际的内存地址上加了16个字节偏移，而c99标准则规定malloc（0）的返回行为未定义。除了内存块头域，malloc系统还有红黑树结构保存内存块信息，不同的实现又有不同的分配策略。频繁直接调用malloc，会增加内存碎片，增加和内核态交互的可能性，降低系统性能。linux下的glibc多为Doug Lea实现
应用层面的内存池管理
   1：不定长内存池。
   典型的实现有apr_pool。优点是不需要为不同的数据类型创建不同的内存池，缺点是造成分配出的内存不能回收到池中。这是由于这种方案以session为粒度，以业务处理的层次性为设计基础。
   apr_pool中的内存池并不是仅仅一个内存池，相反而是存在多个内存池，这些内存池之间形成层次结构。根据处理阶段的周期长短引出了子内存池的概念，与之对应的是父内存池以及根内存池的概念，它们的唯一区别就是存在的周期的不同而已。比如对于HTTP连接而言，包括两种内存池：连接内存池和请求内存池。由于一个连接可能包含多个请求，因此连接的生存周期总是比一个请求的周期长，为此连接处理中所需要的内存则从连接内存池中分配，而请求则从请求内存池中分配。而一个请求处理完毕后请求内存池被释放，一个连接处理后连接内存池被释放。根内存池在整个Apache运行期间都存在,因此apr_pool比较适合用于内存使用的生命期有明显层次的情况.
2:定长内存池
    典型的实现有BOOST,LOKI。特点是为不同类型的数据结构分别创建内存池，需要内存的时候从相应的内存池中申请内存，优点是可以在使用完毕立即把内存归还池中，可以更为细粒度的控制内存块。
伪代码分析LOKI内存池:

//char型的firstAvailableBlock_所以没办法存储大于255的位置

struct Chunk

{

void Init(std::size_t blockSize,unsigned char blocks);

void Release();

void* Allocate(std::size_t blockSize);

void Deallocate(void* p,std::size_t blockSize);

unsigned char* pData_;

unsigned char firstAvailableBlock_, blocksAvailable_; //第一个可用block块和可用block块总数

};

每个chunk管理一定数量的block,每个chunk中lock的申请和释放时间都是O（1）。

chunk：首次申请一块连续内存，pdata_指向该内存基址，依据block大小，划分成多个连续的block，每个block开头的第一个字节保存该block的顺序号，firstAvailableBlock_存储上次分配出的block序号。

分配block：返回pdata_+firstAvailableBlock_*blocksize,同时firstAvailableBlock_赋值为该快的序列号

收回block：block指针假设为pblock,该块序列号赋值为firstAvailableBlock_,firstAvailableBlock_赋值为(pblock-pdata_)/blocksize即可

//得益于char的小所以可以分配很小的block出来,且在需要对齐的情况下不会出现问题

void Chunk::Init(std::size_t blockSize,unsigned char blocks)

{

pData_ = new unsigned char(blockSize*blocks);

firstAvailableBlock_ = 0; //上次分配的块的序列号

blocksAvailable_ = blocks;

unsigned char i = 0;

unsigned char *p = pData_;

for (;i != blocks; p += blockSize)

{

*p = ++i;

}

//分配blockSize单位固定大小的内存

void* Chunk::Allocate(std::size_t blockSize)

{

if (!blocksAvailable_)

{

return 0;

}

unsigned char* pResult = pData_ +(firstAvailableBlock_ * blockSize); //得到该块的序列号,第一个位置存储的为序列号

firstAvailableBlock_ = *pResult;

--blocksAvailable_;

return pResult;

}

void Chunk::Deallocate(void* p,std::size_t blockSize)

{

ASSERT(p >= pData_); //归还的内存必须大于分配起始内存

unsigned char* toRelese = static_cast<unsigned char*>(p); //强制转换,静态，不检测运行态

*toRelese = firstAvailableBlock_;

firstAvailableBlock_ = static_cast<unsigned char>((toRelese - pData_)/blockSize);

ASSERT(firstAvailableBlock_ == (toRelese - pData_)/blockSize);

++blockSize;

}

#include "pool.h"

class FixedAllocator

{

public:

void* Allocate(std::size_t blockSize_);

private:

std::size_t blocksize_;

unsigned char numBlocks_;

typedef std::vector<Chunk> Chunks;

Chunks Chunks_;

Chunk* allocChunk_; //上一次分配的Chunks

Chunk* deallocChunk_;

};

chunk中的block上限是255，不具有通用性，因此封装了一层，成为FixedAllocator,它保存一个vector<chunk>。

FixedAllocator中的block申请：FixedAllocator中保存活动的chunk（上次有空闲空间的chunk），申请block的

时候如果活动chunk有空闲快，直接申请，否则扫描vector，时间复杂度o(N),同时更新活动chunk。

FixedAllocator中的回收block：简单想，给定block回收到FixedAllocator，自然要扫描vector，以确认 block属于哪个chunk，以便chunk回收。

实际实现的时候，Loki针对应用场景进行了优化，一般使用都是批量使用，回收一般和申请顺序相同或者相反，

因此FixedAllocator保存上次回收block的chunk指针，每次回收优先匹配这个chunk，匹配不上则以该chunk为中心，向两侧chunk顺序检测。

FixedAllocator带来的优点：上文提到的消除了block的上限限制。另一方面，可以以chunk为单位，把内存归还给操作系统。

实际实现中防止刚释放的内存立即又被申请，是存在两个空闲chunk的时候才回收一个。这个特点，这里暂时归结为优点吧。

实际使用中，回收多余内存个人认为是个缺点，意义并不是很大。

FixedAllocator带来的缺点：很明显，就是申请回收block的时间复杂度。

//////////////////////////////////////////////////////////////////////////

void* FixedAllocator::Allocate(std::size_t blockSize_)

{

if (allocChunk_ ==0 || allocChunk_.blocksAvailable_ == 0)

{

Chunks::iterator i = Chunks.begin();

for (;;++i)

{

if (i == Chunks_.end())

{

Chunks_.push_back(Chunk());

Chunk& newChunk = Chunks_.back();

newChunk.Init(blockSize_,Blocks);

allocChunk_ = newChunk;

deallocChunk_ = &Chunks_.front();

}

if (i->blocksAvailable_)

{

allocChunk_ = &*i;

break;

}

ASSERT(allocChunk_ != 0);

ASSERT(allocChunk_->blocksAvailable_ > 0);

return allocChunk_->Allocate(blockSize_);

}

class SmallObjAllocator

{

public:

SmallObjAllocator(std::size_t chunkSize,std::size_t maxObjectSize); //chunk的预设大小,超过maxObjectSize大小的用new申请

void* Allocate(std::size_t numBytes);

void Deallocate(void* p, std::size_t size);

private:

std::vector<FixedAllocator> pool_;

FixedAllocator* pLastAlloc_; //最后一次分配用的FixedAllocator

FixedAllocator* pLastDealloc_;

};

截至到FixedAllocator层面blocksize都是定长。因此封装一层适用于任意长度的内存申请。

SmallObjAllocator保存了一个FixedAllocator的数组pool_，存储拥有不同block长度的FixedAllocator。

当前SmallObjAllocator的构造函数有3个参数：chunksize，maxblocksize，alignsize。

数组元素个数取 maxblocksize除以alignsize的向上取整。每个FixedAllocator中实际的blocksize是（下标＋1） *alignsize。

SmallObjAllocator中block申请：依据block和alignsize的商直接取到数组pool_下标，使用相应的FixedAllocator申请。

SmallObjAllocator中回收block：根据block和alignsize的商直接找到相应的FixedAllocator回收。

优点：差异化各种长度的对象申请，增强了易用性。

缺点：增加扫描的时间复杂度，当前版本的loki浪费内存。这也是进一步封装，屏蔽定长申请的细节，带来的负面效应。

class SmallObject

{

//重载new，delete,设计为模板函数等

};

暴露给外部使用的一层。引入模版，当前版本 SmallObject有6个模版参数，第一个是线程策略，紧接着的三个正好是SmallObjAllocator层面的

三个构造参数，下面的一个生存期策略，最后的是锁方式。

这里说下SmallObjAllocator层面的三个默认参数值，分别是4096，256，4。意味着SmallObjAllocator层面有数组（256+4-1)/4=64个，

数组存储的FixedAllocator中的chunksize一般都是4096（当4096<= blocksize*255时候）字节（第一个chunk的申请推迟到首次使用的时候），

各FixedAllocator中的chunk的 blocksize依次是4、8

256，大于256字节的内存申请交给系统的malooc/new管理，

数组中FixedAllocator 中单个chunk中的blocknum依次是4096/4=824>255取255、255

4096/256=16。如果这不能满足需求，

请调用的时候显式赋值。

当前loki提供了三种线程策略：

SingleThreaded 单线程

ObjectLevelLockable 对象级别，一个对象一个锁

ClassLevelLockable 类级别，一个类一个锁，该类的所有对象共用该锁

目前只提供了一种锁机制：Mutex

它的基类SmallObjectBase复写了new/delete操作子，因此直接继承SmallObject就可以象普通的类一样new/delete，并且从内存池分配内存。

SmalObject中block申请和释放都从一个全局的SmallObjAllocator单例进行。

(2)boost::pool系列。boost 的内存池最低层是simple_segregated_storage，类似于Loki中的chunk，在其中申请释放block（boost中把 block称为chunk，晕死，这里还是称其为block）采用了和loki的chunk中同样的算法，不同的是 simple_segregated_storage使用void*保存block的块序号，loki中使用char，因此boost中的 simple_segregated_storage没有255的上限限制，自然也就不需要再其上再封装一层类似与FixedAllocator的层面。另boost没有屏蔽块的大小，直接提供定长的接口给用户，省掉了SmallObjAllocator层面。因此boost的内存池申请释放block的时间复杂度都是O(1)（object_pool和pool_allocator除外），另避免的小内存的浪费，同时boost不能象loki那样在将 block归还给内存池的时候根据chunk的空闲数量释放内存归还给系统，只能显式调用释放内存函数或者等内存池销毁的时候，基本上和内存池生命周期内永不释放没什么区别。
boost的最低层是simple_segregated_storage,主要算法和loki中的chunk一样，不多说了。这里说下影响上层接口的两类实现：add_block/malloc/free、add_ordered_block/malloc/ordered_free，两种低层实现造成 boost上层设计的成功与失败,前者效率高，和loki一样直接增加释放,时间复杂度O(1)，后者扫描排序，时间复杂度O(n)。
boost提供了四种内存池模型供使用：pool、object_pool、singleton_pool、pool_allocator/fast_pool_allocator。
1）pool
基本的定长内存池

#include <boost/pool/pool.hpp>

typedef struct student_st

{

char name[10];

int age;

}CStudent;

int main()

{

boost::pool<> student_pool(sizeof(CStudent));

CStudent * const obj=(CStudent *)student_pool.malloc();

student_pool.free(obj);

return 0;

}

pool的模版参数只有一个分配子类型，boost提供了两种 default_user_allocator_new_delete/default_user_allocator_malloc_free，指明申请释放内存的时候使用new/delete，还是malloc/free，默认是default_user_allocator_new_delete。构造函数有2个参数：nrequested_size,nnext_size。nrequested_size是block的大小（因为void*保存序号，因此boost内置了block的最小值，nrequested_size过小则取内置值），nnext_size是 simple_segregated_storage中内存不足的时候，申请的block数量，默认是32。最全面的实例化pool类似这样： boost::pool<boost::default_user_allocator_malloc_free> student_pool(sizeof(CStudent),255);
pool提供的函数主要有：

malloc/free 基于add_block/malloc/free实现，高效

ordered_malloc/ordered_free 基于add_ordered_block/malloc/ordered_free实现，在pool中无任何意义，切勿使用。

release_memory/purge_memory 前者释放池中未使用内存，后者释放池中所有内存。另池析构也会释放内存

2）object_pool

#include <boost/pool/object_pool.hpp>

class A{

public:

A():data_(0){}

private:

int data_;

};

int main()

{

boost::object_pool<A> obj_pool;

A *const pA=obj_pool.construct();

obj_pool.destroy(pA);

return 0;

}

object_pool继承至pool，有两个模版参数，第一个就是对象类型，第二个是分配子类型，默认同pool是 default_user_allocator_new_delete。构造函数参数只有nnext_size，意义以及默认值同pool。最全面的实例化object_pool类似这样：boost::pool<A,boost:: default_user_allocator_malloc_free> obj_pool(255);
object_pool提供的函数主要有（继承至父类的略）：

malloc/free 复写pool的malloc/free，add_ordered_block/malloc/ordered_free实现

construct/destroy 基于本类的malloc/free实现，额外调用默认构造函数和默认析构函数。

~object_pool 若析构的时候有对象未被destroy，可以检测到，释放内存前对其执行destroy

object_pool　主要着眼于“自动析构”，在没有gc的情况下，达到提高效率和自动管理内存的目的。而且它也特别适合于“多次申请，一次释放”的情况.所以它甚至是鼓励你忽略使用destroy（从它的例子就可以看出来）。

destroy函数并没有提高复杂度，因为内部链表始终处于有序状态（由于使用order_malloc,order_free)，所以不论是逐个释放，还是成批释放，它的复杂度都是O(N)
3）singleton_pool
pool的加锁版本。

#include <boost/pool/singleton_pool.hpp>

typedef struct student_st

{

char name[10];

int age;

}CStudent;

typedef struct singleton_pool_tag{}singleton_pool_tag;

int main()

{

typedef boost::singleton_pool<singleton_pool_tag,sizeof(CStudent)> global;

CStudent * const df=(CStudent *)global::malloc();

global::free(df);

return 0;

}

    singleton_pool为单例类，是对pool的加锁封装，适用于多线程环境，其中所有函数都是静态类型。它的模版参数有5个，tag：标记而已，无意义；RequestedSize：block的长度；UserAllocator：分配子，默认还是 default_user_allocator_new_delete；Mutex：锁机制，默认值最终依赖于系统环境，linux下是 pthread_mutex，它是对pthread_mutex_t的封装；NextSize：内存不足的时候，申请的block数量，默认是32。最全面的使用singleton_pool类似这样：typedef boost::singleton_pool<singleton_pool_tag,sizeof(CStudent),default_user_allocator_new_delete,details::pool::default_mutex,200> global;
    它暴露的函数和pool相同。
4）pool_allocator/fast_pool_allocator
    stl::allocator的替换方案。两者都是基于singleton_pool实现，实现了stl::allocator要求的接口规范。两者的使用相同，区别在于pool_allocator的实现调用ordered_malloc/ordered_free， fast_pool_allocator的实现调用malloc/free，因此推荐使用后者。

#include <boost/pool/pool_alloc.hpp>

#include <vector>

typedef struct student_st

{

char name[10];

int age;

}CStudent;

int main()

{

std::vector<CStudent *,boost::fast_pool_allocator<CStudent *> > v(8);

CStudent *pObj=new CStudent();

v[1]=pObj;

boost::singleton_pool<boost::fast_pool_allocator_tag,sizeof(CStudent *)>::purge_memory();

return 0;

}

fast_pool_allocator的模版参数有四个：类型，分配子，锁类型，内存不足时的申请的block数量，后三者都有默认值，不再说了。它使用的singleton_pool的tag是boost::fast_pool_allocator_tag。

posted on 2008-08-26 14:05 黑色天使阅读(2435) 评论(0) 编辑收藏引用所属分类: 内存管理技术

常用链接

留言簿(2)

随笔分类

随笔档案

文章档案

搜索

最新评论

阅读排行榜

评论排行榜

malloc/free	基于add_block/malloc/free实现，高效
ordered_malloc/ordered_free	基于add_ordered_block/malloc/ordered_free实现，在pool中无任何意义，切勿使用。
release_memory/purge_memory	前者释放池中未使用内存，后者释放池中所有内存。另池析构也会释放内存

malloc/free	复写pool的malloc/free，add_ordered_block/malloc/ordered_free实现
construct/destroy	基于本类的malloc/free实现，额外调用默认构造函数和默认析构函数。
~object_pool	若析构的时候有对象未被destroy，可以检测到，释放内存前对其执行destroy

只有注册用户登录后才能发表评论。


相关文章: 如何检测内存泄漏(转) 内存池技术学习笔记

网站导航: 博客园博客园最新博文博问管理