文档简介:
  提高3D图像程式的性能是个很大的课题。图像程式的优化大致能够分成两大任务,一是要有好的场景管理程式,能快速剔除不可见多边形,并根据对象距相机远近选择合适的细节(LOD);二是要有好的渲染程式,能快速渲染送入渲染管线的可见多边形。
  我们知道,使用OpenGL或Direct3D渲染图像时,首先要配置渲染状态,渲染状态用于控制渲染器的渲染行为。应用程式能够通过改变渲染状态来控制OpenGL或Direct3D的渲染行为。比如配置Vertex/Fragment Program、绑定纹理、打开深度测试、配置雾效等。
  改变渲染状态对于显卡而言是比较耗时的操作,而假如能合理管理渲染状态,避免多余的状态转换,将明显提升图像程式性能。这篇文章将讨论渲染状态的管理。

文档目录:
  基本思想
  实际问题
  渲染脚本

文档内容:

基本思想
  我们考虑一个典型的游戏场景,包含人、动物、植物、建筑、交通工具、武器等。稍微分析一下就会发现,实际上场景里很多对象的渲染状态是相同的,比如任何的人和动物的渲染状态一般都相同,任何的植物渲染状态也相同,同样建筑、交通工具、武器也是如此。我们能够把具备相同的渲染状态的对象归为一组,然后分组渲染,对每组对象只需要在渲染前配置一次渲染状态,并且还能够保存当前的渲染状态,配置渲染状态时只需改变和当前状态不相同的状态。这样能够大大减少多余的状态转换。下面的代码段演示了这种方法:

// 渲染状态组链表,由场景管理程式填充
RenderStateGroupList groupList;
// 当前渲染状态
RenderState curState;

……

// 遍历链表中的每个组
RenderStateGroup *group = groupList.GetFirst();
while ( group != NULL )
{
// 配置该组的渲染状态
RenderState *state = group->GetRenderState();
state->ApplyRenderState( curState );

// 该渲染状态组的对象链表
RenderableObjectList *objList = group->GetRenderableObjectList();
// 遍历对象链表的每个对象
RenderableObject *obj = objList->GetFirst();
while ( obj != NULL )
{
// 渲染对象
obj->Render();

obj = objList->GetNext();
}

group = groupList.GetNext();
}

其中RenderState类的ApplyRenderState方法形如:
void RenderState::ApplyRenderState( RenderState &curState )
{
// 深度测试
if ( depthTest != curState.depthTest )
{
SetDepthTest( depthTest );
curState.depthTest = depthTest;
}

// Alpha测试
if ( alphaTest != curState.alphaTest )
{
SetAlphaTest( alphaTest );
curState.alphaTest = alphaTest;
}

// 其他渲染状态
……
}

  这些分组的渲染状态一般被称为Material或Shader。这里Material不同于OpenGL和Direct3D里面用于光照的材质,Shader也不同于OpenGL里面的Vertex/Fragment Program和Direct3D里面的Vertex/Pixel Shader。而是指封装了的显卡渲染图像需要的状态(也包括了OpenGL和Direct3D原来的Material和Shader)。

  从字面上看,Material(材质)更侧重于对象表面外观属性的描述,而Shader(这个词实在不好用中文表示)则有用程式控制对象表面外观的含义。由于显卡可编程管线的引入,渲染状态中包含了Vertex/Fragment Program,这些小程式能够控制物体的渲染,所以我觉得将封装的渲染状态称为Shader更合适。这篇文章也将称之为Shader。

  上面的代码段只是简单的演示了渲染状态管理的基本思路,实际上渲染状态的管理需要考虑很多问题。
渲染状态管理的问题
 

 消耗时间问题
  改变渲染状态时,不同的状态消耗的时间并不相同,甚至在不同条件下改变渲染状态消耗的时间也不相同。比如绑定纹理是个很耗时的操作,而当纹理已在显卡的纹理缓存中时,速度就会很快。而且随着硬件和软件的发展,一些很耗时的渲染状态的消耗时间可能会有减少。因此并没有一个准确的消耗时间的数据。

  虽然消耗时间无法量化,情况不同消耗的时间也不相同,但一般来说下面这些状态转换是比较消耗时间的:

Vertex/Fragment Program模式和固定管线模式的转换(FF,Fixed Function Pipeline)

Vertex/Fragment Program本身程式的转换

改变Vertex/Fragment Program常量

纹理转换

顶点和索引缓存(Vertex & Index Buffers)转换

  有时需要根据消耗时间的多少来做折衷,下面将会碰到这种情况。



 渲染状态分类
  实际场景中,往往会出现这样的情况,一类对象其他渲染状态都相同,只是纹理和顶点、索引数据不同。比如场景中的人,只是身材、长相、服装等不同,也就是说只有纹理、顶点、索引数据不同,而其他如Vertex/Fragment Program、深度测试等渲染状态都相同。相反,一般不会存在纹理和顶点、索引数据相同,而其他渲染状态不同的情况。我们能够把纹理、顶点、索引数据不归入到Shader中,这样场景中任何的人都能够用一个Shader来渲染,然后在这个Shader下对纹理进行分组排序,相同纹理的人放在一起渲染。
 多道渲染(Multipass Rendering)
  有些比较复杂的图像效果,在低档显卡上需要渲染多次,每次渲染一种效果,然后用GL_BLEND合成为最终效果。这种方法叫多道渲染Multipass Rendering,渲染一次就是个pass。比如做逐像素凹凸光照,需要计算环境光、漫射光凹凸效果、高光凹凸效果,在NV20显卡上只需要1个pass,而在NV10显卡上则需要3个pass。Shader应该支持多道渲染,即一个Shader应该分别包含每个pass的渲染状态。