C++博客-Render Donkey-随笔分类-GPU and Graphic

镜面反射矩阵推导

Render Donkey — Fri, 14 Jun 2013 16:48:00 GMT

最近公司游戏正在准备上线，所以FlasCC也就没有研究了，偶尔有闲功夫，也是玩玩3DMAX和UNITY3D。感觉不会3DMAX，是一种局限。

回到主题，记录一下镜面反射矩阵的推导。

在用Irrlicht和RTT做镜面效果的时候，用到了反射矩阵。就是需要把摄相机镜像，渲染一个RT，贴到镜面模型上。这个其实还纠结了许久，因为之前做水面渲染的时候，水面是平的，很好计算摄相机在水面以下的位置。但是换成镜面，就不一样了，因为镜面可能是任意面。于是就需要一个通用的反射矩阵。

反射矩阵的计算是基于平面的，因为，任何反射，都需要一个反射面。

所以，我们先给出平面表示 Plane(nx,ny,nz,d); 其中(nx,ny,nz)已经单位化。

然后，我们假设空间中有任意一点P(x,y,z,1)

设这个点P以Plane为反射面的镜像点为P1(x1,y1,z1,w)。

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

根据定理，我们知道，若两个点以某一点为镜像，则两个点的坐标之和除以2，就刚好是中点。

这个理论我们用到这里的话，那这个中点就刚好是平面上的一个点。平面上的这个点就是 P(x,y,z,1) - (nx,ny,nz,0)*D . 其中D就是点P到平面的距离

而D=Plane dot P = (x*nx+y*ny+z*nz+d);

由上面的描述，我们马上想到，那么要求点P1的话，就是这样

(P+P1)/2 = P(x,y,z,1) - (nx,ny,nz,0)*D

=> P1 = P(x,y,z,1) - 2(nx,ny,nz,0)*D

=>P1 = P(x,y,z,1) - 2(nx,ny,nz,0)*(x*nx+y*ny+z*nz+d)

换成矩阵形式则为

｜1-2*nx*nx -2*nx*ny -2*nx*nz 0 |

| -2*ny*nx 1 - 2*ny*ny -2*ny*nz 0 |

P1 = {x,y,z,1} x | -2*nz*nx -2*nz*ny 1-2*nz*nz 0 |

| -2*d*nx -2*d*ny -2*d*nz 1 |

大功告成

btw:这是行主矩阵表示法

Render Donkey 2013-06-15 00:48 发表评论

Deferred Shading

Render Donkey — Sun, 13 Mar 2011 03:56:00 GMT

一直在关注这个东西，最近忙里偷闲，深入地了解了一下。首先，我们说说延迟渲染的好处。毕竟一个东西的产生，是为了解决当前已有的东西不能解决的问题。

Deferred Shading Tutorial下载

上面的文章很好地讨论了采用传统着色方案所需要面对的问题。主要是下面两种情况。

而对于延迟着色的第一个好处，就是可以将光照处理对物体渲染的开销由 M*N 变为 M+N （其中M为物体数目，N为光源数目）

延迟着色的一般框架图如下：

延迟着色的好处

而延迟着色面临的最大问题就是透明处理

另外，延迟着色主要得益于MRT（Multi Render Target).因为，MRT的限制即是延迟着色本身的限制，DX SDK DOC中有提到。

MSDN：http://msdn.microsoft.com/en-us/library/bb147221(v=vs.85).aspx

RenderMonkey中也有延迟着色例子。　我也用RenderMonkey重写了一个自己的例子。

OK, 完事儿！！！！

Render Donkey 2011-03-13 11:56 发表评论

2D Skinned Mesh（3D的完全翻版带旋转）

Render Donkey — Thu, 13 Jan 2011 16:24:00 GMT

摘要: 由下面几个文章引发的欲望，让我自己也试着实现了一个基于2D的骨骼动画。

一篇讲述骨骼动画数学运算的文章

http://www.cnblogs.com/neoragex2002/archive/2007/09/13/891945.html

两篇讲述骨骼动画原理和实现的文章　一篇也是用的2D，老外的那篇用的是DX　

http://www.cppblog.com/Leaf/archive/2010/12/31/137818.html

空明流转用C#写的一个，当然也可以下载源码。只是在他的BLOG中，他未解释任何东西。并且我也未曾下载任何源码，不知是否源码中有文档

http://www.cppblog.com/lingjingqiu/archive/2008/06/07/52463.aspx

很不爽的是，许多例子或原理讲的时候没有带旋转。　其实那才是重头戏。　空明流转的貌似有旋转，可阅读全文

Render Donkey 2011-01-14 00:24 发表评论

Reflect & Refract (以水渲染为例)

Render Donkey — Sat, 08 Jan 2011 14:35:00 GMT

摘要:

我不是Shader帝，虽然知道Shader怎么写，但一直没仔细研究过。最近蛋疼至极，研究了下RenderMonkey，于是抽着几个看着比较有趣的效果做了一下。

先前的模型贴花http://www.cppblog.com/Leaf/archive/2011/01/07/138093.html

和CUBE MAP http://www.cppblog.com/Leaf/archive/2011/01/07/138106.html

就是此次蛋疼期的产物之一。

还是先围观，上图再说
阅读全文

Render Donkey 2011-01-08 22:35 发表评论

CubeMap视线反射方向计算详解

Render Donkey — Fri, 07 Jan 2011 05:32:00 GMT

摘要: 其基本原理很多例子上有讲到。下面给出一些比较合适的链接

http://developer.nvidia.com/object/cube_map_ogl_tutorial.html NVIDIA官网上的 Opengl Cube texture mapping
http://www.zwqxin.com/archives/shaderglsl/review-cube-mapping-shader.html 某位兄弟的个人BLOG。
以上两位都适合OPENGL控。
本文给出一个DX HLSL例子。并解释了反射方向计算的数学模型。希望能给大家一定的帮助。

CUBE映射主要分为两步：
一、在VS中根据法线和观察位置计算反射方向，并且得到观察空间中的反射方向。
反射方向有两种计算方法。
1、在世界坐标系空间中计算，然后再将计算到的反射方向转换到观察空间。这要求我们转入观察位置。
2、在观察空间中进行计算，此时观察位置已经为0,0,0,于是不需要传入观察位置，并且得到的向量即为所求。本文的代码采用此阅读全文

Render Donkey 2011-01-07 13:32 发表评论

使用投影纹理进行模型贴花(Mesh Decals)

Render Donkey — Thu, 06 Jan 2011 16:37:00 GMT

摘要: 一、投影纹理进行模型贴花时，主要是进行三角面剔除，使在渲染贴花时，提交最少的三角面。

二、在贴花PASS中，需要将全局混合开启，并设置相应的SRCBLEND(SRC_ALPHA)和DESTBLEND(DEST_ALPHA)值。括号内为我用的值。

当然，如果你不想让贴花与场景（模型）混合，则可以不开启。　

三、请注意纹理的寻址方式以及纹理边缘的ALPHA情况。　若纹理边缘ALPHA不为0，则可以手工进行裁剪。

四、本文仅是采用了固定的投影方向和SHADER内部定义变量的方式来进行贴花渲染。　并且，并未进行模型三角面剔除。所以若要使用，则需要注意第一个问题。

五、本文灵感来源于此贴：http://forums.create.msdn.com/forums/p/34339/198791.aspx

六、支持邮件交流:BoYueGame#Gmail#com
阅读全文

Render Donkey 2011-01-07 00:37 发表评论

两篇讲述Skinned Mesh原理的文章

Render Donkey — Fri, 31 Dec 2010 15:04:00 GMT

个人觉得，对于一个东西，理解其根本才是王道。

就拿骨骼动画来说吧，DX的例子虽然可以让人清楚地知道骨骼动画是怎么动作的，并且知道了有.X这种骨骼动画文件。　但着手时，依然会被DX那神奇的各种框架弄得晕头转向。　并且M$向来是想人变成213，而非学者。　

在网上一搜Skinned Mesh, 会出来一大堆围绕着DX例子的解释，翻译，或者什么什么的。　而下面这些文章，则充分讲述了其基本原理。　你可以离开DX，离开OPENGL而全神惯注地集中思考骨骼动画到底是什么。　

Skinned Mesh原理解析和一个最简单的实现示例　http://blog.csdn.net/n5/archive/2008/10/19/3105872.aspx

这是一篇中文，虽然是前两年发表的了，但依然适用。文中作者以文+代码的方式循序渐进，并在最后详解了其DEMO的实现代码。　可以说是真枪实弹的演习，而非空谈。

Skined Mesh With DX9.pdf www.google.com www.baidu.com
也可以点击这里下载

这是一篇老外的，也是由上一篇文章中提到的。　搜索引擎上随便一搜就能下到。　挺厚的，足足36页的PDF。　够你消耗一段时间的光阴了。

Render Donkey 2010-12-31 23:04 发表评论

HLSL中的MUL指令深层剖析

Render Donkey — Mon, 27 Dec 2010 16:05:00 GMT

摘要: 本文主要内容有：

一、部分背景内容

二、HLSL中的row-major matrix picking and column-major matrix picking

三、MUL规则

四、观察矩阵的另类解释和TBN空间的类推

五、HLSL中矩阵的构造（为什么WorldToTargentSpaceMatrix要左乘LightDir）

阅读全文

Render Donkey 2010-12-28 00:05 发表评论

程序中的四元数表示法

Render Donkey — Mon, 20 Dec 2010 15:22:00 GMT

摘要: 网上有很多四元数相关的文章。

百度百科 http://baike.baidu.com/view/319754.htm

某位的博客 http://caterpillar.onlyfun.net/Gossip/ComputerGraphics/QuaternionsRotate.htm

但当你看完这些后。再看着下面这样的代码，你能快速回过神来么？

阅读全文

Render Donkey 2010-12-20 23:22 发表评论

Computing Tangent Space Basis Vectors for an Arbitrary Mesh

Render Donkey — Mon, 20 Dec 2010 15:17:00 GMT

摘要: 原文地址：http://www.terathon.com/code/tangent.html

为一个任意网格模型计算其切线空间的基本向量（即切线空间的T B N三个向量）

Modern bump mapping (also known as normal mapping) requires that tangent plane basis vectors be calculated for each vertex in a mesh. This article presents the theory behind the computation of per-vertex tangent spaces for an arbitrary triangle mesh and provides source code that implements the proper mathematics.

现在的bump mapping(或者normal mapping)需要每个顶点的切面的基本向量。这篇文章描述了逐顶点计算任意三角模型的切线空间原阅读全文

Render Donkey 2010-12-20 23:17 发表评论

四元数与欧拉角互换

Render Donkey — Sat, 18 Dec 2010 14:15:00 GMT

摘要: 本文乃转载，但原文地址不知。若作者有幸看到，请及时认领。

在3D图形学中，最常用的旋转表示方法便是四元数和欧拉角，比起矩阵来具有节省存储空间和方便插值的优点。本文主要归纳了两种表达方式的转换，计算公式采用3D笛卡尔坐标系：

阅读全文

Render Donkey 2010-12-18 22:15 发表评论

HDR效果简介

Render Donkey — Wed, 26 May 2010 16:53:00 GMT

摘要: 首先我们先来看看HDR是什么意思。
HDR 是 high dynamic rang（高动态范围）的简称。
OK，现在我们知道了什么叫高动态范围。
还是过把隐，先看看截图。。阅读全文

Render Donkey 2010-05-27 00:53 发表评论

CPU GPU设计工作原理《转》

Render Donkey — Tue, 18 May 2010 01:51:00 GMT

摘要: 我知道这很长,但是,我坚持看完了.希望有幸看到这文章并对图形方面有兴趣的朋友,也能坚持看完.一定大有收获.毕竟知道它们到底是怎么"私下勾搭"的.会有利于我们用程序来指挥它们....(这是我加上去的)

原文从这里开始:

要说到设计的复杂程度，那还是CPU了！这个不用讨论，很简单的道理你看看显卡芯片的更新速度和CPU的更新速度就可见一斑了。还是简单说说他们的设计原理吧。
阅读全文

Render Donkey 2010-05-18 09:51 发表评论

[原]Irrlicht(鬼火引擎）中多设备的支持

Render Donkey — Mon, 26 Apr 2010 01:10:00 GMT

摘要: 理清一个引擎，不得不先理清它的层次结构，进而理清渲染流程。本文给出了鬼火引擎中的设备抽象层，有助于对鬼火引擎源码的快速阅读阅读全文

Render Donkey 2010-04-26 09:10 发表评论

关于《3D管线导论》这本书

Render Donkey — Sun, 25 Apr 2010 16:03:00 GMT

摘要: 游戏开发中，计算机图形学是必不可少的东西。许多人也是从接触图形开始而进入游戏行业的。3D管线导论这本书诠释了3D管线的细节。为大家解开了萦绕已久的迷团。阅读全文

Render Donkey 2010-04-26 00:03 发表评论

切线空间（纹理空间）的计算

Render Donkey — Mon, 22 Mar 2010 16:03:00 GMT

终于找到了两篇让人易懂的文章，这两篇结合着看，很容易看清计算过程，没有想象中的那么复杂

这是一篇老外的：http://www.terathon.com/code/tangent.html

这是另一个大哥的：http://jingli83.blog.sohu.com/94746672.html

两篇结合看，方显其效！

有了这两篇的理解后，再去看其它的关于切线空间的文章，就不会再摸不着东南西北了！

Render Donkey 2010-03-23 00:03 发表评论

SSAO

Render Donkey — Mon, 22 Mar 2010 02:19:00 GMT

SSAO全称“Screen-Space Ambient Occlusion” (屏幕空间环境光遮蔽)。其最先运用于 Crysis（孤岛危机）游戏中，通过GPU的 shader实现

　　SSAO通过采样象素周围的信息，并进行简单的深度值对比来计算物体身上环境光照无法到达的范围，从而可以近似地表现出物体身上在环境光照下产生的轮廓阴影。可以利用“逐象素场景深度计算”技术计算得出的深度值直接参与运算。

　　现在的效果确实错误还比较大，应该先进行简单的空间划分（或类似处理）然后计算。

　　不过个人认为这种方法只是近似地模拟，效果并不正确，但确实能增强场景的层次感，让画面更细腻，让场景细节更加明显。

　　不同于显卡驱动中普通的AO选项，burnout的SSAO是全动态的，无需预处理，无loading时间，无需消耗内存，不使用CPU，全由GPU处理，对GPU有较大的消耗

　　SSAO默认是关闭的，可以在游戏视频选项中打开

　　评测

　　在7950GT下跑，加了ssao后，下降了15%。而且，显卡性能越低，下降的越厉害。效率消耗主要是在于要多渲染一遍场景到深度以及之后进行的ssao处理。这遍可以进行优化，如果物体的纹理不带alpha,则可以把他们都合在一批或几批渲染。至于深度图的尺寸，我采用了与窗口一样的尺寸，这样精度高。也可以采用低分辨率，但效果会有锯齿，还需要进行模糊处理才比较自然。当然，如果本来就用了延迟渲染技术，本来就有深度图了，那就可以直接拿来用了。

　　与PRT对比

　　PRT用于静态场景确实是个比较好的方案，毕竟可以预计算。但是对于动态的场景，还需要动态更新。另外，PRT的质量依赖于网格的细分程度，要是模型太简，则效果也糟糕。

　　因此，PRT对于虚拟现实项目里的高楼大厦等场景（这些模型都是很精简的）来说，就显得不合适了

　　目前已发行的游戏中，运用SSAO的游戏有

　　Crysis（孤岛危机）

　　Burnout(TM) Paradise The Ultimate Box（火爆狂飙5天堂）

　　帝国：全面战争

　　另外，星际争霸2的开发也运用到了SSAO

什么是SSAO？

　　从HL2开始，众多游戏公司开始对于如何表现“间接光照”进行研究，这些昙花一现的技术有：

　　运用于HL2的radiosity Normal Maps技术，效果比较垃圾

　　运用于Stalker的GI（？）技术，算法不好，开销巨大。

　　初期Crytek准备运用在Crysis上的Photon Mapping（光子映射）技术，开销同样比较垃圾，被抛弃。

　　随后Crytek又准备运用在Crysis上的Real-Time Ambient Map（实时环境光照贴图，简称RAM），这个是与之前Stalker使用的技术比较类似的，也是最接近SSAO的一个技术。

　　不过Crytek不愧为“间接光照”研究上的先锋，其技术员对于RAM进行了改进，新的算法成为了如今的SSAO

　　SSAO开与关的区别所在

　　SSAO（Screen-Space Ambient Occlusion）是一个纯粹的渲染技术，或者说，是一个算法。虽然从上文知道是为了实现“间接光照”的效果，不过从技术上讲，就是一个对于AO（Ambient Occlusion环境光吸收，也就是NV 185.20驱动加入的那个，一个渲染技术，我们可以在Maya等3D软件中可以见到）的一个逼近函数，并且以此为据进行实时渲染。

　　SSAO比起185.20驱动中AO的优点：

　　与场景复杂性无关

　　无数据预处理，无loading时间，无系统内存分配

　　动态渲染

　　每个像素工作方式始终一致

　　无CPU占用，完全通过GPU执行

　　与流行显卡的管线整合相当容易

　　缺点也是有的：

　　由于采样全部在可见点上进行的，对于不可见点的遮挡影响会有错误的估算。

　　颗粒感比较重，需要与动态模糊紧密配合才能取得较好效果。

SSAO屏幕空间环境光遮蔽的运作方式

　　其实了解了AO环境光遮蔽的原理，SSAO（屏幕空间环境光遮蔽）已经可以融会贯通，SSAO通过采样像素周围的信息，并进行简单的深度值对比来计算物体身上环境光照无法到达的范围，从而可以近似地表现出物体身上在环境光照下产生的轮廓阴影。

　　具体的运作方式上，SSAO会利用GPU计算出指定像素的空间坐标，然后以此坐标为基点，在周围选择数个采样点进行采样，然后将采样点的空间坐标投影回屏幕坐标，对深度缓冲进行采样，最后得到采样点的深度值，再进行后续计算，最终得到一个遮挡值。

SSAO实现了较好的全局光照效果

SSAO屏幕空间环境光遮蔽实现了较好的全局光照效果

　　因为是基于指定空间的全局计算模式，因此SSAO实现效果的优劣取决于算法，包括空间的指定范围和采样点的选取等等。需要指明的是，不同游戏（引擎）在SSAO的细节算法方面可能不尽相同，另外SSAO还会结合其它光照技术共同达成游戏画面的渲染，所以SSAO在很多游戏中不会有专门的开关选项，其最终的表现结果可能是与其它技术共同作用的结果。

Render Donkey 2010-03-22 10:19 发表评论

渲染状态管理

Render Donkey — Fri, 29 Jan 2010 06:40:00 GMT

转自：http://www.abc188.com/info/html/wangzhanyunying/jianzhanjingyan/20080417/71683.html

文档简介：提高3D图像程式的性能是个很大的课题。图像程式的优化大致能够分成两大任务，一是要有好的场景管理程式，能快速剔除不可见多边形，并根据对象距相机远近选择合适的细节（LOD）；二是要有好的渲染程式，能快速渲染送入渲染管线的可见多边形。我们知道，使用

　　文档简介：
　　提高3D图像程式的性能是个很大的课题。图像程式的优化大致能够分成两大任务，一是要有好的场景管理程式，能快速剔除不可见多边形，并根据对象距相机远近选择合适的细节（LOD）；二是要有好的渲染程式，能快速渲染送入渲染管线的可见多边形。
　　我们知道，使用OpenGL或Direct3D渲染图像时，首先要配置渲染状态，渲染状态用于控制渲染器的渲染行为。应用程式能够通过改变渲染状态来控制OpenGL或Direct3D的渲染行为。比如配置Vertex/Fragment Program、绑定纹理、打开深度测试、配置雾效等。
　　改变渲染状态对于显卡而言是比较耗时的操作，而假如能合理管理渲染状态，避免多余的状态转换，将明显提升图像程式性能。这篇文章将讨论渲染状态的管理。

文档目录：
　　基本思想
　　实际问题
　　渲染脚本

文档内容：

基本思想
　　我们考虑一个典型的游戏场景，包含人、动物、植物、建筑、交通工具、武器等。稍微分析一下就会发现，实际上场景里很多对象的渲染状态是相同的，比如任何的人和动物的渲染状态一般都相同，任何的植物渲染状态也相同，同样建筑、交通工具、武器也是如此。我们能够把具备相同的渲染状态的对象归为一组，然后分组渲染，对每组对象只需要在渲染前配置一次渲染状态，并且还能够保存当前的渲染状态，配置渲染状态时只需改变和当前状态不相同的状态。这样能够大大减少多余的状态转换。下面的代码段演示了这种方法：

// 渲染状态组链表，由场景管理程式填充
RenderStateGroupList groupList;
// 当前渲染状态
RenderState curState;

……

// 遍历链表中的每个组
RenderStateGroup *group = groupList.GetFirst();
while ( group != NULL )
{
// 配置该组的渲染状态
RenderState *state = group->GetRenderState();
state->ApplyRenderState( curState );

// 该渲染状态组的对象链表
RenderableObjectList *objList = group->GetRenderableObjectList();
// 遍历对象链表的每个对象
RenderableObject *obj = objList->GetFirst();
while ( obj != NULL )
{
// 渲染对象
obj->Render();

obj = objList->GetNext();
}

group = groupList.GetNext();
}

其中RenderState类的ApplyRenderState方法形如：
void RenderState::ApplyRenderState( RenderState &curState )
{
// 深度测试
if ( depthTest != curState.depthTest )
{
SetDepthTest( depthTest );
curState.depthTest = depthTest;
}

// Alpha测试
if ( alphaTest != curState.alphaTest )
{
SetAlphaTest( alphaTest );
curState.alphaTest = alphaTest;
}

// 其他渲染状态
……
}

　　这些分组的渲染状态一般被称为Material或Shader。这里Material不同于OpenGL和Direct3D里面用于光照的材质，Shader也不同于OpenGL里面的Vertex/Fragment Program和Direct3D里面的Vertex/Pixel Shader。而是指封装了的显卡渲染图像需要的状态（也包括了OpenGL和Direct3D原来的Material和Shader）。

　　从字面上看，Material（材质）更侧重于对象表面外观属性的描述，而Shader（这个词实在不好用中文表示）则有用程式控制对象表面外观的含义。由于显卡可编程管线的引入，渲染状态中包含了Vertex/Fragment Program，这些小程式能够控制物体的渲染，所以我觉得将封装的渲染状态称为Shader更合适。这篇文章也将称之为Shader。

　　上面的代码段只是简单的演示了渲染状态管理的基本思路，实际上渲染状态的管理需要考虑很多问题。
渲染状态管理的问题
　

　消耗时间问题
　　改变渲染状态时，不同的状态消耗的时间并不相同，甚至在不同条件下改变渲染状态消耗的时间也不相同。比如绑定纹理是个很耗时的操作，而当纹理已在显卡的纹理缓存中时，速度就会很快。而且随着硬件和软件的发展，一些很耗时的渲染状态的消耗时间可能会有减少。因此并没有一个准确的消耗时间的数据。

　　虽然消耗时间无法量化，情况不同消耗的时间也不相同，但一般来说下面这些状态转换是比较消耗时间的：

Vertex/Fragment Program模式和固定管线模式的转换（FF，Fixed Function Pipeline）

Vertex/Fragment Program本身程式的转换

改变Vertex/Fragment Program常量

纹理转换

顶点和索引缓存（Vertex & Index Buffers）转换

　　有时需要根据消耗时间的多少来做折衷，下面将会碰到这种情况。

　渲染状态分类
　　实际场景中，往往会出现这样的情况，一类对象其他渲染状态都相同，只是纹理和顶点、索引数据不同。比如场景中的人，只是身材、长相、服装等不同，也就是说只有纹理、顶点、索引数据不同，而其他如Vertex/Fragment Program、深度测试等渲染状态都相同。相反，一般不会存在纹理和顶点、索引数据相同，而其他渲染状态不同的情况。我们能够把纹理、顶点、索引数据不归入到Shader中，这样场景中任何的人都能够用一个Shader来渲染，然后在这个Shader下对纹理进行分组排序，相同纹理的人放在一起渲染。
　多道渲染（Multipass Rendering）
　　有些比较复杂的图像效果，在低档显卡上需要渲染多次，每次渲染一种效果，然后用GL_BLEND合成为最终效果。这种方法叫多道渲染Multipass Rendering，渲染一次就是个pass。比如做逐像素凹凸光照，需要计算环境光、漫射光凹凸效果、高光凹凸效果，在NV20显卡上只需要1个pass，而在NV10显卡上则需要3个pass。Shader应该支持多道渲染，即一个Shader应该分别包含每个pass的渲染状态。

不同的pass往往渲染状态和纹理都不同，而顶点、索引数据是相同的。这带来一个问题：是以对象为单位渲染，一次渲染一个对象的任何pass，然后渲染下一个对象；还是以pass为单位渲染，第一次渲染任何对象的第一个pass，第二次渲染任何对象的第二个pass。下面的程式段演示了这两种方式：

以对象为单位渲染

// 渲染状态组链表，由场景管理程式填充
ShaderGroupList groupList;

……

// 遍历链表中的每个组
ShaderGroup *group = groupList.GetFirst();
while ( group != NULL )
{
Shader *shader = group->GetShader();

RenderableObjectList *objList = group->GetRenderableObjectList();

// 遍历相同Shader的每个对象
RenderableObject *obj = objList->GetFirst();
while ( obj != NULL )
{
// 获取shader的pass数
int iNumPasses = shader->GetPassNum();
for ( int i = 0; i < iNumPasses; i )
{
// 配置shader第i个pass的渲染状态
shader->ApplyPass( i );
// 渲染对象
obj->Render();
}

obj = objList->GetNext();
}

group = groupList->GetNext();
}

以pass为单位渲染

// 渲染状态组链表，由场景管理程式填充
ShaderGroupList groupList;

……

for ( int i = 0; i < MAX_PASSES_NUM; i )
{
// 遍历链表中的每个组
ShaderGroup *group = groupList.GetFirst();
while ( group != NULL )
{
Shader *shader = group->GetShader();
int iNumPasses = shader->GetPassNum();
// 假如shader的pass数小于循环次数，跳过此shader
if( i >= iNumPasses )
{
group = groupList->GetNext();
continue;
}

// 配置shader第i个pass的渲染状态
shader->ApplyPass( i );

RenderableObjectList *objList =
group->GetRenderableObjectList();

// 遍历相同Shader的每个对象
RenderableObject *obj = objList->GetFirst();
while ( obj != NULL )
{
obj->Render();

obj = objList->GetNext();
}

group = groupList->GetNext();
}
}

　　这两种方式各有什么优缺点呢？

　　以对象为单位渲染，渲染一个对象的第一个pass后，马上紧接着渲染这个对象的第二个pass，而每个pass的顶点和索引数据是相同的，因此第一个pass将顶点和索引数据送入显卡后，显卡Cache中已有了这个对象顶点和索引数据，后续pass不必重新将顶点和索引数据拷到显卡，因此速度会很快。而问题是每个pass的渲染状态都不同，这使得实际上每次渲染都要配置新的渲染状态，会产生大量的多余渲染状态转换。

　　以pass为单位渲染则正好相反，以Shader分组，相同Shader的对象一起渲染，能够只在这组开始时配置一次渲染状态，相比以对象为单位，大大减少了渲染状态转换。可是每次渲染的对象不同，因此每次都要将对象的顶点和索引数据拷贝到显卡，会消耗不少时间。
　　可见想减少渲染状态转换就要频繁拷贝顶点索引数据，而想减少拷贝顶点索引数据又不得不增加渲染状态转换。鱼和熊掌不可兼得 :-(
　　由于硬件条件和场景数据的情况比较复杂，具体哪种方法效率较高并没有定式，两种方法都有人使用，具体选用那种方法需要在实际环境测试后才能知道。

　多光源问题
待续……

　阴影问题
待续……

　

渲染脚本
　　现在很多图像程式都会自己定义一种脚本文档来描述Shader。

　　比如较早的OGRE（Object-oriented Graphics Rendering Engine，面向对象图像渲染引擎）的Material脚本，Quake3的Shader脚本，连同刚问世不久的Direct3D的Effect File，nVIDIA的CgFX脚本（文档格式和Direct3D Effect File兼容），ATI RenderMonkey使用的xml格式的脚本。OGRE Material和Quake3 Shader这两种脚本比较有历史了，不支持可编程渲染管线。而后面三种比较新的脚本都支持可编程渲染管线。

脚本特性范例
OGRE Material 封装各种渲染状态，不支持可编程渲染管线 >>>>
Quake3 Shader 封装渲染状态，支持一些特效，不支持可编程渲染管线 >>>>
Direct3D Effect File 封装渲染状态，支持multipass，支持可编程渲染管线 >>>>
nVIDIA CgFX脚本封装渲染状态，支持multipass，支持可编程渲染管线 >>>>
ATI RenderMonkey脚本封装渲染状态，支持multipass，支持可编程渲染管线 >>>>

　　使用脚本来控制渲染有很多好处：

能够很方便的修改一个物体的外观而不需重新编写或编译程式

能够用外围工具以所见即所得的方式来创建、修改脚本文档（类似ATI RenderMonkey的工作方式），便于美工、关卡设计人员设定对象外观，建立外围工具和图像引擎的联系

能够在渲染时将相同外观属性及渲染状态的对象（也就是Shader相同的对象）归为一组，然后分组渲染，对每组对象只需要在渲染前配置一次渲染状态，大大减少了多余的状态转换

Render Donkey 2010-01-29 14:40 发表评论

优化3D图形流水线

Render Donkey — Fri, 29 Jan 2010 05:48:00 GMT

转自：http://hi.baidu.com/freedomknightduzhi/blog/item/7e401a9b2521eeb3c9eaf4f1.html
在使用NVIDIA PerfHUD 5 Launcher的时候，明显发现现在的CPU时间和GPU时间不均衡，于是考虑优化。
下面是参考NVIDIA的OGP开始总结。
优化代码通常是找出瓶颈，对瓶颈进行优化，这里暂不考虑CPU内部的优化方法，主要记录CPU->GPU的3D渲染流水线的瓶颈查出方法以及优化手段。
若仅希望进行CPU方面的优化，可使用一些辅助工具，如Inter的Intel(R) VTune(TM) Performance Analyzer，Intel(R) Thread Profiler 3.1，AMD的CodeAnalyst等。
进行优化的步骤如上面所说：1：找出瓶颈，2：对其优化。
最通用也最有效的找出瓶颈的方法当然是找到核心函数，降低它的时钟周期和负荷，看是否对程序性能有大的影响。优化的手段多是拆东补西而已，即，将影响性能的瓶颈中的任务分配给其他较空闲的部分进行处理，来平衡整体所消耗的时间。
那么来看一下图形渲染流水线大致过程。
1：系统CPU从内存中读取几何顶点 -> 输送到GPU显存 -> 输送到GPU高速顶点缓冲区 -> GPU顶点着色 -> GPU建立三角型 -> GPU矩阵变换 -> GPU光栅化 -> 3
2：系统CPU从内存中读取纹理信息 -> 输送到GPU显存 -> 输送到GPU高速纹理缓冲区( DX10.0以后可与顶点缓冲共同，不再强制区分 ) -> 3
3：片段着色光栅化 -> 输出GPU后台缓冲进行渲染。
那么，很简单的有几大模块在其中可能存在着瓶颈的限制。

1：CPU本身逻辑计算能力的限制。

2：CPU到GPU显存AGP传输能力的限制
（1）顶点
（2）纹理
3：GPU显存到高速缓冲区的传输带宽限制
（1）纹理传输带宽限制（显存->高速缓冲区）
（2）光栅化完毕后的桢传输带宽限制（高速缓冲区->显存）
注：这里不考虑顶点传输的带宽限制，因为这个限制极小
4：GPU高速缓冲区内部处理能力的限制。
（1）顶点变换着色处理能力限制。
（2）顶点最大数量支持限制。
（3）三角型建立限制。
（4）光栅化限制。
（5）象素着色限制。
5：内存过小限制。
6：显卡显存过小，以及其他硬件Caps限制。

上述就是常见3D图形渲染流水线中的瓶颈限制，那么我们下一步去一一确定，可能是哪方面的瓶颈。简单的方法是检测FPS。
注意1：许多瓶颈可能由于硬件更变而更变。
注意2：Debug模式和Release模式的瓶颈表现未必相同。
注意3：查看FPS时候一定关闭垂直同步。
1：改变色深，16bit,32bit，这个是直接影响桢渲染缓冲的大小的，若修改了此项之后，FPS有较大变化，则是由于3.2 桢传输带宽限制。
注：这里需要改变所有渲染对象的色深。
2：改变纹理大小尺寸，改变纹理过滤方式，若修改了此项之后，FPS有较大变化，则是由于3.1 纹理传输带宽的限制或 2.2 纹理AGP传输能力限制。
注：纹理过滤方式中，点过滤速度 > 线性过滤速度 > 三角面过滤速度 > 各向异性过滤速度若改变纹理过滤方式就将FPS提高了，则是3.1 纹理传输带宽的限制。这步是将纹理数据从显存运输到GPU高速纹理缓冲区的过程。
3：改变桌面分辨率，若修改了此项之后，FPS有较大变化，则是由于 4.4 光栅化限制或是 4.5 象素着色Shader限制。
此时减少 PixelShader指令数量，若修改了此项之后，FPS有较大变化，则是由于 4.5 象素着色Shader限制，若没有较大变化，则是由于 4.4 光栅化限制。
4：减少 VertexShader 指令数量，若修改了此项之后，FPS有较大变化，则是由于 4.1 顶点变换着色处理能力限制。
5：减少顶点数量和AGP传输速率，若修改了此项之后，FPS有较大变化，则是由于 4.2 顶点最大数量支持限制或 2.1 顶点AGP传输能力限制。
6：若以上都不是，则是 1.0 CPU逻辑计算能力限制。
注：该项也可根据NVIDIA PerfHUD来检测CPU和GPU的空闲时间来判定，若GPU空闲时间过多，则说明是由于CPU计算能力或AGP传输能力导致。
该项也可用简单的更换CPU，而不更换GPU的方式来检测判定。
7：看资源管理器，CPU占用率，内存占用率，可以知道是否是由于1.0 CPU本身逻辑计算能力的限制或是 5.0内存过小限制。
8：看DX SDK自带的CapsViewer可以知道显卡的支持性，以获得更多更准确的判定。
9：在BIOS中更变APGP为1X模式，若修改了此项之后，FPS有较大变化，则是由于2.1 或 2.2 AGP传输能力限制。
10：降低GPU配置进行检测判定，此时要注意两项，一是降低GPU的运行频率，一是降低GPU显存性能和大小，可以确定GPU方面的问题大致所在。
11：删除一些游戏中涉及的物理，AI，逻辑等占用大量CPU效率的代码以获得更强的针对性。
12：对角色，地形，静态模型，阴影等设置渲染开关，以更明确的确定问题所在。

优化方法：
一：整体优化。
1：减少小批量作业
（1）让一个顶点缓冲中更多顶点。（1024点以上较适合）
（2）少Draw。（尽量一次性多渲染些三角形，减少渲染次数）
（3）尽量将多个尺寸小的纹理文件合并为一个尺寸大的纹理文件，减少零碎的小纹理文件数量。
（4）使用VertexShader将一些关系紧密的几何体打包在一起。（VS2.0就已经存在256个4D向量常数）
2：逻辑排序优化
（1）尽量在逻辑层将顶点进行一定的排序以减少在GPU高速缓冲区中的重新排布。
（2）尽量将渲染对象在逻辑层按照深度由屏幕->内部排序，减少不必要的深度拣选。
（3）尽量使用索引条带或索引列表
（4）根据渲染状态和渲染对象对纹理进行基本排序
3：减少不必要的渲染（CPU层的基本二分四叉八叉这里不再强调）
（1）在多Pass渲染时，在第一个渲染Pass上对每个渲染对象加以咨询，当第一个Pass中该渲染对象渲染象素量达不到指定标准，则后续Pass不再对其进行渲染。
（2）对一些重复渲染（如太阳眩光特效）需要进行计数，达到指定数量即停止渲染或进行分布式渲染。
（3）对一些复杂的模型设置基本的包围盒判定其渲染必要性。
4：减少线程锁定导致的不必要等待
（1）CPU Lock了一个资源，等待GPU进行渲染，此时常见做法有等待GPU渲染，中间期间CPU经常处于Idle空闲状态，建议此时给CPU其他的事情做，如为下一个资源做好基本准备或进行逻辑处理。
5：减少或平均分布CPU压力（实际上，大部分程序是CPU逻辑计算限制的）
（1）CPU压力重点在以下方面可能存在： AI，IO，网络，复杂逻辑，这些部分可进行CPU瓶颈测试以确定优化方向。
（2）优化方针：宁可GPU忙碌也要CPU减压。
（3）使用文章开始时我提到的一些工具去查找CPU中不必要的汇编空循环以及不必要的CPU空闲。
二：局部优化。
6：AGP传输瓶颈
（1）当过多数据通过AGP8X从CPU内存传递到GPU显存时，我们可以选择以下方式优化。
   [1]减小顶点个数
   [2]减少动态顶点个数，使用VertexShader动画替代。
   [3]正确使用API，设置正确参数，避免动态顶点和纹理缓冲区的创建管理。
   [4]根据硬件配置属性确定适合的桢缓冲，纹理缓冲，静态顶点缓冲的大小。
（2）避免使用无序或不规则数据传输。
   [1]顶点数量尺寸应当是32的整数倍。（可使用顶点压缩，再在VertexShader中对顶点数据进行解压缩）
   [2]确保顶点的有序性。（在CPU逻辑层对其进行排序后传输，NVTriStrip这个工具可以帮我们生成优化的高效的有序的Mesh顶点数据）
（3）具体到API层面的几何Mesh传输
   [1]对于静态几何体，创建只写的顶点缓冲，且，仅写入一次。
   [2]对于动态几何体，在程序初始创建一个动态顶点缓冲，之后每桢初始锁定DISCARD，进行NOOVEWRITE而不要进行DISCARD，DISCARD的耗时不是NOOVEWRITE可比的。
   [3]基本原则，少创建缓冲区，多对其进行重复使用，减少锁定次数。
7：顶点变换传输处理瓶颈（由于GPU有强大的顶点处理能力，一般在顶点变换方面不会有瓶颈出现，但假若出现了。。）
（1）顶点太多
   [1]使用细节Lod，一般起用2-3级Lod就足够了。
（2）顶点处理过于复杂
   [1]减少灯光数量，降低灯光复杂度（方向平行光效率 > 点光源效率 > 聚光灯效率）
   [2]减少顶点着色器指令数量，避免128条以上指令，避免大量的分支指令
   [3]对顶点进行CPU层逻辑排序
   [4]能在CPU中进行计算的在CPU中进行计算，传递常量给GPU
   [5]减少和避免CG/HLSL之中的 mov 指令。即使使用了，也要重点注意。
8：大部分情况下 4.3 三角形建立限制以及 4.4 光栅化限制是不会成为瓶颈的，但，当三角形数量过多或者光栅化时每个三角形顶点数据过于复杂时可能会出现这种瓶颈，此时减少三角形总数，使用VS或减少Z-cull三角都是有效的方法。
9：象素着色器的瓶颈（在DX7之前，全是固定渲染管道，一般来说传输量和着色器之间的计算是均衡的，但是DX8开始可编程流水管道开始，PixelShader的计算量开始增幅，数据传输量通常相对来说比较小了。）
（1）需处理的纹理片段过多过大
   [1]在CPU层按照屏幕->向内 Z-Buffer的顺序排序传入，并按照这个顺序进行渲染。
   [2]多Pass渲染时，考虑在第一个渲染Pass中关闭特效并让第一个Pass负责Z-buffer的处理。这样的话，后续Pass中可以避免渲染不要的纹理片段。
（2）每个纹理片段的处理过于复杂
   [1]大段的长着色器指令将会很大降低效率，尝试减少着色器指令长度
   [2]使用向量操作，并行co-issuing来减少指令数量。
   [3]混合使用配对的简单的texture和combiner组合指令。
   [4]使用Alpha混合器提高性能。
   [5]考虑对阴影也进行Lod计算。
   [6]在DX10开始，考虑将顶点缓冲移做象素缓冲进行使用。
（3）额外的优化方法
   [1]使用fx_12精度
   [2]使用fp16指令
   [3]使用Pixel_Shader2.0的时候开启ps_2_a描述开关
   [4]减少寄存器的临时存取
   [5]减少不必要的精度要求
   [6]尽量使用低版本的Shader（但避免使用VS1.0，已经被VS3.0抛弃了）
10：纹理贴图导致的瓶颈
（1）优化方法。
   [1]纹理过滤时避免使用三角面性过滤和各相异性过滤，特殊需求除外，一般线性过滤已经可以做的很好。
   [2]即使使用各相异性过滤，也要降低相异性比率。使用了各相异性过滤的话，则可以尽量减少三角面性过滤。
   [3]降低纹理分辨率，避免使用不必要的高分辨率纹理。
   [4]降低纹理色深，例如环境纹理，阴影纹理这些，尽量使用16位。
   [5]建议进行纹理压缩，例如DXT格式就可以有效压缩纹理，并且GPU对DXT格式支持很好。
   [6]避免使用非二次方的纹理资源。
   [7]在进行纹理锐化的时候，避免使用负值的Lod进行锐化，会导致远处失真，尽量使用各相异性过滤进行锐化
   [8]对于动态纹理，一般建议用 D3DUSAGE_DYNAMIC D3DPOOL_DEAFAULT 进行创建缓冲，使用 D3DLOCK_DISCARD 进行锁定，尽量做到一次锁定多次使用，不要频繁解锁，另外，永远不要读这样的纹理。
11：桢缓冲导致的瓶颈
（1）优化方法
   [1]尽量关闭Z-write，一般来说，在一个渲染Pass中就可以进行完整的Z-buffer处理，在后续的Pass中就应当关闭Z-write，不用担心，即使需要Alpha混合的对象也不再需要开启Z-write了。
   [2]尽量开始AlphaTest，实际上这个操作会提高效率，而非降低。
   [3]避免使用浮点桢缓存。
   [4]若没有启用模版深度缓冲的话，使用16位的Zbuffer就可以了。
   [5]避免使用RendToTexture，或者可能的去减少Rend的尺寸。
对于现在可编程流水管线来说，这意味着我们有更大的自由度实现更多的特效，但也有了更多的瓶颈和更多的复杂度，我们遇到问题要正确的获取瓶颈所在，开动脑筋进行优化，平衡各环节间的负载。让各环节不过载不空闲。

更多信息希望您查看Nvidia的《GPU_Programming_Guide》，翻译成中文则是《GPU编程精粹》。以上。

Render Donkey 2010-01-29 13:48 发表评论

优化3D图形渲染通道负载

Render Donkey — Fri, 29 Jan 2010 05:43:00 GMT

优化3D图形渲染通道负载

http://www.itjiaocheng.com/jiaocheng/pingmiansheji/AutoCAD/texiaojiqiao/2009/0520/23435.html

一般来说，定位渲染通道瓶颈的方法就是改变渲染通道每个步骤的工作量, 如果吞吐量也改变了, 那个步骤就是瓶颈.。找到了瓶颈就要想办法消除瓶颈, 可以减少该步骤的工作量, 增加其他步骤的工作量。

　　一般在光栅化之前的瓶颈称作”transform bound”, 三角形设置处理后的瓶颈称作”fill bound”定位瓶颈的办法:

　　 1.改变帧缓冲或者渲染目标(Render Target)的颜色深度(16 到32 位), 如果帧速改变了, 那么瓶颈应该在帧缓冲(RenderTarget)的填充率上。

　　 2.否则试试改变贴图大小和贴图过滤设置, 如果帧速变了,那么瓶颈应该是在贴图这里。

　　 3.否则改变分辨率.如果帧速改变了, 那么改变一下pixel shader的指令数量, 如果帧速变了, 那么瓶颈应该就是pixel shader. 否则瓶颈就在光栅化过程中。

　　 4.否则, 改变顶点格式的大小, 如果帧速改变了, 那么瓶颈应该在显卡带宽上。

　　 5.如果以上都不是, 那么瓶颈就在CPU这一边。

　　优化方法36条:

　　 1.尽量减少无用的顶点数据, 比如贴图坐标, 如果有Object使用2组有的使用1组, 那么不要将他们放在一个vertex buffer中, 这样可以减少传输的数据量。

　　 2.使用多个streamsource, 比如SkinMesh渲染, 可以把顶点坐标和法线这些每一帧都要修改的数据放在一个动态VB中, 其它不需要修改的(如贴图坐标)放到一个静态VB中, 这样就减少了数据传输量。

　　 3.尽量使用16位的索引缓冲,避免32位的. 一方面浪费带宽, 一方面也不是所有的显卡都支持32位的索引缓冲。

　　 4.可以考虑使用vertex shader来计算静态VB中的数据.比如SkinMesh的顶点可以放到vectex shader中计算, 这样就可以避免每一帧都从AGP内存中向显存传送数据. 这样也可以使用静态VB了。

　　 5.坚决避免使用Draw**UP一族的函数来绘制多边形。

　　 6.在设计程序之前好好规划一下显卡内存的使用, 确保framebuffer, 贴图, 静态VB能够正好放入显卡的本地内存中。

　　 7.尽量使顶点格式大小是32字节的倍数.可以考虑使用压缩过的顶点格式然后用vertex shader去解. 或者留下冗余的部分, 使顶点大小刚好使32字节的倍数。

　　 8.顶点在顶点缓冲中的顺序尽量符合绘制的顺序, 考虑使用strips来代替list。

　　 9.如果可能尽量多的使用static vertex buffer代替dynamic vertex buffer。

　　 10.动态VB使用DISCARD参数来lock更新, 使用NOOVERWR99vE来添加.尽量不要使用不带参数的lock调用(0)。

　　 11.尽量减少lock的次数, 有些东西并不一定非要每一帧都更新VB, 比如人物动画一般每秒钟更新30次VB基本上就够了。

　　 12.如果是因为需要绘制的顶点数据太多了可以考虑使用LOD, 但是现在的显卡的绘制能力都很强劲, 所以需要权衡一下LOD是否能够带来相应的好处, 如果过分的强化LOD很可能将瓶颈转移到CPU这边。

　　 13.避免过多的顶点计算,比如过多的光源, 过于复杂的光照计算(复杂的光照模型), 纹理自动生成的开启也会增加顶点的计算量. 如果贴图坐标变换矩阵不是单位矩阵, 也会造成顶点计算量的增加, 所以如果纹理变换已经结束, 记得要将纹理变换矩阵设为单位矩阵同时调整贴图坐标。

　　 14.避免Vertex shader指令数量太多或者分支过多, 尽量减少vertex shader的长度和复杂程度. 尽量使用swizzling代替mov。

　　 15.如果图象质量方面的计算(pixel shader)范围很大, 并且很复杂, 可以考虑试试全屏反走样。说不定更快。

　　 16.尽量按照front – back的顺序来绘制。

　　 17.在shader中判断Z值可以避免绘制不可见的象素, 但是nvidia建议简单的shader不要这么做.(Don't do this in a simple shader)。

　　 18.如果可能, 尽量使用vertex shader来代替pixel shader.将计算从逐象素变成逐顶点。

　　 19.尽量降低贴图的大小.过大的贴图可能造成贴图cache过载, 从而导致贴图cache命中降低.过大的贴图会导致显存过载, 这时候贴图是从系统内存中取的。

　　 20.只要可能就用16位色的贴图, 如环境贴图或者shadow map.它们用32位色的贴图实在是浪费。

　　 21.考虑使用DXT 贴图压缩。

　　 22.如果可能,使用简单的贴图过滤或者mip map, 除非必要否则尽量不要使用三线过滤和各项异性过滤. light map 和环境贴图基本上都不需要使用它们。

　　 23.只有真正需要修改的贴图才使用Dynamic, 并且使用DISCRAD和WR99vEONLY来lock。

　　 24.太多的帧缓冲读写可以考虑关闭Z-Writes如有些多pass的渲染中的后续pass或者粒子系统等半透明几何物体（如果可以）。

　　 25.可能的话尽量使用alpha test代替alpha blending。

　　 26.如果不需要stencil buffer就尽量使用16位的Z buffer。

　　 27.减小RenderTarget 贴图的大小, 如shadow map 环境贴图. 可能根本不需要那么大效果就很好。

　　 28.Stencil 和Z buffer 尽量一起clear. 他们本来就是一块缓冲。

　　 29.尽量减少渲染状态的切换, 尽量一次画尽可能多的多边形。（根据显卡性能决定最多画多少，不过一般再多也不会多到哪里去。除非你根本不需要贴图和渲染状态的切换）。

　　 30.尽量使用shader来代替Fixed Pipeline。

　　 31.尽量使用shader来实现来取代Multipass渲染效果。

　　 32.尽量优先先建立重要的资源, 如Render target, shaders, 贴图, VB, IB等等.以免显存过载的时候它们被创建到系统内存中。

　　 33.坚决不要在渲染循环中调用创建资源。

　　 34.按照shader和贴图分组后再渲染.先按照shaders分组再按贴图。

　　 35.Color Stencil Z buffer尽量在一次Clear调用中清除。

　　 36.一个Vertex buffer 的大小在2M-4M之间最好。（中国软件）

Render Donkey 2010-01-29 13:43 发表评论

Shader Model 4.0 全新架构

Render Donkey — Fri, 16 Oct 2009 09:47:00 GMT

Shader Model4.0统一渲染架构
微软的DirectX 9.0c距今离它的诞生已经有2年的光景，DX9.0c给我们带来了全新的Shader Model3.0技术，也使得3D画面较以往了有了质的突破，DirectX 9.0c是截至至今微软历史上寿命最长的一代API，而图形技术的发展是不会停下脚步的，2006年微软发布了全新的DirectX 10.0，仅从版本上看比9.0c相差一级，但是DirectX 10.0带给我们的又将是一个全新的概念。

　　在微软发布DX10.0后，NVIDIA积极响应，发布了完全符合DirectX 10.0的通用Shader架构图形处理器G80，也标志着DX9.0c将会逐步被DX10.0替代。相对DirectX 9.0c中的SM3.0，在Shader Model 4.0中微软引入了统一着色架构，这才是DX10最大的改变。我们都知道，微软在DirectX 9中引入的了2.0/2.X/3.0三个版本的Vertex Shader(顶点着色引擎)以及Pixel Shader(像素着色引擎)。其中支持2.0版的着色引擎是DirectX 9的GPU的最低标准，而当前主流的显卡已经都硬件支持加入了拥有更多高级处理功能的3.0版本着色引擎。

不过，即便是DirectX 9.0c，对于功能相仿Vertex Shader、Pixel Shader来说，目前图形芯片厂商仍需要在GPU中划分两个区域来存放Vertex Shader阵列和Pixel Shader贴图流水线。这无疑是一种资源冗余，而且这也加重GPU的设计难度及成本。当DirectX 10把渲染流程更细分为Vertex Shader、Geometry Shader及Pixel Shader，这个情况将会更为明显。而DX10.0的诞生就将这2种渲染整合在了一起！

SM4.0较SM3.0的改进
　而在DirectX 10中引入了统一渲染架，通过一个整合Vertex Shader、 Pixel Shader的可编程整合光影处理器来完成目前Vertex Shader、Pixel Shader所有的工作。所谓统一渲染架构，最容易的理解方式就是Shader单元不再分离，显示核心不再为Shader类型不同而配置不同类型的Shader单元，对于主流的显示核心，Pixel Shader单元以及vertex Shader单元的概念都应该已经非常熟悉了，而在统一渲染架构中这两种Shader单元将不再分离，转而所有的Shader单元都可以为需要处理的数据进行处理，不管和是Pixel Shader数据还是Vertex Shader数据。

而调配哪几组Shader单元负责处理什么数据或者进行什么样子类型的计算，则由一个被称为small sets of instructions(SSI)的部分来控制。这样在硬件上，设计者就无需为不同的着色引擎设计不同的执行单元，只要按照所对应的接口以及操作方式全部融为一体，仅设置一种独立的Shader执行单元。这意味着GPU厂家可以用更小的核心来实现现在需要用8000万甚至更多晶体管才能实现的功能！

　　相比原先的Shader Model 3.0，Shader Model 4.0最大指令数从512条增加到了64000条;临时暂存器数量也从原先的32个增加到惊人的4096个;允许同时对128个Texture进行操作(Shader Model 3.0只允许16个);材质texture格式变为硬件支持的RGBE格式，其中的"E"是Exponent的省略，是RGB共同的说明，这在HDR的处理上有很大的作用，摒弃了以往需要专门decoding处理HDR渲染的流程。另外，对于纹理的尺寸Shader Model4.0也有惊人的提升，8192x8192的最高纹理分辩率比原先最高2048x2048的分辩率要高出4倍。G80图形核心对以上规格都给予了完整的硬件支持。

Shader Model4.0新特性
　Shader Model 4.0另一个重大变化就是在VS和PS之间引入了一个新的可编程图形层----几何着色器(Geometry Shader)。原来的Vertex Shader和Pixel Shader只是对逐个顶点或像素进行处理，而新的Geometry Shader可以批量进行几何处理，快速的把模型类似的顶点结合起来进行运算。虽然其操作不会象Vertex Shader那样完整，只是处理器单个顶点的相关函数操作，但是这种操作却可以确定整个模型的物理形状。这将大大加速处理器速度，因为其它Shader单元将不再去需要判定数据所存在的位置，而只是需要简单的为特定区域进行操作就可以了。

　　Geometry Shader可以把点、线、三角等多边形联系起来快速处理、同时创造新的多边形，在很短时间内直接分配给其他Shader和显存而无需经过CPU，烟雾、爆炸等复杂图象不再需要CPU来处理。从而极大的提高了CPU速度和显卡速度。游戏图象中可以出现许多精细场景，如不锈钢茶壶上清楚的反射出周围物体、超精细的人物皮肤等。

　　为了最大程度的发挥Geometry Shader的威力，DX10硬件还专门设置了一个名为流输出层(Stream Output State)的部件来配合它使用。这个层的功能是将Vertex Shader和Pixel Shader处理完成的数据输出给用户，由用户进行处理后再反馈给流水线继续处理。我们可以通过Stream Out把GPU拆成两段，只利用前面的一段几何运算单元。对某些科学研究，也许可以通过stream out来利用GPU的数学运算能力，等于在CPU之外又平白多得了一个数学协处理器。举个例子，Doom3常用的Stencil shadow，因为CPU负担很重，广受批评。但是因为GS可以计算轮廓线, 还可以动态插入新的多边形，有了Stream out之后，Shadow volume的生成就可以放到GPU端进行，实现Stencil shadow的硬件化，这将大大降低CPU占用。

统一着色架构
在以前的DirectX版本中，像素着色器因为受到常量寄存器、可用指令和总体流程可的限制总是运行在顶点着色器之后，因此程序员必须学会怎样分别去利用好顶点和像素着色器的权限。Shader model 4.0则带来了与以往不同的统一着色架构，在DirectX 10基础上进行游戏开发，程序员不需要在避免着色冲突限制上花费时间，所有的统一架构着色器都能够使用GPU可以用的全部资源。

　　Shader model 4.0在着色器程序可用资源的提升方面让人激动，在以往的DirectX下，开发者不得不仔细计算可用的寄存器资源，而在DirectX 10中，这些问题都不复存在，如上表所示，总体上DirectX 10提供了超过10倍的DirectX 9可用资源。

更多的纹理和渲染
Shader Model 4.0支持纹理队列集，把开发者从繁重的拼接纹理图集的工作中解放出来，并能够在每个着色器上使用更多的特殊纹理实现更好的视觉效果。

　　在Shader Model 4.0之前，过高的开销使在一个着色器操作上使用多个特殊纹理的操作基本无法实现。为了解决这个问题，开发把许多小的分散的纹理拼接成一个大的纹理;在运行层中，着色器也需要进行额外的地址运算以便在拼接纹理图集中找到特定的纹理。纹理图集方式存在两个明显的缺点:首先小纹理之间的分界线回导致过滤操作错误;然后，DirectX 9的4096*4096纹理尺寸限制也是纹理图集的总体规模受到局限。纹理队列集能够解决所有问题，它能够使用队列格式存储纹理，每个队列能存储512同尺寸个纹理，最大的可用纹理尺寸也提升到8192*8192。为了促进这种应用，每个着色器可以操作的最大纹理数也提高到了128个，8倍于DirectX 9。

　　更多的渲染对象
　　多重渲染对象是DirectX 9时代的一个流行特性，它允许每个像素着色周期输出4个不同的渲染结果，从而高效率的在一个周期内渲染一个场景的4遍。在DirectX 10中，渲染对象的数目提高到8，着极大的提高了着色器能实现的场景复杂程度，延迟渲染和其它一些图像空间优化算法将广泛的从中受益。

两种新的HDR格式
　两种新的HDR格式
　　HDR(High dynamic range rendering)从支持浮点色彩格式的DirectX 9时代开始流行。不幸的是浮点格式比整数格式占用更多的寄存器空间而限制了其性能的发挥。如典型的FP16格式的每个色彩数据需要占用16bits，这两倍于整数格式的空间占用。

　　DirectX 10的新HDR格式能够在和FP16实现同样动态范围的前提下只占用50%的存储空间。第一种格式为R11G11B10，它使用11-bits的红色和绿色以及10-bits的蓝色来优化存储空间;第二种格式是使用一个5-bits共享首位存储所有色彩然后每个色彩拥有9-bits尾址，这些简化的方法在HDR品质上和标准的FP16几乎没有差别。在最高级别的HDR方面，DirectX 10支持FP32的HDR，这可以用于科学计算等对计算精度较高的应用程序。

　　很显然，DirectX 10.0全新的Shader Model4.0对于消费者来说是一场全新的视觉革命，更逼真的3D游戏画面、流畅的高清视频回放是微软、显卡厂商推动技术发展的动力之源，在不远的将来我们就会体会到全新的DX10、SM4.0给我们带来的饕餮大餐。

Render Donkey 2009-10-16 17:47 发表评论

近期在研究Skeletal Animation（骨骼动画）

Render Donkey — Sat, 10 Oct 2009 13:17:00 GMT

骨骼动画一直是我感兴趣的内容.虽然采用现成的CSkinMesh能够使用XFile的骨骼动画.但对自己来说总感觉缺少了点什么.于是,还是深入理解理解为好!!!

ZDNet软件频道时间：2008-03-24作者：Skyman | CSDN
本文关键词：骨骼动画） Animation Skeletal 游戏 Linux

骨骼动画(Skeletal Animation)又叫Bone Animation，它与关键帧动画(Key-frame Animation)相比，占用空间小，因为它不需要象关键帧动画那样要存储每一帧的各个顶点的数据，而是只需要存储每一帧的骨骼，骨骼与顶点相比，当然要少得多。所以骨骼动画有很多优势，当然其技术难度也很高。我个人觉得动画在计算机图形学中是一个十分重要的内容，不管是在游戏、电影动画还是虚拟现实中，生动逼真的动画（人、动物等）会使之增色不少。所以我决定今后的研究方向就是计算机动画。目前在研究Skeletal Animation，这是目前动画技术中的主流。欢迎同好与我交流，共同提高！

骨骼动画的实现思路是从我们人的身体的运动方式而来的（所以VR就是对现实世界的虚拟嘛 :-)）。动画人物的身体（肉、皮肤）是一个网格(Mesh)模型，网格的内部是一个骨架结构。当人物的骨架运动时，身体就会跟着骨架一起运动。骨架是由一定数目的骨骼组成的层次结构，每一个骨骼的排列和连接关系对整个骨架的运动有很重要的影响。每一个骨骼数据都包含其自身的动画数据。和每个骨架相关联的是一个“蒙皮”(Skin)模型，它提供动画绘制所需要的几何模型(Vertex,Normal,etc)和纹理材质信息。每个顶点都有相应的权值(Weight)，这些权值定义了骨骼的运动对有关顶点的影响因子。当把动画人物的姿势和全局运动信息作用到骨架上时，这个“蒙皮”模型就会跟随骨架一起运动。如下图所示：

所以关键是对骨架进行动画生成，生成的方法也是用关键帧。关键帧动画是对人物的网格(Mesh)模型采用关键帧生成动画；而骨骼动画则是对人物的骨架采用关键帧生成动画，然后再让网格(Mesh)模型跟随骨架运动。关键帧动画实现的2个关键点是：关键帧的选取和中间帧的插补。

关键帧的指定有2种基本的方法：前向动力学(FK)和逆向动力学(IK)。前向动力学用一组节点的角度来找到末端受动器的位置；而逆向动力学则是找到将末端受动器置于所要位置所需的一组节点角度。前向动力学的优点是：计算简单，运算速度快，缺点是：需指定每个关节的角度和位置，而由于骨架的各个节点之间有内在的关联性，直接指定各关节的值很容易产生不自然协调的动作；逆向动力学的优点是：只需指定主要关节点的位置，负担轻，缺点是：计算模型比较复杂，开发者需要机械运动和动力学、几何学以及向量数学等方面的相关知识。

中间帧的插值分2步：(1) 根据当前时间，通过插值计算出每个骨骼的旋转、平移等值，形成中间帧的骨架。插值算法一般采用四元数(Quternion)的球面线性插值(Spherical linear interpolation)SLERP，SLERP特别适合在两个方位之间进行插值，不会出现像对欧拉角插值那样出现万象锁的现象，而且这种插值能产生更平滑和连续的旋转，表达方式也很简洁；(2) 根据骨架的变化情况，插值计算出骨架的“蒙皮”模型的各个顶点的位置变化。对于某个特定骨骼，“蒙皮”模型的顶点变换矩阵＝初始姿势的变换矩阵的逆×姿势变换后的矩阵。另外还要考虑顶点可能受多个骨骼运动的影响。这时我们对每个与当前顶点相关联的骨骼，将其运动姿势变换矩阵×当前顶点相对于该骨骼的偏移向量×该骨骼对当前顶点的影响因子（即权重Weight），对所有与当前顶点相关联的骨骼都这么处理，然后相加，就得到当前顶点的新位置。

由此看出，如何设置各关键帧的骨架的各节点的位置和骨骼的转向（也就是骨架的POSE）是其中的关键，有2种方法：一种是由动画师手工放置，这个对动画师的技术要求就比较高，要求动画师对现实生活中的人和动物等的动作有细心的观察。否则设置的骨架动作就会不自然、不协调；另外一种是基于运动捕捉(Motion Capture)的方法，就是在人的各个关节处安置运动捕捉传感器，当人做各种动作时，捕捉仪器就将各节点的位置数据记录下来，这样我们就可以根据这些节点数据进行骨架建模。由于这是捕捉的真实的人的动作，所以这种方式得到的动画就很自然、很真实，但捕捉仪器造价昂贵，国内估计只有很少几家有财力的游戏公司才购置了这些设备吧。

目前有好多3D模型格式支持Skeletal Animation，像Microsoft的.X格式、MilkShape的MS3D格式、Half Life的MDL格式、ID Software的MD5格式等。我准备首先研究一下MS3D格式，因为它有公开的格式说明文档，阅读起来比较容易，而且应用很广。当然，首先要深入学习Skeletal Animation的底层技术，打好坚实的基础，呵呵！

Render Donkey 2009-10-10 21:17 发表评论

GPU中的ps 1.x 寄存器

Render Donkey — Sat, 12 Sep 2009 05:36:00 GMT

将就看吧，有些单词我实在不知道怎么翻译，只可意会！

像素着色器需要依靠寄存器来取得顶点数据，输出像素数据，取得计算时的临时结果和关联纹理采样通道（stage)。有几种类型的寄存器，每一种都有特殊的功能和用途。

像素着色器需要的用到的数据由寄存器保管，下面是寄器存的所有介绍
寄存器类型：描述了四种可用的寄存器和他们各自的用途
读取端口限制：单指针使用多个寄存器时的限制
R/RW：描述了哪些寄存器可以用来读，写或是读写。
范围：各个分量的范围的详细说明

Register Types
                                     Versions
Name Type                   1_1        1_2        1_3        1_4
c# Constant register       8             8             8           8
r# Temporary register    2             2             2          6
t# Texture register         4           4             4         6
v# Color register            2             2             2         2 in phase 2

1，常量寄存器：常量寄存器容纳了常量数据。数据可以用IDirect3DDevice9::SetPixelShaderConstantF函数将一个常量装入常量寄存器中。也可以用def-ps来定义一个常量。常量寄存器对纹理寻址指令来说是不可用的，唯一例外的是texm3x3spec-ps指令，这个指令使用一个常量寄存器来提供一个视线向量（eye-ray vector）

2，临时寄存器：临时寄存器用来存立即结果。r0用来作为PS的最终输出。shader的最后时刻r0中存放的是最后的像素颜色值
如果任何的着色器试图从一个没有被写入数据的临时寄存器中读取数据时，着色器激IDirect3DDevice9::CreatePixelShader将会失败（shader validation will fail）。假设激活（validation）是可用状态D3DXAssembleShader函数调用也会因为相同的原因而失败。（不要使用D3DXSHADER_SKIPVALIDATION）

纹理寄存器：
在ps 1_1 到1_3中，纹理寄存器容纳纹理数据或是纹理坐标。当一个纹理被采样时，纹理数据便被装载到一个纹理寄存器中。
当纹理通道状态属性被登记的时候纹理采样使用纹理坐标来查询（look up)或采样(sample)一个纹理坐标（u,v,w,q)标记的颜色值。纹理坐标数据会根据顶点纹理坐标数据进行插值，并关联到相关的纹理通道。纹理通道号与纹理坐标声明序列有一个一一对应关系。默认情况下，顶点格式中定义的第一个纹理坐标与纹理通道0关联。
在这些版本的像素着色器中，当纹理寄存器用来做算术运算的时候就和临时寄存器的效果一样了。
在ps_1_4中，纹理寄存器(t#)容纳的是只读纹理坐标信息。这意味着纹理坐标集和纹理通道编号是独立的。纹理通道编号由目的寄存器（r0 to r5)决定。对于texld指令来说，纹理坐标集由源寄存器t0 to t5决定。因此纹理坐标集可以映射到任何的纹理通道上。另外，对于texld的源寄存器（指定纹理坐标信息）也可以是临时寄存器(r#)。在这样的情况下，临时寄存器记录纹理坐标。
颜色寄存器容纳了每个像素的颜色值，这个值通过顶点数据中的漫反射和镜面光颜色值迭代而来。对于ps_1_4。颜色寄存器只有在phase2中可用。如果着色模式设置为D3DSHADE_FLAT,那么顶点颜色中的颜色迭代将不可用。如果雾化开启的话，那么渲染管线还是会忽略着色模式，对雾进行颜色迭代。记住雾化比像素着色器后应用。
通常我们会从v0加载顶点漫反射颜色数据。从v1加载顶点镜面光颜色数据。
输入颜色数据值将会被规范到0和1，因为这是像素着色器中的颜色寄存器的有效范围

像素着色器对颜色寄存器进行只读操作。颜色寄存器中存放的是迭代值，但是迭代可能会造成比纹理坐标低很多精度

Render Donkey 2009-09-12 13:36 发表评论

per-pixel lighting 纹理空间坐标基的计算方法

Render Donkey — Fri, 17 Apr 2009 13:45:00 GMT

文章来源：http://www.freegames.com.cn/school/383/2007/27685.html
Nemesis2k
per-pixel lighting 纹理空间坐标基的计算方法

我知道的几种方法：

1. 对于参数化的表面，设其方程为 P = P (u, v)，其中 P 为向量，
三个分量分别为 x, y z。也可以表示为：
Px = Px (u ,v)
Py = Py (u ,v)
Pz = Pz (u ,v)
那在任意一个顶点
T = {dPx/du, dPy/du, dPz/du}
B = {dPx/dv, dPy/dv, dPz/dv}
N = T X B
然后把 T, B, N 归一化就行了。
这里的偏导数可以用差分计算。
这样计算出来的切空间是在每一个顶点的切空间。

2。对于由三角形面片组成的网格，在 MSDN 上的 Per-pixel lighting
文章里介绍了一种方法。
设三角形的三个顶点是 P0, P1, P2，其中每个顶点都有位置，法向量
和 2-D 纹理坐标。
Pi : {x, y, z}, {nx, ny, nz}, {s, t}
现在我们要计算在 P0 点的切空间。
这里要分辨两个切空间：
1）顶点上的切空间
2）三角形面片上的切空间
两个切空间是相同的吗？我觉得是不同的。方法 2 和方法 3 计算出来的
实际上都是三角形面片的切空间，顶点的切空间还要通过平均顶点所在
各个三角形面片的切空间基向量来计算。（是这样的吗？高手指教一下！）

设三角形面片所在的切空间的基向量为 T, B, N，坐标原点在 P0。
那么三角形面片中的任意向量应该可以表示为：
Vec = x*T + y*B
因此，如果我们找到了两个向量 Vec1, Vec2 以及它们在 T, B 上的
分量，那么自然就可以解出 T, B 了。
令：
Vec1 = P1 - P0
Vec2 = P2 - P0
dS1 = P1.s - P0.s
dS2 = P2.s - P0.s
dT1 = P1.t - P0.t
dT2 = P2.t - p0.t
那么我们有
Vec1 = dS1*T + dT1*B (1)
Vec2 = dS2*T + dT2*B (2)
联立 (1), (2) 就可以解出
B*(dS2*dT1 - dS1*dT2) = (dS2*Vec1 - dS1*Vec2)
所以：
(dS2*dT1 - dS1*dT2) 是一个常数，反正我们之后要对 B 归一化，
可以不用管它。于是：
B = normalize(dS2*Vec1 - dS1*Vec2) 这就是 MSDN 里那篇文章里的方法。
B 可以通过解方程获得，但是 T 就不行了，因为这样解出来的 T 和
B 不一定垂直。怎么处理呢？
MSDN 中的方法是，利用顶点的 N 来求 T：
T = B X N
然后再求 N
N = T X B
但是这样可以吗？这里的 N 是顶点 P0 的 N，而不是三角形面片的 N。
是不是这样求出来的 T, N, B 恰好是顶点 P0 的切空间的坐标基，不需要
再平均了？（高手指教！）
我想的处理方法是这样的：
同样解出 T 来：
T = normalize(dT2*Vec1 - dT1*Vec2)
然后 N = T X B。这个 N 是三角形面片的 N。
然后 T = B X N。这样 T, N, B 构成正交基，而且是三角形面片的。
要计算 P0 顶点的切空间基，还需要平均多个面片。
这种方法到是比较复杂。

一个问题是，为什么有
Vec1 = dS1*T + dT1*B (1)
Vec2 = dS2*T + dT2*B (2)
这两个公式！
我想是因为在计算顶点的纹理坐标时，因为是从平面映射到平面，所以我们使用了
仿射变换：
s = as*x + bs*y + cs
t = as*x + bs*y + cs
反过来我们有
x = ax*s + bx*t + cx (3)
y = ay*s + by*t + cy (4)
z = az*s + bz*t + cz (5)
于是
Vec1.x = P1.x - P0.x = ax*(P1.s - P0.s) + bx*(P1.t - P0.t)
Vec1.y = P1.y - P0.y = ay*(P1.s - P0.s) + by*(P1.t - P0.t)
Vec1.z = P1.z - P0.z = az*(P1.s - P0.s) + bz*(P1.t - P0.t)
于是
Vec1 = {ax, ay, az}*dS1 + {bx, by, bz}*dT1
这和 (1) 已经很象了，那么 {ax, ay, az} 就是 T 吗？
答案是是的！事实上 (3), (4), (5) 就是三角形面片的参数表示，那么
T = {dx/ds, dy/ds, dz/ds} = {ax, ay, az}
B = {dx/dt, dy/dt, dz/dt} = {bx, by, bz}
也就是说，如果我们能直接把 ax, ay, az, bx, by, bz 求出来，T 和 B 就求出来了

（当然要把他们正交归一化）

3 nVidia 网站上的方法。
我们可以假设
x = ax*s + bx*t + cx
y = ay*s + by*t + cy
z = az*s + bz*t + cz
如何求解 (3) ？这里有 3 个未知数，那我们需要 3 个方程。
将 3 个顶点的属性 {x, y ,z}, {s, t} 带入，刚好有三个方程：
P0.x = ax*P0.s + bx*P0.t + cx (1)
P1.x = ax*P1.s + bx*P1.t + cx (2)
P2.x = ax*P2.s + bx*P2.t + cx (3)
解出来就得到 ax, bx, cx 了。
同理可得： ay, by, cy, az, bz, cz。
T = {ax, ay, az}
B = {bx, by, bz}
N = T X B
T = B X N
然后都归一化即可。

nVidia 网站上的方法呢，是建立三个平面方程
Ax*x + Bx*s + Cx*t + Dx = 0 (4)
Ay*y + By*s + Cy*t + Dy = 0 (5)
Az*z + Bz*s + Cz*t + Dz = 0 (6)

并且指出，三角形面片上的所有点的 (x, s, t) 都在
方程 (4) 定义的平面中。那么
dx/ds = -Bx/Ax
dx/dt = -Cx/Ax

同理
dy/ds = -By/Ay
dy/dt = -Cy/Ay

dz/ds = -Bz/Az
dz/dt = -Cz/Az

那么这些 Ax, Ay, Az, Bx, By, Bz, Cx, Cy, Cz 怎么求呢？
容易知道，{Ax, Bx, Cx} 其实是平面的法向量，那么可以
选平面中的三个点，计算出两个向量，然后叉乘。

{Ax, Bx, Cx} = {P1.x - P0.x, P1.s - P0.s, P1.t - P0.t} X
{P2.x - P0.x, P2.s - P0.s, P2.t - P0.t}

这两种方法是等价的。

Render Donkey 2009-04-17 21:45 发表评论

C++博客-Render Donkey-随笔分类-GPU and Graphic

镜面反射矩阵推导

Deferred Shading

2D Skinned Mesh（3D的完全翻版 带旋转）

Reflect & Refract (以水渲染为例)

CubeMap视线反射方向计算详解

使用投影纹理进行模型贴花(Mesh Decals)

两篇讲述Skinned Mesh原理的文章

HLSL中的MUL指令深层剖析

程序中的四元数表示法

Computing Tangent Space Basis Vectors for an Arbitrary Mesh

四元数与欧拉角互换

HDR效果简介

CPU GPU设计工作原理《转》

[原]Irrlicht(鬼火引擎）中多设备的支持

关于《3D管线导论》这本书

切线空间（纹理空间）的计算

SSAO

什么是SSAO？

SSAO屏幕空间环境光遮蔽的运作方式

SSAO实现了较好的全局光照效果

渲染状态管理

优化3D图形流水线

优化3D图形渲染通道负载

优化3D图形渲染通道负载

Shader Model 4.0 全新架构

近期在研究Skeletal Animation（骨骼动画）

GPU中的ps 1.x 寄存器

per-pixel lighting 纹理空间坐标基的计算方法

2D Skinned Mesh（3D的完全翻版带旋转）