三大Shader编程语言

1）基于OpenGL的OpenGL Shading Language，简称GLSL。

2）基于DirectX的High Level Shading Language，简称HLSL。

3）还有NVIDIA公司的C for Graphic，简称Cg语言。

渲染流水线

三大阶段

应用阶段

Cpu负责（绝对控制权）

1）准备场景数据（例如场景中摄像机位置，视锥体等等）。

2）不可见剔除。

3）设置渲染状态。

该阶段输出渲染图元（使用的纹理，shader，高光反射颜色，漫反射等）给几何阶段。

几何阶段

Gpu负责：重要任务是把顶点坐标变换到屏幕空间中，再交给光栅器进行处理。

该阶段输出屏幕空间的顶点信息给光栅化阶段

光栅化阶段

Gpu负责：使用上个阶段传递的数据来产生屏幕上像素并最终渲染出来。

应用阶段

1）把数据加载到显存中

将渲染所需数据从硬盘中加载到内存中，网络纹理等数据又被加载到显存中（一般加载到显存后内存中的数据就会被移除）

2）设置渲染状态

这些状态定义了场景中的网格是怎么被渲染的。例如，使用哪个顶点这瑟琪，片原着色器，光源属性，材质等。

3）调用Draw Call

Draw Call就是一个命令，它的发起方是Cpu，接收方是Gpu。这个命令仅仅会指向一个需要被渲染的图元列表，而不会包含任何材质信息。因为Draw Call的过程是cpu向gpu发送命令，它们之间的通讯需要一定的带宽，所以当带宽小的时候有着大量Draw Call会导致卡顿（即影响性能）。

几何阶段和光栅化阶段

在这两个阶段中开发者无法拥有绝对控制权，其实现的载体是Gpu。Gpu通过实现流水线化，大大加快了渲染速度。虽然我们无法完全控制这两个阶段的实现袭击而，但是Gpu向开发者开放了很多控制权。

绿色代表完全可以编程控制，黄色代表可配置不可编程，蓝色代表Gpu固定实现。

顶点着色器：主要用于实现顶点的空间变换，顶点着色器等功能。

曲面细分着色器：用于细分图元。

几何着色器：用于执行逐图元的着色操作，或者被产生更多的图元。

裁剪：目的是将那些不在摄像机视野内的顶点裁剪掉，提出某些三角图元的面片。

屏幕映射：负责把每个图元的坐标转换到屏幕坐标中。

片元着色器：用于实现逐片元的着色操作。

逐片元操作：负责很多重要操作，如修改颜色，深度缓冲，进行混合等。

几何阶段详解

顶点着色器：

顶点着色器的处理单位是顶点，也就是说，输入进来的每个顶点都会调用一次顶点着色器。顶点着色器本身不可以创建或者销毁任何顶点，而且无法得到顶点与顶点直接的关系。Gpu可以利用本身的特性快速处理每一个顶点。

顶点着色器主要完成的工作：坐标变换及逐顶点光照。当然，除此之外还可以输出后续阶段所需的数据等。

裁剪：

一个图元与摄像机的关系有3种：完全在视野内，部分在视野内，完全在视野外。完全在视野内的图元就继续传递给下一个流水线阶段，完全在视野外的图元不会继续向下传递。那些部分在视野内的需要进行裁剪。如下图：

屏幕映射：

屏幕映射的任务是将裁剪后的齐次坐标（NDC）转换到屏幕坐标系，屏幕坐标系是一个二维坐标系，和用于显示画面的分辨率有很大关系。

屏幕映射如下图示例，将齐次坐标下 -1，1的坐标范围转换到（x1,y1）,(x2,y2)。可以看到这个过程实际上就是一个缩放的过程。在这个处理种z轴不做处理。屏幕坐标系和z轴构成了窗口坐标系。这些值会被传到光栅化阶段。

OpenGL和DirectX的屏幕坐标不同，前者是以左下角顶点为(0.0)，后者是以左上角为(0,0)。

光栅化阶段详解

三角形设置

这个阶段会计算光栅化一个三角网格所需要的信息。上一个阶段输出的都是三角网格的顶点，即我们得到的是三角网格每条边的两个端点。如果要得到正规三角网格对像素的覆盖情况，就必须计算每条边上的像素坐标。为了能够计算边界像素的坐标信息，就需要得到三角形边界的表示方式。

三角形遍历

三角形遍历 阶段将会检查每个像素是否被一个三角网格所覆盖。如果被覆盖的情况下，就会产生一个片元。而这样一个找到那些像素被三角网格覆盖的过程就叫做三角形遍历，也被称作扫描变换。

三角形遍历阶段会根据上一个阶段的计算结果来判断一个三角网格覆盖了哪些像素，并使用三角网格3个顶点的顶点信息对整个覆盖区域的像素进行插值。即每个片元的具体的值（颜色、等点位置等）都是根据边缘的三个顶点的插值进行计算而得到的数值

片元着色器：

片元着色器的输入是上一个阶段对顶点信息插值得到的结果，具体来说是根据那些从顶点着色器中输出的数据插值得到的。而其输出是一个或者多个颜色值。

这一阶段可以完成很多重要的渲染技术，其中最重要的技术之一就是纹理采样。为了在片元着色器中进行纹理采样，我们通常会在顶点着色器阶段输出每个顶点对应的纹理坐标，然后经过光栅化阶段对三角网格的3个顶点对应的纹理坐标进行插值后，就可以得到起覆盖的片元的纹理坐标。

逐片元操作

逐片元操作是OpenGL中的说法，在DX中这个阶段被称作输出合并阶段。

（1）决定每个片元的可见性，涉及很多测试工作，例如深度测试，模板测试。

（2）如果一个片元通过了所有测试后，就需要把这个片元的颜色值和已经储存在颜色缓冲区的色彩进行合并，或者说混合。

模板测试：

模板测试，与之相关的是模板缓冲（Stencil Buffer）。模板缓冲和颜色缓冲，深度缓冲几乎是一类东西。如果开启了模板测试，Gpu首先读取（使用读取掩码）模板缓冲区中该片元位置的模板值，然后将该值和读取（使用读取掩码）到的参考值进行比较，这个比较函数可以由开发者指定的，例如小于等于舍弃该片元，或者大于等于舍弃该片元。如果这个片元没有通过测试，该片元就会被舍弃。不管一个片元有没有通过模板测试，我们都可以根据模板测试和之后的深度测试结果来修改模板缓冲区，这个操作也是由开发者指定的。模板测试通常用于限制渲染区域，或者渲染阴影，轮廓渲染等。

深度测试：

如果开启了深度测试，Gpu会把该片元的深度值（z轴的值）和已经存在于深度缓冲中的深度值进行比较。这个比较函数也是可由开发者设置的，例如小于时舍弃该片元，或者大于时舍弃该片元。通常这个比较函数是小于等于，即如果这个片元的深度大于等于当前深度缓冲区中的值，那么就舍弃它。这是因为我们总想只显示出离摄像机最近的物体，而那些被其他物体遮挡的就不需要出现在屏幕上。和模板测试不同的是，如果一个片元没有通过深度测试，它就没有权利更改深度缓冲区的值。如果一个片元通过了测试，那么开发者可以指定是否要用这个片元的深度值覆盖所有的深度值。

合并混合：

合并，渲染过程是一个物体接着一个物体画到屏幕上，而每个像素的颜色信息被储存在一个名为颜色缓冲的地方。因此，当我们执行这次渲染时，颜色缓冲中往往已经有了上次渲染之后的颜色结果，那么，我们使用这次渲染得到的颜色完全覆盖掉之前的结果还是进行其他处理，就是合并需要解决的。

对于不透明物体，开发者可以关闭混合（Blend）操作。这样片元着色器计算得到的颜色值就会直接覆盖掉颜色缓冲区中的像素值。但对于半透明物体，就需要混合操作来让这个物体看起来是透明的。

CPU和GPU如何工作

我们之前看到的是一个流水线式的模式，如果需要CPU和GPU并行工作，就需要使用命令缓冲区（Command Buffer）。

命令缓冲区包含了一个缓冲队列，由Cpu向其中添加命令，而由Gpu从中读取命令，添加和读取过程是相互独立的。命令缓冲区使得Cpu和Gpu可以相互独立工作。当Gpu需要渲染一些对象时，它就可以从命令队列中取出一个命令并执行。

命令缓冲区有很多种类，Draw Call就是一种。其他命令还有改变渲染状态等。

此处的命令缓冲区相当与一个列表，Cpu向其中发送命令，Gpu从其中取出命令并渲染。

什么是固定管线渲染

固定函数的流水线（Fixed-Function Pipeline）**,**简称固定管线，通常是指在较旧的Gpu上实现的渲染流水线。这种流水线只给开发者提供一些配置操作，但开发者没有对流水线阶段的完全控制权。

在Unity中目前的固定管线shader都会自动编译顶点片元shader。

什么是Shader

Gpu流水线上一些可高度编程的阶段，而由着色器编译出来的最终代码是会在Gpu上运行的；

有一些特定类型的着色器，如顶点着色器，片元着色器等。

依靠着色器我们可以控制流水线中的渲染细节，例如用顶点着色器来进行顶点变换及传递数据，用片元着色器来进行逐像素渲染。