买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】图形处理器中适应可扩展计算单元的固定功能单元装置_南京军微半导体科技有限公司_201810852933.1 

申请/专利权人:南京军微半导体科技有限公司

申请日:2018-07-30

公开(公告)日:2023-05-23

公开(公告)号:CN109191363B

主分类号:G06T1/20

分类号:G06T1/20

优先权:

专利状态码:有效-授权

法律状态:2023.05.23#授权;2019.09.24#实质审查的生效;2019.01.11#公开

摘要:本发明公开了一种图形处理器中适应可扩展计算单元的固定功能单元装置。包括分布在计算阵列GCA中的固定功能单元和图元同步分发单元;所述的计算阵列GCA中的固定功能单元由每个CCU中的固定功能处理单元PCVC、图元信息建立单元SETUP和扫描转换单元组成SC组成,PCVC接收染色后的顶点实现图元装配、裁剪、消隐和视窗变化功能,PCVC生成的图元再由SETUP单元生成图元的边界盒以及建立图元的边方程系数和属性方程系数等图元信息,SETUP将图元信息发送给PSD,PSD根据VDPR配置过来的GCA中顶点染色线程的顶点索引信息对图元重排序,排序后的图元信息按照屏幕分块的方式分发给对应的CCU。本发明能适用图形处理器中计算单元良好的可扩展性,同时提高图形处理器中固定功能单元的性能。

主权项:1.图形处理器中适应可扩展计算单元的固定功能单元装置,其特征在于,包括分布在计算阵列GCA中的固定功能单元和图元同步分发单元,计算阵列GCA和图元同步分发单元均通过顶点染色生成调度器VTCD与前端处理器FEP相连,计算阵列GCA通过交叉互联单元CXB与图形动态存储单元GDDR、前端处理器FEP相连;所述的计算阵列GCA中的固定功能单元由每个计算簇CCU中的固定功能处理单元PCVC、图元信息建立单元SETUP和扫描转换单元组成SC组成,固定功能处理单元PCVC接收染色后的顶点实现图元装配、裁剪、消隐和视窗变化功能,固定功能处理单元PCVC生成的图元再由图元信息建立单元SETUP生成图元的边界盒以及建立图元的边方程系数和属性方程系数等图元信息,图元信息建立单元SETUP将图元的信息发送给图元同步分发单元PSD,图元同步分发单元PSD根据VDPR配置过来的计算阵列GCA中顶点染色线程的顶点索引信息对图元重排序,排序后的图元信息发送按照屏幕分块的方式分发给对应的计算簇CCU;计算簇CCU中的扫描转换单元组成SC基于屏幕块对接收到的图元进行扫描转换,扫描转换得到图元覆盖的片段并根据片段位置插值出片段的各项属性;片段染色生成调度器FDPR根据扫描转换的片段覆盖情况生成片段染色线程并调度于对应的计算单元中,染色后的片段由计算单元输出给对应的片段操作ROP执行片段操作。

全文数据:图形处理器中适应可扩展计算单元的固定功能单元装置技术领域本发明涉及的是图形芯片技术领域,具体涉及一种图形处理器中适应可扩展计算单元的固定功能单元装置。背景技术图形处理器组成如图1所示,通过这些功能单元实现图形流水线的操作。前端处理器接收CPU端图形驱动程序发送过来的命令和数据,如果是画图命令则由顶点线程生成调度器vertexthreadcreatoranddispatcher,VTCD生成顶点染色线程发送给由众多计算单元组成的计算簇ClusterComputeUnit,CCU。CCU接收新的线程后会读取和申请顶点染色所需的资源。资源通过交叉互联单元CrossBarUnit,CXB从图形动态存储单元GraphicsDDR,GDDR中读取。资源获取完毕后CCU中的计算单元执行顶点染色程序,染色后的顶点属性再通过CXB发送给固定功能处理单元PrimitiveandRastizer,PAR。PAR主要实现染色后顶点的图元装配PrimitivesAssembler,PA,剪裁Clipping,视窗变换Viewporttransform,消隐Culling,图元的光栅化Rasterizer等功能见图2。光栅化得到的片段经过片段染色调度器FragmentDispatcher,FDPR按照调度规则发送给CCU,CCU中计算单元同样是在各种资源获取完毕时执行片段染色程序。片段染色程序执行完成后,染色后片段属性通过CXB发送给片段操作ROP,rasteroperations,ROP包括Alpha测试,深度测试ZTest,混合Blend等功能,完成这些功能后片段写入到GDDR中。至此,整个图形流水操作完成。图形处理器拥有良好的计算处理能力,这也导致了图形处理器能够很快地应用于通用计算中。同时由于图形处理器中计算单元具有好的可扩展性,所以图形处理器通常是通过增加计算单元的数量来提高处理器的通用计算能力。所以当图形流水线中各种染色程序顶点染色,片段染色等的性能的提升时,不管是输出的顶点属性,还是片段染色的需求都是成倍的增加。当固定功能单元的处理能力不能相应地满足扩展计算单元染色程序的性能的提升时,固定单元的性能将成为整个处理器的瓶颈。综上所述,本发明设计了一种图形处理器中适应可扩展计算单元的固定功能单元装置。发明内容针对现有技术上存在的不足,本发明目的是在于提供一种图形处理器中适应可扩展计算单元的固定功能单元装置,能适用图形处理器中计算单元良好的可扩展性,同时提高图形处理器中固定功能单元的性能。为了实现上述目的,本发明是通过如下的技术方案来实现:图形处理器中适应可扩展计算单元的固定功能单元装置,包括分布在计算阵列GraphicsComputerArray,GCA中的固定功能单元和图元同步分发单元,计算阵列和图元同步分发单元均通过顶点染色生成调度器VTCD与前端处理器FEP相连,计算阵列通过交叉互联单元(CXB)与图形动态存储单元GDDR、前端处理器FEP相连;所述的计算阵列GCA中的固定功能单元由每个CCU中的固定功能处理单元PCVC、图元信息建立单元SETUP和扫描转换单元组成SC组成,PCVC接收染色后的顶点实现图元装配、裁剪、消隐和视窗变化功能,PCVC生成的图元再由SETUP单元生成图元的边界盒以及建立图元的边方程系数和属性方程系数等图元信息,SETUP将图元的信息发送给PSD,PSD根据VDPR配置过来的GCA中顶点染色线程的顶点索引信息对图元重排序,排序后的图元信息发送按照屏幕分块的方式分发给对应的CCU;CCU中的SC基于屏幕块对接收到的图元进行扫描转换,扫描转换得到图元覆盖的片段并根据片段位置插值出片段的各项属性;FDPR根据扫描转换的片段覆盖情况生成片段染色线程并调度于对应的计算单元中,染色后的片段由计算单元输出给对应的ROP执行片段操作。所述的图元同步分发单元实现方法为:当接收每一个SETUP图元的请求时比较min_setup_vtx_idx,max_setup_vtx_idx和vtcd_min_vtx_idx,vtcd_max_vtx_idx的关系。当满足当min_setup_vtx_idx==vtcd_min_vtx_idx,且max_setup_vtx_idx+prim_vtx_cnts>=vtcd_max_vtx_idx时,说明当前的SETUP图元是最先出的,接收图元信息并对其分块。根据分块信息分发任务给对应的CCU。CCU中SC只是完成扫描转换和属性插值。作为优选,所述的图元同步分发单元实现方法为:当PSD广播图元信息时,每个CCU空闲时根据接收的广播图元信息进行分块处理,然后根据分块处理的结果判断本CCU所要处理的屏幕块的任务。本发明的有益效果:本发明的基于屏幕块的分布式的固定功能单元能够很好的适用图形处理器的通用计算能力提升对于计算单元的扩展。同时也提高了图元处理能力,解决了面向通用计算的图形处理器执行图形应用时固定功能单元所面临的性能瓶颈问题。分布式固定功能单元在性能过剩时可以方便实现各项功耗管理,对于功耗敏感的设备而言也是有极大好处的。附图说明下面结合附图和具体实施方式来详细说明本发明;图1为本发明背景技术中的图形处理器的组成结构图;图2为本发明背景技术中的固定功能处理单元示意图;图3为本发明的装置结构框图;图4为本发明的计算阵列示意图;图5为本发明的固定功能单元图;图6为本发明的图元信息建立单元图;图7为本发明的计算阵列组成示意图;图8为本发明的流程图;图9为本发明的图元同步分发单元的实现方式示意图;图10为本发明的图元同步分发单元的另一种实现方式示意图。具体实施方式为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。参照图3-图10,本具体实施方式采用以下技术方案:图形处理器中适应可扩展计算单元的固定功能单元装置,包括分布在计算阵列GraphicsComputerArray,GCA中的固定功能单元和图元同步分发单元组成见图3。GCA中的固定单元则是由每个CCU中的固定功能处理单元PCVC、图元信息建立单元SETUP和扫描转换单元组成SC图7所示。PCVC接收染色后的顶点实现图元装配、裁剪、消隐和视窗变化功能图5所示。PCVC生成的图元再由SETUP单元生成图元的边界盒以及建立图元的边方程系数和属性方程系数等图元信息见图6。SETUP将图元信息发送给PSD。PSD根据VDPR配置过来的GCA中顶点染色线程的顶点索引信息对图元重排序,排序后的图元信息发送按照屏幕分块的方式分发给对应的CCU(见图8)。CCU中的SC基于屏幕块对接收到的图元进行扫描转换。扫描转换得到图元覆盖的片段并根据片段位置插值出片段的各项属性。FDPR根据扫描转换的片段覆盖情况生成片段染色线程并调度于对应的计算单元中。染色后的片段由计算单元输出给对应的ROP执行片段操作。对于图元同步分发单元,本具体实施方式提出了两种可能的实现方式。第一种图元同步分发单元按照图9所示方法,当接收每一个SETUP图元的请求时比较min_setup_vtx_idx,max_setup_vtx_idx和vtcd_min_vtx_idx,vtcd_max_vtx_idx的关系。当满足图9所示的关系时,说明当前的SETUP图元是最先出的,接收图元信息并对其分块。根据分块信息分发任务给对应的CCU。CCU中SC只是完成扫描转换和属性插值。这样的实现方式的优点是SC实现功能简单,图元的同步完全基于屏幕块。缺点是PSD中需要保存每个图元的分块信息,直到该图元块光栅化任务全部分发完毕。第二种图元同步分发实现是按照图10所示。同方法1相比有两点改变,一是增加图元建立信息FIFO和图元信息FIFO。二是对重排序后的图元信息广播给所有的CCU,图元的分块由CCU处理。当PSD广播图元信息时,每个CCU空闲时根据接收的广播图元信息进行分块处理,然后根据分块处理的结果判断本CCU所要处理的屏幕块的任务。无论是第一种方法还是第二种方法都是实现图元的同步分发,第二种方法同第一种方法相比具有传输信息少占用带宽少的优点本具体实施方式采用并行的固定功能单元,按照匹配于计算单元的方式将固定功能单元嵌入到计算簇中。图元处理速度跟并行的固定单元数量成正比。将光栅化分离成图元信息建立单元SetUp,SETUP和扫描转换单元ScanConverter,SC。采用了图元同步分发单元PrimitivesSyncandDispatcher,PSD保持图元的强序性。由于不同计算簇中的染色线程完成时间的不确定性,会导致染色后顶点形成的图元出现乱序。为此本发明引入了图元同步分发单元。图元同步基于VTCD的更新的顶点染色线程顶点索引和图元的顶点索引实现。比较顶点索引和图元顶点索引的大小来实现图元的重排序。基于屏幕分块方式实现图元的并行扫描转换,并且扫描转换的任务分发是由图元同步分发来实现。FDPR并行分布于CCU中实现基于分块的片段染色生成调度。ROP基于分块的划分并行实现片段操作,处理当前CCU染色后的片段。可以改变ROP与CCU的比例关系。以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

权利要求:1.图形处理器中适应可扩展计算单元的固定功能单元装置,其特征在于,包括分布在计算阵列GCA中的固定功能单元和图元同步分发单元,计算阵列和图元同步分发单元均通过顶点染色生成调度器VTCD与前端处理器FEP相连,计算阵列通过交叉互联单元CXB与图形动态存储单元GDDR、前端处理器FEP相连;所述的计算阵列GCA中的固定功能单元由每个CCU中的固定功能处理单元PCVC、图元信息建立单元SETUP和扫描转换单元组成SC组成,PCVC接收染色后的顶点实现图元装配、裁剪、消隐和视窗变化功能,PCVC生成的图元再由SETUP单元生成图元的边界盒以及建立图元的边方程系数和属性方程系数等图元信息,SETUP将图元的信息发送给PSD,PSD根据VDPR配置过来的GCA中顶点染色线程的顶点索引信息对图元重排序,排序后的图元信息发送按照屏幕分块的方式分发给对应的CCU;CCU中的SC基于屏幕块对接收到的图元进行扫描转换,扫描转换得到图元覆盖的片段并根据片段位置插值出片段的各项属性;FDPR根据扫描转换的片段覆盖情况生成片段染色线程并调度于对应的计算单元中,染色后的片段由计算单元输出给对应的ROP执行片段操作。2.根据权利要求1所述的图形处理器中适应可扩展计算单元的固定功能单元装置,其特征在于,所述的图元同步分发单元实现方法为:当接收每一个SETUP图元的请求时比较min_setup_vtx_idx,max_setup_vtx_idx和vtcd_min_vtx_idx,vtcd_max_vtx_idx的关系;当min_setup_vtx_idx==vtcd_min_vtx_idx,且max_setup_vtx_idx+prim_vtx_cnts>=vtcd_max_vtx_idx时,说明当前的SETUP图元是最先出的,接收图元信息并对其分块,根据分块信息分发任务给对应的CCU;CCU中SC只是完成扫描转换和属性插值。3.根据权利要求1所述的图形处理器中适应可扩展计算单元的固定功能单元装置,其特征在于,所述的图元同步分发单元实现方法为:当PSD广播图元信息时,每个CCU空闲时根据接收的广播图元信息进行分块处理,然后根据分块处理的结果判断本CCU所要处理的屏幕块的任务。

百度查询: 南京军微半导体科技有限公司 图形处理器中适应可扩展计算单元的固定功能单元装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。