浅谈体系结构与内联优化 - 一年十二月谁主春秋关注：基础系统工程密码学人工智能

浅谈体系结构与内联优化

周知内联是为了消除函数调用的代价，即四大指令序列：调用前序列、被调者起始序列、被调者收尾序列、返回后序列。它们通常对应到体系结构调用者保存/恢复寄存器集合与被调者保存/恢复寄存器集合之约束。这个本质也是内联的前提。试问如果有某体系结构比如S，它任意深度的函数调用代价几乎为零，那么显然内联是没意义没必要的。但是S可能存在吗？我认为不太可能。因为机器的资源比如寄存器集数量与堆栈空间是有限的，且调用需要知晓上下文，所以不能够支持任意深度的调用，但是可以支持有限深度比如4层调用，这4层调用代价几乎为零，假设再来一层，那么第5层调用代价就不为零了，这时如果内联第5层就变成4层调用，代价又几乎为零。综上所述，内联无论在何种体系结构，即使在一定深度内没意义也不会破坏性能。

体系结构直接影响程序性能。主要体现在指令集、寄存器、cache三块。它们对于编译器实现代码优化必须都考虑，尤其cache比如内联优化、循环展开、基本块布局、函数重排，如果不是因为有cache这玩意，内联优化的复杂性会大为降低，因为不用考虑代码膨胀引起的副作用即cache缺失，只要评估函数的指令数与动态执行消耗的关系，指令数很少但执行耗费很多时钟周期的，则不宜内联，尤其函数为非叶子结点；指令数很多但执行耗费较少的，则可仅内联其中的快速路径代码。因现实存在cache这玩意，就必须权衡代码膨胀带来的副作用，是否能接受一定的膨胀，需要精确评估，构建函数调用频率与其静态调用位置的矩阵，计算收益比如平均执行一次的耗时是否减少，若收益为正且明显则可内联，否则不宜内联。

有些编译器为了简单处理，不会内联带静态变量的函数哪怕指令数很少，或者内联不太正确比如LLVM（详见下文）。其实单从技术上可以做到，不过要复杂些，复杂在于链接器的协作。为了保证函数级静态变量的语义，编译时要预留全局唯一标志与构造函数的占位符，在调用者体内插入对全局唯一标志的（位）判断（标志字的一位对应一个静态变量，表明是否已构造或初始化赋值）、构造函数调用/初始化赋值、置位标志，而链接时要确定全局唯一标志及构造函数的地址。静态变量、全局唯一标志放于可执行文件的数据区，全局唯一构造/初始化及析构函数放于代码区，具体布局位置可以灵活，比如. data. static_obj，. text. obj. ctor/dtor。如果这种函数性能影响较大需要内联优化，而编译器不支持，有个替代的办法是用全局变量或文件/类级别的静态变量，辅以对应标志处理一次性构造或初始化赋值（必要时将这处理封装为一个函数以确保目标函数被内联），可达到同样效果不足之处是作用域扩大了。

关于LLVM对于带静态变量的函数之内联的测验结果

posted on 2023-11-16 23:32 春秋十二月阅读(297) 评论(0) 编辑收藏引用所属分类: Compiler

常用链接

留言簿(26)

随笔分类(164)

随笔档案(165)

文章分类(30)

关注的开源项目

最新随笔

积分与排名

最新评论

阅读排行榜

评论排行榜

只有注册用户登录后才能发表评论。


相关文章: 浅谈体系结构与内联优化浅谈图论在寄存器分配中的应用忙表达式数据流分析示例基于矩阵法分析改进指令调度关于程序编译中的图论问题思考函数式语言编译优化动态二进制优化与静态编译优化的区别 NFA、DFA、正则表达式的互转复杂度总结关于格的基本定理简要总结浅谈重命名

网站导航: 博客园博客园最新博文博问管理