Modern C++——使用分支预测优化代码性能

2024-09-02 06:04

本文主要是介绍Modern C++——使用分支预测优化代码性能,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大纲

  • [[likely]]
  • [[unlikely]]
  • 样例
  • 应用场景
  • 题外
  • 参考代码
  • 参考资料

在C++20中,新引入了一对属性关键字[[likely]][[unlikely]],它们用于为编译器提供关于代码分支执行概率的额外信息,以帮助编译器进行更好的优化。这对属性是基于长期实践中开发人员对程序执行路径的深入理解而设计的,特别是在面对复杂逻辑和频繁分支的情况下。

[[likely]]

[[likely]]属性用于标记某个分支条件在运行时更有可能为真。当编译器遇到这种标记时,它会尝试优化与该分支相关的代码,以提高整体的执行效率。具体来说,编译器可能会重新组织指令序列,使更可能执行的路径在缓存中更频繁地命中,从而减少对主内存的访问,并降低指令的等待时间。

[[unlikely]]

相反,[[unlikely]]属性用于标记某个分支条件在运行时不太可能为真。编译器在处理这样的分支时,会考虑优化与该分支相关联的代码的加载和执行,以便减少对处理器资源的占用,特别是当这个不太可能发生的分支实际上未执行时。通过减少对不太可能执行的路径的优化投资,编译器可以集中资源来优化更常执行的代码部分。

样例

#include <chrono>
#include <cmath>
#include <iomanip>
#include <iostream>
#include <random>
#include <functional>namespace with_attributes {constexpr double pow(double x, long long n) noexcept {if (n <= 0) [[unlikely]]return 1;else [[likely]]return x * pow(x, n - 1);}
} // namespace with_attributesnamespace no_attributes {constexpr double pow(double x, long long n) noexcept {if (n <= 0)return 1;elsereturn x * pow(x, n - 1);}
} // namespace no_attributesdouble calc(double x, std::function<double(double, long long)> f) noexcept {constexpr long long precision{16LL};double y{};for (auto n{0LL}; n < precision; n += 2LL)y += f(x, n);return y;
}double gen_random() noexcept {static std::random_device rd;static std::mt19937 gen(rd());static std::uniform_real_distribution<double> dis(-1.0, 1.0);return dis(gen);
}volatile double sink{}; // ensures a side effectint main() {auto benchmark = [](auto fun, auto rem){const auto start = std::chrono::high_resolution_clock::now();for (auto y{1ULL}; y != 500'000'000ULL; ++y)sink = calc(gen_random(), fun);const std::chrono::duration<double> diff =std::chrono::high_resolution_clock::now() - start;std::cout << "Time: " << std::fixed << std::setprecision(6) << diff.count()<< " sec " << rem << std::endl; };benchmark(with_attributes::pow, "(with attributes)");benchmark(no_attributes::pow, "(without attributes)");benchmark(with_attributes::pow, "(with attributes)");benchmark(no_attributes::pow, "(without attributes)");benchmark(with_attributes::pow, "(with attributes)");benchmark(no_attributes::pow, "(without attributes)");
}

上面代码的pow函数中n的值大部分时候大于0,于是我们在with_attributes::pow的else部分标记为[[likely]];而很少出现的小于等于0的时候,使用[[unlikely]]标记。这样编译器就会根据我们的标记来优化代码。

作为对照组,no_attributes::pow除了没有标记外和with_attributes::pow完全一致。

我们看下对比结果。
在这里插入图片描述
可以发现使用了分支预测标记的代码效率更高(本例提升了约20%性能)。

应用场景

这些属性的应用可以帮助提升在复杂分支结构下的程序性能。特别是在性能敏感的应用中,如实时系统高性能计算科学计算,合理使用[[likely]][[unlikely]]属性可以显著提升执行效率。然而,它们并不是万能的,开发者需要基于程序的实际执行路径和统计数据来谨慎选择使用。

题外

在研究这个专题时,我最开始预计编译器会优化分支顺序,于是设计了如下的代码

    if (value == 0) [[unlikely]] {sum += value.get_value();} else if (value == 1) [[unlikely]] {sum += value.get_value();} else if (value == 2) [[unlikely]] {sum += value.get_value();} else if (value == 3) [[unlikely]] {sum += value.get_value();} else if (value == 4) [[unlikely]] {sum += value.get_value();} else if (value == 5) [[unlikely]] {sum += value.get_value();} else if (value == 6) [[likely]] {sum += value.get_value();} 

如果我们的设想成立,则编译器进入如下编译优化:先对比value==6这个条件,然后再对比其他条件。这样经常执行的value==6的分支只要执行一次对比,而省去了多余的其他5次对比。但是我在Linux和Windows两个平台上都做了实验,发现编译器并没有因为我们的标记而优化条件对比的顺序。所以这优化类还需要我们程序员自己来做。

如果没有做顺序调优,那么编译器对本例进行了什么优化导致优20%的性能提升呢?这个问题我们会在《从汇编层看64位程序运行——likely提示编译器的优化案例》中解答。

参考代码

https://github.com/f304646673/cpulsplus/tree/master/likely

参考资料

  • https://en.cppreference.com/w/cpp/language/attributes/likely

这篇关于Modern C++——使用分支预测优化代码性能的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1129199

相关文章

Java计算经纬度距离的示例代码

《Java计算经纬度距离的示例代码》在Java中计算两个经纬度之间的距离,可以使用多种方法(代码示例均返回米为单位),文中整理了常用的5种方法,感兴趣的小伙伴可以了解一下... 目录1. Haversine公式(中等精度,推荐通用场景)2. 球面余弦定理(简单但精度较低)3. Vincenty公式(高精度,

QT6中绘制UI的两种方法详解与示例代码

《QT6中绘制UI的两种方法详解与示例代码》Qt6提供了两种主要的UI绘制技术:​​QML(QtMeta-ObjectLanguage)​​和​​C++Widgets​​,这两种技术各有优势,适用于不... 目录一、QML 技术详解1.1 QML 简介1.2 QML 的核心概念1.3 QML 示例:简单按钮

使用Java将实体类转换为JSON并输出到控制台的完整过程

《使用Java将实体类转换为JSON并输出到控制台的完整过程》在软件开发的过程中,Java是一种广泛使用的编程语言,而在众多应用中,数据的传输和存储经常需要使用JSON格式,用Java将实体类转换为J... 在软件开发的过程中,Java是一种广泛使用的编程语言,而在众多应用中,数据的传输和存储经常需要使用j

Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例

《Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例》本文介绍Nginx+Keepalived实现Web集群高可用负载均衡的部署与测试,涵盖架构设计、环境配置、健康检查、... 目录前言一、架构设计二、环境准备三、案例部署配置 前端 Keepalived配置 前端 Nginx

Python logging模块使用示例详解

《Pythonlogging模块使用示例详解》Python的logging模块是一个灵活且强大的日志记录工具,广泛应用于应用程序的调试、运行监控和问题排查,下面给大家介绍Pythonlogging模... 目录一、为什么使用 logging 模块?二、核心组件三、日志级别四、基本使用步骤五、快速配置(bas

SpringBoot中HTTP连接池的配置与优化

《SpringBoot中HTTP连接池的配置与优化》这篇文章主要为大家详细介绍了SpringBoot中HTTP连接池的配置与优化的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录一、HTTP连接池的核心价值二、Spring Boot集成方案方案1:Apache HttpCl

使用animation.css库快速实现CSS3旋转动画效果

《使用animation.css库快速实现CSS3旋转动画效果》随着Web技术的不断发展,动画效果已经成为了网页设计中不可或缺的一部分,本文将深入探讨animation.css的工作原理,如何使用以及... 目录1. css3动画技术简介2. animation.css库介绍2.1 animation.cs

Java进行日期解析与格式化的实现代码

《Java进行日期解析与格式化的实现代码》使用Java搭配ApacheCommonsLang3和Natty库,可以实现灵活高效的日期解析与格式化,本文将通过相关示例为大家讲讲具体的实践操作,需要的可以... 目录一、背景二、依赖介绍1. Apache Commons Lang32. Natty三、核心实现代

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

PyTorch高级特性与性能优化方式

《PyTorch高级特性与性能优化方式》:本文主要介绍PyTorch高级特性与性能优化方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、自动化机制1.自动微分机制2.动态计算图二、性能优化1.内存管理2.GPU加速3.多GPU训练三、分布式训练1.分布式数据