并行笔记——SIMD编程

2023-10-15 10:58
文章标签 笔记 编程 并行 simd

本文主要是介绍并行笔记——SIMD编程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

SIMD概念

Single Instruction Multiple Data
也就是单指令流和多数据流,对于多数据流进行相同的操作。
一个简单的例子就是向量的加减。

和MIMD的区别

SIMD拥有单个全局控制单元,而后者拥有多个控制单元+处理元素。

SIMD的应用

图像处理

音频

科学计算

基于数据的数据并行计算。

什么情况下适合应用SIMD

  1. 规律的数据访问模式:数据在内存中连续存储。
  2. 短数据类型
  3. 流式数据处理
  4. ……

Mark:原因不明,之后补上解释。

使用SIMD的优缺点

优点

  1. 具有更大的并发度。
  2. 设计比较简单(应该是与MIMD对比,只需要重复功能单元即可)。
  3. 芯片尺寸更小。

缺点

  1. 程序员开发时必须显式接触硬件。

SIMD并行的问题

SIMD并行开发,可以把多次相同的算术运算简化为一个SIMD操作多个取数/存结果的操作,可以变成一个对于更宽的内存的一次操作(前提是内存需要连续)。

SIMD编程的复杂性

低层编程要求:

  1. 数据必须对齐。
  2. 数据放在连续区域存储。
  3. 控制流问题可能会引入更高的复杂性。

额外开销

  1. 打包、解包开销
    所谓的打包,指的是把运算对象拷贝到连续内存区域。
    解包,指的是把运算结果拷贝回内存。
  2. 对齐开销
    对齐的定义是地址的开始总是向量长度的整数;对于起始地址的偏移是向量长度的整数倍。
    Mark:关于PPT中的调整没有看明白,待补充。
  3. 控制流开销
    控制流开销来自当控制流存在时,所有的路径都执行。这说明一般情况下,当存在控制流问题时,SIMD不是一个好的编程模型
    以下述为例:
    对于所有元素都执行了两个路径的计算,只是最后根据判断条件进行合并。
    在这里插入图片描述

SSE/AVX编程

指令介绍

  1. Blend(A, B, 0xA)
    这里的0xA即1010,作用是掩码;如果为1则取第一个参数向量的数字,如果为0则取第二个参数向量的数字。
  2. Shuffle(D, D, 0xB1)
    这里的0xB1是八位二进制,分成四组;前两组是对应第二个参数的第几位,后两组是对应第二个参数的第几位。

这篇关于并行笔记——SIMD编程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/217213

相关文章

Python 异步编程 asyncio简介及基本用法

《Python异步编程asyncio简介及基本用法》asyncio是Python的一个库,用于编写并发代码,使用协程、任务和Futures来处理I/O密集型和高延迟操作,本文给大家介绍Python... 目录1、asyncio是什么IO密集型任务特征2、怎么用1、基本用法2、关键字 async1、async

Java并发编程之如何优雅关闭钩子Shutdown Hook

《Java并发编程之如何优雅关闭钩子ShutdownHook》这篇文章主要为大家详细介绍了Java如何实现优雅关闭钩子ShutdownHook,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起... 目录关闭钩子简介关闭钩子应用场景数据库连接实战演示使用关闭钩子的注意事项开源框架中的关闭钩子机制1.

shell编程之函数与数组的使用详解

《shell编程之函数与数组的使用详解》:本文主要介绍shell编程之函数与数组的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录shell函数函数的用法俩个数求和系统资源监控并报警函数函数变量的作用范围函数的参数递归函数shell数组获取数组的长度读取某下的

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言:为什么要自建知识博客一、技术选型:极简主义开发栈二、系统架构设计三、核心代码实现(分步解析

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

Java并发编程必备之Synchronized关键字深入解析

《Java并发编程必备之Synchronized关键字深入解析》本文我们深入探索了Java中的Synchronized关键字,包括其互斥性和可重入性的特性,文章详细介绍了Synchronized的三种... 目录一、前言二、Synchronized关键字2.1 Synchronized的特性1. 互斥2.

Python异步编程中asyncio.gather的并发控制详解

《Python异步编程中asyncio.gather的并发控制详解》在Python异步编程生态中,asyncio.gather是并发任务调度的核心工具,本文将通过实际场景和代码示例,展示如何结合信号量... 目录一、asyncio.gather的原始行为解析二、信号量控制法:给并发装上"节流阀"三、进阶控制

Java之并行流(Parallel Stream)使用详解

《Java之并行流(ParallelStream)使用详解》Java并行流(ParallelStream)通过多线程并行处理集合数据,利用Fork/Join框架加速计算,适用于大规模数据集和计算密集... 目录Java并行流(Parallel Stream)1. 核心概念与原理2. 创建并行流的方式3. 适

C#多线程编程中导致死锁的常见陷阱和避免方法

《C#多线程编程中导致死锁的常见陷阱和避免方法》在C#多线程编程中,死锁(Deadlock)是一种常见的、令人头疼的错误,死锁通常发生在多个线程试图获取多个资源的锁时,导致相互等待对方释放资源,最终形... 目录引言1. 什么是死锁?死锁的典型条件:2. 导致死锁的常见原因2.1 锁的顺序问题错误示例:不同

PyCharm接入DeepSeek实现AI编程的操作流程

《PyCharm接入DeepSeek实现AI编程的操作流程》DeepSeek是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的AI模型,接下来,我们把DeepSeek接入到PyCharm中... 目录引言效果演示创建API key在PyCharm中下载Continue插件配置Continue引言