并行计算MPI学习笔记

Tavior

听说论坛当笔记本很好用的亚子，我也来试一试
MPI实际上是一种消息传递接口，它为并行计算编程提供了一个灵活的框架
本笔记主要抄书于Frank Nielsen的著作Introduction to HPC with MPI for Data Science (2016)中译本

Tavior

第一章 - 引言

并行编程范式
目前主流的并行编程范式可分为两类，它们互为补充：

MPI（消息传递接口）编程：对硬件/网络错误没有稳健性，但是编程框架灵活
MapReduce编程：包含底层构架，能应对硬件/网络错误，但是相比MPI编程方式有限

并行粒度
实现并行算法时可以选择不同的并行粒度——代码中能被并行化的部分占比，也可以解释为并行算法中计算时间与通信时间的比例，主要分为三类：

细粒度并行：同一任务内变量级别并行，数据在不同计算单元内传输，依赖于显卡的GPU代码片段。
中粒度并行：同一程序中线程级别并行
粗粒度并行：大数据块计算完成后进行的有限次数的数据传输。粗粒度并行也可以在程序级别完成，通过调用任务调度器处理每个任务在计算机集群上的执行。

超级计算机架构
并行计算机可分为两类：

基于共享内存：所有核使用同一个共享存储器组，所有的核视为独立处理单元（如多核PC上的并行任务）
讨论共享内存时还需要考虑他们的类型（如处理器内部的告诉寄存器、机械硬盘、固态硬盘等），以及需要考虑访存时数据空间局部性（使用 -O 命令在编译时优化代码）
基于分布式内存：通过互联网络将每个独立的计算机连接起来，每个处理器有自己的本地内存，当访问另一个进程的内存时需要显式调用内存访问操作，通过互联网络交换消息。故互联网络的拓扑结构影响通信效率和硬件成本。消息可以通过点对点（如总线、完全图拓扑结构）或者以中间节点为路由（如环、星形拓扑）的方式交换。

互联网络的特性

延迟：发起一个通信的时间
带宽：通信链路上数据传输速率
拓扑：互联网络的物理结构

并行编程模型

向量超级计算机：可以使用单指令多数据(SIMD)模型
共享内存的多核计算机：可使用多线程及对应的标准API OpenMP (API: 应用程序编程接口)
异构计算：利用GPU完成部分计算
混合编程：每个MPI进程生成多个线程

加速比
记t_{seq},t_{P}分别为串行程序与对应的并行程序的运行时间，t_1为P=1个处理器上并行程序的运行时间，定义

加速比 speedup(P) =t_{seq}/{t_P}\sim{t_1}/{t_P}
效率 e= speedup(P)/ P=t_{seq}/(P\cdot{t_P})，分母为总核时，低效率代表高并行负载，最佳线性加速比（e=1）代表最大效率
扩展性 scalability(O, P) =t_O/t_P, O<P，由于集群往往会为程序动态分配节点，该参量表征程序适应动态分配资源的能力。

当增加处理器个数时，程序效率e会有下降趋势，故而往往增加P时也同时增加输入数据规模n。

Amdahl定律与Gustafson定律
记\alpha_{par},\alpha_{seq}表示一个程序中可并行化与本质上不可并行化的部分所占比例，\alpha_{par}+\alpha_{seq}=1。讨论加速比与核数目P的关系：

Amdahl定律：理想情况下，固定总数据规模n的加速比有极限
\lim_{P\rightarrow\infty}=1/\alpha_{seq}
Gustafson定律：理想情况下，固定每个核上处理的数据量n/P的加速比有极限
\lim_{P\rightarrow\infty}=P\alpha_{par}
——只有当总数据量足够大，并行系统才能显示出其威力

注意，在实际运算中，有时可以观测到超线性趋势的加速比，这是由于当数据量很多时，有很多数据只能存储在硬盘等媒介内，而访问他们的速度要远小于访问RAM的速度，故在增加处理器数目P时有时能看到超理想状况的加速比。

并行输入与输出(I/O)
在分布式内存架构中，可以显式使用并行I/O进行编程（如使用多汇集MPI-IO）或在每个节点上显式调用本地I/O函数

分布式系统的非理想因素

网络不可靠：必须在硬件和软件中都引入荣誉措施来降低集群中某个路由器出现崩溃造成的连锁反应的影响
考虑网络延迟：在局域网（LAN）中延迟很小，但是在广域网（WAN）中数据传输是需要考虑其延迟的
带宽有限：WAN中传输数据量很大，可能会出现网络拥塞和丢包现象，路由算法必须能应对这些情况，能在丢包时及时重新发送数据
网络不安全：需要制定备份方案，设计应急和恢复程序
网络拓扑不断变化：部署程序时需要使程序能时刻适应动态的网络拓扑，保证程序的稳健性
数据传输和程序迁移需要成本：必须实现一个反序列化的过程，将结构化数据转换为位或字节数据
网络不同构：主要针对不同平台软件，不是我要考虑的问题
网络管理员不止一个：不是我要考虑的问题

Tavior

第二章 - I - MPI简介：消息传输接口

并行计算抽象模型

向量超级计算机：基于单指令多数据(SIMD)*编程模型，使用流水线操作优化代码

SIMD指一类能够在单个指令周期内同时处理多个数据元素的指令集，利用的是数据级并行来提高运行效率，典型的代表由Intel的MMX和SSE指令系列。这类指令的使用环境是对多个数据进行同一种处理，因此典型的应用场景就是多媒体领域，特别是在其中的编解码流程中。

多核计算机：共享内存，多线程编程。程序容易崩溃，且有时会在并发访问共享资源出现冲突而难以调试
计算机集群：多计算机的分布式内存 + 高速网络互联

关注最后一种并行计算模型

MPI介绍

MPI中文为“消息传递接口”，是一种应用程序编程接口(API)，通过发送和接收封装了数据的消息，MPI可以用于编写可交换数据的并行程序。
MPI编程接口不依赖底层编程语言，故可以通过常用的串行编程语言（C/C++, Fortran, Java, Python等）使用MPI命令，有多种MPI绑定语言可用。目前最新版本的MPI标准为第4版(2021.6发布)

并行编程模型

目前的操作系统都是多任务的，但是一个核上一次只能执行一个程序指令，而其他进程被阻塞（暂停/等待唤醒），任务调度程序的作用是将进程动态分配给CPU
现代CPU拥有多个核，每个核都是独立处理单元(PU)，可以并行地在每个核上执行一个线程

进程(Process)：是并发执行的程序在执行过程中分配和管理资源的基本单位，是一个动态概念，竞争计算机系统资源的基本单位。

线程(Thread)：进程中的一个执行任务（控制单元），负责当前进程中程序的执行。一个进程至少有一个线程，一个进程可以运行多个线程，多个线程可共享数据。

并发(Concurrency)：在操作系统中，并发是指一个时间段中有几个程序都处于已启动运行到运行完毕之间，且这几个程序都是在同一个处理机上运行。（在一个处理器上排队很多个进程，处理器将时间划分成很多小段，这一段给A处理，下一段给B处理，处理某个进程时别的进程处于休眠状态）

并行(Parallel)：当系统有一个以上CPU时，当一个CPU执行一个进程时，另一个CPU可以执行另一个进程，两个进程互不抢占CPU资源，即在同一时刻，有多条指令在多个处理器上同时执行。

多核构架产生了允许并发的多线程编程范式，分配给同一进程的资源在不同线程之间共享，且至少一个线程具有main调用函数
多线程编程模型非常适合多核处理器，可让应用程序运行更快
进程有非重叠的内存区域，故而进程之间的通信必须谨慎，尤其是使用MPI标准时

线程的特点

同一进程的线程共享相同内存区域，包括数据区域与代码区域，故同一进程下的线程之间可以互相访问数据，但这时也会出现一些问题，严重时会导致系统崩溃。
在并行随机存取机模型(PRAM)中，同时对本地内存进行读写操作可能发生三类冲突：
1. 互斥读互斥写
2. 同时读互斥写
3. 同时读同时写
可以在同一处理器（多核时并行处理）或在同一网络下互联的一组处理器上运行多个进程，也可以编写程序来使用若干多核处理器（同时使用MPI和OpenMP标准）

进程之间的全局通信

通过在一组机器上执行一个MPI程序，我们启动一组进程，每个进程都有类似于通常的串行程序的本地计算，同时还会执行下列操作：

数据传输：如一些数据通过消息传送到所有其他进程
同步屏障：导致所有进程在运行前都需要等待
全局计算：例如，一种归约操作，用储存在每个进程本地内存中的本地值计算属于所有进程的分布式变量的最小值或者和。全局计算依赖于互联集群计算机的底层拓扑

全局通信原语由属于同一个通信组的所有进程执行。默认MPI初始化后所有进程都属于一个名为MPI_COMM_WORLD的通信组。

基本MPI原语

广播MPI_Bcast：从根进程（通信组当前调用MPI的进程）向同一通信组内所有其他进程发送信息
归约/聚合 MPI_Reduce：将变量的所有对应值汇集到一个值中并返回给当前调用进程。MPI中，MPI_Reduce可以通过归约一个使用可交换二元运算符的变量执行全局计算操作。预定义的MPI归约二元运算符有：
MPI_MAX 最大值\quad MPI_SUM 求和 \quad MPI_LAND 逻辑与\quad MPI_LOR 逻辑或 \quad MPI_LXOR 逻辑异或
MPI_MIN 最小值 \quadMPI_PROD 求积\quadMPI_BAND 按位与\quad MPI_BOR 按位或 \quad MPI_BXOR 按位异或
MPI_MAXLOC 最大值和相应位置
MPI_MINLOC 最小值和相应位置
散播MPI_Scatter：将不同的个性化信息发到其他每个进程中
收集：散播的逆过程，根进程从所有其他进程中接收个性化消息
全交换MPI_ALL-toall：每个进程向其他所有进程发送个性化消息

阻塞与非阻塞
MPI有多种发送模式，这取决于数据是否被缓冲，以及是否需要同步。我们从最基本的两个通信原语开始：

Send(&data, n, Pdest)：把内存地址&data开始的含有n个数据的数组发送到进程Pdest
receive(&data, n, Psrc)：从进程Psrc接收n个数据，并将它们存储在一个从本地内存地址&data开始的数组中

举一个例子：

//Process P0
...
a = 442;
send(&a, 1, P1);
a = 0;

//Process P1
...
receive(&A, 1, P0);
cout << A << endl;            //输出A后换行

阻塞通信（非缓冲）产生了等待时间(空闲时间)：发送进程和接收进程需要互相等待对方——这种通信模式称为“握手”
握手模式允许执行同步通信，有三种情况

发送进程发送请求后等待接收进程确认，发送进程进入等待时间(阻塞send操作)
接收进程运行到接收指令时发送进程还未发送请求，接收进程进入等待时间(阻塞receive操作)
发送进程发送请求时接收进程恰好运行到接收指令，即刻确认通过，没有等待时间（最理想的情况）

显然，对于阻塞通信，要尽量减少总等待时间。
使用阻塞通信会正确地匹配发送和接收语句，但有时候也会发生“死锁”，如下面这个例子

//Process P0
...
send(&a, 1, P1);
receive(&b, 1, P1);

//Process P1
...
send(&a, 1, P0);
receive(&b, 1, P0);

进程P0发送一个消息，然后等待P1返回“同意发送”的指令，但此时P1的发送语句也在等待P0的“同意发送”指令，这便是一个“死锁”情况。
实际上，MPI中每个发送/接收操作涉及一组通信，并有一个标签属性（一个整形数据）。
阻塞通信可以确保程序一致性（避免让消息以错误的顺序到达），但是难以检测死锁。

为减少死锁情况，可以预先给每个进程在内存上分配一个专用的数据缓冲区(Data Buffer, DB)，然后分两步发送：

发送进程在数据缓存区发送消息
接收进程在地址&data指向的本地内存区域上复制上述数据缓存区的信息

但是，当缓冲区变满（缓冲区溢出异常）时仍然存在潜在的死锁情况。
上述操作是针对send原语阻塞的改进。同样的如果receive原语阻塞，仍然存在死锁的情况，如下例所示：

//Process P0
...
receive(&b, 1, P1);
send(&a, 1, P1);

//Process P1
...
receive(&b, 1, P0);
send(&a, 1, P0);

这个例子中，每个进程在发送消息前需要等待一个指令，也是一个死锁状态。
当考虑像Bcast这种全局通信，为保证消息以正确顺序到达，阻塞通信非常有用；但是实现算法时必须注意潜在的死锁。

解决死锁的一个方案是让send和receive原语成为非阻塞的——引入非阻塞通信，即异步通信：
由Isend和Ireceive表示，其运行模式如下：

发送进程发布一条“发送授权请求”（挂起）的消息，并继续其程序的执行
接受进程发布“同意发送”许可指令，开始传输数据
数据传输完成时，检查状态并指示进程是否可以安全地进行读/写操作

并发性

处理单元可以在同一时间内运行多个任务，如在进行非阻塞通信操作时也可以做据不计算。我们要求MPI_IRcev MPI_ISend和局部计算互不干涉，可以用双竖线表示这些并发计算，如
IRecv || ISend || Local_Computation

单向与双向通信

顾名思义

单向通信：通信信道中消息只能单个方向进行通信，即要么发送MPI_Send，要么接收MPI_Rcev，不能同时进行
双向通信：进程间可以同时接收和发送信息，用MPI_Sendrecv完成

全局计算

归约：MPI中可以进行类似于累加V=\sum_{i=0}^{P-1}v_i和累乘V=\prod_{i=0}^{P-1}v_i的全局计算，其中v_i为储存在进程P_i中的局部变量。这个全局计算结果V可以从调用了该归约原语的进程（当前调用进程/根进程）的本地内存中获得。归约原语的使用方法如下

#include <mpi.h>
int MPI_Reduce(                       
     void* sendBuffer,          //指向发送消息的内存块的指针
     void* recvBuffer,          //指向接收（输出）消息的内存块的指针
     int count                  //数据量(数组元素个数)
     MPI_Datatype datatype      //MPI数据类型（如MPI_INT等）
     MPI_OP op                  //MPI规约操作（如MPI_SUM等）
     int root,                  //提取结果进程（根进程）的进程号
     MPI_Comm comm              //MPI通信域（指定通信范围，如默认的MPI_COMM_WORLD）
);

归约操作是预定义的，有现成的关键词供选用。
MPI中，也可以给归约操作建立数据类型并定义关联和交换二元运算符。

并行前缀/扫描：扫描Scan操作计算存储在进程中的本地数据的所有部分归约操作。可以将扫描看作是一种特殊的归约，即每一个进程都对排在它前面的进程进行归约操作。这种操作能够减小求和复杂度(O(n)\rightarrow O(\log n))

前缀和(prefix sum)：若给定数组a[n]，定义其前缀和为另一个数组S[n]，其中
S[i]=\sum_{j=0}^{i-1}a[j]，\qquad i=0,1,...,n-1

 int MPI_Scan(
       void* sendBuffer,           //发送消息缓冲区的起始地址(可选)
       void* recvBuffer,           //接收消息缓冲区的起始地址(可选)
       int count, 
       MPI_Datatype datatype,
       MPI_Op op, 
       MPI_Comm comm)

举个例子：假定有3个进程P_0\sim P_2，其中有一个名为vals的长度为4的整型数组，将扫描操作储存在每个进程的cumsum对应的数组中，则指令为
int MPI_Scan(&vals, &cumsum, 4, MPI_INT, MPI_SUM, MPI_COMM_WORLD)
记进程P_i中的vals = [a_i, b_i, c_i, d_i]，则
P_0：cumsum = [a_0, b_0, c_0, d_0]
P_1：cumsum = [a_0+a_1, b_0+b_1, c_0+c_1, d_0+d_1]
P_2：cumsum = [a_0+a_1+a_2, b_0+b_1+b_2, c_0+c_1+c_2, d_0+d_1+d_2]

通信域与通信组

MPI中，通信域（通信器，communicator）可以将金成分为不同通信组，每个进程都在一个通信组中，并通过通信组内部的进程标识号索引。默认情况下，MPI_COMM_WORLD包含标识号为0\sim P-1的整型数字的所有进程。
使用原语int MPI_Comm_size(MPI_Comm comm, int *size)和int MPI_Comm_Rank(MPI_Comm comm, int *size)来获取通信组内部进程数量和通信组内部进程标识号——MPI中rank表示进程标识号

同步屏障

粗粒度并行模式中，进城之间独立执行大量计算块，然后在同步屏障MPI_Barrier处互相等待，执行接收、发送消息，消息传递后继续各自的程序执行——可以理解成人为为不同进程设置一个交换站，所有相关进程都到达后才一起交换消息，而后各自继续运行。

整体同步并行计算模型(BSP)：引入由三个基本步骤组成的“超步骤”，促进并行算法设计：

并发计算步骤：进程进行局部异步计算，且局部计算可以与通信重叠
通信步骤：进程间互相交换数据
同步屏障步骤：进程达到同步屏障后，等待其他所有进程到达该屏障，然后再一同进入另一个超步骤

Tavior

第二章 - II - 开始使用MPI——MPI程序框架与OpenMPI基本原语

MPI程序基本结构

所有MPI程序的基本结构是类似的，分为五步：加载文件、定义变量、初始化环境、执行程序与进程通信、退出环境

#include <mpi.h>                           //MPI include file
void main(int argc, char *argv[])
{
    int np, rank, ierr;                    //定义变量
    ierr = MPI_Init(&argc, &argv);         //MPI环境初始化
    /* 执行程序，进程间通信 */
    MPI_Comm_Rank(MPI_COMM_WORLD, &rank);   
    MPI_Comm_Size(MPI_COMM_WORLD, &np);   
    /* 执行程序，进程间通信 */
    ierr = MPI_Finalize();                 //退出MPI环境
}

MPI基本数据类型

MPI的数据类型和C语言中的数据类型大部分能对应上，具体如下表所示

MPI_CHAR - signed char
MPI_INT - signed int
MPI_SHORT - signed short int
MPI_LONG - signed long int
MPI_UNSIGNED_CHAR - unsigned char
MPI_UNSIGNED_INT - unsigned int
MPI_UNSIGNED_SHORT - unsigned short int
MPI_UNSIGNED_LONG - unsigned long int
MPI_FLOAT - float
MPI_DOUBLE - double
MPI_LONG_DOUBLE - long double
MPI_BYTE - 一个字节
MPI_PACKED - 打包数据

除了以上基本数据类型外，还可以自定义数据类型。在数据通信时，需要注意以下几点：

类型匹配：包括MPI类型与寄主语言类型的匹配（如上面的MPI类型与C语言类型匹配）、发送方与接收方匹配（即发送的变量类型和接收方储存的变量类型需要相同）
注意，这里有两个例外，它们可以与任何以字节为单位的存储相匹配：
MPI_BYTE用于不加修改地传输内存中的二进制值
MPI_PACKED用于数据的打包与解包(MPI_UNPACKED)
尽可能减少通信次数：相比于发送几个小通信，最好能一次发送一个大通信。

如果数据是连续的，并且拥有相同的数据型（比如在一个数组中），那么可以直接一次性发送。但有时候可能需要发送不连续的信息，并且这些数据的类型并不统一（比如一个对象中得一些成员变量）。此时就需要通过包含一些简单的MPI类型来创建自己的MPI变量类型（甚至可以是自己创建的其他数据型）。

MPI基本函数

MPI_Init
```
int MPI_Init(int*argc, char *argv[])          
```
每一个被MPI程序调用的第一个MPI函数都是MPI_Init。该函数指示系统完成所有初始化工作，以备对后续MPI库的调用进行处理。调用MPI_Init并不一定是程序中第一个执行语句，甚至不需要放在main函数中。唯一的要求是MPI_Init要在调用任何MPI函数之前调用，除MPI_Initialized外。
在C接口中，MPI系统通过argc和argv得到命令行参数，并且会把MPI系统专用的参数删除，留下用户的解释参数。

MPI_Initialized

int MPI_Initialized(int* flag)

唯一可在MPI_Init前使用的函数，用来检测MPI系统是否已经初始化，已经调用MPI_Init，返回flag=true，否则返回flag=false。

MPI_Comm_size

int MPI_Comm_size(MPI_Comm comm, int* size)

返回通信域comm内的进程数，写入变量size中。在一个通信域内的进程是有序的，一个进程的序号便是它在整个排序中的位置。

MPI_Comm_rank

int MPI_Comm_rank(MPI_Comm comm, int* rank)

返回根进程在通信空间中的rank值，即在组中的逻辑编号(为0到p-1间的整数，相当于进程的ID)

MPI_Finalize
```
int MPI_Finalize(void)
```
退出MPI系统，在一个进程执行完其全部MPI函数调用后，释放分配给MPI的资源（例如内存等）。每个进程都必须调用，使用后不准许调用任何MPI函数。若不执行MPI退出函数，进程可能被悬挂。用户在调用该函数前，应确保非阻塞通讯结束。

MPI_Abort

int MPI_Abort(MPI_Comm comm, int errorcode)

异常终止MPI程序，在出现了致命错误而希望异常终止MPI程序时执行，MPI系统会设法终止comm通信器中的所有进程，输入整形参数errocode，将被作为进程的退出码返回给系统。

MPI_Wtime

double MPI_Wtime(void)

获取真实时间，返回调用时刻的真实时间，用浮点数表示秒数；经常用来计算程序运行时间。

MPI_Send

 int MPI_Send(
       void* sendBuffer,           //发送消息缓冲区的起始地址
       int count,                  //发送的消息的个数
       /* 注意：不是长度，例如你要发送一个int整数，这里就填写1，如要是发送“hello”字符串，
        * 这里就填写6（C语言中字符串末一般有结束符'\0'，需要多一位）*/
       MPI_Datatype datatype,      //发送的数据类型
       int destination,            //接收进程的进程号 
       int tag,                    //消息标签，接收方需要有相同的消息标签才能接收该消息
       MPI_Comm comm)              //接收进程所在的通讯域

MPI中用于发送信息的原语，前三个变量称为消息数据，后三个变量称为消息信封（包含接收方信息）

MPI_Recv

int MPI_Recv( void *buff, int count, MPI_Datatype datatype, int source, int tag, MPI_Comm comm, MPI_Status *status)
 int MPI_Send(
       void* RecvBuffer,           //接收消息保存变量的起始地址
       int count,                  //接收的消息的个数
       /* 注意：不是长度，例如你要发送一个int整数，这里就填写1，如要是发送“hello”字符串，
        * 这里就填写6（C语言中字符串末一般有结束符'\0'，需要多一位）*/
       MPI_Datatype datatype,      //接收的数据类型
       int source,                 //发送进程的进程号 
       int tag,                    //消息标签，发送方需要有相同的消息标签才能发送该消息
       MPI_Comm comm,              //发送进程所在的通讯域
       MPI_Status *status)         //消息状态。接收函数返回时，在*status所指变量中存放
                                   //实际接收消息的状态信息，包括消息的源进程标识，消息标签，
                                   //包含的数据项个数等。

同样的，这里前3个变量称为消息数据，后4个变量为消息信封。并且注意，发送与接收的数据类型需要匹配，且Recvbuffer必须能容纳count个datatype类型的传入数据，否则会导致Recvbuffer溢出报错。

MPI_SendRecv

MPI_Sendrecv( void *SendBuffer         //initial address of send buffer
              int sendcount            //number of entries to send
              MPI_Datatype sendtype    //type of entries in send buffer
              int destination          //rank of destination
              int sendtag              //send tag
              void *Recvbuffer         //initial address of receive buffer
              int recvcount            //max number of entries to receive
              MPI_Datatype recvtype    //type of entries in receive buffer 
              int source               //rank of source 
              int recvtag              //receive tag
              MPI_Comm comm            //group communicator
              MPI_Status *status)      //return status

将本进程的信息发送出去，并接收其他进程的信息，其参量含义与8.、9.中的类似，在某些一般阻塞通讯容易造成死锁的情况下（如P_0\rightarrow P_1\rightarrow ... P_{n-1}\rightarrow P_0这种数据传递结构）使用该原语能有效避免死锁。
这里的8 ~ 10都是阻塞通信所使用的通讯原语，对于非阻塞通信，原语有细微的不同，这里先略去，等有空再补。

小毛龙

疑似笔误？