24秋學(xué)期(高起本:1709-2103、專升本/高起專:2003-2103)《并行程序設(shè)計》在線作業(yè)-00001
試卷總分:100 得分:100
一、單選題 (共 50 道試題,共 100 分)
1.起泡排序改為奇偶轉(zhuǎn)置排序,消除了循環(huán)步間的數(shù)據(jù)依賴的原因是____。
A.增大了元素比較距離
B.減小了元素比較距離
C.改為元素兩兩分組比較
D.消除了元素比較
2.伸縮性的含義不包括____。
A.硬件能升級擴展
B.擴大系統(tǒng)規(guī)模構(gòu)造成本增長不快
C.程序在新硬件下仍能高效運行
D.程序在更大規(guī)模系統(tǒng)下仍能高效運行
3.下列子句中____不是OpenMP的同步指令。
A.nowait
B.critical
C.atomic
D.barrier
4.n個數(shù)求和的串行程序,通過一個循環(huán)將每個數(shù)累加到全局變量sum中,其多線程版本簡單將循環(huán)范圍改變?yōu)槊總€線程負載的范圍,存在的問題是____。
A.負載不均
B.通信開銷大
C.CPU空閑等待嚴重
D.sum累加產(chǎn)生競爭條件,導(dǎo)致結(jié)果錯誤
5.CUDA共享內(nèi)存是由____共享。
A.Grid中所有線程
B.一個Block中所有線程
C.一個Warp中所有線程
D.GPU中所有線程
6.互斥量mutex機制,在任何時刻____進入它保護的區(qū)域。
A.允許任意數(shù)量任意類型的線程
B.允許一個讀線程任意個寫線程
C.允許一個寫線程任意個讀線程
D.只允許一個線程
7.當(dāng)問題規(guī)模不變時,隨著處理器數(shù)量增大,效率降低的性質(zhì)對____成立。
A.部分并行算法
B.代價最優(yōu)并行算法
C.所有并行算法
D.以上皆錯
8.對奇偶轉(zhuǎn)置排序進行OpenMP并行化,第一種策略是直接對內(nèi)層循環(huán)使用omp parallel for指令,第二種策略是對外層循環(huán)使用omp parallel指令,對內(nèi)層循環(huán)使用omp for指令,后者相對于前者的優(yōu)點是____。
A.保持了數(shù)據(jù)依賴
B.消除了大量線程創(chuàng)建、銷毀開銷
C.有利于負載均衡
D.減少了線程間交互
9.加速比計算中串行時間應(yīng)該取求解同一問題的哪個串行算法的時間____。
A.任意一個串行算法
B.作為并行算法基礎(chǔ)的那個串行算法
C.已知最優(yōu)的串行算法
D.所有串行算法的平均時間
10.OpenMP的缺點不包括____。
A.常見并行結(jié)構(gòu)的表達并不總可行
B.局部性處理不易
C.不易編寫多核單核通用程序
D.性能控制不易
11.16步循環(huán),4個線程,循環(huán)0-3、4-7、8-11、12-15分別分配給線程0、1、2、3,這是OpenMP的____劃分策略。
A.static
B.fixed
C.dynamic
D.guided
12.天河1A和天河2號都是主要依靠____獲得強大的計算能力。
A.單核CPU
B.多核CPU
C.眾核CPU
D.眾核協(xié)處理器
13.主線程創(chuàng)建了4個線程,它們打印各自的線程號(0-3),未使用任何同步,則輸出順序____。
A.必然是0 1 2 3
B.必然是4 3 2 1
C.不可能是4 3 2 1
D.以上皆錯
14.對矩陣乘法串行程序的主體三重循環(huán),我們選擇最內(nèi)層循環(huán)進行向量化的原因是____。
A.它最后執(zhí)行
B.外層循環(huán)中沒有計算操作
C.是隨意選擇的
D.它的連續(xù)循環(huán)步是對不同元素進行相同運算
15.在矩陣乘法之前將第二個矩陣轉(zhuǎn)置,其作用不包括____。
A.增大訪存空間局部性
B.減少運算次數(shù)
C.優(yōu)化SIMD訪存
D.以上皆錯
16.CPU cache大小為32KB,64*64的兩個矩陣進行加法計算,下面說法正確的是____。
A.可利用cache時間局部性優(yōu)化性能
B.可利用cache空間局部性優(yōu)化性能
C.可通過矩陣分片優(yōu)化性能
D.訪存方面無優(yōu)化可能
17.對下面程序,說法正確的是 # pragma omp parallel for num_threads(thread_count) \ reduction(+:sum) for (k = 1; k <= n; k++) { sum += factor/(2*k-1); factor = -factor; }
A.破壞了數(shù)據(jù)依賴
B.未破壞數(shù)據(jù)依賴
C.取決于變量聲明
D.比臨界區(qū)方式性能差
18.多個線程進行并行求和,每個線程將自己負責(zé)的值依次讀入局部變量x,累加到全局變量sum上,sum+=x,對此,下面說法正確的是
A.讀取x存在數(shù)據(jù)依賴,不能并發(fā)進行
B.累加順序被改變,結(jié)果是錯誤的
C.加法操作是簡單運算,無需同步
D.加法操作不是原子操作,需要同步保證數(shù)據(jù)依賴
19.n個節(jié)點的線性陣列中,節(jié)點最遠通信距離為____。
A.1
B.O(logn)
C.O(sqrt(n))
D.O(n)
20.SSE的shuffle指令的8位二進制整數(shù)參數(shù)被劃分為4個2位二進制整數(shù)imm8[0:3],若imm8[2]=j則表示___。
A.將第一個源寄存器的第j個元素放在目標(biāo)寄存器位置2
B.將第二個源寄存器的第j個元素放在目標(biāo)寄存器位置2
C.將第一個源寄存器的第2個元素放在目標(biāo)寄存器位置2
D.將第二個源寄存器的第2個元素放在目標(biāo)寄存器位置2
21.采用搜索分解設(shè)計15數(shù)碼問題的并行算法,不包含下面哪個步驟____。
A.串行生成一定規(guī)模的搜索樹
B.當(dāng)前每個葉結(jié)點為根的子樹搜索分配給一個處理器
C.發(fā)現(xiàn)解的處理器通知其他處理器
D.將所有處理器的結(jié)果組合成最終解
22.采用劃分子矩陣技術(shù)優(yōu)化矩陣乘法CUDA程序,主要思想是訪存更多在____。
A.CPU內(nèi)存
B.GPU顯存
C.GPU共享內(nèi)存
D.GPU寄存器
23.MMX有____個專用寄存器。
A.4
B.8
C.16
D.32
24.1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X[0]*1.3;G=X[1]*1.8;B=X[2]*1.1; 這兩個程序片段哪個進行向量化效率更高?
A.1)
B.2)
C.不確定
D.以上皆錯
25.n個處理器、n個內(nèi)存模塊的交叉開關(guān)構(gòu)造成本為____。
A.O(logn)
B.O(n)
C.O(nlogn)
D.O(n^2)
26.SSE intrinsics _mm_load_pd命令的功能是____。
A.對齊向量讀取單精度浮點數(shù)
B.未對齊向量讀取單精度浮點數(shù)
C.對齊向量讀取雙精度浮點數(shù)
D.未對齊向量讀取雙精度浮點數(shù)
27.天河1號、天河2號、神威.太湖之光總體上都是____架構(gòu)
A.單核
B.多核
C.眾核
D.集群
28.任務(wù)依賴圖中頂點權(quán)重之和表示____。
A.任務(wù)數(shù)
B.任務(wù)難度
C.串行執(zhí)行時間
D.并行執(zhí)行時間
29.MPI組通信操作不包括哪類____。
A.通信
B.同步
C.點對點
D.計算
30.OpenMP的循環(huán)調(diào)度策略不會影響算法的____。
A.負載均衡
B.調(diào)度開銷
C.計算總量
D.數(shù)據(jù)局部性
31.關(guān)于障礙機制,下面說法錯誤的是____。
A.會導(dǎo)致快速線程阻塞,不應(yīng)使用
B.在需要強制線程步調(diào)一致時,應(yīng)使用
C.可用互斥量機制實現(xiàn)
D.屬于一種組通信
32.OpenMP編譯指示的作用范圍是____。
A.其后一個語句
B.其后連續(xù)語句
C.其后直到函數(shù)結(jié)束
D.整個函數(shù)
33.記并行時間為T,串行時間為T',處理器數(shù)量為p,則額外開銷應(yīng)如何計算?
A.T'-T
B.T-T'
C.pT
D.pT-T'
34.兩個矩陣相乘前將第二個矩陣轉(zhuǎn)置,是使用利用數(shù)據(jù)訪問的_____達到更高的cache命中率。
A.時間局部性
B.空間局部性
C.計算局部性
D.混合局部性
35.鏈表數(shù)據(jù)結(jié)構(gòu)的查找、插入、刪除等操作,既有對鏈表的讀也有對鏈表的寫,對此,采用互斥量加解鎖整個鏈表的同步機制相比加解鎖每個節(jié)點的方式的缺點是____。
A.粒度太粗,節(jié)點讀寫一致性不能保證
B.粒度太粗,線程不必要的等待
C.粒度太細,加解鎖開銷大
D.粒度太細,總體讀寫一致性不能保證
36.對矩陣每行排序的程序進行多線程并行化,對矩陣采用____。
A.簡單均勻塊劃分即可保證負載均衡
B.循環(huán)劃分才能實現(xiàn)負載均衡
C.動態(tài)劃分才能實現(xiàn)負載均衡
D.隨機劃分才能實現(xiàn)負載均衡
37.____執(zhí)行pthread_sem_post操作,當(dāng)前線程會喚醒阻塞線程。
A.當(dāng)信號量已加鎖時
B.當(dāng)信號量為0時
C.當(dāng)信號量已超過閾值時
D.當(dāng)信號量已銷毀時
38.我們在小規(guī)模系統(tǒng)和小規(guī)模輸入下測試了幾個并行算法,應(yīng)選擇哪個應(yīng)用在實際系統(tǒng)中?
A.選擇性能測試并行時間最少者
B.選擇性能測試加速比最大者
C.選擇性能測試效率最高者
D.應(yīng)結(jié)合可擴展性分析做出選擇
39.AVX_512有____個專用寄存器。
A.4
B.8
C.16
D.32
40.實現(xiàn)任何時刻都只有一個線程進行共享變量更新的OpenMP指令是____。
A.omp parallel
B.omp barrier
C.omp critical
D.omp reduce
41.動態(tài)線程編程模式的優(yōu)點是____。
A.線程創(chuàng)建開銷低
B.線程管理開銷低
C.線程終止開銷低
D.系統(tǒng)資源利用率高
42.關(guān)于MPI_recv對源地址的標(biāo)識,下列說法正確的是____。
A.只能使用進程編號
B.可以使用IP地址
C.可以使用IPV6地址
D.可以使用MPI_ANY_SOURCE
43.以下____不是MPI基本原語。
A.MPI_Comm_rank
B.MPI_Comm_no
C.MPI_Comm_size
D.MPI_Init
44.通常忙等待方法的性能要比互斥量方法的性能____。
A.更高
B.更低
C.高低不確定
D.以上皆錯
45.n個元素排序問題,如果只能通過元素比較交換構(gòu)造算法,則n個處理器的并行排序算法達到____的運行時間才是代價最優(yōu)的。
A.O(logn)
B.O(n)
C.O(nlogn)
D.O(n^2)
46.pthread_join通過____指定要等待的線程。
A.pthread_create返回的線程句柄
B.線程的系統(tǒng)ID
C.創(chuàng)建線程時設(shè)置的線程號
D.創(chuàng)建線程時設(shè)置的線程名
47.推動GPU應(yīng)用于通用高性能計算爆發(fā)式增長的開發(fā)工具是____。
A.OpenGL
B.OpenCL
C.DirectX
D.CUDA
48.在使用條件變量時,還需配套使用一個____。
A.互斥量
B.信號量
C.障礙
D.自旋鎖
49.將起泡排序程序改寫為奇偶轉(zhuǎn)置排序,關(guān)于其兩層循環(huán)是否存在數(shù)據(jù)依賴,下面說法正確的是____。
A.外層存在,內(nèi)層不存在
B.外層不存在,內(nèi)層存在
C.兩層都不存在
D.兩層都存在
50.float a[64]; for (i=0; i<60; i+=4) Va = a[i+2:i+5]; 系統(tǒng)向量化訪存是按16字節(jié)對齊的,則此向量化程序每個循環(huán)步產(chǎn)生____個內(nèi)存訪問操作。
A.1
B.2
C.3
D.4
奧鵬,國開,廣開,電大在線,各省平臺,新疆一體化等平臺學(xué)習(xí)
詳情請咨詢QQ : 3230981406或微信:aopopenfd777