コグノスケ

未来から過去へ表示(*) link

過去から未来へ表示

もっと前

2020年1月11日 >>> 2019年12月29日

もっと後

2020年1月11日

permalink

編集する

memsetに一番効く最適化

目次: ベンチマーク

Cortex-A72でのmemsetはO2に-ftree-vectorizeと -fpeel-loopsを足すと、O3の性能とほぼイコールになることがわかりました。

gcc -O2 -ftree-vectorize -fpeel-loops -fno-builtinの測定結果（Cortex-A72）

元の処理が非常に単純なループ処理のためか、ループ系の最適化がメチャクチャ効くっぽいです。

何が効くのか？

GCCのGIMPLEを出力させ（-fdump-tree-all）眺めてみると、

オリジナル: 1バイトごとにデータ処理するループが生成される。
ベクタライズ（161t.vect）: 16バイトごとにデータ処理するループと、1バイトごとに残りデータを処理するループに分割される。
アンローリング（164t.cunroll, 169t.loopdone）: 残りデータを処理するループが展開される。

編集者:すずき(2023/09/24 08:55)

コメント一覧

コメントはありません。

この記事にコメントする

2020年1月6日

permalink

編集する

memsetのベンチマーク（AArch64, Cortex-A53編）

目次: ベンチマーク

（参考）コード一式はGitHubに置きました（GitHubへのリンク）

AArch64その2です。Cortex-A53でmemsetをやってみました。環境はRK3328 Cotex-A53 1.4GHzです。メモリはおそらくLPDDR3-1600です。

Cortex-A72と似ている点としては、

musl memset関数が非常に優秀
ベクトル化は性能向上に効くが、他も有効な要素がありそう

違う点としては、

アセンブラ実装とmusl memset関数の差が開く
O3の最適化がかなり効く（※）
glibc memset関数の不安定さが減る

こんなところでしょうか。A72のglibc memset関数はグラフが上がったり下がったりグチャグチャしていましたが、A53だと割と素直になっています。

gcc -O3 -fno-builtinの測定結果（Cortex-A53編）

gcc -O2 -ftree-vectorize -fno-builtinの測定結果（Cortex-A53編）

gcc -O2 -fno-builtinの測定結果（Cortex-A53編）

（※）A72では単純なmemset関数はmusl memset関数にほぼ勝てない（16〜22バイトのみ勝つ）が、A53では割と良い勝負（16〜22、32〜38、48〜52バイトで勝つ）をしている。

編集者:すずき(2023/09/24 08:54)

コメント一覧

コメントはありません。

この記事にコメントする

もっと前

2020年1月11日 >>> 2019年12月29日

もっと後

管理用メニュー

記事を新規作成

RSSを更新

<	2020					>
<<	<	01			>	>>
日	月	火	水	木	金	土
-	-	-	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31	-

本日の日記へ

最近のコメント20件

26年7月14日
hdkさん (07/22 08:37)
「冷却水漏れなんて、修理するまでは補充して...」
26年1月23日
すずきさん (01/29 09:48)
「おおー、そんな昔からなんですね。歴史感じ...」
26年1月23日
hdkさん (01/27 19:53)
「#! はUNIX v8からだったってWi...」
24年12月9日
すずきさん (01/18 15:45)
「Thank you for your i...」
24年12月9日
Up2Uさん (01/15 12:57)
「Hi I also find the p...」
25年12月18日
すずきさん (12/23 23:51)
「良く見たらksys_read()でfil...」
25年12月18日
すずきさん (12/23 23:15)
「ですね、まあpread+readだと話が...」
25年12月18日
hdkさん (12/21 08:34)
「昔試しにデバイスドライバーを作ったことが...」
25年11月28日
hdkさん (12/04 08:10)
「あれ、停止直前くらいの時のトルクコンバー...」
25年11月28日
すずきさん (12/03 11:24)
「トルクコンバーターがいてエンブレは掛かり...」
25年11月28日
hdkさん (12/02 08:02)
「"停止直前に急にエンブレがほぼゼロになる...」
25年10月6日
すずきさん (10/10 13:14)
「ですね。ccはもはやコンパイラというより...」
25年10月6日
hdkさん (10/10 08:27)
「ただのHello, worldでも試して...」
25年9月29日
すずきさん (10/03 00:29)
「なんと、メタパッケージ入れてなかったです...」
25年9月29日
hdkさん (10/02 06:51)
「あれ、dkmsは自動ビルドされるのが便利...」
20年8月24日
すずきさん (08/30 22:06)
「ですね、自分も今はPulseAudioを...」
20年8月24日
hdkさん (08/29 09:32)
「ALSA懐かしい... PulseAud...」
16年2月14日
すずきさん (08/04 01:31)
「お役に立ったようでしたら幸いです。」
16年2月14日
enc28j60さん (08/03 17:40)
「ちょうど詰まっていたところです。\n非常...」
25年7月20日
すずきさん (07/30 00:10)
「ギクシャクするのは減速時の2速シフトダウ...」

もっとみる

こんてんつ

wiki

pukiwiki

Linux JM

Java API

Java 8

Java 7

Java 6

Java 2 SE 5.0
link

Java 2 SE 1.4.0
link

Java 2 SE 1.3
link

Java Media Framework 2.0

過去の日記

2002年

8月 9月
10月 11月 12月

2003年

コグノスケ

2020年1月11日

memsetに一番効く最適化

何が効くのか？

コメント一覧

2020年1月6日

memsetのベンチマーク（AArch64, Cortex-A53編）

コメント一覧

管理用メニュー

最近のコメント20件

最近の記事3件

こんてんつ

過去の日記

その他の情報