AIコンパイラ原理4

感谢 up 主 ZOMI 酱：https://space.bilibili.com/517221395

なぜ AI コンパイラが必要なのか#

直面している問題#

チャレンジカテゴリ	説明	ケース
演算子の挑戦	新しい演算子が次々と提案され、演算子ライブラリの開発、保守、最適化、テストの作業量が指数的に増加しています。	1. ハードウェアは新しい演算子を実装するだけでなく、ハードウェアに合わせた特性の最適化とテストも必要で、ハードウェアの性能を最大限に引き出す必要があります。例えば、畳み込み演算では、これを GEMM 行列乗算に変換する必要があります；新たに提案された Swish 演算子に対しては、ハードウェアは Swish に対応する実装を追加する必要があります。 2. ハードウェアベンダーは最適化ライブラリを公開しますが、類似の最適化ライブラリを開発する必要があり、これにより多くの演算子の最適化やラッピング作業が増え、ライブラリに過度に依存し、専用ハードウェアチップの能力を効果的に活用できなくなります。
最適化の挑戦	専用加速チップの爆発的な普及により、性能の移植性が必須となっています。	1. ほとんどの NPU は ASIC を使用しており、神経ネットワークのシナリオにおいて計算、ストレージ、データ転送に特化した命令の最適化を行い、AI 関連の計算性能を向上させています。 2. 異なるベンダーが提供する XPU の ISA は千差万別で、GCC、LLVM などのコンパイラツールチェーンが不足しているため、CPU および GPU 向けの既存の最適化演算子ライブラリや言語向けの最適化パスを NPU に短期間で移植することが非常に困難です。

従来のコンパイラと AI コンパイラ#

従来のコンパイラと AI コンパイラの主な違いは 2 つです：

IR の違い：AI コンパイラの IR は従来のコンパイラの IR が抽象化した概念や意味とは異なります。
1. AI コンパイラは一般に high-level IR を持ち、深層学習モデル内の演算を抽象的に記述するために使用されます。例えば：畳み込み、行列乗算など、場合によっては Transformer が持つグラフ構造を持つこともあります。
2. 従来のコンパイラは相対的に low-level IR を持ち、基本的な命令演算を記述するために使用されます。例えば、ロード、ストアなど。high-level IR があれば、AI コンパイラは深層学習モデルの DSL をより便利に記述できます。
最適化戦略：AI コンパイラは AI 分野に特化しており、最適化時により多くのドメイン特有の知識を取り入れ、より high-level で、より攻撃的な最適化手法を行います。例えば：
1. AI コンパイラは high-level IR で演算子の融合を実行し、従来のコンパイラがループ融合を実行する際には、より保守的になることが多いです。欠点は、デバッグ時の実行情報の追跡が難しくなる可能性があることです；
2. AI コンパイラは計算精度を低下させることができます。例えば int8、fp16、bf16 など、深層学習は計算精度にそれほど敏感ではありません。しかし、従来のコンパイラは一般に変数の型や精度を変更する最適化を実行しません。

AI コンパイラの発展段階#

推論シナリオ：AI フレームワークで訓練されたモデルファイルを入力し、異なるハードウェアで効率的に実行できるプログラムを出力します；
訓練シナリオ：高級言語で表現された神経ネットワークコードを入力し、異なるハードウェアで効率的に実行できるプログラムを出力します；

訓練シナリオとは何ですか？推論シナリオとは何ですか？
AI コンパイラを扱うには、なぜアルゴリズムを理解する必要があるのですか？
AI 演算子を扱うには、なぜコンパイラを理解する必要があるのですか？

AI コンパイラとは#

Python を主とした動的インタプリタ言語のフロントエンド
多層 IR 設計、グラフコンパイル、演算子コンパイル、コード生成を含む
神経ネットワーク、深層学習に特化した最適化
DSA チップアーキテクチャのサポート

AI コンパイラの発展段階#

ステージ I：素朴な AI コンパイラ#

TensorFlow の初期バージョンで、神経ネットワークに基づくプログラミングモデルで、主にグラフと演算子の 2 層の抽象化が行われました。

グラフ層：宣言的なプログラミング方式で、静的グラフ方式で実行し、実行前にハードウェアに依存しない最適化とハードウェアに依存する最適化を行います。ハードウェアに依存しない最適化には、式の簡略化、定数折りたたみ、自動微分などがあります；ハードウェアに依存する最適化には、演算子の融合、メモリ割り当てなどが含まれます。
演算子層：通常、手書きのカーネルの方式を採用し、NVIDIA GPU 上で CUDA カーネルに基づいて大量の.cu演算子を実装するか、CuDNN 演算子最適化ライブラリに依存します。

表現において：

静的グラフの表現は Python のネイティブではなく、開発者は主にフレームワークが提供する Python API を通じてグラフを表示し、使いやすさが悪いです；

性能において：

DSA 専用加速チップの出現が性能上の課題を悪化させました；
演算子層が提供する演算子の粒度と境界が事前に決定されると、ハードウェアの性能を十分に発揮できません；
ハードウェアベンダーが提供する演算子最適化ライブラリも最適とは限りません
- 1）モデルと形状が確定した場合、より優れた演算子実装がある可能性があります；
- 2）SIMT と SIMD アーキテクチャにおいて、スケジューリング、タイル化には大きな余地があります。

ステージ II 専用の AI コンパイラ#

表現において：

PyTorch の柔軟な表現 API 方式が AI フレームワークの参考基準となり、グラフ層の神経ネットワークコンパイラは主に PyTorch のような表現をグラフ層の IR に変換して最適化することを考慮しています。
PyTorch のような Python ネイティブ表現、静的化変換；
AI 専用コンパイラアーキテクチャが、グラフと演算の境界を開いて融合最適化を行います；

性能において：

計算グラフと演算子の境界を開き、再構成最適化を行い、チップの計算能力を発揮します。計算グラフ層はサブグラフ内の演算子を小さな演算子に開放し、小さな演算子で構成されたサブグラフに対してコンパイル最適化を行います。これにはバッファ融合、水平融合などが含まれ、重要なのは大きな演算子をどのように開放し、小さな演算子をどのように再融合するかです。

表現の分離：計算グラフ層と演算子層は依然として分かれており、アルゴリズムエンジニアは主にグラフ層の表現に焦点を当て、演算子の表現と実装は主にフレームワーク開発者とチップベンダーが提供します。
機能の一般化：柔軟な表現における動的・静的グラフの変換、動的形状、疎計算、分散並列最適化などの複雑な要求を満たすのが難しいです。
効率と性能のバランス：演算子の実装においてスケジュール、タイル化、コード生成に自動化手段が欠けており、ハードルが高く、開発者は演算子の計算ロジックを理解するだけでなく、ハードウェアアーキテクチャにも精通している必要があります。

ステージ III 汎用 AI コンパイラ#

グラフと演算の統一表現を実現し、融合最適化を行います
演算子の実装において自動スケジュール、タイル化、コード生成を行い、開発のハードルを下げます
より一般化された最適化能力を実現し、動的・静的の統一、動的形状、疎性、高次微分、自動並列などを実現します
コンパイラ、ランタイムを含み、異種計算、エッジからデータセンターまでモジュール化された表現と組み合わせに焦点を当てます

AI コンパイラの汎用アーキテクチャ#

IR 中間表現#

コンパイラは主にフロントエンドとバックエンドに分かれ、それぞれハードウェアに依存しない処理とハードウェアに依存する処理を行います。各部分にはそれぞれの IR があり、各部分も最適化を行います：

High-level IR：計算グラフを表現するために使用され、従来のコンパイラで深層学習モデル内の複雑な演算を表現するのが難しいという問題を解決するために登場しました。より効率的な最適化を実現するために新たに設計された IR です。
Low-level IR：より細かい粒度でモデルを表現できるため、ハードウェアに対して最適化を行うことができます。文中ではこれを 3 つのカテゴリに分けています。

フロントエンド最適化#

計算グラフを構築した後、フロントエンドはグラフレベルの最適化を適用します。グラフは計算の全体像を提供するため、グラフレベルで多くの最適化を発見し実行するのが容易です。フロントエンド最適化はハードウェアに依存しないため、計算グラフの最適化をさまざまなバックエンドターゲットに適用できます。フロントエンド最適化は 3 つのカテゴリに分かれます：

ノードレベルの最適化、例えばゼロ次元テンソルの排除、ノップの排除
ブロックレベルの最適化、例えば代数の簡略化、定数の折りたたみ、演算子の融合
データフローレベルの最適化、例えば共通部分式の排除、DCE

バックエンド最適化#

特定ハードウェアの最適化
- 特定のハードウェアアーキテクチャに対して高性能なコードを取得することを目指します。1）低レベル IR を LLVM IR に変換し、LLVM 基盤を利用して最適化された CPU/GPU コードを生成します。2）ドメイン知識を利用して最適化をカスタマイズし、ターゲットハードウェアをより効果的に活用します。
自動調整
- 特定ハードウェアの最適化においてパラメータ調整に使用される探索空間が巨大であるため、自動調整を利用して最適なパラメータ設定を決定する必要があります。1）Halide/TVM はスケジューリングと計算表現を分けて、自動調整を使用して最適な構成を導き出します。2）多面体モデルを使用してパラメータ調整を行います。
最適化カーネルライブラリ
- ベンダー特有の最適化カーネルライブラリは、さまざまなハードウェアでの DL トレーニングと推論を加速するために広く使用されます。特定の最適化原語が計算要件を満たす場合、最適化されたカーネルライブラリを使用することで性能が大幅に向上しますが、そうでない場合はさらなる最適化の制約を受ける可能性があります。

AI コンパイラの課題と考察#

XLA：機械学習コンパイラの最適化#

XLA（加速線形代数）は、特定のドメイン向けの線形代数コンパイラで、TensorFlow モデルの実行速度を向上させることができ、ソースコードを変更する必要がない場合もあります。

XLA：グラフ層でサブグラフ内の演算子を小さな演算子に開放し、小さな演算子で構成されたサブグラフに対してコンパイル最適化を行います。これにはバッファ融合、水平融合などが含まれ、重要なのは大きな演算子をどのように開放し、小さな演算子をどのように再融合し、新しい大きな演算子をどのように生成するかです。全体設計は主に HLO/LLO/LLVM IR を通じて実現され、すべての Pass ルールは手動で事前に指定されています。

TVM：エンドツーエンドの深層学習コンパイラ#

さまざまなハードウェアバックエンドの計算グラフ層と演算子層の最適化を可能にするために、TVM は既存のフレームワークから DL プログラムの高レベル表現を取得し、複数のハードウェアプラットフォームバックエンドで低レベルの最適化コードを生成します。その目標は、人工調整との競争力を示すことです。

TVM：Relay と TVM の 2 層に分かれ、Relay はグラフ層に焦点を当て、TVM は演算子層に焦点を当て、フロントエンドのサブグラフを最適化します。Relay は演算子間の融合に焦点を当て、TVM は新しい演算子とカーネルの生成に焦点を当てます。違いは、TVM がオープンアーキテクチャであり、Relay の目標はさまざまなフロントエンドに接続できることです。TVM も独立して使用できる演算子開発とコンパイルのツールであり、演算子実装において Compute（計算ロジックの設計）と Schedule（スケジューリング最適化ロジックの指定）の分離スキームを採用しています。

TENSOR COMPREHENSIONS：神経ネットワーク言語コンパイラ#

TensorComprehensions は、JIT システムを構築できる言語であり、プログラマーはこの言語を使用して高級プログラミング言語で GPU などの低レベルコードを効率的に実装できます。

TC：演算子計算ロジックの実装は比較的容易ですが、スケジュールの開発は難しく、アルゴリズムロジックを理解するだけでなく、ハードウェアアーキテクチャにも精通している必要があります。さらに、グラフと演算の境界が開放された後、小さな演算子が融合されると、新しい演算子とカーネルが生成されますが、新しい演算子のスケジュールを生成するのは難しいです。従来の方法ではスケジュールテンプレートが定義されています。TC は多面体モデルを通じて自動スケジュールを実現したいと考えています。

nGraph：すべてのフレームワークに対応する深層学習システムコンパイラ#

nGraph の運用は、深層学習フレームワークの中でより複雑な DNN 演算の基盤として機能し、推論計算と訓練および推論計算の間で理想的な効率のバランスを確保します。

課題#

動的形状と動的計算グラフ：
- 現状：主流の AI コンパイラは主に特定の静的形状入力に対してコンパイル最適化を行い、制御フローの意味を含む動的計算グラフのサポートは限られています。
- 問題：AI アプリケーションシナリオには、動的計算グラフを必要とするタスクが多数存在します。フロントエンドは計算グラフを静的計算グラフに書き換えたり、コンパイルに適した部分のサブグラフを展開して最適化することを試みることができますが、これらの方法ではすべての問題を解決できません。
- 事例：特定の AI タスク（例えば、ピラミッド構造の検出モデル）は、手動で書き換えることで静的化することができず、コンパイラはこれらの状況で効果的に最適化するのが難しいです。

Python コンパイルの静的化：

方法	説明
Python JIT 仮想マシン	PyPy や CPython のように、Python の解釈実行に基づいて JIT コンパイルの加速能力を追加しようとしますが、互換性に問題があります。
修飾子方式	torch.jit.script、torch.jit.trace、torch.fx、LazyTensor、TorchDynamo のように、これらの手段は広く使用されていますが、依然として完璧なソリューションは欠けています。

Python JIT 仮想マシン

**修飾子方式**

- **AIコンパイラがPythonの静的化において直面する課題**：
    - **型推論**：Pythonの動的型からコンパイラIRの静的型への変換。
    - **制御フローの表現**：if、else、while、forなどの制御文の表現。
    - **柔軟な構文とデータ型の変換**：Slice、Dict、Indexなどの操作の処理。
    - **JITコンパイル性能**：トレースベースでもAST変換でも、追加のコンパイルオーバーヘッドが必要です。

3. ハードウェア性能の発揮、特に DSA タイプのチップ：

現状：DSA（専用ハードウェアアーキテクチャ）は AI の訓練と推論においてますます重要になっています。例えば、CPU の SIMD ユニット、GPU の SIMT アーキテクチャ、Huawei Ascend の Cube コアなど。
課題：
- 性能最適化はグラフと演算の融合に依存：グラフ層と演算子層を独立して最適化する必要があり、チップ性能を十分に発揮できません。グラフと演算の融合最適化が必要です。例えば、サブグラフの分割、サブグラフ内の垂直融合最適化、水平並列最適化など。
- 最適化の複雑さの増加：スカラー、ベクトル、テンソル、加速命令の多層ストレージ構造が関与し、カーネル実装のスケジューリング、ブロック化、ベクトル化、テンソル化が複雑になります。
解決策：
- グラフと演算の境界を開いて再構成最適化を行い、チップ性能を最大限に発揮します。
- 様々な最適化手法を融合します：垂直融合最適化（バッファ融合など）と水平並列最適化（データ並列など）。
- 再構成最適化後のサブグラフのカーネルコードを自動生成します。例えば、スケジューリング、ブロック化、ベクトル化など。

神経ネットワークの特性の処理：自動微分、自動並列など：

タスク	現状	課題
自動並列	現在の大規模モデルの訓練はメモリの壁と性能の壁に直面しており、複雑な並列戦略が必要です。スケールアウト：データ並列、テンソル並列、パイプライン並列などの多次元混合並列能力。スケールアップ：再計算、混合精度、異種並列など。	手動での分割戦略に依存しており、ハードルが高く、効率が低いです。半自動並列は一部の効率問題を解決できますが、最適な並列戦略を自動的に見つけるにはコンパイルと凸最適化問題の解決に依存します。
自動微分	制御フロー：動的グラフは Python 側で制御フローを実行し、ループ回数が多くなると性能が劣化します；静的グラフの自動微分は論理の接続や計算グラフの展開によって解決され、ある程度性能問題を解決できますが、方案はまだ改善が必要です。高次微分：ヤコビ行列を通じて高次の前向きおよび後向き微分を効果的に展開し、ヘッセ行列を通じて高次微分を迅速に計算することができます。	制御フロー：動的グラフは複雑な制御フローを処理する際に性能が低下し、特にループ回数が多い場合に顕著です。静的グラフの方案は性能と安定性を向上させるためにさらなる最適化が必要です。高次微分：高次の前向きおよび後向き微分を効果的に展開し計算する方法、計算の正確性と効率を確保する必要があります。開発者は高次微分グラフを柔軟に制御する必要があります。

使いやすさと性能の両立

面	説明
AI フレームワークとの境界と接続	異なる AI フレームワークは深層学習タスクの抽象的な記述と API インターフェースが異なり、それぞれ特徴があります。すべての演算子を完全にサポートしない場合でも、ユーザーの計算グラフの記述を透明にサポートする方法を考慮する必要があります。
ユーザーの透明性の問題	一部の AI コンパイラは完全自動のコンパイラツールではなく、性能はユーザーが提供する高レベルの抽象実装テンプレート（例えば TVM）に依存します。これにより、手動調整の演算子実装の人件費が削減されますが、既存の抽象は革新的なハードウェアアーキテクチャに必要な演算子実装を十分に記述できず、コンパイラアーキテクチャに十分精通していなければ二次開発やアーキテクチャの再構築が難しく、ハードルが高く、開発負担が重くなります。
コンパイルオーバーヘッド	AI コンパイラは性能最適化ツールとして、コンパイルオーバーヘッドが性能利益に対して十分に優位である場合にのみ実用的な価値があります。特定のアプリケーションシナリオでは、コンパイルオーバーヘッドに対する要求が高く、AI コンパイラを使用することでモデルのデバッグと検証を迅速に完了することが妨げられ、開発と展開の難易度と負担が増加します。
性能問題	コンパイラの最適化は本質的に人工的な最適化手法や探求が難しい最適化手法を一般化と抽象化を通じて、限られたコンパイルオーバーヘッドで手動最適化の人件費を代替することです。深層学習コンパイラは、性能が実際に人工最適化を代替または超えることができる場合にのみ価値を発揮します。
堅牢性	ほとんどの AI コンパイラは研究段階にあり、製品の成熟度は産業レベルのアプリケーションと大きなギャップがあります。計算グラフのコンパイルがスムーズに行えるか、計算結果の正確性を確保できるか、エラーの追跡とデバッグの能力を考慮する必要があります。

その他の問題#

グラフと演算は統一表現でき、統一コンパイル最適化を形成し、汎用の AI コンパイラを作成できるか？
現在の AI フレームワークでは、グラフ層と演算子層は分かれて表現され、最適化されています。アルゴリズムエンジニアは主にグラフ層の表現に接触し、AI フレームワーク、チップ、カーネル開発エンジニアは主に演算子の表現を担当しています。将来的には IR がグラフと演算の間のギャップを打破し、AI + 科学計算、AI + ビッグデータなどの新しいシナリオの推進により、計算グラフ層と演算子層が明確でなくなり、AI のコンパイル最適化が統一される可能性があります。
完全な自動並列は実現可能か？
自動並列は、ユーザーが入力した直列ネットワークモデルと提供されたクラスターリソース情報に基づいて自動的に分散トレーニングを行うことができ、統一された分散計算グラフと統一されたリソースグラフ設計を採用することで、任意の並列とさまざまなハードウェアクラスターリソース上での分散トレーニングをサポートし、全体コストモデルに基づくプランナーを利用してトレーニングタスクに対してハードウェア感知の並列戦略を自動的に選択できます。実際、自動並列は戦略探索の問題であり、戦略探索は限られた探索空間で次善の答えを見つけることができますが、真の意味での自動並列が実現できるかどうかはさらなる考察と検証が必要です。
AI チップはコンパイラを必要とするか？AI チップは AI コンパイラを必要とするか？
AI チップのコンパイラへの依存は、チップ自体の設計に依存します。柔軟なチップほどコンパイラへの依存が大きくなります。AI チップの設計初期には、CISC スタイルでチップ内部で最適化を解決することがありました。しかし、専用分野の進化に伴い、より柔軟な要求をサポートするために、AI チップ自体はテンソル命令セットと特殊メモリ構造を保持しつつ、ますます柔軟になります。将来のアーキテクトは、チップとシステムの協調設計を行い、自動化もますます専用チップに適用されるようになるでしょう。

未来#

コンパイラの形態：推論と訓練を分け、AOT と JIT の 2 つのコンパイル方式が共存します
IR の形態：AI に統一された IR 表現を持つ MLIR のようなものが必要です
自動並列：機械間、ノード間の自動並列のコンパイル最適化能力を提供します
自動微分：高次微分の計算方法を提供し、グラフ操作を容易にします
カーネルの自動生成：開発のハードルを下げ、高効率で高汎用の演算子を迅速に実現します