第2部技術

どう動くか

全 2 章。順番に読むのが標準ですが、各章は単体でも読めます。

テキストがトークン化され、ベクトル化され、Transformerで処理されて確率分布になり、サンプリングで文章になる。LLMの推論パイプライン全体を順に追う。

モダリティ別（テキスト・画像・音声・動画・3D）とアーキテクチャ別（自己回帰・拡散・GAN・VAE）の二軸で生成AIを整理。潜在空間・マルチモーダル統合・OSS vs 商用まで全体地図を描く。