ゼロからはじめるクレジットカード

バンドルカードやクレジットカードの情報を発信しています

ChatGPTの仕組みを分かりやすく解説

ChatGPTの仕組みを知りたい。

あなたは今、このように考えていますよね。

ChatGPTは、対話形式で自然な文章を返すAIのチャットサービスです。

人間の質問などから学習を行い、人間が希望する回答を返せることがChatGPTの特徴です。

質問に対し、莫大なデータから適切な回答を返すことができますが、ChatGPTはどのような仕組みで回答を行うのか気になる方もいるでしょう。

ここではChatGPTの仕組みについて詳しく解説していきます。

ChatGPTの仕組みを分かりやすく解説

ChatGPTの仕組みは、モデル、アルゴリズム、データセットの3つで構成されています。

人間のフィードバックを基にした強化学習のアルゴリズムをRLHFと言います。

RLHFによって、有用かつ無害な出力を対話形式で回答を得られるように、GPT-3.5をチューニングした言語モデルこそがChatGPTです。

ではChatGPTはどのような学習の過程を経ているのか、その仕組みについてかみ砕きながら解説していきましょう。

ChatGPTの仕組み 1.モデル

ChatGPTの仕組みとして、学習の基盤となるモデルには2つあります。

  • GPT-3.5:OpenAIが開発した文章生成モデル
  • RM:文章のクオリティを評価するモデル

GPT-3.5

GPT-3.5とは、GPTのバージョン3.5をさしています。

GPTとは「Generative Pre-trained Transformer」の略称をさしており、OpenAIが開発した文章生成モデルのことを言います。

すなわちGPT3.5とは、GPTを調整したモデルをさしていて、テキストとコードを織り交ぜた学習データを用いていることが違いになります。

なおGPT→InstructGPT→ChatGPTの順に言語モデルは進化を遂げてきています。

GPTを有益かつ無害な出力に開発されたのがInstructGPTで、さらにInstructGPTを対話形式にバージョンアップした言語モデルがChatGPTです。

ChatGPTの仕組みのひとつとして覚えておくと役立つかもしれません。

RM

RMとは「Reward Model」の略称をさしており、報酬モデル、すなわち文章のクオリティを評価するモデルのことを言います。

文章のクオリティとは、情報が正しいかを判断する「Truthfulness(真実性)」、人や環境へ害を及ぼさないかを判断する「Harmlessness(無害性)」、

ユーザーの目的を達成できるかを判断する「Helpfulness(有益性)」が、OpenAIによって定義されています。

ChatGPTの仕組み 2.アルゴリズム

ChatGPTの仕組みのひとつ、学習に必要なアルゴリズムは3つあります。

  • RLHF:言語モデルに対し人間のフィードバックをもとにした強化学習で言語モデルの性能をアップさせるアルゴリズム
  • SFT:教師データにて言語モデルの性能をアップさせるアルゴリズム
  • PPO:特定の状況下で人間が取る行動の確率を最適化して、言語モデルの学習強化を向上させるアルゴリズム

RLHF

RLHFとは「Reinforcement Learning from Human Feedback」の略称です。

人間のフィードバックを基にした強化学習をさしており、言語モデルのパラメーターを微調整して、性能をアップさせるアルゴリズムをさしています。

SFT

SFTとは「Supervised Fine-Tuning」の略称です。

教師データによって言語モデルのパラメーターを微調整して、性能を向上させるアルゴリズムをさしています。

PPO

PPOとは「Proximal Policy Optimization」の略称。

特定の状況において人間が取る行動の確率を最適化するために、OpenAIが開発した言語モデルの学習を強化するためのアルゴリズムになります。

ChatGPTの仕組み 3.データセット

ChatGPTの仕組みとして、学習に必要なデータセットも3つになります。

  • 大規模なコーパス:ウェブ上にある文章を集約したデータベース
  • 会話データセット:人間が入力したプロンプトと、それに対して人間が回答した自然言語のデータ
  • 評価データセット:人間が入力したプロンプトに対する回答が妥当だったのかを人が評価したデータ

なお自然言語とは、人間が生活の中で使う一般的な言葉をさしており、対義語としてプログラミング言語などの人工言語があげられます。

ChatGPTの仕組み 学習の流れ

ChatGPTの仕組みとして、モデル、アルゴリズム、データセットについて解説してきました。

最後に、これら3つをどのようにしてChatGPTの学習で活用しているのか、その流れと仕組みについてみていきます。

  • 手順1.GPT-3.5の事前学習
  • 手順2.GPT-3.5のファインチューニング(SFT)
  • 手順3.RMの学習
  • 手順4.RMによるSFTモデルの最適化(PPO)

GPT-3.5の学習とファインチューニング

GPT-3.5の事前学習をしたら、GPT-3.5に対してWebから取得した大規模なコーパスを学習させます。

つづいて人間の会話データセットを用いて、事前学習したGPT-3.5のファインチューニング(SFT)をします。

RMの学習

文章におけるクオリティの評価データセットを作るために、SFTモデルを用いて、1つの入力データから複数の出力データを生成します。

そして出力結果について、クオリティが高い文章かどうかを、人間のランキングによって評価します。

この評価データセットを用いて、RMを学習させます。

RMによるSFTモデルの最適化(PPO)

そして最後に、RMによってSFTモデルを最適化します。

作成したSFTモデルを活用して、入力データから出力データを生成します。

この出力データをRMが評価したら、評価が向上するように、PPOによって方策を最適化します。

ChatGPTの仕組みを分かりやすく解説まとめ

ChatGPTの仕組みについて解説しました。

言語モデル、アルゴリズム、データセットを適切に組み込み、流れにしたがって学習したものがChatGPTです。

言語モデルの進化のプロセスとしてGPT→InstructGPT→ChatGPTの順にバージョンアップしていったことも、ChatGPTの知識として覚えておけば役立つはずです。

自然な会話で回答を返すAIチャットツールのChatGPTはさまざまな仕組みによって構成されています。

プログラミングの専門用語ばかりでChatGPTの仕組みはわかりづらいため、こちらでかみ砕いて解説しました。

もしわからなければみずから情報を検索してChatGPTの仕組みについて理解することも必要かもしれません。