ゼロからはじめるクレジットカード

バンドルカードやクレジットカードの情報を発信しています

ChatGPTの画像入力と画像認識・画像生成を分かりやすく解説

ChatGPTは画像入力と画像認識はできるの?

ChatGPTでの画像生成のやり方を知りたい。

あなたは今、このようにお考えですよね。

ChatGPTはOpen AIが開発した、自然な対話で文章生成や要約、翻訳ができるAIチャットサービスです。

ここではChatGPTでは画像を参照できる機能がないため、画像入力と画像認識はできるのか疑問を感じている方も少なくありません。

また画像生成を行いたいとお考えの方に向けて解説していきましょう。

ChatGPTの画像入力と画像認識・画像生成を分かりやすく解説

ChatGPTの画像入力と画像認識の機能は、今後GPT-4の新機能「Image Inputs」にて実装される予定ですが、画像生成については行うことができます。

画像入力の機能が実装されれば、ChatGPTのメッセージフォームからファイルの読み込みを行い、画像認識できるようになるでしょう。

なお現時点、特別に提供されているユーザーを除き、一般ユーザーには画像入力の機能はリリースされていません。

これについてはChatGPTの公式サイトに「Image inputs are still a research preview and not publicly available.」と明記されている通りです。

ファイルの読み込みはできませんが、ChatGPTでは画像入力ができないわけではありません。

マークダウン形式で画像を読み込ませれば、ChatGPTが画像認識できるようになります。

一方、画像生成については、ChatGPT APIをPythonで利用し、openaiライブラリから行うことができます。

ChatGPTの画像入力と画像認識のやり方

ChatGPTの画像入力と画像認識のやり方は、テキストや画像を書くための言語「マークダウン形式」を用います。

画像の【![代替テキスト](画像のURL)】と記述する手法がマークダウン形式です。

では画像認識させるために、ChatGPTでの画像入力のやり方をみていきましょう。

  • 手順1.サーバーに画像をアップロードする
  • 手順2.画像のURLをコピーする
  • 手順3.ChatGPTにマークダウン記述を行う

画像のURLを発行する必要があるので、まずはChatGPTで表示させたい画像をサーバーにアップロードします。

つづいてアップロードした画像のURLをコピーしたら、マークダウン記述にしたがい代替テキストの入力と画像のURLのペーストを行います。

代替えテキストには、画像が表示されない場合、画像のかわりに表示されるテキストをを入力しましょう。

たとえばくまの画像を表示したい場合「![くま](http://~~~jpg)」と入力すれば、画像入力は完了します。

これでChatGPTで画像認識ができるようになります。

画像認識を活用したChatGPTの使い方

ChatGPTで画像認識できるようになれば、画像を説明する文章を生成できるようになります。

やり方は、上述にならって画像のURLをマークダウン形式で入力し、画像についての説明を求める質問を投げかけます。

これによりChatGPTが画像を解析し、適切な説明文を生成します。

画像認識を活用すれば、ChatGPTはさまざまな使い方ができるでしょう。

ChatGPT 画像生成のやり方

ChatGPTでの画像生成のやり方について、APIをPythonで利用するケースについてみていきます。

  • 手順1.Open AIのPythonライブラリをインストール
  • 手順2.PythonライブラリとAPI情報を読み込む
  • 手順3.画像生成の関数を作成

ChatGPT APIをPythonで利用する場合、openaiライブラリを活用しますので、インストールを行います。

WIndowsはコマンドプロンプト、Macはターミナルを開き、「pip install openai」を実行しましょう。

つづいてPythonプログラムを記述し、ChatGPT APIを活用した画像生成のやり方をみていきます。

まずPythonプログラムの先頭に、ライブラリとAPIの認証情報を記述します。

前述で取得したOrganization IDとシークレットキーを入力しましょう。

import openai import requests import json openai.organization = "" openai.api_key = "<APIシークレットキーを入力>"

つづいてChatGPT APIを呼び出して画像を生成するための関数を、以下にならい記述します。

コード

# 画像生成 def create_image_from_text(text): # 応答設定 response = openai.Image.create( prompt = text,

# 画像生成に用いる説明文章 n = 1, # 画像を生成する枚数 size = '512x512', # 画像サイズ response_format = "url"

# API応答のフォーマット )

# API応答から画像URLを指定 image_url = response['data'][0]['url']

# 画像をローカルに保存 image_data = requests.get(image_url).content with open("chat-gpt-generated-image.jpg", "wb") as f: f.write(image_data) return image_url

引数情報

openai.Image.create()メソッドに説明文章を渡し、画像を生成します。

その際、次の引数を指定します。

「引数名」には概要を、「prompt」には画像生成に用いる説明文を入力します。

「n」には何枚の画像を生成するかを入力します。

「size」では256x256, 512x512、1024x1024が指定できるため、生成サイズを入力します。

「response_format」はurlまたはb64_jsonが指定できるため、APIの応答フォーマットを入力してください。

次は、上述の画像生成の関数に入力テキスト(text)を渡し、ChatGPT APIを起動して実行します。

コード

# 生成するイメージを文章で定義 text = "「どのような画像なのかを入力」" # 画像生成 img = create_image_from_text(text) これで出力でき、画像生成を完了できます。

ChatGPTの画像入力と画像認識・画像生成を分かりやすく解説まとめ

ChatGPTの画像入力と画像認識・画像生成について解説しました。

画像入力を終えれば画像認識ができるようになります。

ChatGPTでの画像生成のやり方はAPIをPythonで利用するケースを解説しましたので、ぜひ参考になさってください。