ChatGPTの画像認識・画像読み込みを分かりやすく解説

ChatGPTは極めて高性能な対話型AIです。

そんなChatGPTで画像認識・画像読み込み機能を利用できないだろうかとお考えの人も多いのではないでしょうか。

また、仮にできたとしてその精度はいかほどなのか気になるという人もいることでしょう。

そこで今回はChatGPTの画像認識・画像読み込み機能について分かりやすく解説していきます。

ChatGPTの画像認識・画像読み込みも可能

ChatGPTは画像認識・画像読み込みも可能です。

ただし、実用性はほとんどありません。画像認識・画像読み込みができるといっても、その画像がどういったものかを文字通り認識するだけです。

その画像をChatGPTで加工することはおろか、表示さえできません。

どういった画像かをテキストで返してくるだけです。

ウェブ制作に活用できないかと、試しに認識した画像のカラーコードを訪ねてみましたが、それも不可能でした。

結局、いまのところ想定できる使い方は、同じように画像情報を第三者へテキストで伝えたいときの文章生成くらいでしょうか。

また、今後リリースされる予定のGPT-4にも現在のところ画像アップロードボタンは見受けられません。

技術者向け情報を見るに画像認識・画像読み込み機能自体は備えているようですが、一般公開はされないようです。

ChatGPTはあくまでもテキスト特化のサービスであって、画像認識・画像読み込みは補助的な機能くらいに考えておくべきでしょう。

ChatGPTの画像認識・画像読み込みのやり方

ChatGPTへ画像をアップロードするような直感的なやり方はありません。

画像認識・画像読み込みさせるためにはテキストで画像のURLを指定する必要があります。サイトのURLではなく画像そのもののURLです。

すると、ChatGPT側でその画像に対する認識を返してきます。

たとえば、タッパーに入ったトマトの画像URLを指定したところ「トマトとアボガドのサラダ」で「バジルが添えられて鮮やかな印象」という返答がありました。

これは少しずれているものの、おおむねそのとおりで、あとはそこから問答を膨らませることも可能です。とはいえ、それだけです。

おそらくは、素直な画像認識ではなくサイト全体のテキストから判断して回答しているような印象です。

繰り返しになりますが、これらの挙動は総じておよそ実用的とはいえないかと思います。

もっとも、これはChatGPTがそう作られていないだけです。

AI自体の画像認識・画像読み込み機能はすでに相当な技術力に達しています。

画像生成のMidjurneyもそうですが、他には車の自動運転などの技術的なベースにもAIの画像認識・画像読み込みが絡んでいます。

ChatGPTが画像認識・画像読み込みに対応していないのは、単にそこを目指したシステムではないからというだけのことかと思います。

ChatGPTが画像認識・画像読み込みに対応するとどうなる?

ChatGPTが画像認識・画像読み込みに対応すると利便性が爆発的に向上すると思われます。

たとえば、手書きの文字を画像認識してオフィスソフトに文字起こしできるようになります。

いわゆるOCRのようなものです。そうなると学校での板書も不要になるでしょう。

あるいは、自身の意図する質問や回答を図で指示することもできるようになるかもしれません。

ただ、ChatGPTが本格的に画像認識・画像読み込みに対応する予定は不明です。 2023年内とも言われていますが、あくまでも予想に過ぎません。

世の中に与えるインパクトの大きさを考えると、調整に時間を掛けてもう少し遅いリリースになる可能性もあるかと思います。

ChatGPTの画像認識・画像読み込みの精度

現状のChatGPTの画像認識・画像読み込みの精度は実用に耐えません。

ここからは推測ですが、今後のChatGPTに実装される画像認識・画像読み込み機能も当初はあまり期待できないように思っています。

そもそも、現状のテキストベースのChatGPTでさえ、それらしい言語化をしているだけで回答の正確性には甚だ疑問を感じざるを得ません。

少なくともまずは「分からない」ことと正直に分からないと回答して、嘘をつかないことを確実にしてもらわなければ安心して使えません。

テキストベースでさえその有様なところで画像認識・画像読み込みを実装したとて、やはり安心して使えるものにはならないのではないでしょうか。

知るかぎりChatGPT以外のAIが画像認識を学習する際には、人の手によってラベル付けされたデータ群を用いていたはずです。

もちろん、ある程度の自己学習機能も備えてはいますが、結局重要なところは人海戦術だったはずです。

そうした背景を考えると、画像認識・画像読み込み技術が飛躍的に発展するとも思えません。

近い将来ChatGPTに画像認識・画像読み込み機能が実装されたとしても、いきなり実務で活用するのは難しいような気がします。

今のChatGPTと同じく仕様やメリット・デメリットを把握して部分的に活用していくかたちに落ち着くのではないでしょうか。

ChatGPTの画像認識・画像読み込みの弱点

仮にChatGPTが画像認識・画像読み込みに高い精度で対応したとしても小さくない問題は残ると思われます。

それは倫理的なフィルターです。

ChatGPTはもとより倫理的に厳しい基準が設定されています。

テキストベースの今でも差別や誹謗中傷につながるような質問には回答してもらえません。

したがって、画像認識・画像読み込みに対応した場合も、おそらくはかなり厳しいフィルターが適用されることでしょう。

そうしたことも考えると、やはりChatGPTが画像認識・画像読み込みに対応したとしてもその用途は狭い範囲にとどまるような気がします。

これは画像認識・画像読み込みの視点を除いても、ChatGPT引いてはAI全般の弱点です。

そうした特定の情報を省いたデータからはかなり偏った情報しか得られません。

ChatGPTのようなAIを活用するときは、前提としてそうした見えないフィルターがすでに存在することは忘れないでおきたいところです。