ChatGPTで画像認識・画像生成！GPT-4Vの具体的な使い方とは？機能や料金も解説

2024 7/10

2023.11.05 2024.07.10

OpenAI社は2023年9月25日にChatGPTの新バージョン「GPT-4V」を発表しました。

ChatGPTは使い始めているものの、新機能「GPT-4V」の使い方を知らない方もいるのではないでしょうか。

そこで、本記事ではChatGPTの新機能「GPT-4V」の機能や使い方、活用事例を解説します。

ChatGPTの画像認識「GPT-4V」とは

ChatGPT新機能「GPT-4V」は、「マルチモーダルAI」です。

マルチモーダルAIとは、OpenAI社が開発した人工知能で、2種類以上の異なるデータから情報収集し処理できるAIです。

異なる種類のデータ情報を組み合わせることで、より質の高い情報収集はもちろん、深い洞察や精緻な予測まで可能になりました。

マルチモーダルAIでは、以下5種類のデータを使用します。

1.テキスト
2.音声
3.画像
4.動画
5.センサ情報

また、今までのChatGPTはテキストでのみ対話が可能でしたが、GPT-4Vでは画像認識機能が加わり、画像による対話もできるようになりました。

なお、GPT-4Vの「V」は、画像を意味する英単語「Vision」の頭文字を抜粋したものです。

ChatGPT新機能GPT-4Vを使うには有料プラン契約が必要

ChatGPTの新機能「GPT-4V」を利用するには、有料版の契約が必須です。

有料プランを契約してすぐにGPT-4Vの利用ができるのではなく、随時利用できるようになるため、気になる方は早めに契約するのがいいでしょう。

前提：プロンプトは「PromptSimple」で作成する

Custom Instructionsの使い方を紹介する前に、前提としてプロンプトの書き方を統一させてください。

本記事ではBotCampで推奨している、ChatGPTプロンプトテンプレート「Prompt Simple」を使用することを前提に説明します。
「Prompt Simple」とはDIK独自の書き方で、以下5項目を含むプロンプトのことを指します。

ChatGPTプロンプトテンプレート「Prompt Simple」

#お願い

#目的

#情報

#ルール

#出力

#お願い

「#お願い」に何を書く？
・5W1Hを意識して明確に具体的に作業をお願いする。
・仕事全体のうちの、どの役割を頼むのかを明確に伝える

#目的

「#目的」に何を書く？
・なぜその仕事をお願いしているのかの目的と背景を伝える

#情報

「#情報」に何を書く？
・自分とChatGPTの情報格差を無くし、前提知識を揃えるための参考情報を提供する

#ルール

「#ルール」に何を書く？
・クオリティとして担保したいこと、アウトプットとして期待していることを明確に伝える

#出力

「#出力」に何を書く？
・アウトプットイメージを伝える（表形式、ブレッド形式など）

GPT-4Vの使い方

ChatGPT新機能GPT-4Vの使い方は、以下の手順のとおりです。

New Chatの入力画面のクリップマークをクリックし、使用する画像を選択する。

画像をアップロードし、プロンプトを入力したら↑の確定ボタンを押す。
すると、ChatGPTから回答が生成され始める。

※ChatGPT新機能GPT-4Vは、有料プランを契約したユーザーが随時使えるようになる機能です。
　そのため、有料プランを契約して間もない場合は、入力画面に画像マークがまだ表示されていない場合があります。
　まだ画像マークが表示されていない場合は、しばらくの期間、表示されるまで待ってみてください。

ChatGPTで画像認識・画像生成|GPT-4Vの活用事例9選

ここからはChatGPT新機能GPT-4Vの具体的な使い方、以下9選をご紹介します。

使い方1：画像内容の言語化（説明・解説）
使い方2：画像内容の要約
使い方3：画像内の文章の翻訳
使い方4：画像読み取りによるCSV生成
使い方5：画像読み取りによるソースコードの生成
使い方6：画像読み取りによる位置情報の特定
使い方7：写真撮影方法の指摘
使い方8：画像内のアイテム説明
使い方9：ネーミング（アイデア出し）

それぞれの使い方を見ていきましょう。

使い方1：画像内容の言語化（説明・解説）

GPT-4Vを使うと、指定した画像の状況や示している内容の説明が可能です。

気づきにくい点も描写してくれるため、細かい箇所が気になる場合は、その内容も含めてプロンプトに入力するといいでしょう。

ただし、プロンプト内容によっては解説の精度が荒いことがあるため、プロンプトを補足して入力する必要があります。

画像内容を説明する事例

プロンプト内容に従って、画像内容が描写されました。
細かい背景や移っている人物の衣服まで説明されていることがわかります。

使い方2：画像内容の要約

GPT-4Vは、指定した画像内の文章や内容が認識できるため、的確に要約することが可能です。

画像内の文章を要約する事例

指示文に沿って、画像内の表の内容が要約されました。
わかりやすく結論・具体例が挙げられていて、考察までされています。

使い方3：画像内の文章の翻訳

GPT-4Vは画像内にある文章の文字起こしや翻訳も可能です。

単なる翻訳ではなく、指示や質問に対して応答する点が特徴と言えます。

画像内の文章を翻訳する事例

プロンプト内容に従って、画像に掲載されている英語の文章が日本語に翻訳されました。

使い方4：画像読み取りによるCSV生成

画像の読み取りによるCSV生成は、GPT-4Vでは直接できませんが、CSV生成のためのテキスト化が可能です。

画像読み取りによるCSV生成事例

入力内容に従って、CSVが生成できるよう、画像内の表がテキスト化されました。
このテキストをコピーして、データに貼り付け・保存すればCSVデータの完成です。

使い方5：画像読み取りによるコードの生成

GPT-4Vは、以下の言語を使ってコードが生成できます。

・HTML
・Python
・JavaScript
・C++
・Java
※既にあるコードをもとに新しいコードの生成も可能

GPT-4Vでは、指定した画像からSaaS開発に活かせるコードが生成できます。
文字や数値はもちろん、スタイルやデザインも指定した画像に近いイメージのものを生成できます。

画像読み取りによるコードの生成事例

プロンプト内容に従って、コードが生成されました。

使い方6：画像読み取りによる位置情報の特定

GPT-4Vは、指定した写真の場所の特定や推察が可能です。

情報が少ない場合は、商業施設や図書館、遊園地など、抽象的に場所を捉えて解説をしてくれます。

画像読み取りによる位置情報を特定する事例

入力した指示内容に沿って、画像の場所が特定されました。
指示していませんが、町の描写や名物の説明まで回答に含まれています。

使い方7：写真撮影方法の指摘

GPT-4Vは、指定した画像を分析し、より良く改善するためのアドバイスが可能です。

指定した写真や画像に、プロンプトで指示を出すと、意図に沿って改善点を抽出してくれます。

写真撮影方法を指摘してもらう事例

プロンプト内容に従って、写真撮影方法を指摘してもらいました。
7つの項目に分けて、細かく分析してくれています。

使い方8：画像内のアイテム説明

GPT-4Vは、画像内の特定のアイテム説明が可能です。

プロンプトで的確に指示して、気になる内容を尋ねてみましょう。

画像内のアイテムを説明する事例

指示内容に沿って、画像内のアイテムだけでなく、注意事項まで説明してくれています。

使い方9：ネーミング（アイデア出し）

GPT-4Vは、指定した画像の雰囲気や背景を推察し、ネーミングすることもできます。

指定した画像のネーミングに活用する事例

プロンプト内容に従って、画像をネーミングしてくれました。
似たようなネーミングがないため、実用的なアイデア出しに使えるでしょう。

ChatGPT研修「BotCamp」の特徴

わたしたちが提供する「BotCamp」は、ChatGPT研修の使い方を初心者から学べる研修です。

・日々登場する新しいAIツールやGPTsに、インプットが追いつかない
・AIツールの選択肢が多すぎて、自分にとって最適なツールを見つけられない
・生成系AIが仕事にどう役立つのか、あまりイメージできない
・すでに業務にAIを取り入れているが、使い方が適切なのかわからない
・時間をかけて学習しても、投資対効果がよいのか分からない
・プロンプトエンジニアリングって難しそう。とっつきづらく感じている

このようなお悩みをお持ちの方におすすめです。

BotCampの研修内容

BotCampの特徴1：プロンプトを難しく考えずシンプルに捉える

生成AIからのアウトプットの質を高めるコツは、指示文を「端的に・具体的に」書くことです。

だらだらと長く書く必要はありません。プログラミングやシステムエンジニアリングのように、用語めいた難しい言葉を使う必要も一切ありません。

「プロンプトエンジニアリング」と聞くとやや学術的で高度な技術的理解が必要な印象を受けるかもしれませんが、Prompt Simpleという考え方で、誰でも最小限の労力で最大限AIパワーを活用する方法をお伝えします。

BotCampの特徴2：便利なGPTsを厳選して紹介

GPT storeにて日々増え続ける膨大なGPTsのうち、業務改革のインパクトが大きく重要なGPTsを厳選して紹介します。

業務の種類ごとに、どのGPTを使うべきか自分で考え判断できる応用力を身につけることができます。

BotCampの特徴3：Advanced Data Analysis（旧Code Interpreter）で「一億総データサイエンティスト」に

CSV、PDFなどのデータをアップロードした上で、ChatGPT上でPythonのコードを生成・実行できる機能「Advanced Data Analysis」を活用し、高度な専門性がなくても誰もがデータサイエンティストのようなモデル作成、データの予測ができるようになります。

BotCamp開催概要

開催日程	研修内容ページを確認
研修時間	9:00～17:00もしくは10:00-18:00
開催形式	対面のみ(オンライン参加不可)
会場	水道橋開催の場合コンフォート水道橋東京都千代田区神田三崎町2-7-10 帝都三崎町ビル 2階,5階 https://www.relo-kaigi.jp/comfort-suidoubashi/access/ 神田開催の場合 BIRTH KANDA 東京都千代田区神田錦町1-17-1 神田髙木ビル7F https://birth-village.com/
備考	・ChatGPT(GPT-4)が入ったWindowsPCをお持ちください・推奨のOSはWindowsです。Macでの受講はご遠慮ください。・セキュリティ上ChatGPTが使えないPCでの受講はご遠慮ください。

BotCampの研修内容