はじめに
「この手書きの伝票、誰かがExcelに入力してくれたらいいのに…」
「会議のホワイトボード、写真に撮ったけど後で書き起こすのが面倒くさい…」
これまで、AIは「言葉(テキスト)」しか理解できないのが弱点でした。しかし、最新の「マルチモーダルAI」は違います。人間のと同じように「目(画像認識)」や「耳(音声認識)」を持ち、それらを同時に処理できるのです。
本記事では、GPT-4oやGemini 1.5 Proに代表されるマルチモーダルAIを使って、「視覚・聴覚」をビジネスに組み込む具体的な活用事例と、ノーコードツールMakeを使った実装方法を解説します。
【結論】「物理的な作業」の自動化が始まる
従来のAIは「デジタルデータ(テキスト)」の処理が得意でしたが、マルチモーダルAIは「アナログな現実世界」の情報を直接扱えます。
- 画像 → テキスト: 商品写真を撮るだけで、ECサイトの説明文とスペック表を自動生成。
- 動画 → テキスト: 1時間の研修動画をアップするだけで、テスト問題と要約マニュアルを作成。
- 音声+画像 → アクション: 機械の異音とエラー画面を認識し、故障原因を特定して部品を発注。
結論:マルチモーダルAIを活用すれば、これまで人間が「目で見て、手で入力していた」業務の9割を自動化できます。
マルチモーダルAIの仕組み
マルチモーダル(Multimodal)とは、「複数の(Multi)様式(Modal)」という意味です。
人間が「リンゴ」を見たとき、「赤い」「丸い」「果物」という視覚情報と、「リンゴ」という言葉を脳内で結びつけるように、AIも画像データとテキストデータを同じ空間で理解します。これにより、「この画像の右下に写っている赤いものは何?」といった質問に答えられるのです。
【事例3選】明日から使えるビジネスアイデア
事例1: ECサイトの「ささげ業務」完全自動化
アパレルや物販で最も手間がかかるのが、商品情報の登録(採寸、撮影、原稿作成)です。
- Before: スタッフが商品を採寸し、特徴を目視で確認してライティング。
- After: 商品写真を1枚撮ってAIに投げるだけ。AIが「色:ネイビー、素材:綿100%、特徴:ダブルボタンのジャケット」と認識し、SEOに強い紹介文を生成します。
事例2: 現場点検・報告のワンタップ化
建設現場や店舗管理において、報告書作成は大きな負担です。
- 仕組み: 現場の不具合箇所(ひび割れや汚れ)をスマホで撮影し、音声で「ここに亀裂あり、要補修」と吹き込む。
- 結果: AIが画像から破損レベルを判定し、音声と組み合わせて正式な「点検報告書(PDF)」を即座に発行します。
事例3: 動画コンテンツのリサイクル(Re-purpose)
YouTube動画やウェビナーの録画データから、ブログ記事、X(Twitter)の投稿文、ショート動画用の台本を一度に生成します。Gemini 1.5 Proのような長尺動画対応AIを使えば、数時間の動画も数秒で解析可能です。
【完全ガイド】実践!レシート読み取りBotを作ろう
今回は最も身近なマルチモーダル活用として、「LINEにレシート画像を送ると、自動で家計簿(スプレッドシート)に入力してくれるBot」をMakeで作ります。
Step 1: 必要なツール
- Make (旧Integromat): 自動化ツール。
- LINE公式アカウント: 画像の送信口として利用。
- OpenAI API (GPT-4o): 画像解析用。
- Google Sheets: データ保存用。
Step 2: LINEからの画像取得設定 (Make)
- Makeでシナリオを作成し、トリガーにLINEの「Watch events」を設定します。
- 次にLINEの「Download a message attachment」をつなぎ、画像データを取得します。
Step 3: GPT-4oによる画像解析 (Vision)
ここが肝です。画像をAIに見せてJSONデータ(構造化データ)に変換させます。
- OpenAI (ChatGPT & Whisper) モジュールを追加し、「Create a completion」を選択。
- Model:
gpt-4oを選択。 - Messages:
- Role: User
- Content Type: Text → 「このレシート画像を解析し、以下のJSON形式で出力してください: {“date”: “YYYY/MM/DD”, “store”: “店名”, “total”: 金額, “items”: [“品名1”, “品名2”] }」
- Content Type: Image URL → LINEモジュールからは直接画像URLが取れない場合が多いため、一時的にGoogle Driveに保存してURL発行するか、Base64エンコードを用いますが、一番簡単なのは「Upload a File」で画像を直接OpenAIに渡す機能(Makeのアップデート状況による)を使うことです。
※初心者向けの代替案: 画像を一度Google Driveにアップロードし、その「Web Content Link」をGPT-4oのImage URL欄に入力するのが確実です。
Step 4: スプレッドシートへ記録
- JSONモジュールで「Parse JSON」を使い、AIの返答を項目ごとに分解します。
- Google Sheetsの「Add a row」をつなぎ、
date,store,totalをそれぞれの列にマッピングします。
注意点とトラブルシューティング
プライバシーとセキュリティ
個人情報や顧客情報が含まれる画像(顔写真、請求書など)をAPIに投げる際は、OpenAI等のデータ利用ポリシー(学習に使われない設定)を必ず確認してください。
トークン消費量
画像入力はテキスト入力に比べてトークン消費量が多くなります。高解像度の画像をそのまま送るのではなく、必要十分なサイズ(例: 1024px以下)にリサイズしてから送るとコストを抑えられます。
まとめ
マルチモーダルAIの登場により、私たちは「キーボード入力」という呪縛から解放されつつあります。カメラとマイクが、最強の入力デバイスになるのです。
Next Action: まずは身の回りの手書きメモや書類をスマホで撮影し、ChatGPTアプリ(GPT-4o)に「これ文字起こしして」と投げてみてください。その精度に感動するはずです。


コメント