Zoom・Meet録画を自動で文字起こし！Colab × GPT-4oで作る自作爆速議事録ツール！

AICU Japan
2025年5月15日
読了時間: 4分

「ZoomやGoogle Meetでの会議動画を、あとから文字起こししたい！」──そんなニーズ、ありませんか？

今回の「サクリ！AIツール」では、Google Colab と OpenAI の最新モデル gpt-4o-mini-transcribe を活用し、オンライン会議を自動で書き起こすPythonツールを紹介します。AICU流の“つくる人をつくる”マインドで、「無料で」「自分で」作れる最強トランスクリプション（書き下し）ツールをあなたにお届けします。

🤖 なんで自分で作るの？

「文字起こしツールなんて、有料サービスがあるでしょ？」確かにそうです。たとえば：

Otter.ai や Notta などの専用サービス（でも月額課金…）
Google Gemini による議事録生成（ただし英語対応優先、日本語は遅れがち…）

でも、自分でColabに書いて作るとどうなるか？

🔧 自分の用途にピッタリカスタマイズできる！
📁 ローカルやGoogle Driveの動画をそのまま処理可能！
🔐 会議の内容を外部の企業に渡さずに済む
📚 そして何より「つくる人」になる経験値が溜まる！

🚀 ツールの特徴

このツールは、 OpenAI APIを使用し、Google Colab 上で動作し、以下のような特徴を持っています：

特徴

🎞️ ZoomやMeet録画を読み込みGoogle Driveから直接.mp4を指定

✂️ 長時間ファイルを自動分割、10分（600秒）ごとに自動セグメント化

🧠 OpenAI GPT-4oで高精度書き起こし、Whisper-1より賢く、速く、短い応答

📄 テキストで保存。.txtファイルとしてGoogle Driveに出力

✅ 処理後に整理。元ファイルを /done に移動し整理完了

🧪 どう使うの？

まず、OpenAIのAPIキーをご準備ください。以下の手順で `OPENAI_API_KEY` を Colab に設定してください。

画面左のサイドバーにある「鍵マーク（🔐）」をクリック（「環境設定」→「シークレットを管理」）
「+ 新しいシークレットを追加」をクリック
以下のように入力して「保存」：
- 名前（Name）: OPENAI_API_KEY
- 値（Value）: sk-...` から始まるあなたのOpenAI APIキー

⚠️ これにより、コード内にハードコードせずに安全にAPIキーを扱うことができます。

📁 Google DriveにZoom録画（.mp4）をアップロードGoogle Workspace Business Standardなどで契約した Meet会議の主催者なら、会議中の右下で「録画」を選ぶことでクラウド録画できます。

🔑 Colabメニューで OPENAI_API_KEY をシークレットに設定
▶️ ノートブックを実行
📝 自動で .txt 議事録が出力！

📋設定フォーム

PROMPT: 文字起こし時にAIへ与える指示（例：「逐語的に」「要約せずに」など）
DIR: Google Drive上の録画フォルダパス（例：/content/drive/MyDrive/Meet Recordings）最後のスラッシュは不要です
FILENAME: 対象となるファイル名（拡張子 .mp4 は省略可）
MOVE_TO_DONE: 処理後に元の .mp4 ファイルを done/ サブフォルダへ移動（デフォルト：True）
KEEP_MP3: 変換後の .mp3 を残すか（デフォルト：True）
SEGMENT_SECONDS: 音声分割の1チャンクの長さ（秒単位、デフォルト：600）

🎯 ファイル名が省略された場合は、フォルダ内の最初の .mp4 または拡張子なしファイルが自動的に選ばれます。

📌 ファイルが存在しない場合：1. .mp4 拡張子を補って再確認2. それでも見つからなければ FileNotFoundError を出して処理を停止します

処理が爆速！

AICUのイベント、ACT7の録画jで実験してみました。5128秒、つまり85分、1時間半の番組の文字起こしが…なんと8分で終了!☆Whisper-1だと1時間以上かかっていた処理です。

実行結果の例

https://note.com/api/v2/attachments/download/073ccffba9a424dab3593b78082f4426

セグメントはAPI仕様では最大で1500秒まで伸ばせますが、あまり長すぎると要約されてしまいます。いろいろチューニングは必要ですが、APIコストも含めて実用的なレベルあります。

またこのファイルをChatGPTなどにアップロードして、プロンプトを以下のようにすることでさらに活用できます。次のセクションで紹介します。

これはMeet会議の議事録です。「画像・動画生成AI　ComfyUI マスターガイド」という書籍の話をしています。逐語的にテキストを起こしてください。誤認しやすい用語がいくつかありますが、以下の点にご注意ください： - 「コンフィギュア」や「コンフィグ」といった誤認識がありえますが、正しくは「ComfyUI」です。 - IT/アイ・ティーではなく「AICU(アイキュー)」です。AICUは生成AIを活用する日本のメディア企業の名称です。できるだけ日本語のニュアンスや発話者の意図を保持しつつ、聞き間違いのないよう丁寧に書き起こしてください。

🧰 どんな技術を使ってるの？

Google Colab：無料のGPU環境※＋Google Drive連携
FFmpeg：動画→音声変換＆音声分割
OpenAI API：gpt-4o-mini-transcribeによる日本語文字起こし
Python pathlib / time / subprocess

💲API費用はいくらかかる？

音声文字起こしにはOpenAIのAPI「GPT-4o-mini-transcribe」を使用しており、この処理はOpenAIのAPI費用がかかります。記事作成時点(2025/5/15)では、上位の「gpt-4o-transcribe」は処理した音声1分あたり約0.006ドル(0.89円)、今回使用した「gpt-4o-mini-transcribe」は処理した音声1分あたり約0.003ドル(0.45円)です。1時間の動画を処理しても27円という計算です。https://platform.openai.com/docs/pricing#transcription-and-speech-generation