top of page

Zoom・Meet録画を自動で文字起こし!Colab × GPT-4oで作る自作爆速議事録ツール!

ZoomやGoogle Meetでの会議動画を、あとから文字起こししたい!」──そんなニーズ、ありませんか?


今回の「サクリ!AIツール」では、Google Colab と OpenAI の最新モデル gpt-4o-mini-transcribe を活用し、オンライン会議を自動で書き起こすPythonツールを紹介します。AICU流の“つくる人をつくる”マインドで、「無料で」「自分で」作れる最強トランスクリプション(書き下し)ツールをあなたにお届けします。


🤖 なんで自分で作るの?

「文字起こしツールなんて、有料サービスがあるでしょ?」確かにそうです。たとえば:


  • Otter.ai や Notta などの専用サービス(でも月額課金…)

  • Google Gemini による議事録生成(ただし英語対応優先、日本語は遅れがち…)


でも、自分でColabに書いて作るとどうなるか?

  • 🔧 自分の用途にピッタリカスタマイズできる!

  • 📁 ローカルやGoogle Driveの動画をそのまま処理可能!

  • 🔐 会議の内容を外部の企業に渡さずに済む

  • 📚 そして何より「つくる人」になる経験値が溜まる!


🚀 ツールの特徴

このツールは、 OpenAI APIを使用し、Google Colab 上で動作し、以下のような特徴を持っています:


特徴

🎞️ ZoomやMeet録画を読み込みGoogle Driveから直接.mp4を指定

✂️ 長時間ファイルを自動分割、10分(600秒)ごとに自動セグメント化

🧠 OpenAI GPT-4oで高精度書き起こし、Whisper-1より賢く、速く、短い応答

📄 テキストで保存。.txtファイルとしてGoogle Driveに出力

✅ 処理後に整理。元ファイルを /done に移動し整理完了


🧪 どう使うの?

まず、OpenAIのAPIキーをご準備ください。以下の手順で `OPENAI_API_KEY` を Colab に設定してください。

  1. 画面左のサイドバーにある「鍵マーク(🔐)」をクリック(「環境設定」→「シークレットを管理」)

  2. 「+ 新しいシークレットを追加」をクリック

  3. 以下のように入力して「保存」:

    • 名前(Name): OPENAI_API_KEY

    • 値(Value): sk-...` から始まるあなたのOpenAI APIキー


⚠️ これにより、コード内にハードコードせずに安全にAPIキーを扱うことができます。


📁 Google DriveにZoom録画(.mp4)をアップロードGoogle Workspace Business Standardなどで契約した Meet会議の主催者なら、会議中の右下で「録画」を選ぶことでクラウド録画できます。


  1. 🔑 Colabメニューで OPENAI_API_KEY をシークレットに設定

  2. ▶️ ノートブックを実行

  3. 📝 自動で .txt 議事録が出力!


📋設定フォーム

  • PROMPT: 文字起こし時にAIへ与える指示(例:「逐語的に」「要約せずに」など)

  • DIR: Google Drive上の録画フォルダパス(例:/content/drive/MyDrive/Meet Recordings)最後のスラッシュは不要です

  • FILENAME: 対象となるファイル名(拡張子 .mp4 は省略可)

  • MOVE_TO_DONE: 処理後に元の .mp4 ファイルを done/ サブフォルダへ移動(デフォルト:True)

  • KEEP_MP3: 変換後の .mp3 を残すか(デフォルト:True)

  • SEGMENT_SECONDS: 音声分割の1チャンクの長さ(秒単位、デフォルト:600)


🎯 ファイル名が省略された場合は、フォルダ内の最初の .mp4 または拡張子なしファイルが自動的に選ばれます。


📌 ファイルが存在しない場合:1. .mp4 拡張子を補って再確認2. それでも見つからなければ FileNotFoundError を出して処理を停止します


処理が爆速!

AICUのイベント、ACT7の録画jで実験してみました。5128秒、つまり85分、1時間半の番組の文字起こしが…なんと8分で終了!☆Whisper-1だと1時間以上かかっていた処理です。


実行結果の例



セグメントはAPI仕様では最大で1500秒まで伸ばせますが、あまり長すぎると要約されてしまいます。いろいろチューニングは必要ですが、APIコストも含めて実用的なレベルあります。


またこのファイルをChatGPTなどにアップロードして、プロンプトを以下のようにすることでさらに活用できます。次のセクションで紹介します。


これはMeet会議の議事録です。「画像・動画生成AI ComfyUI マスターガイド」という書籍の話をしています。逐語的にテキストを起こしてください。 誤認しやすい用語がいくつかありますが、以下の点にご注意ください: - 「コンフィギュア」や「コンフィグ」といった誤認識がありえますが、正しくは「ComfyUI」です。 - IT/アイ・ティーではなく「AICU(アイキュー)」です。AICUは生成AIを活用する日本のメディア企業の名称です。 できるだけ日本語のニュアンスや発話者の意図を保持しつつ、聞き間違いのないよう丁寧に書き起こしてください。

🧰 どんな技術を使ってるの?

  • Google Colab:無料のGPU環境※+Google Drive連携

  • FFmpeg:動画→音声変換&音声分割

  • OpenAI API:gpt-4o-mini-transcribeによる日本語文字起こし

  • Python pathlib / time / subprocess


💲API費用はいくらかかる?

音声文字起こしにはOpenAIのAPI「GPT-4o-mini-transcribe」を使用しており、この処理はOpenAIのAPI費用がかかります。記事作成時点(2025/5/15)では、上位の「gpt-4o-transcribe」は処理した音声1分あたり約0.006ドル(0.89円)、今回使用した「gpt-4o-mini-transcribe」は処理した音声1分あたり約0.003ドル(0.45円)です。1時間の動画を処理しても27円という計算です。https://platform.openai.com/docs/pricing#transcription-and-speech-generation


🧠 「AIに任せる」と「自分でつくる」の差

AIが便利になればなるほど、自分で組み立てる力が差になります。AICUでは、「AIに使われる」側でなく、「AIを使いこなす」「つくる人をつくる」ことを支援していきます。


あなたも、会議の文字起こしから一歩踏み出して、「AI編集者」「AIエンジニア」の第一歩を踏み出してみませんか?


🔗 ノートブック配布

このノートブックはペイウォール側で公開しています


📥 AICU GitHubリポジトリ(文末)📕 AICUマガジン Vol.12(近日発売)にコードとリポジトリへのURLを収録予定!


☆著作権は放棄していません



この記事の続きはこちらから https://note.com/aicu/n/n239d9f47b1a1

Originally published at note.com/aicu on May 15, 2025.




Comments


bottom of page