マルチモーダルLLMで議事録を作成する

5章のワークフローでは基本を理解していただくため、あらかじめ文字起こしをされたテキストファイルから議事録を作成するというシナリオでワークフローの基本を説明しました。

「なんか面倒。最初から音声ファイルや動画ファイルを読み込ませて一気に議事録をつくりたい」

という要望が発生したのではないでしょうか？

もちろんできます。ですが、本書の説明ではこの要望を実現するために、5章、6章、10章のダンジョンを踏破する必要がありました。

6章を学んだ読者であれば、もうピンときたと思います。「拾壱ノ型」でビジョン機能をもったLLMでマルチモーダル対応にすればよいのではないか、と。

そのとおりです。究極の型である「弐の型」、開始-LLM-終了だけで議事録の作成が可能になります。

また、6章では、音声から文字起こしをするために「SpeechToText」というツールを使いましたが、実は、ビジョン機能をもったLLMを使えば、LLM単体で文字起こしが可能になります。また音声だけではなく動画から文字起こしすることも可能です。

では実際にやってみましょう。

まず、動画(拡張子がmp4など)もしくは音声ファイル(拡張子がmp3など)を用意してください。クラウド版を使用している場合はそれぞれのファイルは15MB以下であることに注意してください。

（最初はこの制限を受け入れてください。後半で限定解除の方法も述べます）

基本の型

基本の型は次のようになります。

ビジョン機能をもったLLMを使うことで、このように信じられないくらいシンプルになります。

「開始」で動画や音声ファイルをアップロードし、LLMノードでそこから文字起こしをします。文字起こしする形式はSRT形式になるように指示し、後段のLLMでその文字起こし結果から議事録を生成するというものです。