kensuu さんのツイートをみて、「音声入力→文字起こし→ChatGPTに整形してもらって原稿化」という流れが便利だし、これってAPIつなげるだけでできそうだなと思ったので LINE bot で動くように作りました。
ソースコードは GitHub satoooh/whisper_gpt_lineapp_server に載せました。AWS Lambda へデプロイする手順までめっちゃ丁寧に書いたつもりなので、ぜひ使ってみてください。わからないことあったら教えて下さい。
使用した技術
FastAPI https://fastapi.tiangolo.com/
- PythonでモダンなAPIを構築するための高速なWebフレームワーク
- 高いパフォーマンス、拡張の容易さが特徴
LINE Messaging API https://developers.line.biz/ja/docs/messaging-api/overview/
- LINEのメッセージを送受信するためのAPIで、これにより bot の開発が可能になっている
- メッセージや画像、音声などさまざまなコンテンツを送受信できる
OpenAI Whisper API
- ChatGPT を作っている OpenAI が開発した音声認識システム
- 様々な言語への対応やノイズへの強さが特徴とされる
- ChatGPT API の発表と同時期に API 利用が可能になった
OpenAI ChatGPT API (gpt-3.5-turbo)
- ChatGPT(gpt-3.5-turbo)と同等の機能が使える API
自分で使ってみた感想
- 歩きながらメモができて便利!(歩きながらフリック入力は危険すぎてできないので)
- プロンプトを改善しないといけない、出力がイマイチ安定しない