Whisper APIを使って文字起こしして見えてきた課題

最近何かと話題のChatGPTですが、開発元であるOepnAIはChatGPT以外にもいくつかのサービスを提供しています。

その中の1つとして、音声から文字起こしするWhisperという機能があります。

今回はこのWhisperについてまとめます。

Whisperとは
Whisper APIの使い方
Whisper APIで困ったこと
まとめ

Whisperとは

冒頭で文字起こし機能と述べましたが、正確には68万時間もの訓練データで訓練された大規模な音声認識モデルです。

日本語を含む多言語の音声を高精度で文字起こしすることが可能です。

このモデル自体は2022年9月にオーブンソースとして公開されましたが、2023年3月になると開発者向けのWhisper APIが公開されました。

APIでできることは基本的に同じですが、細かいパラメータが設定できなかったり、ファイルサイズに上限があるなどある程度制限があります。

Whisperでできることは以下になります。

transcribe(文字起こし)
- 音声からの文字起こし。
- 99言語に対応
translate(文字起こし + 翻訳)
- 音声からの翻訳処理。
- 入力は多言語に対応していますが、出力は英語のみ。

この記事ではメインにtranscribe（文字起こし）について取り上げます。

料金については2023年7月現在で、1分あたり$0.006になります。

例えば1時間の音声だと60min × $0.006 = $0.36で、現時点での為替が1ドル138円なので約50円ほどです。

Whisper APIの使い方

実際にWhisper APIを使って文字起こしする方法を見ていきます。

①パッケージをインストールします。

!pip install openai

②環境変数のセット

import os
os.environ["OPENAI_API_KEY"] = "<OpenAI_APIのトークン>"

OpenAIのAPIトークンはマイページから発行できます。

③文字起こし

import openai

with open(audio_file, 'rb') as file:
     = openai.Audio.transcribe(
        file=file,
        model='whisper-1',
        response_format='verbose_json',
    )

print(transcript['text'])

fileに文字起こしする音声ファイルを指定します。

modelに使用するモデルを指定します。現時点ではwhisper-1しかありません。

response_foematでは文字起こし結果をどのようなフォーマットで返してもらうかを指定します。

verbose_jsonとすることで以下のようなセグメントごとに開始終了時間など詳細情報まで取得することが可能です。

{
  "task": "transcribe",
  "language": "japanese",
  "duration": 30.65,
  "segments": [
    {
      "id": 0,
      "seek": 0,
      "start": 0.0,
      "end": 5.4,
      "text": "こんにちは、これは音声ファイルです",
      "tokens": [
        41589,
        6117,
        20788,
        22615,
        36941,
        23072,
        15096,
        247,
        39454,
        3384,
        3203,
        2972,
        5998,
        21017,
        6722,
        47745,
        32418,
        7016,
        20699,
        29707
      ],
      "temperature": 0.0,
      "avg_logprob": -0.34013558912646863,
      "compression_ratio": 0.5819397993311036,
      "no_speech_prob": 0.0035294992849230766,
      "transient": false
    },...
  ],
  "text": "文字起こし全文"
}

以下がその他設定できるパラメータです。

パラメータ	データ型	必須/任意	説明
file	file	必須	トランスクリプトするオーディオファイルオブジェクト(ファイル名ではない)。対応している形式はmp3、mp4、mpeg、mpga、m4a、wav、webm
model	string	必須	使用するモデルのID。現在利用可能なのはwhisper-1のみ
prompt	string	任意	モデルのスタイルを指南するためのテキスト、または前のオーディオセグメントを続けるためのもの。プロンプトはオーディオ言語に合わせている必要がある
response_format	string	任意	トランスクリプトの出力形式。対応しているオプションはjson、text、srt、verbose_json、vtt。デフォルトはjson
temperature	number	任意	サンプリング温度。0から1の間。高い値(例えば0.8)は出力をよりランダムにし、低い値(例えば0.2)はそれをより焦点を絞った、決定論的なものにします。0に設定すると、モデルはログ確率を用いて、特定の閾値がヒットするまで自動的に温度を上げる。デフォルトは0
language	string	任意	入力オーディオの言語。ISO-639-1形式で入力言語を提供すると、精度とレイテンシが改善される