営業の受注率が向上するAI商談解析クラウド ACES Meet

音声認識AI「Whisper(ウィスパー)」とは?文字起こしの仕組みから使い方まで解説

ACES Meet blog_Whisper

更新日:2024年03月11日

公開日:2024年02月15日

会議資料やインタビューの文字起こしに、AIツールを活用したいと考える人は少なくないでしょう。音声認識AI「Whisper」は、安価でクオリティの高い文字起こしを実現できるサービスです。Whisperの使い方や活用のメリットを知り、自社の業務効率化に役立ててみてはいかがでしょうか。

この記事では、Whisperの仕組みや使い方、活用のメリットなどについて解説します。

Whisper(ウィスパー)とは?

Whisperとは、生成AI「ChatGPT」で有名なOpenAIが公開している音声認識モデルです。音声データ1分あたりの料金の安さや、文字起こし精度の高さを強みとしています。

Whisperの最大の強みは、非常に豊富な教師データによる正確度の高い文字起こしです。Web上で68万時間分の多言語音声データを学習しており、音声をより正確に文字起こしできます。

また、WhisperはGoogle ColaboratoryやHugging Faceなどの、APIを経由して利用できるツールです。インターネット上でサイトを開き、決められたコードの入力を行うだけで音声データの文字起こしが可能となります。

次節からは、より高い精度の文字起こしを体感したいという人に向けて、音声認識の仕組みやモデルサイズについて解説していきます。

参考:OpenAI「Introducing Whisper」

参考:ChatGPT(チャットGPT)とは?料金や始め方、上手に使うコツを紹介

Whisper(ウィスパー)が音声を認識する仕組み

ACES Meet blog_Whisper2

画像出典:GitHub「openai/whisper」

Whisperの音声認識は、ChatGPTやほかのOpenAIモデルの基盤であるTransformerモデルという特殊なアルゴリズムを用いて行います。以下は、Transformerモデルを使用した音声認識の流れです。

  1. 音声変換を行う
  2. 変換された音声データをTransformerモデルを用いて分析

音声変換は、周波数特性を人間の耳の知覚に近い形で表現するログメルスペクトログラムという方式で行います。

次に行うのは、Transformerモデルを用いた音声データ分析です。Transformerモデルは、エンコーダーとデコーダーという2つの部分で構成されています。エンコーダーでは音声データの特徴量の解析を、デコーダーではその解析結果をもとにテキストへの変換が可能です。

なお、Transformerモデルにはattention層と呼ばれる部分があり、モデルが音声データ中の注目すべき箇所を学習するのに役立ちます。音声からテキストへの変換だけでなく、言語の分類や音声の検知など、さまざまなタスクの同時処理が可能です。

Whisper(ウィスパー)のモデルサイズの特徴

Whisperは、文字起こしにおけるパフォーマンスごとに5つのモデルサイズが用意されています。tinyからlargeまでの5段階があり、モデルサイズがアップするごとに書き起こしの精度も上がるような設計になっているのが特徴です。

各モデルサイズスペック
tiny最も小さいモデルで精度は低いが、処理速度は速い。ひらがなやカタカナ、漢字の文字起こしが不十分であることが多い。
basetinyよりひらがなやカタカナ、漢字の書き分けが上手くいく場合が多い。誤字は出やすい。
smallデフォルトモデル。カタカナの文字起こしが不十分な場合がある。
medium音声のほとんどを正確に書き起こせる。句読点のタイミングも適切。
large最も大きいモデルで、精度は高いが処理速度は遅い。ほぼすべての日本語を正確に書き起こせる。

文字起こし精度や処理速度はモデルサイズが大きくなるにつれて高くなりますが、用いる音声データが小さくリソースをあまり必要としない場合ならbase以下でもよいでしょう。モデルサイズは、文字起こしの使用用途やデバイスに合わせて選択が可能です。

Whisper(ウィスパー)の使い方

Whisperの概要を理解し、具体的な使い方について知りたくなった人も多いでしょう。Whisperの使用方法は、以下の3ステップからなります。

  1. Whisperの実行環境を設定する
  2. 読み込ませる音声データを用意する
  3. データをアップし、文字起こしを実行する

ここでは、Google Colaboratoryを用いたWhisperの使用方法を覚えましょう。

Whisper(ウィスパー)の実行環境を設定する

Whisperの実行環境設定の流れは、主に以下の3ステップからなります。なお、Google Colaboratoryの使用にはGoogleアカウントが必要です。

  1. Google Colaboratoryのサイトにアクセス
  2. 「ノートブックを新規作成」をクリック
  3. 上部メニューから「編集」「ノートブックの設定」の順にクリック
  4. 「ハードウェア アクセラレータ」の部分を「T4 GPU」に設定
  5. インストールコードを貼り付け

まずはGoogle Colaboratoryのサイトにアクセスし、上部メニューから「ファイル」「ノートブックを新規作成」の順にクリックしてください。編集画面が開くので、上部メニューから「編集」「ノートブックの設定」の順にクリックします。

「ハードウェア アクセラレータ」の部分を「T4 GPU」にし、右下の保存ボタンをクリックしたら設定は完了です。以下のコードをコピーし、編集画面左側の「コーディングを開始するか、AIで生成します。」部分に貼り付け、三角ボタンをクリックし実行します。

  • インストールコード:pip install git+https://github.com/openai/whisper.git

インストール完了後「+コード」をクリックし、以下のコードを入力しましょう。先ほどと同じように三角ボタンで実行し、環境設定は終わりです。

  • コード:import whisper

読み込ませる音声データを用意する

Whisperに読み込ませる音声データを用意し、データ形式を確認しましょう。Whisperではmp3、mp4、m4a、wav、mpeg、mpga、webmなどのアップロードが可能です。これら以外でも一般的な音声データ形式のファイルであればアップロードできるため、一度試してみてもよいでしょう。

編集画面の左中央にあるファイルのイラストアイコン→アップロードボタンの順に選択し、音声データを開きます。

データをアップし、文字起こしを実行する

音声データをアップロードしたら、いよいよ文字起こしを実行します。

「+コード」をクリックし、以下のコードを入力しましょう。

コード:model = whisper.load_model(“base”)

result = model.transcribe(“ファイル名”)

print(result[“text”])

ファイル名の部分には、先ほどアップロードした音声データのファイル名を入力します。ファイル名のコピーは、左側メニューにある音声データから「パスをコピー」をクリックすると可能です。

ファイル名をコード内にペーストしたら、三角ボタンをクリックして実行しましょう。インポートが完了すると、文字が出力されます。

Whisper(ウィスパー)を利用するメリット

文字起こしツールが増えている中で、Whisperを特に利用すべき理由が気になるところです。非常にリーズナブルな価格で利用できるうえ、文字起こし精度が高い点を理解しましょう。

安価な価格で文字起こしツールを利用できる

Whisperは一般的な文字起こしツールに比べ、比較的安価に利用できます。料金は音声データ1分あたりで計算されるシステムで、2023年11月時点で0.006ドル(日本円で約1円未満)ほどです。仮に1時間の音声データの文字起こしを行ったとしても、日本円で約60円にも満たない計算となります。

一般的な文字起こしツールの価格が月額数千円から数万円であることと比べれば、非常に安価といえるでしょう。

なお、Google ColaboratoryなどのAPIを使わず、既存のAIツールと組み合わせた使用方法も可能です。APIの使用方法に自信がない人でも、Whisperを仕事に活用することができます。

精度の高い文字起こしが可能である

Whisperはインターネット上の膨大な音声データを学習しているため、精度の高い文字起こしが可能です。さまざまな発音や声質を正確に認識するため、外国語やなまりへの対応もできます。

今まで、日本語以外の言語や方言などの文字起こしには、専門家の意見が必要でした。Whisperは音声データさえあれば、どのような言語でもミスの少ない文字起こしが可能となります。インタビューや学術研究のようなデータ収集が求められる場面でも、コストを削減しながら信頼性の高い書き起こしができるでしょう。

Whisper(ウィスパー)を利用するデメリット

Whisperは気軽に利用できるツールですが、使用するうえで気をつけたい部分もあります。安価な反面、独自の操作が必要であることや、セキュリティ面での懸念が残る点を理解しましょう。

実行環境を設定する必要がある

Whisperは一般的な文字起こしツールとは異なり、自身で環境設定を行う必要があります。「Whisperの使い方」で解説したとおり、Whisperの使用にはGoogleアカウントでのログインやコードの入力作業が必要です。

パソコン操作に自信のない人や利便性のよさを求める人には、環境設定が手間に感じる可能性があります。会社やチームなどで多数のメンバーが使用する場合、環境設定や使い方についてのレクチャーが必要となるでしょう。

機密情報流出等にも注意を払う必要がある

Whisperは大衆に向けたサービスである以上、セキュリティ面には課題が残ります。AIはさまざまなユーザーデータを学習し、学んだ内容をもとに生成物をアウトプットする人工知能です。もしもユーザー入力した個人情報をAIが学習してしまうと、ほかの人へ流出する可能性があります。

実際にOpenAIでは、ChatGPTユーザーに他者の個人情報が流出するというケースがありました。Whisperでも、個人情報や会社の機密情報のような大切なデータの入力は避けたほうがよいでしょう。

Whisper(ウィスパー)の応用的な使い方とは

Whisperの使い方に慣れてくると、単なる文字起こしにとどまらず以下のような応用が可能です。

  • 文字起こしの実行経過の可視化
  • 出力した文章の英語への再翻訳

文字起こしの実行経過の可視化を行うと、処理のステータスや進行具合についての理解が深まります。Whisperが言語を日本語と認知していることや、30秒ごとの音声のまとまりで処理されていることがコードから理解可能です。Whisperの文字起こし精度の高さや処理の経過を独自でチェックすることで、システムをより理解できるでしょう。

また、コード入力により、出力した日本語を英語に再翻訳することも可能です。一般的な文字起こしツールは料金が高く、長文の英語翻訳をするにはコストがかかります。Whisperは安価に大量のデータを処理できるため、外国語を用いる業務でも力を発揮してくれるでしょう。

Whisper(ウィスパー)の基本を知り文字起こし業務に役立てよう

Whisperは文字起こし精度が高く、大量のデータでも非常にリーズナブルな価格で処理できるツールです。使用方法に慣れると英語翻訳のような応用も可能となるため、使い勝手のよいツールともいえます。ただし、独自の環境設定が必要なことや、セキュリティ面への理解が求められることに注意が必要です。

Whisperの基本的な操作方法を知り、文字起こしのコスト削減に役立てましょう。

Web会議やオンライン商談の文字起こしはAIツールがオススメ

オンラインでも、オフラインでもAIが議事録を自動作成してくれる営業支援AIツール「ACES Meet」。

商談中の様子を録画して、自動でBANTCの判定や文字起こし、議事録の作成まで行えます。また、話しているスピードや内容などをAIが解析し、どんなトピックにどれくらい時間を使ったのか、重要な箇所はどこなのかを分かりやすく表示します。

この議事録や商談データを自動で作成することで、営業の負荷が下がって商談の件数を増やせるだけでなく、振り返りやナレッジの蓄積にもなります。その結果、自社独自の「勝ちパターン」を作ることができるでしょう。まずは情報収集として、お気軽に資料をダウンロードしてみてください。

アバター画像

執筆者

ACES Meet 編集部

ACES Meetは、AI がオンライン商談の録画・書き起こしを行い、商談の内容や温度感を共有・解析できる営業支援AIツールです。ブログをとおして、主に商談にまつわるナレッジをお届けいたします。

  • AIが議事録を自動作成 商談・会議に集中! 成果に直結!
  • AIが議事録を自動作成 商談・会議に集中! 成果に直結!

お問い合わせ・資料請求

サービス紹介資料、導入のご相談等、まずはお気軽にお問い合わせください。