【Python】ChatGPTでの生成テキストを音声ファイル変換｜Text-To-Speech機能の構築方法

2023年11月30日

当ページには広告が含まれています。

こんにちは、DXCEL WAVEの運営者(@dxcelwave)です！

こんな方におすすめ！

Pythonを用いて、ChatGPTで生成した文書を音声ファイルに変換する方法が知りたい

【OpenAI】ChatGPTとは？

ChatGPTとは、OpenAIが開発した対話型チャットボットのモデルです。ChatGPTの名前は、GPT-3という第3世代の生成言語モデルに由来しています。

ChatGPTのモデルには、人工知能（AI）が搭載されており、人間の発話に対して自然なやり取りを可能にしています。また、英語をはじめ、中国語、日本語、フランス語など複数言語を認識し、人間らしく応答できるのも特徴的です。

さらに、ChatGPTではチャットの他に、画像生成など近年多様な機能がリリースされてます。以下、ChatGPTで代表するGPTモデルおよびOpenAIが提供するAPI機能一覧を示します。

チャット機能
テキストから画像を生成
オーディオを文字起こし
Python、SQL、JavaScript等のコードを理解
問題あるネガティブ発言検出
テキスト文章のベクトル変換

【参考】OpenAI社のAPI利用方法

本記事ではChatGPTを用いたPythonプログラミングについて解説します。その際、Open AIが提供するAPI情報が必要になります。「ChatGPTの概要」および「API情報の取得手順」については、こちらの記事で詳しく解説しています。

【参考】ChatGPTを詳しく学びたい方向けの学習講座

ChatGPTを詳しく学びたい方向けに安価で学べるオンライン講座も併せてご紹介します。

【事前準備】Pythonライブラリのインストール

ChatGPTで生成した文章を音声ファイルに変換する場合、以下2つのライブラリを活用します。

コマンドプロンプト（WIndows）またはターミナル（Mac）をもとに、ライブラリをインストールしましょう。

OpenAI

OpenAIが提供するChatGPT APIをPython環境で利用するためのライブラリです。

pip install openai

gTTS

Googleが提供するテキストの音声変換API（Google Text To Speech）であり、Python環境で利用する場合、gTTSというライブラリをインストールします。

pip install gTTS

【Python実践】ChatGPTで生成したテキストを音声ファイルに変換

それでは実際にPythonコードを記述し、ChatGPTで生成したテキストデータを音声ファイルに変換する方法を解説していきます。

PythonライブラリとAPI情報の読込

はじめに、Pythonプログラムの先頭にライブラリとAPI認証情報を記述します。

前述で取得したAPIのシークレットキーを入力しましょう。

from openai import OpenAI
from gtts import gTTS

API_Key = "<APIシークレットキーをここに入力>"

ChatGPT APIによる文章生成

続いて、ChatGPT APIに任意のメッセージを渡し、文章を生成します。以下のコードを実行しましょう。

コード

message = "なぜ地球が丸いのか知りたい！"

# ChatGPT実行
client     = OpenAI(api_key=API_Key)
completion = client.chat.completions.create(
             model       = "gpt-3.5-turbo",     # モデルを選択
             messages    = [{
                             "role":"user",
                             "content":message, # メッセージ 
                            }],

             max_tokens  = 1024,             # 生成する文章の最大単語数
             n           = 1,                # いくつの返答を生成するか
             stop        = None,             # 指定した単語が出現した場合、文章生成を打ち切る
             temperature = 0.5,              # 出力する単語のランダム性（0から2の範囲） 0であれば毎回返答内容固定
)

# 応答内容
response = completion.choices[0].message.content

出力イメージ

上記実行後にresponseを見ると、次のような出力結果が確認できます。

# 応答確認
print(response)

# 出力イメージ
# 地球が丸い理由は、重力と回転によるものです。
# 1. 重力: 地球は非常に大きな質量を持っており、その質量が重力を生み出します。重力は物体を中心に引き寄せる力であり、地球の場合は地球の中心に向かって引力が働きます。この重力によって地球の物質は均等に引き寄せられ、球体の形状を作ります。
# 2. 回転: 地球は自転しており、自転軸を中心に一定の速さで回転しています。この回転によって、地球の物質は中心から外側に向かって遠心力が働きます。遠心力は物体を中心から外側に押し出す力であり、地球の場合は遠心力が地球の表面を均等に押し出すことで球体の形状を維持しています。
# これらの要素によって、地球は球体の形状を持つことになります。ただし、地球は完全な球体ではなく、赤道付近がやや膨らんでいる楕円体の形状をしています。これは地球の自転による遠心力が赤道付近で最大になるためです。

テキストデータの音声変換（Text-To-Speech）

前述で取得したテキストデータを音声ファイルに変換する場合、以下のコードを実行します。

# gTTSインスタンスの作成
text2speech = gTTS(response,   # 音声変換するテキスト
                   lang="ja",  # 対応言語（ja：日本語）
                  )


# 音声変換したデータをファイルに保存
text2speech.save("chatgpt_text2speech.mp3")

実行後、chatgpt_text2speech.mp3というファイルが生成されます。実際に音声変換されているか確認してみましょう。