多言語対応でフリーの音声合成サービス「TTSMP3.com」が便利そうな件。日本語・英語・仏語などなど26ヵ国語に対応!

どうも映画を見るときはオリジナルの言語で鑑賞したいHachiQ4です。

今回は、動画制作やアプリ開発などなど、様々な場面で活躍してくれそうな多言語対応でフリーの音声合成サービスを発見したので紹介してみようと思います。

この手のツールにしては珍しく、ベタ打ちでもかなり日本語が聞き取りやすいです(笑)

TTSMP3.comとは

TTSMP3.comとは、日本語や英語をはじめとしたのべ26ヵ国の言語に対応したフリーの音声合成サービスです。

TTSMP3.comでは、ブラウザ上でテキストから音声を合成することができ、その音声をMP3ファイルとしてダウンロードすることもできます。

“Free Text-To-Speech and Text-To-MP3″の略のようです(笑)

あまり聞きなれない名称の通り、海外のサービスのため基本的には英語話者の音声が多いですが、日本語音声も女声と男声でそれぞれ1種類ずつ用意されています。

 

TTSMP3.comが対応している言語

TTSMP3.comの対応言語と各対応話者数を表にまとめてみました。

言語男声女声
Australian English (オーストラリア英語)11
Brazilian Portuguese (ブラジルポルトガル語)11
British English (イギリス英語)12
Canadian French (カナダフランス語)01
Castilian Spanish (カスティリア語)20
Chinese Mandarin (中国語)01
Danish (デンマーク語)11
Dutch (ドイツ語)11
French (フランス語)12
German (ドイツ語)12
Icelandic (アイスランド語)11
Indian English (インド英語)02
Italian (イタリア語)11
Japanse (日本語)11
Korean (韓国語)01
Norwegian (ノルウェー語)01
Polish (ポートランド後)22
Portuguese (ポルトガル語)11
Romanian (ルーマニア語)01
Russian (ロシア語)11
Swedish (スウェーデン語)01
Turkish (トルコ語)01
US English (アメリカ英語)26
US Spanish (アメリカスペイン語)11
Welsh (ウェールズ語)01
Welsh English (ウェールズ英語)10

スクロールできます

対応言語がめちゃくちゃ多い上に、メジャーな言語であれば男声も女声も対応していたりするので非常に使い勝手が良さそうです。

他国の言語に触れる機会の少ない日本人からすると世界中の言語をこれだけ挙げるだけでも一苦労じゃないかなって思ってしまいますね(笑)

英語だけでも4種類ある上に、ノルウェー語やカスティリア語などなど耳馴染みのない言語ばかりなので、”hello”と入力して片っ端から再生してみるだけでも楽しいです(笑)

 

想定される利用シーン

一番思いつきやすいのは映像制作でしょうか。

英語でナレーションをつけたいけど、身近に英語話者もいないし、かと言ってプロに頼むほどのコストはかけたくないし…といった状況ではかなり役に立ちそうなサービスです。

また、スマホアプリなどで使用するの面白そうですね。

ゲーム内の機械の自動音声なんかに使うのもありかもしれません(笑)

(アイアンマンのジャービスみたいなw)

そのほかでは、言語学習においても役立ちそうです。

特に、日本では教材の少なそうなマイナーな言語を習得したいと考えているときなんかは強い味方になりそうな気もします。

(もちろんネイティブの喋りを聞くことには遠く及びませんが、テキストを手軽に音声に変換できるのは言語学習において強い味方ではないでしょうか。)

 

TTSMP3.comの使い方

 

TTSMP3.comの使い方は非常にシンプルです。

基本的には、上の画像に示したとおりです。

  1. 音声化したいテキストを入力する。
  2. 音声を合成する言語と話者を選択する。
  3. テキストを再生する。
  4. 必要であればMP3としてダウンロードする。

当然ですが、1で入力するテキストは2で選択する言語に対応していないとスムーズに喋ってくれません。

(TTSMP3.com自体に翻訳機能はありません。)

言語と話者を選択する際は、プルダウンに”British English/Brian”のよう言語と話者名が表示されます。

 

音声に強弱を付けたりスピードを変えたりする

このTTSMP3.comというサービスはAmazon Pollyという人工知能を利用した音声読み上げサービスを利用しているようで、その機能を使うことで音声にある程度の強弱をつけるといった制御が可能です。

 

例えば、音声を強調したい時であれば次のような記述をします。[British English/Brian]

(通常)

My name is Bond, James Bond.

音声プレーヤー

(強調)

My name is Bond, <emphasis level="strong">James Bond. </emphasis>

音声プレーヤー

 

聴き比べてみると結構はっきりとした違いがありますね。

あまり自然ではないような気もしますが、ほかの文章との差別化を図りたいだけであれば十分に使えそうです。

 

他にも、再生スピードをゆっくりにしたり、音声のピッチを変えたりするようなコマンドもあるようです。

(詳しくは上のAmazon Pollyの解説ページを参照してみてください。)

 

会話風にする

音声に変化をつけるだけでなく、会話風の音声を作成することもできます。

[speaker:Takumi] Youわなにしにニッポンへ? Why did you come to Japan? 
[speaker:Emma] Uhhh... for sightseeing. 
[speaker:Takumi] wow, Where do you want to go? 
[speaker:Emma] Mazda Zoom-Zoom stadium. I'm huge fan of the Hiroshima Carp

音声プレーヤー

このように、文章の前に[speaker:○○○○]と付けることで話者を選択することができます。

これを覚えておくと、会話風に仕立てたい時にいちいち話者ごとにテキストを打ち直す手間がいりませんね。

 

PR:何かを始めるのに遅すぎるということはないのだ

PR:何かを始めるのに遅すぎるということはないのだ

TTSMP3.comを実際に使ってみた

上の使い方の解説で既にTTSMP3.comを利用した音声を用意してみましたが、もう少し使ってみた感想を述べていきたいと思います。

 

各国ごとの英語の違いが現れて面白い

日本人が英語を本格的に勉強しようと思った時に感じるのが、同じ英語なのに国によって違いがあるという壁なんですよね(笑)

(特に勉強したことがあるわけじゃないけど…)

YouTubeなどで「ブリティッシュ英語vsアメリカン英語」のような動画を見るのが好きな私からすると、こういった合成音声上でもどのような違いが出るのかは興味があります。

 

というわけでこんな例文を用意してみました(笑)

(文法とか表現は目を瞑ってね☆)

Ladies and Gentlemen, Boys and Girls, welcome to the GEEK 8 9 4.com. 
The author is Hachi Q 4, Japanese. 
This web site is written about my hobbies and my opinions. 

Can't you read Japanese? 

<emphasis level="strong">I don't know that! </emphasis>

Google it.
[British English/Brian]

音声プレーヤー

[US English/ Matthew]

音声プレーヤー

[Australian English/Russell]

音声プレーヤー

[Indian English/Aditi]

音声プレーヤー

 

それぞれしっかりと特徴が出ていておもしろいですね(笑)

実際、ところどころ英語素人の私が聞いても怪しいなと思ってしまう箇所がありますが、日本語と比べると英語は非常になめらかに表現できているように思います。

 

どうでもいい話ですが、冒頭の”Ladies and Gentlemen, Boys and Girls, welcome to the GEEK894.com.”のくだりは、アイクぬわらでお馴染み某テーマパークリスペクトです(笑)

日本語音声も使い方次第?

先ほどの文章を日本語にしてみました(笑)

ギーク8 9 4ドットコムへようこそ! 
著者ははちきゅうよんという日本人です。 
このサイトでは私の趣味や様々な意見を語っています。
 
英語がわからない? 

<emphasis level="strong">知らねえよ</emphasis>

ぐ ぐ れ か す

音声プレーヤー

こうやって聞いてみると、日本語音声としても十分実用的な気がしますね。

ゆっくり実況なんかとくらべると制御系が貧弱かもしれませんが、聞き取りやすさはこちらの方が断然上に感じます。

 

日本語音声を合成するときに、「~は」という表現が”~ha”と読まれてしまったので、しかたなく「~わ」と記述しました。こればっかりはブラウザ上ですし、日本語特有の表現なので難しいところかもしれませんね。

 

空白を上手くつかえば数字の表現もできる

例文の”GEEK894.com”のように”Eight hundred and ninety-four”ではなく、”eight-nine-four”のように読ませたいときは、数字の間に空白を入れるとそのように読んでくれました。

また、1行までなら空白を間と認識してくれるようです。

( <break time=”1s”/> なんかを使うともっと便利なはずだけど)

 

動作も軽くて多言語対応だからスピード感を求める人は使ってみる価値アリ

ブラウザ上で音声を合成するサービスは以前も動画で使ったことがあるのですが、その時に使ったサービスと比べてTTSMP3.comは非常に動作が軽快です。

ちなみにその時に作った英語ナレーション入りの動画がコチラです(笑)

GTA5 アイアンマンMODのいいかげんな紹介動画 IronmanV PromotionVideo

 

上の方でも書きましたが、急遽動画に英語のナレーションを入れてみたくなったといったスピード感が求められるシチュエーションには、こういったサービスがかなり効果的かなと思います。

サンプルとして試験的にナレーションを取り入れてみて、良さそうだったらプロに頼むといった使い方も見えてきそうです。

 

最後に

ベタ打ちのみの音声合成サービスはよく見かけますが、このようにブラウザ上で音声制御までできるサービスというのは結構貴重じゃないかなと思います。

タグ打ちに抵抗のある人にはちょっと~なんて考えたりもしたのですが、ドキュメントも用意されていますし、そもそもそういった層の人は使うことがないサービスだろうと思ったので今回は指摘しませんでした(笑)

個人的には特に何かで利用する予定もありませんが、単純にこういう分野のサービスは使ってみるだけでも面白いので気に入ってしまいました(笑)

興味のある方はぜひ!