調声に関して(2024年12月版)

記事を更新するより残して別記事にした方が情報残っていいかなと思いまして新規に記載しています。真面目に調声やりだして1年も経ってないのでその点は把握しといてください。

考え方とかは前に書いたので省略

saretra-05.hatenablog.com

優先順位を決めて労力を割こう

トーク作品にとっての調声は、歌の調声と価値が異なります。あくまでも話の内容を盛り上げたり、違和感をなくすことが目的なので、調声そのものが作品の良し悪しに大きく影響しません。（調声って投稿者側の自己満足の領域なんですよね。ほぼベタ打ちで伸びている合成音声動画が多くある現実。）

とにかく高クオリティを目指していても仕方ないので、労力とクオリティを天秤にかけて作ることになります。

他でも言われている気がしますが、優先順位はこんな感じだと思います。

ピッチ
音の長さ、タイミング
声質調整
無声化の調整

特にピッチは正解がある場合がほとんどです。自分で声に出せば一瞬なので、大人しくピッチ抽出しましょう。SynthV Proのピッチ抽出が一番楽で効率良いです。UTAUのプラグインである周波数トレーサーは現代においては性能が微妙な気がします。（rmvpe辺り使ってピッチ抽出するプラグイン作って……）

良い感じで録音できないならトーク系の合成音声からピッチ抽出しましょう。(音声の規約に注意。ベタ打ち時のクオリティ重視したいのでStyle-Bert-VITS2辺りが最適？)

抽出しまくってるとピッチの形を感覚で覚えてきて手で書いてもそれっぽく話してくれるようになる気がします。（気がするだけかも）

ノーツの長さを調整しよう

ピッチがある程度きれいに描けても、まだ自然というにはちょっと物足りない気がします。

一番の要因は音符の長さでしょうか。昔のHANASU作品でも長さを揺らしたりしている動画はクオリティ高く感じます。（ピッチ揺らすくらい調声に力入れているというのもあるでしょうが）

例としてSVテトさんに喋ってもらいましょう。

32分単位(BPM120)だとこんな感じ

もっと細かい場合だとこんな感じ

SV自体の音声が自然すぎてわかりにくいですが、後者の方がきれいに聞こえると思います。ピッチよりは影響度合いが少ないですが、長さも重要ですね。

トーク系の合成音声ならlabファイルを出力できたりしますし、LabelMakrみたいなアライメントソフトを使えば肉声もタイムスタンプを得ることができます。あとはそれらを読み込むプラグインさえ作れば、ノーツ長さも半自動で調整できますね。

github.com

ちょっとテクニック的な話

メモ代わりなのでそんなに有用じゃないかも。

歯擦音の前は伸ばす

SVにおいて歯擦音……というかshとかchの音素は前の音に長く被るので、前の音を意識的に伸ばすことで自然なリズムになります。等間隔でノーツを配置するとこの辺がずれちゃって違和感になるんだと思います。UTAU音源でもものによっては同じ傾向があると思います。手動でノーツ長さいじるのであればここが最優先ですかね。

音素の変更

SVは日本語では出せず、他言語では出せる音がたくさんあります。

特に英語の[ae][hh]辺りは使い勝手がいいのでおすすめです。

話始め、終わりは上げるか下げる

ピッチは抽出すればいいと書きましたが、話始め、終わりはうまく抽出されない傾向にある気がします。基本的に平坦に始まる、終わることはないと思うので、上げ下げを書いてやる作業は必要かと思います。

子音長の編集

ノーツの長さではなく、各ノーツの母音と子音のバランスをいじりたいときもあると思います（はっきり喋らせたくない時とか）。UTAUと違って一括で設定できる項目はありませんが、スクリプトを使って設定することができます。

github.com