UTAUで音源作ったけど早めに気付いときゃ良かったことたち
こんにちは、麻戸です。
今年の6月に、初めてのUTAU音源「三叉シャハル」をリリースしました。
↓リリース動画
いっぱしのニコ厨として育ったわけで、UTAUの存在は元々知ってたのですが、
なぜか突然「てかUTAU音源作ってみたくね?作んべ」と思い立ち(ギャル)、
右も左もわからない中、音源を作ってみたわけです。
んで、最終的にまあ最低限音源として使えるものができたわけですが、
音源を作成するに当たって「最初から気づいときゃよかったよ~トホホ」と後から気づいたことたちがたくさんありました。
ので、今後音源制作予定の方のお役に少しでも立てれば&自分の備忘録として記事に残しておこうと思います。
収録形式&音階の選択
初めて作成した音源「三叉シャハル 通常音源」は連続音、三音階で収録しています。
「最初なら単独音の方がいいんでは?」というのが一般的な見解かと思うのですが、これについては連続音で良かったかなと思っています。
比較すると、
単独音のメリット
- 収録数が少なくて済む
- ぱっと見で録る音と出る音の関係が分かりやすい
連続音のメリット
- 歌にしたとき発音がなめらか
と言う感じかと思うのですが、何より
「setparamで推定するとき、自動推定使うなら単独音でも連続音でも手間がそんなに変わらない」というのが大きかったので、最終的に連続音で収録しました。
つっても音素数が全然違いますから、手動で調整する手間は絶対連続音のが多いのですが…
でもoremoでガイドBGM流しながら連続で録るなら、一音一音録るのと連続で「あんああいあうあ~」と言うのも面倒さはあんま変わらなかったかな…という印象です。
そんで更に三叉は三音階で収録しています。
これはいくつかの音源を見た限り、
- 高音の声
- 中音の声
- 低音の声
の3パターンあれば自然になるな~と感じたためです。
実際の歌声としても、大体この3つに分けて考えられることが多いと思います。
結局のところ自分が満足できる音源になるかどうかだと思うので、
- 単独音のが手間は少ないかもだけどめちゃくちゃこだわるのでなければ最終的にそんなに変わらない
- 自分が欲しい音源で求めるもの(品質なのか軽量さなのかなど)に合わせる
でいいのかな~、と思っております。
収録するときのこと
HowToな部分は抜きにして、収録というか発声で全然分かってなかった部分は
- 連続音で収録する場合、音と音の間はなるべく繋げる
という部分です。
これに後から気づいて、一度全部録り直しています。オーノー
考えてみれば当たり前なんですが、「か!ん!か!か!き!か!く!か!」と一音ずつはっきりする方がいいんかな~と思ってたんですよね。
実際にはこれらの音は「a ん」「n か」「a か」「a き」と前の音の母音と繋がる一音として使うので、前の「a」「n」「i」などの母音と次の音の間は繋がってる方がいいんですよね。
繋げたくない場合は「- か」「- ん」などの前に音がない音素を使う…ということに全く気付いていませんでした。初心者がいきなり音源作るとこうなるってことか…。
もちろん発音が不自然になっては本末転倒なわけですが、そうならない範囲で
- 前の母音と次の子音を繋げる
というのは録音する前に気づいておくべきでした。
あとは収録音階にピッチをどんくらいビタアテられるかって部分ですが、これはかなり音程外したな~という状態のまま配布しちゃってます。そのため三叉は全音ピッチ低めになっています。
その状態でもUSTに流し込んだらそんなに違和感なかったので…
音程の真芯に当てられるならそれが良さそうですが、ピッチ外しは1音程分外れてるとかでなければそこまで神経質にならなくて良さそうな印象です。
原音設定(setParam)のこと
ここからが「気づいてれば…」の本丸です。
setParamを使った原音設定で気づいてれば…の2つは、
- スペクトル表示させた方がええやん
- 左プランクに相対的についてくるようにして調整した方がええやん
です。
スペクトル表示
↑これで表示できる
↑この黒背景に緑でベ~っと表示されてるやつ
いや…setParamの標準機能なわけですが…なぜかその存在に気づいておらず…
多くの場合収録後に自動推定してから手動で調整してくと思うのですが、その間ずっと波形だけ見ながら音聞いて「ここだ!」とほぼ勘でやってました。アホすぎる
スペクトルが何者かは多分解説サイトなどたくさんあると思うのですが、ざっくり言うとスペクトルの形で音の切り変わりが分かるわけなんですよね。
音の出だしのタイミング合わせるならスペクトルを見ない手はない。早く気づいてれば…。
後のバージョンで追加されたのかもしれませんが、収録方法の解説によってはスペクトル表示について触れられてないことがある印象です。
なので私のようにスペクトル表示の存在に気づいてない方もいるのではないかと思います。表示できるよ~~~!!
これ見て合わせたら大体タイミング合う印象です。
左プランクの操作時の設定
↑これのやつです。
この設定自体は、多分デフォルトで有効になってたはずです。
んで、初心者の場合「結局この縦棒たちはなんやねん」状態かと思います。
これも解説がたくさんあるとは思うのですが、初心者が原音設定するときは
- 「オ」の緑の棒が前の母音のところに来るようにする
- 「先」の赤い棒が「a か」における「か」の始まりに来るようにする
の2点を守れてればOKかと思ってます。
この2つを実現するにあたり、いろんな棒を右往左往させてたわけですが…
前述の左プランクにみんな付いてくるようにしてれば、
- 「左」の棒を動かして
- 「オ」が前の母音に被るようにして
- その後「先」の棒だけ掴んで音素の頭に来るようにする
の3ステップで発声のタイミングを合わせられるはずです。
たったこれだけのことだった…
本当は子音の範囲とかも綺麗にした方がいいはずですが…よく分からない状態でもUTAってるからいいかな!の精神です。
最低限「右」の棒が次の音に被らないようにするくらいでしょうか。
この原音設定で「タイミングが合わないよ~!」になりがちな気がするんですが、上記の設定でスペクトル見ながら合わせたら大分楽になりました。
早く気づきたかった…。
特殊音素の話
三叉シャハルは現在ver1.50で、いわゆる「語尾息」「エッジ音素」を特殊音素として収録しています。
これに関しては音源の雰囲気と趣味によるとは思うんですが、
「もう待ちきれねえ!通常音素揃ったから配布しちゃうぜ!」
と思って配布したものの、後からいろんな歌をUTAわせてくうちに
「やっぱり語尾息とエッジは欲しかったか!?」
になりました。
これも収録形式と音階の選択と同じことだとは思うんですが、
「初心者向けか否かより、自分の欲しい音を入れる」
のが良かったな…と思いました。
実際特殊音素追加したところで、そこまでとんでもなく手間がかかるわけではないです。
リリース前に使い心地を存分にチェックした方が良い、という印象です。
最後に
他にも色々あった気がしますが、思い出せる範囲はこのくらいです。
また思い出したことがあれば追記します。
あくまで私の場合の「気づいときゃよかったよ~」なので、これらを実行した方が良いかどうかは人それぞれだと思われます。
それでもこれから音源を作成される方のお役に少しでも立てば幸いです。
それでは。
Macbook Air M1がきたぞっ
こんばんは、麻戸です。
発売日に辛抱たまらず衝動買いしたmacbook air M1が来ました!
初Mac OSなのですが…使い辛え!!!
慣れればいいことも多いかもですが、現状ひたすら辛いです。windowsは最高。(MS信者)
Mac OSはともかくとして、スペックはめちゃくちゃ高い気配があります。
intel版を知らないのでアレですが、Xcodeの動作も軽快に感じてます。
おそらくですが、M1は今までMacを使い続けた人向けというよりは、iPhoneやiPadでApple端末に慣れ親しんだ人が初めて買うPCとして作られてるのかな、と感じました。
アプリケーションの起動や動作など、モバイル端末からシームレスに使い始められそうですよね。
ひとまずunityやVScodeの正式対応を待ちながら、garage bandなどいじってみようと思います。あとスタバにも持っていきます。
では。
はてなブログに引越しました
note、というかnote株式会社のサービスを利用するのは厳しいな になったのではてなブログに引っ越しました。
とはいえ元々そんなに書いてなかったんですが…
近況としては、キャンプやりたいなの機運が来たので色々買い揃えています。
ミーハー太郎なのでもちろん焚き火台にメタル賽銭箱を購入しました。組み立て時は「ホントにここに差し込んでいいんですか!?」と怖くなったりもしましたが、使いやすくていい感じです。
Oculus Quest2は最近放置気味です。そもそもあまりゲームをプレイできない日が続いています。
真3HDがご覧の有様だったので、その鬱憤からSwitch版黄泉ニ裂ク華を衝動買いしたのですが、これがなかなかいい感じです。
SEの使い回しやキャラグラの少なさは残念ですが、とにかくプレイしやすい。
帰還アイテムが無限だったり緩すぎるのでは?という意見もありそうですが、僕はこのくらいがちょうどいいです。ほどほどの難易度をサクサククリアしていい気分になりたいので。
真3HDの動作については修正が入りそうですが、今年中には来なさそうなので当分黄泉華をプレイします。
では。