ゲームなんとけ

ゲームとかパソコンとかのブログ

カテゴリ:パソコン一般 > AI

月ほど前の話ですが、 ACE-Step 1.5というのを使って曲が簡単に作れるらしいというのを見かけたのですが、引越しやらなんやらで先送りになり、そのまますっかり忘れていましたw
先の音声AIチャットを調べてるときに見つけて思い出したのでこの機会にやってみました(゚∀゚)
ComfyUIのテンプレートにも入ってるので、あとはモデルだけダウンロードすればいいので簡単ですね。
dc8c19c04be7af90c3716b11e1b7329a
作詞作曲なんてさっぱりできないわたしですので、とりあえずChatgptに丸投げしてみましたw
c3a582f8ef9130e8434bde399c35a9c6
ce8a15af2065369bf7b3f708646bcf44
できたやつ→オープニング
なんかそれっぽく出来てない?歌詞が正しいのかはわかりませんけどw
前回、ダンジョンのゲームを作った時の曲がSunoに作ってもらったやつなんですが、Sunoだと歌声いれるのが無料だとダメだったんですよね。こちらはRTX3060で全然余裕で動くし、生成も早く、曲もまともなので、ゲームのBGMとかもうこれでいいんじゃね?って感じですw
せっかくなので日本語歌詞&エンディング曲をお願いしてみました。
59875da5bd4cc0ec453d63105865bc8f
できたやつ→エンディング
思った以上に日本語だったんですけど、漢字入れたのがちょっと失敗だったかもですねー。あと尺。
まぁでも、これだけできれば十分な気もしますねー。
れがもっと早くあれば、あいうぉのMUSICもジャケットだけじゃなくてちゃんと曲流せたかもなぁw

ょっときっかけがあり、ローカルLLMを使って、ネットワーク越しに音声会話をしたいと思って色々調べたんですが、音声を出すだけならVOICEVOXを使えば簡単にできるらしい。
で、早速やってみたんですけど、パソコン一台でやってる分には、VOICEVOXエンジン設定のCORS Policy Modeをallにしておけば動いたんですが(セキュリティ上の懸念はさておき)、
1fe2df723fa1910908e2881960a36e08
これをLAN経由で別のパソコンからやろうとすると全く繋がりません(´・ω・`)
どうもVOICEVOXを起動時に設定するPCのIPアドレスが実際のIPアドレスじゃなく127.0.01になってるのが問題らしいんですが、ネットを検索して出てきた、コマンドラインで起動するとか、コンフィグファイルを書き換えるとかやってみたんですが全部変わってくれませんでした。結構記事も古いのばっかりだったのもあるんですけど、とりあえず2026/04/05時点でうまくいった方法をメモっておきます。
必要なのは二つで、
①パラメータを指定して起動する。
②WindowsDefenderにインバウンドの許可を追加する。
です。
①でわたしが引っかかってたのはVOICEVOX.exeで起動するのではなくて、vv-engineフォルダの下にあるrun.exeで起動しないとダメだったというとこですね。VOICEBOX.exeで起動するとどこをいじっても127.0.0.1で起動しちゃうんですよね。それを回避するにはコマンドラインから、
run.exe --host 192.168.2.100
みたいな感じで起動する必要があったようです(192.168.2.100の部分はVOICEVOXを動かすパソコンのIPアドレスです。)。ただし普通にVOICEVOXを起動したときに出る各種設定メニューとかは全くでないのでサーバ機能特化になります。
初回起動時だけ、
19cd3514e3213b56576ab5dcbf4b8da4
こういうのが出ますので許可すれば②のファイアウォールの設定も自動でしてくれます。

いうことで、以前作ったLLMクライアントにVOICEVOX連携機能を追加してもらいました。
5a00c3e42fee01c2edfea917b26f7bbc
ついでにマイク入力も追加(゚∀゚)
LMStudio_client_v10.html
こちらは多分Chrome専用w

Z-imageがうまく行ったので調子に乗ってFluxもやってみることにしました(゚∀゚)
作成自体はほとんどトラブルなく成功。前回のメモリ不足はなんだったん?アプデで変わったんですかねぇ。
fbe4456eb2f6804a0fe7daa37f027989
FLUX1も2もパラメータはZ-imageとほぼ同じ。違うのはMODELくらいですねー。
ただ派生モデルだと結構エラーで動かなかったり、FLUX2はオンラインダウンロードがどうしても失敗するのでローカルに保存してパス指定でやりました。
結果としては、
2026-03-27_Flux2_00009_
2026-03-27_Flux1_00013_
上がFLUX2で下がFLUX1。どちらも雰囲気的には反映してますけど、かなり別キャラになってますねー。
2026-03-27_Flux2_00013_
2026-03-27_Flux1_00015_
Loraいれなきゃこんな感じなので間違いなく反映はしてるんですけどねぇ。

AI-TOOLKITによるLora作成は以前もチャレンジしてるんですが、Out of Memoryで諦めてたんですよねー。
今回再チャレンジしようと思った理由は、前回はQwenでやってたんですけど、某サイトでAI-TOOLKITがZ-Image-Turboに対応したというのを見かけたため。前回の実験やったそのすぐあとの話らしいですけど。
なお、使用マシンは前回失敗したGTX5060ti16GBのやつです。
先に書いちゃうと、Z-Image-TurboでやるにはTraining Adapterなるものが必要で、そちらの導入はしたものの結局メモリ不足でコケました_(:3 」∠)_ 
で、Z-Image-BASEでやったところとりあえず動いたので今回はそれでメモを取ってます。
続きを読む

なんとなーくネットを徘徊していたところ、いきなりビックリニュースが!

sora終了!マジカ(´゚д゚`)

わたしはsoraとGrokくらいしか動画生成使ってなかったのでこないだからのGrok制限もあって使えるものがいきなりなくなりましたw
代替ってなんかあるのかしらん(´・ω・`)

AIの無制限プランは消えるかも?!みたいな記事をネットで見かけて、マジカーとか思いながらGrokで絵を描かせてたら、
スクリーンショット 2026-03-19 19.21.29
わたしは複数アカウント持ってるんですけどどのアカウントもこれですよ(´゚д゚`)
昨日まで描いてくれてたじゃん!
Grokに聞いてみたら
スクリーンショット 2026-03-19 19.22.59
一足早くGrok死亡?
やはり頼れるのはローカル環境か(´・ω・`)

そういや、SUPERGROKに誘導されるときの値段。アカウントによって違うんですよねー。なんだろう?

一向にバグを解決してくれないChatGPTに変わりclaudeに修正をお願いしました。
1c940deb0d76690acc065fd6a60e0641
作成中のコードを全部ZIPにして、claudeに放り込みザックリ説明で直してほしいところを入れてみた。
d9ad8f838f7385b7c1b1106e0de0cd35
9031fde45297967fea382354a0afbd92
93dc58a44d5eb3acb82c56d83b205f93
一発クリアとはいきませんでしたが5回ほどのやり取りで解決。コード内に残っていたゴミも処理してくれたようです。ChatGPTだと修正するたびに【ボタン効かなくなったんだけど!( ゚Д゚)】とか何度も言わされてたのでイライラからは解放されました(゚∀゚)
ちなみにChatGPTと並列して修正させてたんですがChatGPTはまだ思考中ですw
ドリフェスシミュもこの先考えるとこちらで作り直す方がいいかもなぁ。

こないだ作ったアイうぉ図鑑ビュアの調整をやっているのですが、手戻りが多くて一向に進まない(´・ω・`)
なんとかならんのかなーとネットを探していたら、ChatGPT解約運動なるものがあって、代替として上がっているのがclaudeらしい。色々見ると会話メインならChatGPT、データ整理やコーディングはclaudeが良いらしいとの情報を得たので、IPADで使える画像ビュア作ってーと言ったら、サクッと作ってくれた。ついでにChatGPTで問題になってるとこを聞いてみたところ、
Claudeのブラウザ利用について - Claude
まさかのあんまりかわんないんじゃね?的な回答がw
Claudeのブラウザ利用について - Claude 2
ですがプロジェクトなるものの存在を今更認識できました。そういえばChatGPTにもプロジェクトってあったなー。
とりあえず、そちらを先に試してみようかしらん。

の後色々やってみたんですが、結局プロンプトはAIに作ってもらうのがよさそうですw
ただ、ChatGPTは結構でたらめ言うので突っ込み入れながら作らせないと、

結論①:LTX2そのものは音声生成をしません

これは 公式仕様・実装レベルの話 で、

  • LTX2(I2V / T2V)は
    映像フレームのみ生成

  • 音声トラック(wav / mp3 / AAC 等)を
    内部で生成・mux する機構は存在しません

つまり
👉 LTX2単体で「日本語音声が動画に含まれる」ことは原理的に起きません

↑こんなことを平気で言ってきます( ゚Д゚)ウォイ!

Copilotはムリで、ChatGPTとGrokは、画像貼り付けて、「こうこうこういう動作させたいからLTX2用のプロンプト作って!」と言えば作ってくれます。たまに嘘つくのでその時は教育が必要ですがw
個人的感想ですが動きはChatGPTがいい気がしますね。ちょっとHなの入れようとすると怒られますけど。
それでも最初は
084065f21cc51441df279786eaf792e4
なっち要素どこいった?( ゚Д゚)

みたいな感じだったんですけど、何度も怒ってなんとかまともに動くようになったのがコレ↓

かなり良くなったかなぁ、セリフは片言だけどw
ガチャで台詞の感じはかなり変わるので、あとでできのいい音声と差し替えるのが良さげです。
ちなみにWan22↓

絵のスッキリさ、動きのスマートさで言えばWAN22に及ばないきがしますけど、LTX2の洗練されてない動きもこれはこれで味があって良い気がします(゚∀゚)


だ、触って数日しか経ってないので大して使い切れてもないんですが、なんかアプデが入ってテンプレがが動かなくなったのでとりあえずひとまとめ。
1/30時点のテンプレを使って見たところでは、描かれているものを動かす分にはできるのですが、見えない部分を動かす(描かせる)のはかなり厳しいですね。手とかだけ動かすとかだとそこまで問題なく動いてくれますが、

現状では元絵にない部分を描かせようとするとかなり破綻します。具体的には、振り返るとかスカートをめくるとかw
79d5296120a2c2fa3ea5fc3bc1f3f5e1
WAN22はその辺を結構補完してくれたので、ベースは商用生成AI描かせて、描けない部分♡とかをWANに補完して描かせる(*ˊ艸ˋ)なんてこともできたのですが、そのあたりのやり方がまだわかんないですねー。CIVITAIや個人サイトではいい感じに動いてそうな動画が上がってるんで方法はありそうなんですが。
元画像がリアル寄りなら前回の犬と女の子みたいに振り返りでも一応見れるレベルのものができる感じなんですが、今のとこ萌えアニメ系は思ったようにうまく動いてくれません(´・ω・`)
826f2814696b967561beb92ff188a501
アン〇ンマン?首が取れて新しい頭がw
絵柄の問題がかなりあるとは思うので良いloraが出てくれば変わりそうですけど。
3969267efe36e49c3c2a24fa9d92513e
脱衣なんかも試してみたんですが、これボックスなっちの一部だけ削ったやつで動かしたんですけど、服と言うよりも扱いがボディペイントみたいな感じなんですよね。完全に手なんかと一体になっちゃってて、ひらひらとかもしません。この服を動かすとかどうプロンプトでかけばいいんだろ?
と、動きを大きくすると、途中の崩壊がかなりキツイデスネ。
9fd8eade7ae6550ebf7419bc08973fe5
アニメみたいに見てて違和感ないレベルならいいんですけど、半分くらいこんな感じなんですよね(;^ω^)
1080x1080でやってますけど、これ以上上げると時間がかかり過ぎるし、そこまで劇的に良くなりそうな気もしないんだよなぁ。
これもなんかわたしが根本的な間違いをしているかもしれないので、もう少しまともに調べないとかもです。英語苦手なんだけどなぁ(´・ω・`)
体的な感想としては、音声はスゲー(゚∀゚)でも動画は思ったほどサクッといいのを作ってくれない(´・ω・`)と言う感じ。
長尺動画が5060の16GBとかでできちゃうのは普通にすごいですけどね。25秒の動画が30分くらいでできました。他のサイトの情報だと8GBとかでもいけるらしいですし驚愕です。まぁ、25秒分のプロンプトとかとても自分で書いてられないんですけどw

プロンプトは「黒髪のロングヘアの女の子が両手を組んでこちらに祈っている。一秒後彼女は両手を大きく広げる。更に一秒後、彼女はVIEWERに抱きついて、にっこりと笑い「おにい・さま」「だーいすきぃ!」「けっこんしよー?」と言う。」4秒程度だとちょうどセリフだけしゃべってくれるんですが、長尺だと空いた部分は適当なセリフやBGMが突っ込まれるw
まぁ、まだ過渡期でしょうからさらなる進化を期待しつつ情報が出るのをまとう(`・ω・´)

↑このページのトップヘ