マスタリングの常識を再定義する:Ozone 12 の革新的な新機能の舞台裏

20年以上にわたり、iZotope Ozoneはマスタリング技術の分野におけるリーダーであり、エンジニアやプロデューサーから信頼を得て、トラックに命を吹き込んできました。今回リリースされたOzone 12によって、ソフトウェアは従来のマスタリングの限界を超えた存在となります。
私たちは、この新しいリリースを支える二人の優れた頭脳 ― Principal Research EngineerのAlexey Lukinと、Senior Research EngineerのJohannes Imort ― に話を伺いました。
この記事では、Ozoneが音楽制作において可能性を再定義する方法を垣間見るために、新しいモジュール ― Maximizer IRC 5モード、業界初のUnlimiter、そしてStem EQ ― に込められた画期的なテクノロジーに迫ります。
このインタビューを読めば、新機能のすべてはiZotopeの基本哲学 『クリエイターに力を与える知的なツールを提供しつつ、創造的なコントロールを奪わない 』に合致していることがわかります。
Alexey Lukinと迫るラウドネスの進化
iZotopeのPrincipal Research EngineerであるAlexey Lukinは、新しいMaximizer IRC 5モードの開発について語ります。これは、通常のトレードオフなしに、より大きく、よりクリアなマスターを実現するために設計された高度なアルゴリズムです。
「私たちは、マキシマイザーの歪みを予測するための心理音響モデルを走らせる最先端のDSPを、マルチバンド設計の中で活用したいと考えました。R&Dチームは、IRC 5に伴う深刻なCPUとレイテンシーの要求に対処し、リアルタイムパフォーマンスに最適化しなければなりませんでした。」
— Alexey Lukin
新しいIRC 5リミッティングモードでは、具体的にどのような改善が行われ、ユーザーはどのようにして従来のリミッターでは避けられなかったトレードオフなしに、大きくクリアなマスターを実現できるのでしょうか?
Alexey: IRC 5はOzoneにおける初のマルチバンドリミッターアルゴリズムです。20年以上にわたり、私たちの研究チームはOzone Maximizerのサウンドを磨き続けてきましたが、それらはすべてシングルバンド設計でした。この設計では、マキシマイザーは信号に可変のゲインエンベロープを適用するピークリミッターとなります。
ゲインエンベロープの計算には多くの精緻な工夫があります。リミッターは、信号のトランジェントやトゥルーピークに素早く反応しなければならない一方で、持続音に対してはゆっくりと穏やかに動作し、歪みや変調を防ぐ必要があります。このようなバランスは、OzoneのIntelligent Release Control (IRC)テクノロジーによって実現されています。
IRC 1、2、3、4の各モードでは、マキシマイザーはクレストファクター(キックとベースのバランス)、音調成分とノイズ成分の比率、知覚される歪みといった信号特性に応じて調整されてきました。しかし、このアプローチには常に限界がありました。重い低音は必然的に高域のサウンドに影響を与え、同じゲインエンベロープを共有するためにポンピングや歪みを引き起こすのです。その結果は、Character設定に応じて慎重にバランスを取る必要がありました。
IRC 4モードでは、最も問題のある周波数成分を抑えるためにSpectral Shaperを導入し、他の帯域への影響を軽減しました。しかし、本格的なマルチバンド設計が導入されたのはIRC 5が初めてです。現在では、マキシマイザーは4つの周波数帯ごとに異なるゲインエンベロープを適用することで、変調やポンピングを減少させることができます。ピークレベルに最も寄与する帯域がまず減衰し、他の帯域のヘッドルームが確保されるのです。これによって音色変化が生じる可能性はありますが、その度合いはポンピングや相互変調の回避による利点とのバランスが慎重に取られています。
4帯域で動作できる自由度により、周波数帯域ごとに異なるアタック/リリースタイムを設定できるようになりました。これはシングルバンド設計では不可能だったことです。iZotopeのサウンドデザインチームは、より大きくクリアなマスターを生成しつつ、ユーザーがサウンドキャラクターを制御できるよう、周波数全体でのリミッターの応答を最適化しました。
Ozone 12 の新しい IRC 5 リミッティングモードは「これまでで最も高度なアルゴリズム」と言われています。この新しいアルゴリズムを開発する際、どのような技術的課題に直面し、どのように克服されたのでしょうか?
Alexey: 私たちは、マキシマイザーの歪みを予測するための心理音響モデルを走らせる最先端のDSPを、マルチバンド設計の中で使用したいと考えました。R&D チームは、IRC 5 の深刻な CPU およびレイテンシー要求に対応し、リアルタイムパフォーマンスに最適化する必要がありました。
さらに、True Peak リミッティング、Transient Emphasis、トランジェント/サステインのステレオ独立処理といった Ozone Maximizer の高度な機能すべてと IRC 5 を組み合わせること自体が、エンジニアリング上の大きな課題でした。一時は CPU 負荷とレイテンシーを軽減するために Transient Emphasis 機能を IRC 5 から外すことも検討しましたが、ベータチームからの前向きなフィードバックを受け、最終的にこの機能を残すことに決めました。
Ozoneの中でも人気の高い機能であるMaximizerを革新する際、どのようなアプローチを取られたのでしょうか?
Alexey: 私たちは、自分たちのアイデアと業界のベストプラクティスを組み合わせてきました。2003年にOzone 3でIntelligent Release Controlテクノロジーを初めて導入したとき、私たちの目標は、ユーザーに柔軟なコントロール性と最高水準の音質を提供することでした。
ユーザーがマキシマイザーのCharacterを幅広く調整できるようにし、ソフトクリッパーとしても利用できるようにすることで、音作りの幅を広げられるようにしました。
IRC 1の後、IRC 2と3の設計では、信号の異なる部分を最適に処理するために、より複雑なスペクトル解析を取り入れました。心理音響モデルを用いる私たちの特許技術により、アタック/リリースタイムを経験則的に制御する方法から、より最適で普遍的な方法へと進化し、IRC 3の成功を支えました。
さらに、BS.1770トゥルーピーク測定規格が採用された際、私たちのR&Dチームはその標準を分析し、準拠ソフトウェア間で一定のばらつきがあることを確認しました。その結果、Ozone Maximizerが異なるメーターにより良く準拠できる方法を考案し、AES論文を発表しました。
Ozoneの開発の過程で、著名なマスタリングエンジニアや教育者であるJonathan Wyner氏やBob Katz氏、そしてベータチームの多くの方々から助言を受けることができました。彼らの貢献に心から感謝しています。
不可能を可能にする:Johannes Imortとの対話
Senior Research EngineerのJohannes Imortは、iZotopeが機械学習を用いて「過去の処理を取り消す」ことを可能にするツールを開発し、このテクノロジーがOzone 12の中核となっていることを語ります。
「私たちはブラックボックスのAIマジックボタンを作りたかったわけではありません。Unlimiterでは、どのしきい値で作用を開始するか、復元の全体量を設定できるため、どの程度積極的に動作させるかをユーザー自身が決めることができます。これはiZotopeの哲学 ― アーティストとエンジニアが主導権を持ち、AIはその到達を助ける補助役でしかない ― を尊重しています。」
— Johannes Imort
新しいUnlimiterは業界初のツールであり、過度に圧縮されたオーディオの「アンドゥボタン」と表現されています。どのようにして機械学習技術が、失われたトランジェントを再導入しつつ、ダイナミクスを透明に復元するのでしょうか?
Johannes: オーディオエフェクトを「取り消す」という発想は、一見すると直感に反するかもしれません。「ミックスやマスタリングエンジニアが意図して行った処理をなぜ逆に戻すのか?」という疑問です。しかし実際には、すでに強く押し込まれた素材に出会ったり、古い録音をリマスターしたい場面があります。
Unlimiterは、特にChang-Bin Jeon氏とKyogu Lee氏による論文「Music De-Limiter Networks via Sample-Wise Gain Inversion」からインスピレーションを得ています。このアプローチは、リミッティングをサンプル単位のゲインカーブとして再定義し、それを反転させるという考え方です。つまり、リミッターが信号のゲインを下げる瞬間に、ニューラルネットワークが逆のゲインを予測し、波形を復元できるのです。この研究は、リミッターの隠れたゲインを反転させることで、驚くほど良好にダイナミクスを回復できることを示しました。
Ozone 12では、これをDAW内でリアルタイム、CPU上で、低レイテンシーで動作させる必要がありました。マスタリングエンジニアにとっては「即座に反応するプラグイン」であることが重要だからです。つまり、バッファ(数msecのオーディオ)が到着するたびに、次のバッファが来る前に処理を終えなければなりません。これを可能にするのがストリーミング推論です。ステートフルなニューラルネットワークが短い断片を処理し、内部状態をバッファ間で維持しつつ、オーディオバッファの締め切り内で計算を終えるので、音楽が途切れることはありません。
私たちは論文とは異なるモデルアーキテクチャを採用しましたが、サンプル単位のゲイン反転という発想は踏襲しました。トレーニング中には「リミット済み入力」と「リミット前の参照」の両方が分かっている短い例を大量に学習させます。これにより、(1) 実際にリミッティングが起きた箇所(平坦になったピークやクリップされたトランジェント)、(2) 音声を再構築するうえで妥当な拡張量、の両方を学習します。直感的に言えば、モデルは「リミッターが押し下げた場所だけを素早く持ち上げる音楽的なフェーダー操作」を学習するのです。
さまざまな素材で学習させたため、ジャンルを超えてよく一般化します。極端なブリックウォール処理や歪んだソースなど未対応のケースもありますが、今後はさらに厳しいリミッティングや圧縮、歪みにも対応できるよう進化すると考えています。これはRXのリストアワークフローにも適しているでしょう。
もう一つの設計目標は「コントロール」です。私たちはブラックボックスのAIマジックボタンを作りたくはありませんでした。Unlimiterでは、動作を開始するしきい値と復元の全体量を調整でき、どの程度積極的に作用させるかをユーザーが決められます。これはiZotopeの哲学 ― アーティストとエンジニアが主導権を持つ ― を守るものです。
Ozone 12のStem EQは、ステレオファイルからボーカル、ドラム、ベース、その他の楽器を個別にEQできるツールです。改良されたStem Focusモードを支える新しいニューラルネットワークについて、どのように制御性を高め、アーティファクトを減らしているのか詳しく教えていただけますか?
Johannes: Stem EQは、リアルタイム・低レイテンシー・位相整合型の音源分離を基盤としています。以前のOzoneのStem FocusやMaster Rebalanceは、DAW内でこれをライブ処理できる初期の商用ツールの一つでした。当時は各ソース(ボーカル、ベース、ドラム)ごとにコンパクトなモデルを走らせており、4ステムすべてを同時に分離することはできませんでした。
新しいシステムでは、よりモダンなアーキテクチャと高度な最適化を導入し、複数のステムを同時処理できるようになりました。その結果、分離の明瞭さが向上し、トランジェント処理が改善され、アーティファクトも減少しました。レイテンシーもDAWフレンドリーに保たれています。
さらに、各ステムにEQを統合したことで、マスター内の音楽要素を外科的にコントロールできるようになりました。Stem EQは、現代の機械学習と従来のDSPがうまく融合した好例です。セパレーターが音楽的なステムを取り出し、従来のEQが正確で予測可能なトーンシェイピングを行います。
音源分離の研究は急速に進化しており、2019年頃にはOpen-UnmixやDeezerのSpleeterといったスペクトログラムマスキング手法が主流になり、その後Demucsのような波形・ハイブリッドモデルがさらなる高みを実現しました。研究コミュニティやSound Demixing Challengeのような競技が進歩を後押しし、多くのチームがコードやモデルを公開してくれたことも役立ちました。
しかし「リアルタイム処理」はまだ十分に研究されていない分野です。短いバッファで効率的に動作し、因果的または軽い先読みアーキテクチャを使う必要があり、これはUnlimiterと非常に似た制約条件です。さらに、分離されたステムは必ず元のミックスと合計して一致する必要があり、入力ミックスの情報を失わないことも重要です。
Stem SeparationとUnlimiterの技術は、まさにOzone 12のテーマである「不可能を可能にする」ことを体現しているように思えます。これら革新的なツールの開発プロセスはどのようなものだったのでしょうか?また、ユーザーにはどのように活用してほしいと考えていますか?
Johannes: 私は研究者でありミュージシャンでもあるため、常に機械学習や信号処理の論文を読み漁りつつ、それを実用的なツールに落とし込む方法を探しています。Ozoneチームとのアイデアセッション(Bill Podolakに感謝)では、最新研究を具体的なユーザー課題に結びつける作業を行いました。その中から、実際のワークフローを大きく改善できると考えられる機能を絞り込みました。
Unlimiterでは、すでに強く処理された素材に対して柔軟性とパンチを取り戻すための、実用的なダイナミクス復元ツールを目指しました。Stem EQはMaster Rebalanceの次の自然なステップであり、最新アーキテクチャと専有技術によって、リアルタイムのマルチステムコントロールを現実のものにしました。
開発は長く反復的な研究プロセスです。文献を調べ、有望な研究方向を特定し、数多くの実験を行い、リアルタイム推論に適したアーキテクチャを比較・最適化し、既存手法が合わなければ新しい設計を生み出しました。モデルを繰り返し学習させ、トレードオフを測定し、レイテンシーを少しずつ削っていきました。品質を犠牲にせずモデルを高速化・軽量化する作業は大きな部分を占め、DAW内で安定して動作するために不可欠でした。この革新と最適化のサイクルが、最終的にUnlimiterとStem EQを実現させました。
将来的には、マスターが完成したかどうかを判断できる「もう一対の人工の耳」を作ることも夢見ています。今はまだ願望の段階ですが…。今回のモジュールが技術的制約を乗り越えて実現できたこと、そしてOzoneチームとの優れたデザインと統合のコラボレーションのおかげで完成に至ったことを嬉しく思います。ユーザーがこれらを実際の作業で本当に役立ててくれることを願っています。
マスタリングの未来はあなたの手の中に
Alexey LukinとJohannes Imortとの対話から明らかになったのは、Ozone 12が最先端の研究とユーザー中心の設計を融合させることで、マスタリングの境界を押し広げているということです。
Maximizer IRC 5はOzoneシリーズ初のマルチバンド設計を採用し、4つの周波数帯に異なるゲインエンベロープを適用して、より大きくクリーンなマスターを実現します。
UnlimiterとStem EQは、高度な機械学習によって、これまで解決不可能だったオーディオの課題を解決します。
Unlimiterは「過度に圧縮されたオーディオのアンドゥボタン」として機能し、Stem EQはステレオファイル内でボーカルやドラムといった特定のステムを個別にEQできる前例のないコントロールを提供します。
これらすべてはiZotopeの基本哲学 ― クリエイターに力を与える知的なツールを提供しつつ、創造的なコントロールを奪わない ― に合致しています。Ozone 12により、プロデューサーやエンジニアはこれまでになかった方法で自分のサウンドを実現し、トラックに命を吹き込むことが可能になります。

Jonathan Wyner氏によるセミナーが10月日本開催決定!
限定10名様!Ozone 12 Advancedライセンス付属有償セミナー
マスタリング実践コース ~Mastering Bootcamp Vol.3~ ¥68,000(税込)
10月21日(火)午後に開催予定。
参加者の皆様に後日提供予定の課題曲マスタリング作業を事前に行っていただき、どのような判断とプロセスを経てマスタリングを仕上げたのか。
Jonathan Wynerが事前にそのファイルをヒアリングした上で、あなたと対話し直接のアドバイスを得るための実践マスタリング講座となります。(日本語通訳付)
※ 本セミナー購入者様には、Ozone 12 Advancedのライセンスが購入後2営業日程で提供されます。
※ セミナー購入の上、MPS 8等へのアップグレードをご希望のお客様には所有ライセンスを確認の上差額でのアップグレードプランを別途提案させていただきますのでお問い合わせください。
※ 課題曲のお渡しは10月頭頃を予定しております。
※ 本セミナー開催時間は最長4~5時間ほどとなる場合があります。