Cinematic Audio Source Separation Using Visual Cues

Cinematic Audio Source Separation
Using Visual Cues

CVPR 2026
^*Indicates equal contribution, ⁺Indicates corresponding authors

Abstract

Cinematic Audio Source Separation (CASS) aims to decompose mixed film audio into speech, music, and sound effects, supporting applications like dubbing and remastering. Existing CASS approaches are audio-only, overlooking the inherently audio-visual nature of film, where sounds often align with visual cues. We present the first framework for audio-visual CASS (AV-CASS), leveraging visual context to enhance separation. Our method formulates CASS as a conditional generative modeling problem using conditional flow matching, enabling multimodal audio source separation. To address the lack of paired cinematic datasets with isolated sound sources, we introduce a training data synthesis pipeline that pairs in-the-wild audio and video streams (e.g., facial videos for speech, scene videos for effects) and develop a dedicated visual encoder for this dual-stream setup. Trained on synthetic data, our model generalizes effectively to real-world cinematic content and achieves strong performance on synthetic, real-world, and audio-only CASS benchmarks.

Separation Results

Use the toggle below to switch views: Comparison with CASS models compares AV-CASS against CASS models (BandIt [1] and MRX [2]), while Comparison with DAVIS-Flow compares AV-CASS against the audio-visual source separation model DAVIS-Flow [3].

Superman | Official Trailer (2025)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

My Oxford Year | Official Trailer | Netflix (2025)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Glass Onion: A Knives Out Mystery | Official Trailer (2022)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Knives Out | Official Trailer (2019)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Interstellar | Official Trailer (2014)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Mission: Impossible - Rogue Nation (2015)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Darkest Hour (2017)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

American Made (2017)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

The Divergent Series: Allegiant (2016)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

The Dark Tower (2017)

Input Video

AV-CASS (Ours) - Speech

AV-CASS(Ours) - SFX

AV-CASS(Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Breaking In (2018)

Input Video

AV-CASS (Ours) - Speech

AV-CASS(Ours) - SFX

AV-CASS(Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Teen Wolf Too (1987)

Input Video

AV-CASS (Ours) - Speech

AV-CASS(Ours) - SFX

AV-CASS(Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

MADAGASCAR | Official Trailer (2010)

Input Video (Animation Movie)

AV-CASS (Ours) - Speech

AV-CASS(Ours) - SFX

AV-CASS(Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Materialists | Official Trailer HD | A24 (2025)

Input Video

AV-CASS (Ours) - Speech

AV-CASS(Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

WONKA | Official Trailer (2023)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Good Fortune | Official Trailer (2025)

Input Video

AV-CASS (Ours) - Speech

AV-CASS(Ours) - SFX

AV-CASS(Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Good Fortune | Official Trailer (2025)

Input Video

AV-CASS (Ours) - Speech

AV-CASS(Ours) - SFX

AV-CASS(Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

DON'T LOOK UP | Official Trailer (2021)

Input Video

AV-CASS (Ours) - Speech

AV-CASS(Ours) - SFX

AV-CASS(Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Slow Horses | Official Trailer (2022)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Slow Horses | Official Trailer (2022)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

The Martian | Official Trailer (2015)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Inception (2010)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Knowing (2009)

Input Video (No speech in this clip)

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Lassie Come Home (1943)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Bandslam (2009)

Input Video (No music in this clip)

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Inglourious Basterds (2009)

Input Video (No music in this clip)

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

The Divergent Series: Allegiant (2016)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

San Andreas (2015)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

Jurassic World: Fallen Kingdom (2018)

Input Video

AV-CASS (Ours) - Speech

AV-CASS (Ours) - SFX

AV-CASS (Ours) - Music

BandIt - Speech

BandIt - SFX

BandIt - Music

MRX - Speech

MRX - SFX

MRX - Music

BibTeX

@inproceedings{zhang2026cinematic, title={Cinematic Audio Source Separation Using Visual Cues}, author={Zhang, Kang and Lee, Suyeon and Senocak, Arda and Chung, Joon Son}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, year={2026} }

Cinematic Audio Source Separation
Using Visual Cues

Abstract

Interactive Mixer Demo with AV-CASS

Separation Results

Superman | Official Trailer (2025)

My Oxford Year | Official Trailer | Netflix (2025)

Glass Onion: A Knives Out Mystery | Official Trailer (2022)

Knives Out | Official Trailer (2019)

Interstellar | Official Trailer (2014)

Mission: Impossible - Rogue Nation (2015)

Darkest Hour (2017)

American Made (2017)

The Divergent Series: Allegiant (2016)

The Dark Tower (2017)

Breaking In (2018)

Teen Wolf Too (1987)

MADAGASCAR | Official Trailer (2010)

Materialists | Official Trailer HD | A24 (2025)

WONKA | Official Trailer (2023)

Good Fortune | Official Trailer (2025)

Good Fortune | Official Trailer (2025)

DON'T LOOK UP | Official Trailer (2021)

Slow Horses | Official Trailer (2022)

Slow Horses | Official Trailer (2022)

The Martian | Official Trailer (2015)

Inception (2010)

Knowing (2009)

Lassie Come Home (1943)

Bandslam (2009)

Inglourious Basterds (2009)

The Divergent Series: Allegiant (2016)

San Andreas (2015)

Jurassic World: Fallen Kingdom (2018)

BibTeX

References

Cinematic Audio Source SeparationUsing Visual Cues

Abstract

Interactive Mixer Demo with AV-CASS

Separation Results

Superman | Official Trailer (2025)

My Oxford Year | Official Trailer | Netflix (2025)

Glass Onion: A Knives Out Mystery | Official Trailer (2022)

Knives Out | Official Trailer (2019)

Interstellar | Official Trailer (2014)

Mission: Impossible - Rogue Nation (2015)

Darkest Hour (2017)

American Made (2017)

The Divergent Series: Allegiant (2016)

The Dark Tower (2017)

Breaking In (2018)

Teen Wolf Too (1987)

MADAGASCAR | Official Trailer (2010)

Materialists | Official Trailer HD | A24 (2025)

WONKA | Official Trailer (2023)

Good Fortune | Official Trailer (2025)

Good Fortune | Official Trailer (2025)

DON'T LOOK UP | Official Trailer (2021)

Slow Horses | Official Trailer (2022)

Slow Horses | Official Trailer (2022)

The Martian | Official Trailer (2015)

Inception (2010)

Knowing (2009)

Lassie Come Home (1943)

Bandslam (2009)

Inglourious Basterds (2009)

The Divergent Series: Allegiant (2016)

San Andreas (2015)

Jurassic World: Fallen Kingdom (2018)

BibTeX

References

Cinematic Audio Source Separation
Using Visual Cues