Tour d’horizon des formats de son immersif

Introduction

Le son immersif représente une évolution majeure dans le domaine de l’audio, transformant la manière dont nous percevons et interagissons avec le son. Contrairement aux formats antérieurs, de la stéréo au surround multicanal, qui restituent le son dans un plan essentiellement horizontal, les formats immersifs ajoutent la dimension verticale et permettent de positionner les sons dans un véritable espace tridimensionnel. Cette immersion est rendue possible grâce à des techniques avancées de spatialisation sonore, qui exploitent les caractéristiques psychoacoustiques de l’audition humaine.

Depuis les premiers enregistrements stéréophoniques jusqu’aux systèmes de son 3D les plus sophistiqués, l’évolution des formats audio a été marquée par des innovations constantes. Des formats tels que le son binaural, le Dolby Atmos, le DTS: X ou l’Auro-3D offrent des expériences auditives distinctes, chacune avec ses propres spécificités et domaines d’application. Mais avant de nous plonger dans le détail de chacune de ces technologies, il est utile de revenir sur ce qui distingue l’audio immersif des systèmes qui l’ont précédé.

Les systèmes dits « surround » traditionnels reposent sur un nombre fixe de canaux — par exemple, 5.1 ou 7.1, le « .1 » désignant un caisson de basses dédié aux fréquences graves — et distribuent les éléments sonores (musique, dialogues, effets) vers des haut-parleurs prédéfinis. Dans une configuration 5.1 courante, on trouve ainsi des enceintes avant gauche, centrale et droite, deux enceintes surround (arrière ou latérales), et un caisson de basses. Dans ce type de configuration, la voix d’un acteur à l’écran est typiquement diffusée par l’enceinte centrale, la musique répartie entre les enceintes avant, et les effets sonores distribués entre les enceintes avant et surround. Ces systèmes offrent déjà une certaine spatialisation, mais restent limités dans leur capacité à positionner les sons avec précision dans un espace tridimensionnel — notamment en hauteur.

Les technologies audio immersives adoptent une approche différente. En complément de la logique de canaux, elles introduisent l’audio « basé sur les objets » : chaque élément sonore (un pas, une voix, un effet) est traité comme un objet indépendant, auquel on associe une position dans un espace 3D. Cette position est ensuite reproduite dynamiquement selon la configuration de diffusion disponible : qu’il s’agisse d’une salle de cinéma équipée de dizaines d’enceintes ou d’un casque audio. Cette approche permet un placement sonore plus précis, l’exploitation de la dimension verticale, et une adaptation automatique à différents environnements d’écoute.

Ces technologies ouvrent également de nouvelles possibilités créatives pour les artistes et les ingénieurs du son. Les productions cinématographiques, les jeux vidéo, les concerts, la musique enregistrée et les expériences de réalité virtuelle bénéficient de ces avancées, offrant aux auditeurs des expériences d’écoute inédites. En explorant les différents formats de son immersif, cet article propose un panorama des technologies disponibles, de leurs applications – professionnelles, grand public et scientifiques – et des développements à venir. Que vous soyez passionné d’audio, professionnel du son, ou simplement curieux, ce tour d’horizon vous permettra de mieux saisir les possibilités qu’ouvre aujourd’hui le son immersif.

Le Dolby Atmos 

Le Dolby Atmos, introduit sur le marché en 2012, est un format de son immersif qui ne fonctionne donc pas avec des canaux fixes, mais traite les sons comme des « objets » pouvant être positionnés précisément dans l’espace tridimensionnel.
Cette technologie permet une flexibilité accrue et une meilleure immersion, tant au cinéma qu’à domicile. Le mixage et le décodage des bandes sonores sont adaptés pour utiliser chaque haut-parleur individuellement, permettant aux ingénieurs du son de placer jusqu’à 128 objets audio avec une précision extrêmement fine. Cela est réalisé grâce à des métadonnées qui peuvent décrire la position et le mouvement des objets sonores.
Une caractéristique clé du Dolby Atmos est la dimension verticale, rendue possible par des haut-parleurs suspendus au plafond, offrant une expérience sonore à 360° plus réaliste et immersive, notamment pour des effets tels que la pluie, les hélicoptères ou les avions en vol. Cette technologie est désormais disponible dans certaines salles de cinéma en France et dans les systèmes de home cinéma, ainsi que dans des contenus musicaux remixés en Atmos.
Pour les installations domestiques, où les haut-parleurs au plafond ne sont pas pratiques, les fabricants ont développé des solutions alternatives, comme les barres de son orientées vers le haut, qui utilisent les réflexions sonores pour simuler l’effet de hauteur.
Pour en profiter chez vous, il faudra impérativement vous équiper d’un amplificateur compatible, et d’au moins 7 enceintes (dont 2 spécifiques à cette technologie, pour la dimension de hauteur).
De nombreux films, émissions de télévision et même des albums de musique sont désormais mixés en Atmos. Les principales plateformes de streaming telles que Netflix, Disney+ et Amazon Prime Video proposent une bibliothèque croissante de contenus compatibles Atmos, ce qui procure au format un avantage concurrentiel.

Applications : cinéma, home cinéma, jeux vidéo, musique.

Cinéma : le film « À l’Ouest, rien de nouveau » utilise Dolby Atmos pour créer un environnement sonore immersif, plongeant les spectateurs au cœur des scènes de guerre avec des détails sonores précis et réalistes.

Musique : certaines plateformes de streaming (Apple Music, Tidal, Amazon Music) proposent du Dolby Atmos.

https://music.apple.com/id/album/the-dark-side-of-the-moon-50th-anniversary-remastered/1665303755

https://music.apple.com/id/album/random-access-memories-10th-anniversary-edition/1673536063

Le DTS : X

Le DTS:X, introduit en 2015, est un format audio immersif concurrent qui adopte une approche légèrement différente pour créer une scène sonore tridimensionnelle. Il utilise la plate-forme Multi-Dimensional Audio (MDA), un standard ouvert et libre de droits.
Comme le Dolby Atmos, le DTS:X utilise l’audio basé sur les objets pour créer une expérience sonore plus immersive. Cependant, le DTS:X adopte une approche plus flexible du placement des enceintes. Alors qu’Atmos nécessite souvent des configurations d’enceintes spécifiques, le format DTS:X peut s’adapter à pratiquement n’importe quelle configuration d’enceintes, des configurations 5.1 ou 7.1 traditionnelles aux systèmes plus élaborés avec des canaux en hauteur. Cette flexibilité signifie que les utilisateurs n’ont pas nécessairement besoin d’investir dans de nouvelles enceintes ou dans des configurations spécifiques pour profiter du contenu DTS:X. ce qui le rend plus polyvalent pour diverses configurations de home cinéma, en particulier dans les pièces où le placement idéal des enceintes est difficile.
Le DTS:X offre en outre une fonctionnalité intéressante appelée Dialog Control, qui permet aux utilisateurs d’ajuster le volume des dialogues indépendamment des autres éléments audio.
DTS:X.
En termes de disponibilité de contenu, bien que le DTS:X gagne du terrain, il dispose actuellement d’un retard conséquent sur le le Dolby Atmos.

Applications : cinéma, home cinéma, systèmes audios de voiture.

Cinéma : le film « Mad Max : Fury Road » a été mixé en DTS:X, permettant une localisation précise des effets sonores dans l’espace, ce qui renforce l’immersion du spectateur.

Automobile : certains systèmes audios de voiture utilisent le DTS:X pour créer une expérience sonore immersive pour les passagers.

https://www.whathifi.com/advice/dtsx-what-it-how-can-you-get-it

https://www.visunext.fr/lp/dtsx/?srsltid=AfmBOoqbWfJ7BfU4V1TpV5doUXTsCH2n-fuDgeG5dODpLzAbyfVgAFGP

https://www.son-video.com/guide/dtsx-le-home-cinema-immersif

Le Auro-3D

Le Auro-3D est une technologie audio immersive développée par Auro Technologies, basée en Belgique.
Cette technologie vise à créer une expérience sonore tridimensionnelle en ajoutant une couche sonore au-dessus de l’auditeur aux systèmes de son surround traditionnels, tels que le 5.1 ou le 7.
Le Auro-3D est conçu autour de trois couches sonores : la couche surround, la couche de hauteur et la couche de plafond.
Cette configuration permet de créer un champ sonore spatial qui enveloppe l’auditeur.

Les formats d’écoute Auro-3D incluent Auro 9.1, Auro 10.1, Auro 11.1, et Auro 13.1, adaptés à différentes tailles de pièces et configurations de home cinéma.

Applications : cinéma, home cinéma, musique, réalité virtuelle.

Cinéma : le film « Red Tails » a été mixé en Auro-3D, ajoutant une dimension de hauteur aux effets sonores pour une expérience plus immersive.

Musique : l’album « Acousmatic 360° » de Molécule utilise Auro-3D pour offrir une expérience musicale immersive en live.

Le son binaural

Le concept de son binaural dans la reproduction du son, du latin « bini » signifiant « double » ou « deux » et « aural » relatif à l’oreille, n’est pas nouveau. La technique binaurale repose sur les caractéristiques psychophysiologiques de l’audition humaine pour localiser l’origine des sons.
Utilisé pour la première fois en 1861, le terme binaural est employé pour décrire le fait que deux oreilles sont impliquées dans le procédé d’écoute. En 1931, Alan Blumlein, un ingénieur anglais, présente ce qu’il nomme le son binaural, qu’on appelle aujourd’hui son stéréophonique (le terme a d’ailleurs souvent été utilisé comme synonyme de stéréophonique jusqu’aux années 1970). Il dépose un brevet intitulé « Improvements in and relating to Sound-transmission, Sound-recording and Sound-reproducing Systems ». Ses travaux portent sur l’amélioration du rendu spatial et aboutissent notamment à la présentation du film « Trains at Hayes Station », donnant pour la première fois à entendre un objet sonore se déplaçant à l’écran (en l’occurrence une locomotive). Aujourd’hui, les deux termes « binaural » et « stéréophonique » sont clairement distincts et lorsqu’on parle de technologie binaurale, on fait référence au fait que deux signaux sont obtenus, stockés et reproduits de manière à assurer une restitution fidèle et précise des sons après modification par le pavillon de l’oreille et la tête.

Un son émis à droite est perçu par l’oreille gauche avec une intensité moindre et avec quelques microsecondes de décalage par rapport à l’oreille droite, qui est la plus proche de la source sonore. Ces différences de temps et d’intensité interaurales nous permettent de localiser les sources sonores dans l’espace.

La restitution au casque d’un enregistrement qui ne tient compte que de ces deux critères, est perçue de manière intracrânienne (à l’intérieur de la tête entre les oreilles).
Pour percevoir les sources sonores avec une sensation de localisation extra-crânienne, c’est-à-dire enveloppante, immersive et naturelle, il faut intégrer en plus des différences de temps et d’intensité, ce que l’on appelle les HRTF : fonctions de transfert de la tête (head-related transfer function).
Par notre physionomie du visage, la forme de nos pavillons d’oreilles, chacun de nous possède ses propres HRTF. Le son qui arrive à l’intérieur du conduit auditif a subi des modifications spectrales liées aux diffractions et aux réflexions multiples du cheminement de l’onde sonore aux voisinages du torse, du visage et des pavillons d’oreilles. Cette déformation spectrale, ce filtre HRTF, varie en fonction de l’incidence du son, et permet de déterminer précisément la localisation de la source sonore.
Pour restituer un son tridimensionnel (azimut, élévation, proximité) au casque, il convient d’appliquer à un son isolé, capté par un microphone, une HRFT, composée de deux filtres, un par oreille. C’est ce que l’on nome : la synthèse binaurale.
La synthèse binaurale restituée au casque permet une spatialisation proche de l’écoute naturelle.

L’enregistrement binaural repose ainsi sur une réplique du système auditif, utilisant des microphones placés dans une tête factice pour recréer avec précision les différences de temps et d’intensité perçues entre les deux oreilles, connues sous les termes ITD (Interaural Time Difference) et ILD (Interaural Level Difference). Par exemple, une source sonore située à gauche de l’auditeur sera perçue en premier et avec plus d’intensité par l’oreille gauche. Contrairement à de nombreuses technologies de restitution tridimensionnelle du son qui nécessitent plusieurs enceintes réparties dans une pièce, comme par exemple le Dolby Atmos, la diffusion du son 3D en binaural est compatible avec n’importe quel casque hi-fi et écouteurs intra-auriculaires.

Le système de captation binaurale, historiquement connu sous le nom de Kunstkopf ou « tête artificielle », a été développé en Allemagne par les ingénieurs Plenge, Kürer et Wilkens.
Ce dispositif utilise un moulage reproduisant la forme d’un buste humain, en particulier la tête et les oreilles, dans lesquelles sont placés des microphones. L’objectif principal de l’enregistrement binaural est de capturer le son tel qu’il parvient au tympan, en utilisant des oreilles artificielles qui imitent l’anatomie humaine. Les recherches acoustiques des ingénieurs ont démontré que l’audition spatiale dépend de l’effet filtrant du torse, de la tête et des oreilles humaines. Ainsi, pour obtenir un enregistrement fidèle, il est nécessaire de reproduire minutieusement une tête humaine. Le premier prototype de tête artificielle, nommé Oscar, était équipé de deux microphones Neumann KM83. Avec l’aide d’un maquilleur et d’un chirurgien plasticien, les premiers prototypes en plâtre ont été créés, intégrant des microphones de studio placés au bout du conduit auditif et un coupleur spécial reproduisant l’impédance du tympan.

L’enregistrement binaural est aujourd’hui particulièrement prisé pour les podcasts, les fictions audio, les émissions de radio et quelques enregistrements d’orchestres classiques. Cette technique d’enregistrement est également très prisée pour l’ASMR (Autonomous Sensory Meridian Response).

Applications : Enregistrements audio immersifs, thérapie sonore, jeux vidéo.

Fictions radiophoniques : Radio France a produit de nombreuses fictions et documentaires en son binaural, permettant aux auditeurs de vivre une expérience immersive en trois dimensions.

Jeux vidéo : certains jeux vidéo, tels que A Blind Legend, utilisent le son binaural pour créer des environnements sonores réalistes et immersifs, améliorant l’expérience de jeu.

Exemples à écouter :

https://www.arteradio.com/serie/dans_la_tete

https://www.arteradio.com/son/mutt_dogs

https://www.radiofrance.fr/franceculture/podcasts/machins-machines

https://www.dailymotion.com/video/x4diqvr_avez-vous-peur-des-abeilles_animals

https://hyperradio.radiofrance.com/son-3d

Liens utiles :

https://audioblog.arteradio.com/article/23595/binaural-mode-d-emploi

Le son transaural

Au casque, l’écoute binaurale permet de recréer une sensation d’espace naturel immersif tandis que l’écoute transaurale le permet à partir de 2 haut-parleurs. Le son transaural est un signal binaural restitué sur haut-parleurs.
Le haut-parleur droit délivre une information à l’oreille droite mais également à l’oreille gauche et le haut-parleur gauche délivre une information à l’oreille gauche mais également à l’oreille droite. Pour reproduire un signal binaural sur haut-parleurs, il est nécessaire de procéder à l’annulation de ces trajets croisés, ou diaphonie entre les deux oreilles.
C’est ce que l’on nomme : Cross-Talk Cancellation, ou CTC. L’annulation des trajets croisés est réalisée par une série de filtres de correction pour chaque oreille.  Cette approche permet de positionner des sources sonores en dehors de la base stéréophonique matérialisée par les deux haut-parleurs.

Applications : Home cinéma, systèmes audio personnels.

Home cinéma : des systèmes de home cinéma utilisent des techniques transaurales pour créer une expérience sonore immersive avec seulement deux haut-parleurs.

Installations artistiques : des installations artistiques utilisent le son transaural pour créer des expériences sonores immersives avec des haut-parleurs placés stratégiquement.

Ambisonics

Le format Ambisonics est une technologie de son surround qui permet de capturer et de reproduire un champ sonore tridimensionnel. Cette technologie a été développée dans les années 1970 au Royaume-Uni et connaît un regain d’intérêt grâce aux avancées en traitement numérique du signal et à l’essor des systèmes de son surround pour le home cinema, les jeux vidéo et la réalité virtuelle.
Contrairement aux formats de son surround traditionnels qui se concentrent principalement sur le plan horizontal, l’Ambisonics couvre également les sources sonores au-dessus et en dessous de l’auditeur. L’approche de base de consiste à traiter une scène audio comme une sphère sonore de 360 degrés provenant de différentes directions autour d’un point central. Le point central est l’endroit où le microphone est placé lors de l’enregistrement, ou l’endroit où se trouve le « sweet spot » de l’auditeur lors de la lecture.
En outre, les technologies surround traditionnelles sont plus immersives que la simple stéréo à deux canaux, mais le principe qui les sous-tend est le même : elles créent toutes une image audio en envoyant du son à un ensemble spécifique et prédéterminé de haut-parleurs. La stéréo envoie de l’audio à deux haut-parleurs, le 5.1 surround à six, le 7.1 à huit, etc.
En revanche, l’Ambisonics n’envoie pas de signal audio à un nombre particulier de canaux et peut être décodé sur n’importe quel réseau de haut-parleurs. L’Ambisonics utilise en effet un ensemble de canaux de transmission qui ne transportent pas directement les signaux des haut-parleurs, mais plutôt une représentation indépendante des haut-parleurs d’un champ sonore, appelée B-format.
Ce format permet de penser en termes de directions des sources sonores plutôt qu’en positions des haut-parleurs, offrant ainsi une grande flexibilité dans la disposition et le nombre de haut-parleurs utilisés pour la reproduction.
L’audio ambisonique représente ainsi une sphère sonore complète et ininterrompue, non contrainte par les spécificités d’un système de lecture particulier.

Le B-format comprend quatre composants principaux, pour l’Ambisonics de premier ordre (FOA : First Order Ambisonics) :

W : La pression sonore omnidirectionnelle.

X : Le gradient de pression sonore avant-arrière.

Y : Le gradient de pression sonore gauche-droite.

Z : Le gradient de pression sonore haut-bas

Le HOA (High Order Ambisonics) est une extension de l’Ambisonics de premier ordre, utilisant plus de canaux pour améliorer la résolution spatiale (neuf canaux pour le deuxième ordre, seize canaux pour le troisième ordre). Cela permet une reproduction sonore plus précise et une plus grande zone d’écoute immersive.

L’Ambisonics est particulièrement efficace pour les applications de réalité virtuelle, où le champ sonore peut être ajusté en fonction de l’orientation de la tête de l’utilisateur.

Applications : réalité virtuelle (VR), réalité augmentée, production musicale.

Réalité virtuelle : les installations de réalité virtuelle comme celles utilisées par Google Earth VR utilisent l’Ambisonics pour créer des environnements sonores immersifs.

Concerts : la Salle Pleyel à Paris a expérimenté des systèmes de prise de son et de mixage basés sur la technique Higher Order Ambisonics (HOA) pour des concerts, offrant une reproduction sonore immersive.

Wave Field Synthesis (WFS)

Le Wave Field Synthesis (WFS) est une technique avancée de rendu audio spatial qui permet de créer des environnements acoustiques virtuels. Développée à la fin des années 1980 par le professeur A.J. Berkhout à l’Université de Technologie de Delft, cette technologie repose sur des principes physiques pour reproduire des champs sonores tridimensionnels avec une grande précision.
Le WFS est basé sur le principe de Huygens-Fresnel, qui stipule que toute onde peut être considérée comme une superposition d’ondes sphériques élémentaires. En pratique, cela signifie que le WFS utilise un grand nombre de haut-parleurs, chacun contrôlé individuellement, pour synthétiser des fronts d’onde artificiels.

Ces fronts d’onde semblent provenir d’un point de départ virtuel, appelé source sonore virtuelle. Pour reproduire un champ sonore, un ordinateur contrôle chaque haut-parleur de manière à ce que le front d’onde souhaité passe par chaque point de l’espace au bon moment et avec la bonne intensité. Cela permet de recréer des environnements sonores réalistes sur une grande zone d’écoute.

Le WFS est particulièrement utile dans les environnements où une reproduction sonore précise et immersive est essentielle, comme les salles de concert, les cinémas, et les installations de réalité virtuelle. Contrairement aux techniques de son surround traditionnelles, la localisation des sources sonores virtuelles en WFS ne dépend pas de la position de l’auditeur.
Malgré ses avantages, le WFS présente certains défis, notamment la complexité de la mise en œuvre et le coût élevé des systèmes de haut-parleurs nécessaires. De plus, pour obtenir une reproduction sonore optimale, l’environnement d’écoute doit être exempt de réflexions sonores indésirables.

Sony 360 Reality Audio

Ce format utilise des objets sonores pour créer une expérience audio immersive à 360 degrés. La technologie repose sur le rendu binaural, où les sons sont placés dans un espace sphérique autour de l’auditeur. Cela est réalisé grâce à des algorithmes de rendu binaural qui simulent la manière dont les sons interagissent avec la forme de l’oreille humaine.

Applications : musique, écouteurs, haut-parleurs intelligents.

Musique : l’album « Alicia » d’Alicia Keys est disponible en Sony 360 Reality Audio, offrant une expérience d’écoute immersive où les instruments et les voix sont placés dans un espace sonore à 360 degrés.

Écouteurs : les écouteurs Sony compatibles avec 360 Reality Audio permettent aux utilisateurs de profiter de cette technologie immersive avec des services de streaming comme Tidal et Deezer.

https://www.sony.fr/electronics/360-reality-audio

Tour d’horizon des formats de son immersif

Introduction

Le Dolby Atmos

Le DTS : X

Le Auro-3D

Le son binaural

Le son transaural

Ambisonics

Wave Field Synthesis (WFS)

Sony 360 Reality Audio

Plus de publications

La séparation de sources pour le remixage en son immersif de masters monophoniques des années 1950-60

Optimisation de la diffusion des basses fréquences face au problème de voisinage

Perception subaquatique : adaptation de l’écoute stéréophonique en petit bassin

La texture en musique : sa contribution pour la composition, l’apprentissage de la musique et ses effets sur la perception et la cognition des enfants sourds implantés