Interactivité et immersion, l’utilisation du sonore dans le jeu vidéo

Formation supérieure des métiers du son

Mémoire de fin d’études : Mémoire de Romain Allender Septembre/Octobre 2011, CNSMDP, Directeur de mémoire : Manu Bachet

Introduction

Le jeu vidéo s’est inscrit dans la société depuis les années 80. D’abord réservé à une population initiée, il a su se démocratiser et s’ouvrir à tous les publics, toutes les cultures et génère aujourd’hui un revenu plus important que celui du cinéma et du disque réunis (situé aux alentours de 45 milliards d’euros en 2009). On le définit comme un jeu utilisant un dispositif informatique, où le joueur utilise un périphérique pour percevoir et agir sur un environnement virtuel. Des études effectuées en 2010 ont montré que près de 20 millions de personnes en France touchent au jeu vidéo (consoles, Smartphones, ordinateurs…) actuellement, soit une personne sur trois. Par ailleurs, au niveau mondial, Deux joueurs sur cinq sont des joueuses, et l’âge moyen d’un joueur est de 32 ans. Un gamer passe en moyenne 18 heures par semaine devant son écran, et un joueur sur dix a plus de 50 ans. Au niveau des consoles, la Playstation 2 a été la console de salon la plus vendue avec 138 millions d’unités écoulées (200 millions de ventes pour la Gameboy) et la franchise Mario s’est écoulée à 225 millions d’exemplaires dans le monde. Enfin, le milieu du jeu vidéo emploie en France plus de 10 000 personnes, et l’on recense environ 430 entreprises implantées.

Voilà pour les chiffres, qui nous montrent la réelle importance du jeu vidéo dans notre société. En tant que grand amateur de jeux vidéo, j’ai donc décidé de consacrer ce mémoire à l’étude de leur bande son. En effet, le joueur dirige un avatar, une ville ou des unités, qui sont inscrits dans un environnement virtuel visuel mais aussi sonore. Un jeu réussi est celui qui arrivera (entre autres) à effacer les barrières de l’écran entre le joueur et cet univers virtuel. En d’autres termes, provoquer l’immersion. La musique et le sound design, en plus de contribuer à cette immersion, sont aussi, par des formes très diverses, de formidables acteurs du jeu.

Je me suis donc intéressé aux spécificités du sonore dans les jeux vidéo. En effet, comment la bande son réagit-elle face aux actions imprévisibles du joueur ? Quels sont les processus employés lors de la composition de la musique, de la création du sound design, du mix pour rendre celle-ci interactive tout en conservant une linéarité ? Et enfin, comment le joueur perçoit, utilise et surtout interprète l’audio d’un jeu vidéo ?

Bien sûr, il ne s’agit pas de traiter l’ensemble des jeux vidéo. Chacun a ses codes, ses particularités visuelles et sonores, mais à travers des exemples choisis, il est possible de balayer un éventail de jeux le plus large possible. Il ne sera pas non plus question d’entrer dans le détail du moteur audio d’une console, ni de décrypter les lignes de code utilisées pour la spatialisation en temps réel des bruitages (par exemple). Je précise que dans ce mémoire, je me concentrerai principalement sur les consoles de salon.

En premier lieu, après avoir détaillé très succinctement l’histoire et le développement du jeu vidéo et de sa musique, et expliqué pourquoi les codes filmiques ne sont pas applicables à notre sujet, nous tenterons d’expliciter cette notion d’immersion, si importante pour l’univers vidéoludique. Puis nous nous intéresserons à la construction d’une bande sonore dynamique à divers niveaux en tentant d’expliquer ce concept d’interactivité. Pour finir, une phase de tests nous permettra de nous faire une idée sur la réelle importance du sonore sur les actions d’un joueur, et de décrypter comment celui-ci envisage le son de son jeu.

Préambule : histoire résumée du jeu vidéo

Les Prémices

L’Histoire commence par quelques oscilloscopes bricolés par des scientifiques. Un certain William Hinginbotham crée Tennis for two en 1958, utilisé pour distraire les visiteurs lors des portes ouvertes du laboratoire de Brookhaven. L’arrivée de Spacewar !, en 1962, dessine peu à peu ce qui va devenir en moins d’un demi-siècle un formidable phénomène de société.

L’arrivée de Pong en 1972, ainsi que la création de la société « Atari » par le pionnier Nolan Buchnell, amènent les jeux vidéo au grand public. Le célèbre jeu inspiré du tennis de table, arrive d’abord sur borne d’arcade, dans un style primitif, mais où la compétition est déjà présente. Atari sort en 1977 sa première console de salon, l’Atari 2600, qui devient la première console « pour tout le monde » (25 millions d’unités vendues).

En 1978, Space invaders, un autre mythe des jeux vidéo, est dévoilé. Conçu par Tamohiro Nishikado et développé par Taito, le shoot’em up est un succès fulgurant, il entraîne même une pénurie de petite monnaie au Japon. Pac=Man arrive l’année qui suit. Armé d’un gameplay redoutablement efficace, il intègre pour la première fois une sorte d’intelligence artificielle. De nombreux produits dérivés seront créés, avec l’apparition d’une culture du jeu vidéo. Donkey Kong en 1981, est le premier jeu de plateforme créé par la société Nintendo, il entraîne la naissance de Mario.

Au début des années 80, les jeux d’arcade sont adaptés aux consoles de salon. Après l’Atari 2600, d’autres consoles arrivent, comme la VideoPac de Philipps (1979), l’Intelevision de Mattel (1980), la Colecovision de CBS (1982) ou la mythique Vectrex (1983) qui devient la première console aux graphismes vectoriels (et non bitGrate). Par ailleurs, à la même époque, les ordinateurs personnels commencent à s’inviter dans les foyers. L’OricG1 (1983) et le ZX Spectrum (1982) font démarrer le jeu vidéo sur les ordinateurs et entraînent le début de la selfGprogrammation.

Cependant, au fur et à mesure des années, les machines deviennent de plus en plus fermées et destinées uniquement à être jouées et non plus programmées. L’Amstrad 6128 en 1985 est la première machine vraiment populaire. Elle est simple, avec une prise à brancher et intègre l’écran. Elle préfigure le micro ordinateur.

En 1983, le marché du jeu vidéo s’effondre. La lassitude du public pour des jeux toujours plus nombreux et toujours plus semblables est grandissante et entraîne un krach, les ventes chutent. C’est le moment que choisit Nintendo pour lancer sa Famicom au Japon. Elle sortira sous le nom plus connu de NES en Europe en 1987. Nintendo invente la manette de jeu (avec la croix directionnelle) et Shigeru Miyamoto amène au grand public son célèbre plombier Mario. Les ventes de la Nes explosent et elle devient une marque (caution de qualité d’un jeu vidéo).

La donne est changée, deux concurrents se font désormais face. Sega contrecarre Nintendo avec la sortie de sa MasterSystem en 1987 et des jeux de qualité. La GameBoy de Nintendo en 1990 instaure l’ère de « n’importe où, n’importe quand ». Tetris fera le succès de cette console portable. Même les sorties de la GameGear (Sega) et Lynx (Atari) n’y pourront rien. La même année sort la PC Engine de NEC, première console à utiliser le CDG Rom.

L’âge d’or

La guerre des consoles est lancée. Elle est d’abord technologique puisque elles arrivent avec 16 bits de résolution. La MegaDrive de Sega et la Super NES de Nintendo arrivent toutes deux en 1990. Sega en profite pour lancer Sonic le hérisson, afin de contrer Mario. Il laisse une grosse impression visuelle et devient emblématique de la console. La MegaDrive, malgré une image plus cool, un nombre de jeux plus important et un prix moindre, ne parvient pas à distancer Nintendo, et les deux géants se partagent le marché mondial équitablement. L’augmentation des capacités des consoles permet d’entrevoir la naissance de nouveaux genres. Street Fighter en fait partie et fait décoller la Super Nintendo.

Dans un même temps, sur PC, Alone in the Dark fait son apparition et est bourré d’innovations techniques. Pour la première fois, on préfigure les personnages en trois dimensions, et l’ambiance est de plus en plus cinématographique. Le passage au CDGRom a bénéficié au jeu vidéo à tous points de vue. (Graphismes, diffusion…)

Nouvelles générations

Le temps des consoles 32 bits arrive. En 1995, la Sega Saturn ainsi que la Playstation de Sony sont dévoilées. L’arrivée de Sony sur le marché des consoles était plus que compromise, tout le monde pensant qu’il n’allait pas survivre aux deux géants Sega et Nintendo. Pourtant, la machine connaît un succès planétaire. Des jeux d’un nouveau genre font leur apparition. Tekken, Wip3out, Gran turismo mais surtout Lara Croft (qui est le premier jeu en 3D réelle) déchainent les foules. Le marketing est effectué à un niveau mondial et Sony annoncera 10 ans plus tard avoir vendu 100 millions de machines et près d’un milliard de jeux.

La Playstation est novatrice dans bien des domaines, elle préfigure l’ère du multimédia sur console avec la lecture des CD audio, elle amène la 3D (ce qui entrainera une véritable course à la technologie) et elle exploite parfaitement de nouveaux genres. Le survival horror (Resident Evil), le jeu de rôle (Final Fantasy) ou d’infiltration (Metal Gear Solid). Les scénarios s’étoffent, les techniques de jeu deviennent plus élaborées, les ambiances s’enrichissent et les cinématiques naissent. Le jeu vidéo quitte définitivement le monde des enfants avec l’arrivée de la Playstation qui vise et touche un public plus large (jeunes adultes).

Nintendo réplique en 1997 avec la N64, une console 64 bits. La jouabilité est exceptionnelle et Mario connaît ses premières aventures 3D. Nintendo tente aussi de se développer dans des jeux plus adultes (GoldenEye), malheureusement, la firme fait l’erreur d’utiliser des cartouches de jeu alors que toute l’industrie est en train de migrer vers le CD, elle perd sa place de leader acquise au milieu des années 90. Dans un même temps, Sega est en perte de vitesse, la Saturn est délaissée car trop compliquée. Du coup, la société lance une nouvelle console, la DreamCast, très simple, en 1999. Malgré les 10 millions d’unités vendues, et même si on pouvait jouer en ligne pour la première fois, la DreamCast arrive trop tardivement et ne cartonne pas. Sega stoppe ses fabrications et annonce qu’elle ne produira plus de consoles pour se tourner exclusivement vers les jeux.

La Playstation 2, en 2000, est un moyen pour Sony de confirmer sa nouvelle suprématie. 980 000 exemplaires seront vendus en moins de 48 heures. La machine peut lire les CD, DVD et se connecter à internet, et poursuit dans une tendance à faire converger les médias. L’arrivée de GTA II en 1999 procure un sentiment de liberté au joueur (possibilité de se balader en ville). La technologie permet aux créateurs d’explorer de nouvelles dimensions, et conquérir de nouveaux territoires comme celui de l’émotion avec des jeux comme Ico.

Un nouveau public se passionne pour les jeux vidéo. En effet, les femmes arrivent dans l’univers des gamers. De nouveaux jeux se développent comme les Sims, seul véritable jeu qui diffère selon le joueur.

L’usage de l’ordinateur se généralise, l’apparition d’internet en haut débit amène le jeu vidéo à un niveau planétaire. Des jeux comme Counter= strike sont joués mondialement en réseau et on voit même l’apparition de compétitions internationales. World of Warcraft, en 2005, développe un peu plus l’univers en ligne et rassemble 10 millions de joueurs à travers le monde.

L’année 2002 annonce l’arrivée d’une nouvelle console, la Xbox de Microsoft, considéré à l’époque essentiellement comme bureautique. La nouvelle console de Nintendo, la Gamecube, est lancée la même année avec des jeux sur mini CD, mais elle est boudée par les concepteurs de jeu indépendants. À l’époque, le marché du jeu vidéo représente 20 milliards d’euros.

Nouvelles perspectives

Le jeu vidéo est maintenant partout et pour tous avec les nouvelles consoles portables comme la DS de Nintendo ou la PSP de Sony. La DS a tout changé. Étant très intuitive, il n’y a pas de période d’adaptation à avoir avec l’arrivée du stylet. De nouveaux jeux éducatifs font leur apparition pour un public toujours plus large.

Les consoles nouvelle génération arrivent en 2007. La Xbox 360 de Microsoft, la PS3 de Sony et la Wii de Nintendo deviennent de véritables boîtes à tout faire. Les deux premières amènent la HD et tendent vers de plus en plus de réalisme. Sony mise sur des choix futureproof (technologies là pour dix ans au moins) avec l’intégration d’un lecteur BlueRay par exemple.

La Wii adopte un angle différent. Son objectif est de toucher tous les publics. La création de la Wiimote rend les jeux plus accessibles. Le retour du ludique touche une population nouvelle.

Le Jeu vidéo est devenu un Art, et a modifié toute la société. Il y a aujourd’hui 20 millions de joueurs en France. Les jeux vidéo sont devenus une nouvelle culture de vie, une culture planétaire.

Partie I : particularités de l’audio dans le jeu vidéo, plongée dans le phénomène d’immersion.

1.1) Évolution de la partition sonore vidéoludique dans le temps

1.1.1 Genèse de la composition vidéoludique

Les premiers jeux vidéo n’étaient composés auditivement que de « bip » et de « blop », faute à une technologie trop peu performante (Pong n’était composé que de trois sons différents). La première console grand public, l’Atari 2600, n’était équipée techniquement que de 2 voix audio mono, avec un contrôleur de volume 4 bits. Les premières musiques arrivent à la fin des années 70, et étaient plutôt des jingles courts d’introduction, de game over ou de changements de niveau. D’autres jeux proposaient ces thèmes courts de quelques secondes qui tournent en boucle durant le gameplay, rendant vite insupportable l’écoute de la partition sonore (Donkey Kong sur NES par exemple).

À l’époque, c’est aux développeurs de programmer leurs musiques avec des lignes de code, ne laissant pas la place à la création et la couleur de la composition. En effet, les processeurs 8 bits ne permettent pas encore la diversité de timbre que l’on pourra entendre par la suite. La Nes, par exemple, n’était constituée que de 5 canaux audio : 2 canaux de forme d’onde « square » programmables, 1 canal de forme d’onde « triangle », 1 canal de bruit blanc, et un canal deltaTPCM, qui lit les échantillons audios codés en delta sur 1 bit.

Les premières musiques arrivent avec les consoles de salon dans les années 80. Les jeux deviennent plus longs, plus variés et les consoles permettent plus de tonalité, de voix de polyphonie, de simulations d’instruments. Du coup, les musiques deviennent plus complexes, durent plus longtemps et commencent à apporter une dimension supplémentaire au gameplay. C’est à cette époque que Koji Kondo va composer les musiques originales de Mario Bros et de Zelda, tubes planétaires dans les jeux vidéo. Le grand public commence à s’intéresser aux musiques vidéoludiques, qui véhiculent plus d’émotion, malgré les limites technologiques. En effet, les sons devaient toujours être programmés dans le jeu, empêchant l’utilisation d’instruments réels. De plus, le fait pour la musique et les bruitages d’utiliser les mêmes canaux sonores apportait son lot de bugs sonores et d’incohérences pas toujours agréables pour le joueur.

La génération des consoles 16 bits amène une nouvelle dimension à la musique (la Megadrive possédait 2 processeurs sonores et pouvait proposer 6 voix FM, 1 voix PCM et 3 voix PSG). Elles intègrent dans leurs programmes des montages audio, à la pointe de la technologie de l’époque. Des compositeurs tel que David Whittaker avec Shadow of the Beast, Jeroen Tel, compositeur de Lemmings ou encore Chris Hülsbeck dans Turrican donnent à la musique de jeu vidéo toute l’importance qui lui revient, avec des bandes originales de grande qualité, utilisant pour les premières fois des amples d’instruments.

Au début des années 90, la Super Nintendo (16 voix, compression ADPCM) provoque un bond en avant de la qualité sonore, ainsi que de la place de la musique dans le gameplay. Le thème doit, de plus en plus, situer un lieu, une action, une sensation du joueur. Le talent artistique des compositeurs est très présent sur la console, qui reste encore aujourd’hui une référence en termes de composition musicale.

1.1.2 L’arrivée du format CD

Les consoles 32 bits (la Playstation avec ses 24 canaux ADPCM par exemple), au milieu des années 90, utilisent pour la première fois le format CD, qui va grandement améliorer la qualité sonore des jeux. Les compositeurs peuvent maintenant créer avec des vrais instruments, en enregistrant le tout sur une piste lue pendant la partie. L’utilisation d’instruments réels permet aux compositeurs de mieux personnaliser chaque style, chaque ambiance, pour mettre en avant l’univers global du jeu. Des jeux comme Metal Gear Solid ou la saga Final Fantasy sont de merveilleux exemples de composition musicale. Remarquons tout de même la Nintendo 64 (64 bits) qui, même si elle n’utilise pas la technologie CD, va être la première à intégrer de vraies banques MIDI.

Depuis les consoles 32 bits et l’utilisation du CD (dont la piste de musique égalait en terme de qualité celle d’un CD audio), l’évolution technologique n’a pas vraiment privilégié le son. L’apparition des jeux sur DVD, puis DVD double couche facilite uniquement, puisqu’il n’y a plus de contrainte de place, la diversité des morceaux, et introduit le format 5.1 dans les salons (avec la Playstation 2 pour la première fois).

Il existe bien sûr toujours de grands moments de composition sur les consoles NextTGen (Oblivion, Fable) et on peut tout de même signaler le fait que certaines musiques de jeux s’inspirent grandement de l’univers du cinéma (Oblivion, Splinter Cell) et noter l’intérêt de la composition musicale vidéoludique pour de nombreux compositeurs de films (Hans Zimmer, Michael Giacchino, Harry Gregson Williams…).

La transition vers le prochain sujet est donc toute trouvée, puisque malgré tous les rapprochements que l’on peut faire entre les films et les jeux vidéo, il existe des différences notables, et ce à tous points de vue.

1.2)  Rapprochement et différenciation entre l’univers filmique et vidéoludique.

L’univers filmique et celui du jeu vidéo sont infiniment proches et éloignés à la fois. Les composantes des deux médias sont les mêmes, à savoir l’image et le son, et ils s’inscrivent dans des codes très semblables.

De nombreuses adaptations de films vers les jeux vidéo (Star Wars, Seigneur des Anneaux…) ont vu le jour. Les exemples dans le sens inverse sont plus rares, mais ils existent (Lara Croft, Super Mario…).

Chaque film ou chaque jeu tend à créer et développer un univers qui lui est propre, et à susciter (dans la mesure du possible) l’émotion en mettant en scène des situations ou des personnages. Dans les deux cas, les moyens de diffusion visuelle et sonore sont les mêmes (écran et enceintes), et la plupart des films ou jeux reposent sur un cadre narratif. Ce cadre narratif est utilisé comme un raccourci qui pose les bases et règles de la situation, et donne ainsi un contexte à l’histoire. (Ex : Histoire du monde, contes et légendes, etc.)

Le meilleur exemple de rapprochement entre les deux médias est celui de la cinématique dans le jeu vidéo. Ces moments dans le jeu où l’action devient totalement linéaire et qui permettent à ses concepteurs de baliser les joueurs, les renvoyer vers la même histoire, un peu comme des passages obligés. Le joueur devient donc spectateur, passe de l’interactivité à la passivité, et le jeu vidéo devient film le temps de quelques instants.

Parce que la véritable différence entre les deux médias est bien la notion de linéarité, ou plutôt de non-linéarité concernant le jeu vidéo. En effet, on peut connaître ce qui se passe à chaque instant t d’un film, du fait de sa linéarité. Cette affirmation n’est pas vraie dans le jeu vidéo, on sait ce qu’il se passe au début, à la fin, mais il existe toujours un espace temps entre un point A et un point B, dans lequel on ne peut prévoir les actions du joueur. La non-linéarité dessine la multitude de choix qui s’offrent au joueur à partir d’un même point de jeu, et cela entraîne un nombre conséquent de différences entre les deux médias.

En effet, prenons l’exemple d’une séquence d’ascenseur dans Bioshock, un jeu développé par 2K Games. Le joueur a donc la possibilité d’en sortir et de passer l’une des trois portes qui s’offrent à lui, l’emmenant vers les points B, C ou D. Il a en outre la possibilité de reprendre l’ascenseur et de repartir vers E, ou bien de prendre une échelle à sa droite qui l’amènerait vers F. Enfin, une trappe dans le fond de l’ascenseur le fait descendre vers G mais le joueur peut aussi choisir de rester dans l’ascenseur en A pendant la durée qu’il souhaite. Cette situation illustre bien les nombreuses complexités quasi labyrinthiques du jeu vidéo moderne. L’exemple qui vient d’être pris donne pas moins de 7 choix différents au joueur, et cet ensemble de choix peut avoir des conséquences sur la fin du jeu luiXmême.

Ces différentes salles ne réservent pas les mêmes surprises au joueur. Le danger, une arme puissante, ou un point de sauvegarde peuvent se trouver sur l’un de ces chemins.

Le score et les effets sonores se doivent d’indiquer ces différentes alternatives. Même si Bill Brown (compositeur de nombreux jeux tels que Command&Conquer, Ghot Recon…) souligne le fait que « Le score peut suivre une tendance globale aussi bien dans les films que dans les jeux vidéo, il peut développer les thèmes, souligner l’action, situer des lieux exotiques, et ajouter une dimension au paysage émotionnel », il doit aussi

pouvoir suivre à chaque instant la rencontre d’un adversaire, ou d’un allié, de manière quasi aléatoire puisque non prévisible.

Les effets sonores, quant à eux, ne fonctionnent pas de manière réellement différente dans les films ou les jeux vidéo. En effet, James Lastra a écrit dans Sound technology and the american cinema, « Les sons réels ne sont pas toujours les plus appropriés pour un film. Ces sons peuvent être métaphoriques ou remplis de sens à d’autres niveaux que les sons réels. » Cette analyse est aussi valable dans les jeux vidéo. Les sons ne sont jamais des sons réels, et rarement des premiers enregistrements d’objets réels. De plus, le réalisme auquel les jeux aspirent n’est pas un réalisme « naturel » (une simulation de la réalité) mais plutôt un réalisme « cinématographique » (relié aux conventions cinématographiques).

Les jeux vidéo ne sont donc pas des films, mais ils peuvent s’en approcher par différents biais. Le pourquoi et le comment des différences et des similitudes {film/jeu vidéo} est important à analyser car il permet de mieux comprendre le jeu vidéo en lui-même. C’est pourquoi j’y ferai allusion tout au long de ce mémoire.

1.3) Approche du phénomène d’immersion.

L’expérience du vidéoludique est concrètement liée au plaisir de jeu, à la sensation d’évasion dans un univers virtuel, ainsi qu’aux défis proposés par l’activité. La possibilité de vivre une aventure « de l’intérieur », de plus en plus réaliste, reste une expérimentation particulière promise par les développeurs.

La dernière décennie témoigne de la nouvelle progression technologique. Telle la puissance des processeurs arrivant à reproduire jusqu’au moindre détail un univers crédible, ou la définition du son décrivant parfaitement l’espace en trois dimensions, ou bien encore la possibilité d’interagir avec n’importe quel élément de l’environnement. Toutes ces innovations ont participé à un plus grand réalisme du jeu vidéo, donc ont accentué un peu plus ce sentiment d’immersion.

1.3.1 Quelques définitions…

Janet Murray, dans son ouvrage Hamlet on the Holodeck, nous donne une définition de l’immersion, c’est pour lui : « The sensation of being surrounded by a completely other reality (…) that takes over all of our attention, our whole perceptual apparatus. » L’immersion vidéoludique fait référence, métaphoriquement, à une immersion dans l’eau. Cette sensation d’être submergé peut se retrouver dans le jeu vidéo, et Arsenault et Picard, dans leurs écrits nous donnent une définition plus générale et philosophique.

En effet, ils décrivent l’immersion comme cela : « Nous entrons dans une situation d’immersion lorsque l’écran de télévision (ou de cinéma) nous empêche de percevoir les images en périphérie de notre champ de vision, lorsque le monde fictionnel dépeint dans un roman nous fait momentanément perdre conscience du nôtre, ou lorsque nous adoptons un ensemble de règles (un système) pour décrire une situation, indépendamment du système qui régit une situation similaire dans d’autres cas. » De manière plus adaptée au jeu vidéo, l’immersion serait la capacité d’un jeu ou d’un monde virtuel à convaincre et à captiver l’attention du joueur, mais aussi à faciliter l’interaction. Cela est accompli en communiquant clairement au joueur les interactions possibles tout en ne l’induisant pas à penser qu’il en existe d’autres. Oliver Grau, dans son livre « from illusion to immersion », résume tous ces propos de très belle manière, en définissant l’immersion comme « sensation caractérisée par la diminution de la distance critique de ce qui est montré, et une augmentation de la participation émotive de ce qui est en train de se passer. »

1.3.2 Les différentes étapes et classifications de l’immersion.

Andrew Glassner, dans Interactive Storytelling, découpe la sensation d’immersion en cinq différents stades pour le joueur. Ces cinq stades sont regroupés dans le tableau suivant :

Il commence par la curiosité, le désir de connaître. Puis arrive la sympathie, le joueur commence à voir le monde à travers les yeux du héros, à s’intégrer émotionnellement à son expérience de jeu. La phase d’identification, le joueur se reconnaît dans le héros qu’il guide, ou éprouve un attachement émotionnel pour son avatar. L’étape suivante est celle d’empathie, où l’on observe un réel rapprochement émotionnel vers l’avatar, sa situation, pour finir par la phase d’unification, où l’on considère qu’il y a pour le joueur perte temporaire des limites entre lui-même et le personnage.

Arsenault et Picard distinguent trois types d’immersion : l’immersion sensorielle, systémique et fictionnelle. Ces trois dimensions sont repris de manière plus imagée par Ermi et Mäyrä qui distinguent « sensory immersion, challenge3based immersion and imaginary world and fantasy immersion ».

Dans le détail, l’immersion sensorielle est provoquée lorsque le média sature les sens, à tel point que le joueur est accaparé par le monde du jeu et ses stimuli (niveaux sonores élevés, images immenses). L’immersion fictionnelle entre en jeu lorsque le joueur devient absorbé par l’histoire, lorsqu’il s’identifie ou devient émotionnellement attaché à un personnage, le plus souvent son avatar. Enfin, l’immersion systémique, supposément spécifique au jeu vidéo se produit « lorsqu’un point d’équilibre est atteint entre les habilités du joueur et les défis proposés par le jeu ». En d’autres termes, le joueur est constamment mis face à des challenges mentaux ou physiques qui l’incitent à s’engager un peu plus dans son expérience de jeu. Elle s’appuie sur l’adoption du système et des règles de jeu par le joueur. Chez un joueur immergé systémiquement, les règles du jeu sont en quelque sorte superposées à celles du « monde réel » et sont présentées d’une telle façon qu’elles les occultent.

La sensation d’immersion est clairement recherchée par les développeurs, et fermement attendue par les joueurs. Un monde incohérent, avec des règles obscures ou illogiques, ou bien un univers inconsistant (certaines portes peuvent être ouvertes et d’autres pas par exemple), ou encore des règles arbitraires qui limitent l’interaction (barrières invisibles, objets paraissant interactifs qui ne le sont pas, choix évidents non implémentés…) sont autant de raisons qui nous privent d’une immersion et qui peuvent avoir raison de jeux, tels Mafia II ou Iron Man 2.

1.3.3 Et l’audio dans tout ça ?

Cependant, la classification des types d’immersions (systémique, fictionnelle ou sensorielle) est globale et on ne peut guère différencier le rôle que joue chacun des éléments du gameplay. Ce qui est sûr, c’est que le son et l’image sont étroitement liés et complémentaires. Il est, par conséquent, assez compliqué d’attribuer explicitement à l’un des deux une part immersive en occultant l’autre.

Malgré tout, on peut affirmer que le son joue un rôle prépondérant dans l’immersion, mais en ayant des fonctionnalités différentes dans chacune des trois dimensions immersives. Afin de démontrer l’importance de la partition sonore dans le jeu, je m’appuierai sur les expériences de Kristin Jorgensen intitulées « Left in the Dark : Playing computer video games with the sound turned off » expliqué et analysé dans ma troisième partie. Ces expérimentations portent sur les sensations des joueurs lorsqu’ils jouent à divers jeux vidéo sans la musique ni les bruitages.

Un simple fade out trop cut, ou un enchaînement de musiques mal réglé peuvent nous faire sortir de notre état d’immersion dans le jeu. Oblivion, développé par Bethesda, nous propose, malgré un excellent jeu, de bons exemples de rupture d’immersion, lorsque l’on rencontre un ennemi par exemple. La musique qui se déroulait, soulignant le lieu que l’on explorait se coupe brutalement, et après un silence d’une seconde, laisse place à une musique plus engagée de combat. Cette nouvelle musique nous signale un ennemi dans les alentours mais la coupure brutale nous sort complètement de l’action dans laquelle on est, laissant une désagréable sensation. (L’exemple est encore plus frappant lorsque l’on n’a pas encore situé l’ennemi.) À l’inverse, Metal gear solid : Guns of Patriots, dans une situation similaire de rencontre d’un ennemi, coupe la musique qui se déroulait avec une virgule sonore de stupéfaction, sans rupture, pour enchaîner sur une musique plus rythmée, nous laissant dans l’action du jeu. Vous trouverez dans le CD annexe divers exemples d’erreurs d’immersion sonore, sur différentes plateformes de jeu, allant des bruitages répétitifs, incohérents ou complètement dérangeants aux erreurs de doublage où l’on entend encore les réactions des comédiens.

Le sonore peut donc jouer un rôle positif ou négatif dans l’accès à l’immersion. Pour mesurer la réelle influence de l’audio dans le jeu vidéo, Sander Huiberts, dans sa thèse Captivating sound , the role of audio in the immersive game, a réalisé et posté sur des sites web consacrés au jeu vidéo un sondage très complet permettant de comprendre le point de vue des joueurs. Le sondage a été réalisé sur 127 participants, de tous âges, et tend à expliquer de quelle manière le joueur associe partition sonore et immersion.

Sander Huiberts, après avoir étudié les réponses des participants, a défini les différentes actions de l’audio dans le tableau qui suit :

Descriptif de l’audioType d’Immersion
L’audio met en valeur les changements de rythme, anticipe les évènements à venirSystémique
L’audio constitue une atmosphère ou une ambianceSensorielle / Fictionnelle
L’audio contribue à un sentiment de présenceSensorielle
L’audio induit ou supporte les émotions du joueurFictionnelle
L’audio augmente la concentration du joueurSystémique

Ce tableau est intéressant à analyser. Les joueurs ont décrit des situations dans lesquelles ils pensaient que la bande sonore jouait un rôle positif sur l’immersif, et l’on s’aperçoit que tous les types d’immersion sont représentés.

a)L’audio dans l’immersion sensorielle

Détaillons maintenant ce qui compose ces différents types de bande] son. Tout d’abord, l’audio qui contribue à un sentiment de présence est celui d’un jeu riche et détaillé auditivement, qui absorbe le joueur. La sensation de présence peut être atteinte de différentes manières : grâce à une multitude de détails dans le monde sonore (comme dans Grim Fandango), ou bien à des éléments audio très spatialisés (la sensation envahissante de l’effet Doppler lorsqu’un vaisseau vous double dans Wip3out), ou encore des éléments qui pourraient être sonores sans être visuels, par exemple des bruits de pas ou de tir, qui positionneraient des ennemis derrière nous (un simple bruit de pas dans Call of Duty : Modern Warfare 2 nous indique non seulement un ennemi, mais aussi son exacte position).

Tout ce détail nous amène dans une immersion sensorielle, que l’on retrouve lorsque les ambiances ou les atmosphères sont particulièrement bien retranscrites (le son des tirs et des avions dans Medal of Honor : Airborne construisent l’atmosphère et la sensation d’être en train de vivre le moment). De plus, il faut préciser que dans un FPS, l’avatar n’est pas perçu par le joueur (au mieux, on voit les mains et l’arme), il est donc essentiel pour celui-ci de percevoir les bruits d’arme mais surtout de pas, qui le lieront de manière sensorielle avec son avatar.

b) L’audio dans l’immersion systémique

La dimension systémique de l’immersion, quant à elle, est obtenue à des moments où le joueur est confronté à des challenges. Selon Ermi et Mäyrä, ces niveaux de défis doivent être « alignés sur le niveau de compétence du joueur pour que l’immersion ait lieu ». L’audio peut mettre en avant les changements de rythme, anticiper les évènements qui vont se produire, mais aussi agir sur la concentration du joueur. Les développeurs ont d’instinct bien compris cette fonction de la bande-son, puisque dès les prémices du jeu vidéo, Space Invaders et Super Mario Bros l’utilisaient notamment lorsque les aliens se rapprochaient dangereusement de notre vaisseau, dans le premier cas, en faisant monter la ligne rythmique de basse pour accroître le sentiment de pression, et dans le deuxième cas, en augmentant le tempo pour indiquer que l’on est entré dans la dernière minute de jeu et qu’il fallait maintenant se dépêcher de finir le niveau.

Fondamentalement, le rythme du gameplay et le tempo sont étroitement liés. Nous détaillerons dans la deuxième partie consacrée à l’interactivité cet aspect de la bande son. La relation entre rythme et tempo dans le jeu vidéo peut être comparable à celle que l’on retrouve dans le film ou le dessin animé. La scène de cinéma a un rythme précis et le compositeur s’efforce de trouver le tempo en adéquation avec cette scène, comme dans les jeux vidéo où le gameplay a un rythme précis.

Les bandes son que l’on retrouvera dans des jeux privilégiant les réflexes et les actions rapides sur des évènements spécifiques (Zuma Deluxe) ne seront pas les mêmes que celles faisant appel à des défis plus stratégiques, plus réfléchis, et sur un temps plus important (Worms 4 : Mayhem). Il est important de faire comprendre au joueur dans quelle situation (danger, lieu sûr, manque de temps…) il est actuellement et dans laquelle il pourrait être et la musique, et donc son tempo, sont aussi là pour lui transmettre cette information.

Concernant l’immersion systémique, on retrouve des jeux d’un genre un peu particulier la procurant. Cela englobe tous les jeux utilisant l’audio comme élément fondamental, sur lequel tout le gameplay va se fonder. Du coup, la musique n’est plus là pour participer au rythme de l’image mais elle EST le gameplay. Dans ce cas, l’audio n’accompagne pas l’image, mais c’est l’image qui accompagne l’audio. Le plus connu de ces types de jeux est Guitar Hero, qui a été un réel succès, mais de nombreux autres titres sont sortis, comme Rythm Paradise ou Maestro ! Jump in music (voir le CD annexe). Le principe reste le même, à savoir appuyer sur des touches ou bouger un stylet dans le rythme de la musique. Le score ou la réussite du joueur dépendra de sa capacité à être en rythme, en appuyant sur les bonnes combinaisons de touches au bon moment.

c) L’audio dans l’immersion fictionnelle

« L’empathie avec le jeu est très importante pendant les plus profonds stades d’immersion avec le jeu » (Brown et Cairns). Cette citation fait référence à l’immersion sensorielle.

Évidemment, tous les jeux n’offrent pas la possibilité de s’identifier à un avatar, ou l’impression d’entrer dans le monde dépeint, mais lorsque c’est le cas, la bande-son joue un rôle sur l’empathie qu’éprouve le joueur envers l’histoire ou les personnages.

La possibilité de s’attacher émotionnellement à son personnage est créée par le fait qu’il possède une « part d’humanité » en lui. D’un point de vue sonore, la voix d’un personnage est très importante. Ces voix sont très souvent doublées en studio, et le timbre, l’intonation et l’écriture de la phrase vont rendre le personnage plus humain ou non. Sonnenschein discerne dans une phrase le « verbal meaning » et « l’intonational meaning ». Le verbal meaning est l’information factuelle donnée par le personnage, tandis que l’intonational meaning est la manière dont la chose est dite. Si, dans le jeu vidéo, l’une des deux composantes sonne faux, le personnage ou l’avatar vont paraître incohérents. Les voix de Red Dead Redemption sont particulièrement bien réalisées. Le jeu d’acteur est réellement convainquant et nous emmène complètement. Il est aussi possible de s’attacher à son personnage lorsque des éléments sonores nous font craindre un danger ou nous rassurent. Un très bon exemple est celui de Bioshock, dans lequel on atterrit dans une mégalopole sous]marine. Tous ses habitants sont devenus complètement fous et l’apparition dans la bande son de rires de petite fille très réverbérés, ou d’un jazz des années 30, nous amène vers un état de crainte pour notre avatar (souvent justifié d’ailleurs).

Il est aussi possible d’être attaché au lieu, à la mise en scène. Les ambiances participent largement à cela. La question est de savoir où l’on se situe et les cliquetis des chaînes d’un donjon froid et obscur ne nous procurent pas les mêmes sensations que les chants d’oiseaux dans une prairie verte. Carson nous explique cela : « La principale question est : Où suis]je ? Pour un engagement optimal du joueur, il faut lui répondre dans les 15 secondes, et il est important par la suite de lui donner des informations supplémentaires sur l’endroit dans lequel il est, afin que le joueur sache ce qu’il a à faire dans l’environnement. »

La musique a un rôle très important dans l’implication émotionnelle. Elle peut indiquer des évènements spécifiques qui forcent le joueur à réagir d’une manière particulière (les thèmes musicaux de combat comme dans Final Fantasy par exemple). La musique peut apporter, par une orchestration, ou un enchaînement de notes, une dimension supplémentaire à l’image et aux bruitages (tragique, dramatique, festive, etc). Elle s’apparente, encore une fois, à la musique de film et en utilise les codes.

1.3.4 Quand l’Audio interrompt l’immersion.

Les problèmes d’immersion liés à l’audio sont nombreux. Ils correspondent à des situations sonores incohérentes, irréalistes ou non adaptées.

Sander Huiberts les a répertoriés : Les problèmes peuvent tout d’abord être dus à un mauvais type de musique. En effet, comme pour un film, le Hard Rock ne correspondra pas tout à fait à une scène triste, et une valse viennoise ne serait guère plus appropriée dans les moments de tension. La musique peut aussi être trop répétitive et devenir lassante, tout comme les bruitages (L’exemple de Travel to the center of the earth dans le CD est explicite). La bande son peut aussi contenir des éléments incommodants, et très dérangeants (dans Pokémon, lorsque notre petit animal n’a presque plus de vie, un son d’alerte se répétant toutes les deux secondes vient perturber notre immersion fictionnelle et systémique de manière très désagréable.) Les voix des personnages peuvent aussi être source de désagréments lorsqu’elles ne sont pas adaptées à l’environnement. Un manque de son peut tout simplement être à l’origine d’un problème d’immersion sensorielle, allant à l’inverse d’un univers sonore riche et détaillé. Enfin, des sons extérieurs au jeu peuvent venir de manière évidente perturber notre immersion (parents, téléphones…)

Conclusion

L’immersion est un phénomène complexe et difficile à analyser. Nous avons vu que la bande-son avait une part importante dans l’obtention des formes systémique, sensorielle et fictionnelle de l’immersion et qu’elle était aussi capable de la détruire. Après avoir analysé les fondements de l’acquisition de l’immersion, on peut maintenant s’interroger sur cette sensation dans le temps. Un jeu bien pensé va développer auprès du joueur des automatismes sonores, il sera capable d’associer des sons aux évènements, des thèmes musicaux à des situations. Il est très important pour les développeurs d’« éduquer » le joueur aux sons et à la musique qu’il va entendre. Si ce travail est bien effectué (à travers des gameplay d’introduction par exemple, ou des cinématiques), cela facilitera grandement la création d’un lien émotionnel.

Ces automatismes peuvent renforcer l’immersion, mais peuvent aussi rendre le jeu ennuyant si les situations sont trop répétitives. La sensation d’immersion ne dure qu’un temps, c’est un processus plus qu’un état qui vient et peut repartir à tout moment, et qui reste essentiel à un jeu vidéo.

Partie II : L’audio Dynamique

2.1) Définitions des notions de dynamique et d’interactivité.

Nous avons vu que l’une des grandes différences entre le jeu vidéo et le film était la possibilité pour le premier d’agir sur le déroulement de l’histoire. Le joueur peut décider de bouger au moment où il le souhaite, peut s’arrêter pendant trois heures, au même point, choisir de sortir et ranger son épée quinze fois de suite (pour voir s’il n’y a pas un petit frottement dans le fourreau un moment –sic-), ou tirer toutes les cartouches de son arme automatique dans une église.

Le fait pour un joueur d’être actif entraîne avec lui un certain nombre de problématiques pour la bandeHson. Tout d’abord, nous avons vu qu’il est essentiel pour la sensation d’immersion d’avoir un environnement sonore présent, consistant et cohérent. Les bruitages et la musique doivent prendre part à l’action et évoluer en fonction des évènements afin d’être des indicateurs pour le joueur et répondre à ses actions. De ces affirmations découlent les concepts d’audio dynamique ou adapté, d’interactivité et de diégèse.

2.1.1 Définition de l’interactivité.

L’interactivité est un terme assez controversé de nos jours, il peut désigner beaucoup de notions différentes. Lev Manovich suggère dans son livre sur les nouveaux médias : « Tous les arts classiques, et les modernes encore plus, sont interactifs d’une certaine manière. Les ellipses en littérature, les détails manquants d’un objet dans les arts visuels, ou tout autre raccourci de représentation qui oblige le destinataire à remplir les informations manquantes ». Voici une toute autre définition de Juha Arrasvuori qui écrit que « le jeu vidéo ne peut être interactif car il ne peut pas anticiper les actions du joueur, du coup, les jeux vidéo sont actifs et non pas interactifs ». On peut donc trouver dans les écrits tout et son contraire à propos de l’interactivité, à savoir que tous les médias peuvent être considérés comme interactifs ou bien aucun ne peut l’être vraiment.

Il est donc temps de définir le terme d’interactivité tel qu’il va être employé tout au long de ce mémoire, et comme il est utilisé dans l’industrie vidéoludique.  Le théoriste Andy Cameron l’a défini comme cela : « L’interactivité se réfère non pas à la possibilité de lire ou d’interpréter un média à sens unique, mais à la possibilité d’agir en concertation avec ce média ». Crawford rajoute : « L’interactivité peut être définie comme un processus cyclique dans lequel deux agents écoutent, réfléchissent et parlent de manière alternée ». Ses propos peuvent être résumés grâce à ce schéma :

Concrètement, l’interactivité sonore est une réponse auditive à une situation provoquée par une action ou une situation dans laquelle se trouve le joueur.

Elle peut être soit la cause, soit la conséquence de l’action du joueur. Un changement d’atmosphère, une musique synonyme pour le joueur de danger ou un bruit lointain de pas ou de tir peuvent être la cause d’une action (se retourner, appuyer sur un bouton de visée, courir…), tandis que la volonté de tirer, le simple fait de marcher, en fait toutes les actions liées à la volonté du joueur sont la conséquence sonore de l’action du joueur.

2.1.2 L’audio dynamique.

Dans l’audio dynamique, Il faut différencier l’audio interactif et l’audio adapté (aussi appelés respectivement feedbacks et signs dans l’industrie du jeu vidéo).

L’audio interactif se réfère aux évènements sonores qui réagissent au gameplay, qui répondent au joueur directement (on appuie sur un bouton, une épée sort, on appuie de nouveau sur le même bouton et notre avatar rentre son épée dans son fourreau, le swoosh de sortie et celui d’entrée font partie de l’audio interactif). La musique peut également être interactive, lorsqu’elle évolue en fonction de l’action du joueur (L’arrivée de la Basse dans la musique quand le joueur monte à cheval dans Red Dead Redemption par exemple).

L’audio adapté réagit de manière appropriée (et parfois anticipée) au gameplay. Il se rapproche de l’audio interactif, mais répond à des changemens à l’intérieur du jeu ou du gameplay. Prenons l’exemple de la musique qui accélère dans Mario Kart lorsqu’il ne nous reste plus qu’un tour de piste. Cette réaction musicale anticipe le gameplay mais n’est pas une réponse, à proprement parler, à l’action du joueur.

Après avoir intégré ce terme d’interactivité, il est maintenant intéressant d’essayer d’établir une classification de ses différents degrés, en introduisant un terme qui vient de l’univers filmique, celui de « diégèse ».

2.2)  Degrés d’interactivité pour le joueur dans un environnement dynamique.

Par un exemple concret, et afin d’illustrer toute la subtilité d’une partition sonore de jeu vidéo, je vais tenter d’illustrer à la fois mes propos précédents et d’anticiper les notions à venir :

The Legend of Zelda : Ocarina of time nous offre un véritable chef d’œuvre au niveau musical. Durant la première partie du jeu, notre avatar Link se déplace dans le village, nous laissant le temps d’appréhender le gameplay. L’action se déroule exclusivement en mode « journée », le thème Kokiri est joué et ne change pas, hormis lorsque l’on rentre dans des habitations. Le thème n’est donc pas de l’audio adapté pour le moment.

Après quelques heures de jeu et l’accomplissement de notre première grande quête, il nous est possible de retourner dans le passé et l’aventure nous amène à revenir dans notre village natal. Si nous y retournons de nuit, le thème subira un fade out jusqu’au silence. A l’aube, le thème Kokiri retentira de nouveau, rendant la partition sonore adaptée cette fois-ci. Avant la nouvelle apparition du thème Kokiri, au lever du soleil, un coq se fait entendre, puis une courte musique introductrice de quelques secondes. Ces sons sont déclenchés par l’horloge interne du jeu, c’est donc également de l’audio adapté.

Cependant, le chant du coq pose problème, puisqu’il intervient à un moment précis, alors que l’on peut être n’importe où dans le jeu, même dans une grande plaine, où l’on cherchera en vain le coq pendant le temps que l’on veut bien lui accorder. La présence de ce son n’est donc là que pour signaler au joueur le passage du mode « nuit » au mode « journée », alors qu’il n’est pas présent dans l’environnement. (La même remarque peut être faite lors du crépuscule où l’on entend un loup hurler). Afin de pouvoir classifier ces types de sons, il faut introduire le terme emprunté au cinéma de « diégèse ».

2.2.1 Introduction de la notion de diégèse.

Empruntée au cinéma, la diégèse est définie comme suit : « tout ce qui est censé se passer selon la fiction que présente le film, tout ce que cette fiction impliquerait si on la supposait vraie ». Les sons diégétiques sont ceux que l’avatar peut entendre, émis par une source existant dans l’univers fictionnel, tandis que les sons non diégétiques sont ceux extérieurs à l’action. Si l’on reprend l’exemple précédent, la musique est non diégétique, tandis que les bruitages d’oiseaux des ambiances seront diégétiques.

Il est possible d’associer les notions de diégétique et de dynamique (vue précédemment) et de les regrouper dans le graphique suivant :

Donnons maintenant quelques exemples des différents cas de figure possibles.

L’audio non-diégétique peut être dynamique. Cela concerne les évènements sonores en réaction avec le gameplay, mais qui ne sont pas affectés directement par les mouvements du joueur, et en dehors de la diégèse. Mettons de côté l’exemple de Super Mario Bros et l’accélération de sa musique. Le changement de musique dans Little Big Planet lorsque la course du soleil se termine, indiquant la fin du niveau est une bonne illustration de l’audio dynamique, adaptée et non diégétique.

À l’inverse, un son peut être non dynamique et diégétique. C’est l’audio qui survient dans l’espace de l’avatar, mais auquel celui-ci ne participe pas. Dans la campagne de Call of Duty : Black Ops, John Mason, notre avatar, est membre d’un commando des forces spéciales. Chaque bruit, tir d’un ami est non dynamique mais diégétique.

Les sons diégétiques et dynamiques correspondent à tous les bruits que notre avatar peut faire, tous les sons avec lesquels l’avatar peut interagir (bandage d’un arc, bruits de pas).

Enfin, les sons non-diégétiques, non dynamiques correspondent aux éléments extérieurs à l’univers dans lequel on se trouve et qui ne réagissent pas au gameplay. Par exemple, dans Sonic the hedgedog, premier du nom, la musique bouclée qui accompagne l’action est non diégétique, non interactive.

Nous avons donc vu une première classification des éléments sonores selon leur degré d’interactivité. Les dimensions de diégèse et de dynamique nous permettent de classer une bonne partie des éléments sonores d’un gameplay. Cependant, revenons à notre histoire du coq qui chante lorsque

l’aube apparaît dans The Legend of Zelda. Le son est adapté, puisqu’il réagit en fonction de la situation dans laquelle le joueur se trouve mais auquel il ne peut rien : le début de la journée. Il est plus compliqué de dire s’il est diégétique ou non. Il ne l’est pas vraiment puisqu’on ne sait pas si le coq est physiquement présent ou non dans notre espace. Cependant, lorsque l’on joue, il nous paraît tout à fait plausible qu’un coq se ballade dans le coin et que, réglé comme une horloge, il se mette à chanter à l’aube. Pour classifier ces sons en réalité destinés au joueur, il faut introduire la notion de « transdiégèse ».

2.2.2 Définitions et exemples de l’audio transdiégétique.

Kristine Jorgensen, après avoir jugé que la notion de diégèse correspondait bien au cinéma mais était insuffisante pour le jeu vidéo, nous apporte une solution de classification en utilisant le terme de transdiégèse. En effet, si basiquement, dans le cinéma, les dialogues sont diégétiques, et la musique ne l’est pas, on a vu dans l’univers vidéoludique que les sons pouvaient s’éloigner de cet ordre des choses.

Elle définit la notion comme suit : « tous les éléments sonores qui n’ont pas de source dans le monde du jeu mais qui ont la capacité à informer sur les évènements de ce monde sont des sons transdiégétique ».

Le fait d’avoir un joueur situé à l’extérieur du monde de jeu, mais sur lequel il a une action directe, a donc modifié le tableau sonore. En effet, le joueur n’entend pas seulement l’audio diégétique ou non, il utilise également l’information donnée pour influencer ce qu’il se passe dans le monde du jeu.

L’exemple le plus illustratif est celui de la rencontre d’un ennemi dans Oblivion IV : The Elder Scrolls. Même sans avoir vu l’adversaire, la musique, qui était calme et sereine, devient (après un mute très dérangeant d’une seconde) tout de suite plus guerrière, et on assimile très vite celleOci à un ennemi qui nous a repéré. La musique est transdiégétique.

On peut trouver d’autres exemples de sons transdiégétiques dans les jeux de stratégie de guerre, comme les Command&Conquer ou les Age of Empires, où l’on ne contrôle pas un avatar mais une multitude d’unités. Notre vision du monde de jeu est aérienne, et chacune de nos unités a un rôle précis. Dès qu’un ordre est donné, les unités lancent un « bien compris » ou « entendu » et lorsqu’il est effectué, on entend « quels sont les ordres ? », qui est relancé de manière régulière si le joueur ne leur donne pas de nouvelle action.

Ces sons provenant des unités sont uniquement destinés au joueur. Puisque sa vision est concentrée sur une portion du monde de jeu, le fait d’avoir une source audio interne qui lui indique des unités disponibles, d’autres qui ont reçu les ordres, lui donne des indications cruciales pour la suite de l’aventure et évite d’avoir des unités en attente ou complètement oubliées par le joueur.

Ces sons sont également transdiégétiques. En utilisant les deux exemples d’Oblivion IV et de Command&Conquer, on peut établir une classification des sons transdiégétiques. Kristine Jorgensen distingue les sons transdiégétiques internes et externes.

Les sons transdiégétiques externes sont les sons qui devraient être considérés comme non-diégétiques, mais qui communiquent au joueur certains éléments ou états dans la diégèse.

À l’inverse, les sons transdiégétiques internes ont une source diégétique à l’intérieur du monde de jeu, mais ne semblent pas s’y adresser. Ils sont uniquement destinés au joueur situé dans le monde réel.

Le tableau ci-dessous résume mes propos :

Non Diégétique
Transdiégétique externe
Transdiégétique Interne
Diégétique

Les délimitations en pointillés entre diégétique/transdiégétique interne mettent l’accent sur le fait que les sons transdiégétiques internes ont des sources diégétiques, tout comme la délimitation entre transdiégétique externe/non diégétique soulignent le fait que les sons transdiégétiques externes ont des sources non diégétiques. La frontière séparant les pointillés reste un peu floue.

En effet, il est parfois difficile de distinguer la limite d’un son diégétique ou non. Dans World of Warcraft, l’utilisation de sorts magiques coûte des points de mana, et lorsque l’on ordonne à notre avatar de jeter un sortilège mais qu’il n’en a plus les moyens, l’avatar nous répond « not enough mana ». En général, le joueur n’est pas informé de ce qui se passe dans la tête de son avatar mais le fait de pouvoir capter une pensée donne au joueur la sensation que son personnage a un mode de réflexion propre, et peut augmenter l’empathie qu’il éprouve pour son avatar.

Ce « not enough mana » est, si l’on s’en tient à la définition, un son diégétique. Malgré tout, comme il n’a aucune portée dans le monde du jeu, il est transdiégétique interne.

Et là est toute l’importance des sons transdiégétiques. Nous avons vu qu’il était essentiel pour établir une relation d’interactivité que chacun des acteurs de ce cycle doive, tour à tour, se répondre. Les sons transdiégétiques sont une manière de plus pour la machine de donner des informations au joueur afin qu’il en tienne compte dans ses raisonnements et ses actions. De plus, le fait de pouvoir entendre les pensées de notre avatar qui nous sont destinées (Dans Alice : retour au pays de la folie, à chaque porte cadenassée, nous avons une réaction d’Alice nous disant que c’est fermé à clef, ou qu’il faut trouver une autre issue) apporte une dimension supplémentaire à la relation joueur/avatar.

Nous allons maintenant nous intéresser à une composante de l’audio dynamique, à savoir la musique.

3.1)  La musique dynamique.

Depuis longtemps, les développeurs ont compris l’importance de la musique dans les jeux vidéo. Cependant, du fait de la faible puissance des premières machines, il n’était pas possible pour les concepteurs de développer l’univers sonore, ce qui rendait les partitions vidéoludiques un peu monotones. Cependant, les gameplays étaient relativement sommaires, et ne nécessitaient pas une musique complexe. Tout le monde a bien sûr en tête le thème russe de Tetris, qui était répété et répété encore jusqu’à la fin de la partie.

Grâce au développement technologique des machines, les contraintes de mémoire, ou de processeur ne sont plus un problème restrictif pour la musique. Malgré tout, les jeux vidéo gardent la réputation de posséder des musiques bouclées et répétitives. Pourtant, tout cela a bien évolué.

3.1.1 Problématiques spécifiques aux jeux vidéo.

Les compositions filmique et vidéoludique sont comparables en de nombreux points, leur fonction première étant de créer ou renforcer une émotion, mais aussi de suivre (ou d’anticiper) l’action en créant, par un thème, une orchestration, un tempo, une atmosphère. On se souvient de la première scène des Dents de la mer de Spielberg, où l’on voit une nageuse, mais où l’on entend par contre le thème principal, très inquiétant et annonciateur de malheur. John Williams a très bien compris que si on ne pouvait pas voir le danger, on pouvait tout de même le pressentir de manière auditive!

De telles scènes se retrouvent fréquemment dans les jeux vidéo. Malgré tout, J. Williams avait une scène avec un timing fixe, sans risque que la nageuse se promène dix minutes de plus sur la plage avant d’aller dans l’eau, ou qu’elle revienne sur le bord parce qu’elle avait bu la tasse. Le compositeur de musique vidéoludique doit, lui, prendre ces éventualités en compte. Le fait pour le joueur de pouvoir choisir ce qu’il a envie de faire, et donc d’être imprévisible, amène un certain nombre de problématiques.

Tout d’abord, du point de vue du compositeur, il est impossible pour lui de composer une infinité de cues, avec des timings variables. K. Collins prend un exemple dans « Game Sound » où elle nous donne une histoire ne comportant que dix moments où trois choix s’offrent à nous. Cela donne schématiquement une sorte d’arborescence. En définitive, il y aurait la bagatelle de 59000 histoires possibles, toutes différentes les unes des autres. Il est donc impossible pour le compositeur de couvrir autant d’éventualités. De plus, chacun des cue doit pouvoir s’enchaîner à un autre (qui ne sera pas forcément le même en fonction de l’action qui se déroule) à n’importe quel moment.

Enfin, le compositeur, en plus de trouver une signature et une couleur harmonique au jeu, doit également trouver un équilibre entre l’interactivité et la musicalité de son travail.

Privilégier l’interactivité revient à suivre l’action coûte que coûte, au détriment d’un développement thématique par exemple. A l’inverse, être le plus musical possible donne la priorité à l’émotion suscitée par la musique, et on peut imaginer un thème qui se finit alors que le changement radical d’action dans le gameplay aurait dû impliquer un changement d’atmosphère.

Selon M. Bachet, superviseur son chez Ubisoft, l’interactivité et la musicalité sont très difficilement compatibles. Ce qui est donné à l’un est enlevé à l’autre. Cette problématique est facilement compréhensible, l’interactivité implique de changer de musique de manière à être le plus proche possible de l’action, tandis que la musicalité s’exprime, entre autres, dans la durée et implique une linéarité, indispensable à son développement.

Du point de vue du joueur, il est évident que le fait d’écouter les mêmes musiques va provoquer une fatigue auditive, énerver le joueur, le lasser et peutbêtre le détourner du jeu (malgré un excellent jeu, les combats de Final Fantasy VII ne sont couverts que par une seule et même musique, et le joueur va en effectuer quelques milliers du début à la fin du jeu. A la longue, les combats deviennent une véritable tannée, du fait des actions répétitives, et de la musique toujours identique). Scott B. Morton a écrit dans un article : « Vous avez non seulement éliminé tout le côté émotionnel de la musique si vous la généralisez et qu’elle n’est pas appliquée au contexte, mais le fait de la boucler détache également le joueur de l’action de jeu ». Il faut donc lui donner l’impression que ce qu’il écoute est toujours différent, en train d’évoluer, suivre le rythme de l’image tout en restant musical.

3.1.2 Bases de la musique vidéoludique.

Koji Kondo, compositeur des musiques de Super Mario ou de the Legend of Zelda, définit les différents fondements que doit posséder la musique dynamique :

  • La capacité de créer une musique qui évolue avec les évènements.
  • La capacité de créer une production variée en ne transformant que les mêmes thèmes.
  • La capacité d’ajouter des « évènements surprises » et d’augmenter la jouissance de jeu.
  • La capacité d’ajouter des éléments musicaux aux traits du gameplay.

La musique doit donc suivre le gameplay, ce qui implique des changements de tempo, de style, des ajouts ou retraits de stèmes musicaux, des modulations de tonalités… Et tout un tas de variables que le compositeur doit introduire dans ses compositions, en plus d’insuffler à ses partitions l’émotion nécessaire (Charles Deenen décrit les six émotions musicales de base qui sont : la joie, la tristesse, la surprise, le dégoût, la colère et la peur).

Il existe pour le compositeur deux manières de travailler et de composer qui influenceront fortement le rôle de la musique dans le jeu. Il faut d’abord préciser que, contrairement au film, il n’a quasiment accès à aucune séquence animée, puisqu’il intervient très en amont dans le développement du jeu, et que rien n’est encore mis en 3D ; tout juste se contentebtbil de briefings musicaux solides et détaillés, sur chacune des situations de jeu.

Revenons à ses manières de procéder, il peut composer en part, ou bien en layer. Chacune de ces deux manières de composer a ses avantages et inconvénients, et peut être choisie selon le style du jeu, ou l’habitude des développeurs.

Composer en layer revient à créer des morceaux plutôt longs dans lesquels on superpose ou enlève les couches d’instruments en fonction de l’action  (par exemple dans Red Dead Redemption), tandis que la composition en parts est plutôt axée sur la création de cues moins longs, et plus nombreux (comme dans Assasin’s Creed). Cette dernière permet des transitions de morceaux et d’ambiance rapides, tandis que le fonctionnement en layer enfermera plus facilement le compositeur dans une progression harmonique, même s’il apporte également une homogénéité du score. Nous verrons d’autres avantages et inconvénients au moment de l’étape du mixage, dans la prochaine partie.

3.1.3 Prise en considération des sensations du joueur.

Même si la réutilisation à outrance des cues est fortement préjudiciable pour le gameplay, le fait pour le joueur de réentendre les mêmes morceaux de manière mesurée ne lui procurera pas la sensation d’une partition répétitive. Nous avons vu qu’il était impossible pour le compositeur de composer des heures et des heures de musique originale, et cette alternative est largement utilisée dans les jeux modernes. De plus, la possibilité pour le joueur d’identifier une action ou un lieu par la musique crée un lien émotionnel entre lui et le jeu. Dans The Legend of Zelda : The Ocarina of time, les lieux sont parfaitement ciblés par la musique. Les thèmes retentissent à chaque visite, et sont employés exclusivement dans les lieux qu’ils caractérisent, donnant non seulement au joueur une sensation à chaque fois unique, mais provoquant également un réel attachement pour les endroits dans lesquels il se trouve.

Toujours concernant la fatigue du joueur, imaginons une salle dans laquelle il est bloqué pendant dix minutes. Plutôt que de boucler la musique spécifique à la salle en attendant que le joueur trouve la solution, il est possible d’introduire des timings dans les cues. Cette technique est employée dans certains jeux, et dès que le joueur dépasse une certaine durée au même endroit, la musique décroît jusqu’au silence. Elle reprendra dès que l’action de jeu le permettra. Elle est notamment employée dans Halo : Combat Evolved où le compositeur Marty O’Donnell nous raconte : « Si vous n’avez pas atteint l’endroit où vous devriez être, et que cinq minutes se sont passées, vous aurez le droit à un beau fade out de la musique ».

Le compositeur doit donc apporter la plus grande attention aux cues, mais aussi à leur enchaînement les uns par rapport aux autres. La construction de la musique est très spécifique dans les jeux vidéo, et il faut penser le tout « comme une seule et même grande composition où chaque cue serait une petite section de la partition finale» (Koji Kondo). En effet, les transitions entre les musiques sont de la plus haute importance, et peuvent mettre à mal l’atmosphère immersive créée auparavant par l’ambiance musicale.

Prendergast notait, à propos des transitions de films : « Si les transitions ne sont pas effectuées correctement, elles peuvent être très dérangeantes. C’est parfois difficile, voire impossible d’achever une transition en douceur entre des pièces de différents styles ». Car là est le problème, toutes les variables du cue doivent être prises en considération pour effectuer une transition correcte. Paul Hoffert en dénombre sept : le volume, le tempo, le rythme, la tonalité, l’harmonie, la texture et le style. Chacune de ces variables de la musique doit être pensée en amont dans la composition pour que les enchainements soient effectuées de manière la plus naturelle possible.

Certains stratagèmes peuvent être utilisés pour éliminer l’une ou l’autre des variables. Par exemple, les compositeurs de Red Dead Redemption, jeu où l’on incarne un cowbboy au far West, ont composé tout le score en la mineur, au même tempo. Cela leur permet de rajouter ou d’enlever des stèmes d’instruments, en fonction de l’action. Les moments calmes sont joués par un harmonica ou un banjo ad lib, ce qui ne donne pas l’impression au joueur d’être sur le même tempo tout au long du jeu. D’autres compositeurs emploient les mêmes chemins harmoniques pour des cues différents, ce qui permet de passer de l’un à l’autre à n’importe quel moment.

3.1.4 Transitions et variabilité.

a) Transitions et ruptures

Il faut tout d’abord distinguer transition et rupture. Les ruptures interviennent lorsque les concepteurs veulent que le joueur entende quelque chose (ce qui est difficile à mettre en œuvre dans la composition en layer). Dans ces cas-là, une rupture nette et brutale sera de mise. À l’inverse, les transitions s’effectuent avec pour objectif de changer de climat, d’atmosphère, sans que le joueur ne perçoive le changement.

Les transitions dans la musique vidéoludique interviennent à différents moments. Elles peuvent tout d’abord survenir dans le temps (un game over retentit lorsque le joueur n’a pas réussi à résoudre l’énigme dans le temps imparti, ou le fameux exemple de la musique de super mario bros qui accélère en sont de bonnes illustrations). Elles surviennent également en fonction de la situation du joueur (lorsqu’il n’a presque plus de vie, ou au contraire qu’il est invincible dans Mario Galaxy par exemple) mais interviennent le plus fréquemment lors de zones de déclenchement. Cela peut tout simplement être un changement de salle, d’espace (l’arrivée sur la grande plaine d’Hyrule dans the legend of Zelda : Ocarina of time déclenche le thème d’Hyrule) ou l’approche d’un ennemi peuvent être des déclencheurs de musiques spécifiques, et donc de transitions.

Trois types de transitions sont principalement utilisés aujourd’hui. On peut effectuer un enchaînement en diminuant rapidement le volume de la musique sortante jusqu’au silence, puis en faisant jouer la deuxième (toujours dans Zelda, l’entrée dans des habitations depuis un village s’effectue, au niveau musical, de cette manière), elle peut cependant être ressentie de manière un peu abrupte pour le joueur, en fonction du cue ou de l’endroit où il s’arrête.

Une autre méthode consiste à placer un crossfade entre les deux musiques qui vont du coup se lier (il est possible de trouver dans The Legend of Zelda : Ocarina of time le point exact de crossfade lorsqu’on rencontre un ennemi. On entend donc deux musiques, correspondant aux zones de l’ennemi et de sécurité). D’autres types de transitions existent également. On peut par exemple entendre, dans des jeux comme Metal Gear Solid, de courtes virgules sonores jouées sforzando, qui introduisent la musique suivante.

Il est également possible de passer d’un cue à un autre en utilisant la méthode « end of part », à savoir passer d’un thème A à un thème B en entrant directement dans l’un là où l’on a laissé l’autre. Les thèmes sont en quelque sorte superposés et, lors de la rencontre d’un ennemi par exemple, il peut être décidé de passer de la mesure 11 du thème A (celle que l’on finit d’écouter) vers la mesure 11 du thème B. Cela implique par contre un même schéma harmonique entre les deux thèmes, ainsi qu’une réflexion au moment de la composition pour adapter les thèmes.

Le schéma ci-après explique la transition en « end of part » :

b) Variabilité

K. Collins, dans « Game sound », donne une liste de variables que le compositeur pourrait introduire dans son cue, plutôt que d’en refaire des centaines, il pourrait faire varier : le tempo, le pitch, la mesure/le rythme, l’équilibre dynamique, le DSP/les timbres, les mélodies, les tonalités, le mixage et la forme.

La variation de tempo est utilisée depuis Tetris ou Space Invaders. Elle peut être utilisée pour suivre au plus près le rythme de l’image. Dans Mario Galaxy, on passe un niveau debout sur une boule à la manière d’un circassien, en devant franchir des obstacles. Toute la musique (dans le style d’une boite à musique) du niveau varie en tempo en fonction de notre vitesse. Si Mario marche, la musique sera lente, et elle s’emballera s’il se met à courir. L’effet pour le joueur (s’il le remarque) est des plus amusants, et le morceau d’à peine une minute peut tourner en boucle tout du long du niveau sans risque de fatiguer l’auditeur, puisque toujours à un tempo différent.

La variation de pitch concerne tous les morceaux qui sont joués puis transposés à une hauteur quelconque. Cette technique a été créée au départ pour minimiser l’espace mémoire dédié au cue. De plus, elle est fréquemment utilisée pour ne pas avoir l’effet de « redite » d’un même thème. En effet, le fait de transposer le thème ne donne à l’auditeur l’impression de réentendre le morceau, mais intervient plutôt comme une évolution logique d’un morceau. Dans Zelda : Twilight Princess, pendant la bataille finale contre le boss, à chaque coup victorieux, le thème augmente d’une seconde majeure, donnant l’effet d’une tension supplémentaire toujours plus importante au joueur.

Pour illustrer les variations de mesure, prenons l’exemple d’un thème en 4/4 qui serait réécrit en 3/4. L’auditeur aura l’impression d’un morceau beaucoup plus dansé, dans le style de la valse. L’unique fait de changer la mesure peut apporter un climat complètement différent aux thématiques, notamment les mesures composées qui sont très utilisées pour apporter une tension supplémentaire à l’action.

La variation de volume est tout d’abord employée quand la musique disparaît après un temps. Nous l’avons vu avec le compositeur M. O’Donnell qui, plutôt que de boucler à l’infini la musique, préférait, au bout de cinq minutes, la faire disparaitre. Les variations de volume sont aussi utilisées dans les accès au menu pendant le jeu, où la musique de score continue de se dérouler, mais à un volume moindre (Little Big Planet ou Oblivion IV utilisent ces variations). Le volume revient à son niveau initial lorsque le joueur retourne dans l’action. Il est également possible de modifier, de manière très simple en utilisant le MIDI, les vélocités de notes des instruments pour pouvoir faire varier un morceau de la nuance pianissimo à fortissimo. Cela permet, en modifiant les intentions de jeu, d’apporter de nouvelles couleurs à un thème.

Faire varier les timbres en utilisant le DSP revient à utiliser les effets en temps réel pour coller le mieux possible à une situation. K. Collins donne l’exemple d’un jeu de boxe où le joueur aurait pris un gros coup sur la tête. Il est possible d’ajouter du delay à ce moment là, pour apporter une confusion qui serait due au choc. Des effets de phase, d’overdrive, de réverbération ou d’égalisation peuvent enrichir le gameplay à un moment donné, en fonction de l’action.

Les variations de mélodies (qui sont d’abord le travail du compositeur) utilisent les algorithmes de composition pour faire varier un thème, ou une partie de ce thème. L’ordinateur improvise musicalement et l’algorithme peut être appliqué sur un instrument, ou un groupe d’instruments pour donner au joueur la sensation que ce qu’il écoute n’est jamais fixe. Cette pratique est pour le moment très peu utilisée mais pourrait se développer à mesure de la pertinence des algorithmes de composition. Il est clair que ceuxbci ne savent actuellement pas susciter l’émotion de la même manière qu’un compositeur, et ne correspondent pas aux attentes des joueurs. Malgré tout, certains jeux comme Child of Eden ou Rez utilisent certaines situations du gameplay pour faire évoluer la mélodie, ce qui implique (un peu plus) le joueur dans ce qu’il entend.

La variation de tonalité est employée pour donner une nouvelle couleur à un thème. La majorisation d’une thématique mineure sera perçue par le joueur comme une éclaircie joyeuse dans le gameplay, tandis que la minorisation d’un thème majeur donnera un côté beaucoup plus sombre à la composition. Nous ne parlerons pas ici de transpositions de thèmes, qui reviennent simplement à faire varier le pitch, évoqué plus haut.

La variation du mixage sera largement explicitée dans la partie suivante, je vais donc me contenter de quelques lignes. Faire varier un mix en fonction de l’action est largement utilisé de nos jours. La musique étant un assemblage de couches superposées, il est possible d’en enlever une, ou d’en rajouter une autre sans aucun problème. Utilisons le jeu Red Dead Redemption, qui utilise énormément les variations de mixage, comme exemple. Lorsque l’avatar monte sur son cheval, une basse électrique se rajoute au gameplay pour donner un côté plus énergique à la musique. Les transitions sont donc nettes et efficaces. Malgré tout, il est compliqué de passer d’un style à un autre rapidement, car la variation de mixage implique la conservation d’une partie des éléments, des timbres, ce qui ne facilite pas les transitions rapides entre deux univers différents.

Enfin, les variations de forme sont largement inspirées des « formes ouvertes » en musique classique. En effet, la possibilité de pouvoir découper un morceau en parties et de l’assembler dynamiquement en fonction des besoins du jeu reste une excellente opportunité d’avoir une partition toujours différente, ou en tous cas moins répétitive. De nombreux compositeurs s’y sont intéressés, de Mozart à Stockhausen en passant par Boulez, utilisant le hasard pour assembler leurs œuvres. Les nombreuses allées et venues à un même endroit dans un jeu peuvent pousser le compositeur à choisir la forme ouverte. C’est le cas dans The Legend of Zelda : Ocarina of time, dans la plaine d’Hyrule, dans laquelle on passe beaucoup de temps. Les séquences sont jouées aléatoirement pour garder une diversité. Cependant, les formes ouvertes posent quelques problèmes. Le fait de ne pas avoir de structure élimine la courbe mélodique, qui n’a plus la portée dramatique qu’elle pourrait avoir si la structure était fixe. De plus ces différents segments s’enchaînent de manière cohérente, mais sans lien réellement construit, ce qui ne donne pas l’impression d’une unité de la partition. Les formes ouvertes sont donc plus souvent utilisées dans des lieux de passage, sans réelle « importance » dans l’histoire narrative. La plaine d’Hyrule correspond bien à cette description, puisqu’elle est le passage obligé pour se rendre dans les lieux qui feront avancer l’histoire. Composer une pièce qui a du sens est évidemment compliqué pour une forme ouverte, mais ce genre de variation a toute sa place dans le jeu vidéo.

Faisons tout de même un petit aparté sur le MIDI. Il est important de préciser que seul le MIDI permet des variations réellement dynamiques, et facilement applicables. On retrouve des variations très dynamiques dans les jeux de la Nintendo 64, première console à utiliser des vraies banques MIDI. Prenons l’exemple de Conker’s bad fur day, jeu dans lequel nous incarnons un petit écureuil qui se balade de niveau en niveau. A un moment dans le jeu, on se retrouve près d’une ruche, et la musique que l’on entendait se morphe petit à petit, en modifiant ses timbres. Tous les sons composant cette musique, au lieu d’être des instruments identifiables, sont entendus en « Bzzz », ce qui donne un effet très comique à cellebci. Cet effet de timbre aurait été très difficilement réalisable en utilisant des samples audio, et même si le MIDI n’est actuellement plus employé, il conserve quand même quelques avantages indéniables.

Il est donc largement possible de rendre vivante une partition vidéoludique, en utilisant un panel étoffé de variations musicales. Les jeux actuels étant destinés à être joués et rejoués, il est essentiel que la bandeb son soit la moins redondante possible, tout en gardant la capacité à informer, situer et émouvoir. L’étape suivante, celle de la postproduction, va être elle aussi déterminante.

3.2)  La postproduction, adapter l’univers vidéoludique.

En introduction, il est bon de préciser que l’étape de postproduction dans le jeu vidéo ne peut pas être considérée comme fixe dans la démarche. Il y a autant de mixages que de types de jeux, et même que de situations de jeux. En effet, si, dans le film, le spectateur est fixe, en jeu vidéo, l’auditeur bouge avec l’action, et sa situation évolue. Cela se traduit au niveau du mix par un réajustement permanent des sons, des réverbérations, des placements dans l’espace. Il est nécessaire pour le joueur d’avoir l’espace sonore le plus précis et réactif possible pour qu’il puisse s’y sentir profondément immergé.

3.2.1 Composer l’espace sonore.

L’étape de postproduction commence avec le mixage des musiques. Cette étape a uniquement lieu si le compositeur a fonctionné en part. En effet, le mixage des layers est effectué par la console elleGmême, ce qui a pour inconvénient de ne pas offrir aux développeurs le même contrôle sur le mix final écouté par le joueur. Le compositeur a transmis tous les stems d’instruments qui permettent aux ingénieurs du son d’équilibrer l’ensemble en prenant soin de ne pas charger le centre, endroit de prédilection des dialogues. Cette étape du mixage ne se différencie donc pas vraiment, en soi, du mixage de film.

Puis vient l’intégration de tous les éléments sonores, à savoir les sons d’évènement, d’environnement, d’ambiance, de dialogue, de feedback. Choisis préalablement à travers d’immenses banques de sons, ils apportent au joueur la connexion entre l’image et la sensation de « vivre le moment ». Chaque élément a un niveau de référence (par exemple la voix au centre à G 14 dBFS) qui sera ensuite réajusté lors du debug.

3.2.2 Le mix Dynamique

La véritable difficulté du mixage vidéoludique réside dans ce mixage ingame. En effet, prenons l’exemple du prochain Ghost Recon qui sortira cet hiver. Ghost Recon est un jeu d’espionnage et d’infiltration dans lequel le joueur contrôle un avatar. Il est accompagné par trois équipiers contrôlés par l’IA. Le Mix, en plus de varier selon la position du joueur, varie également en fonction de l’état de celui ci. Qu’il soit en situation d’infiltration, de combat, de communication ou en grande difficulté influera également sur le mixage final. En effet, l’infiltration privilégiera les bruitages ennemis, tandis que les situations de combats mettront en avant les bruits de tir de l’arme du joueur. La musique se fera plus présente et oppressante si tous nos coéquipiers sont morts, et on n’hésitera pas, à certains moments, à mettre les dialogues bien devant pour ne pas que le joueur manque un objectif à effectuer. Enfin, si une grenade explose à côté de notre avatar, on entendra ce que l’on appelle « un effet Ryan » (sons filtrés, sifflants dans les oreilles) qui modifiera radicalement la perception des sons nous entourant pendant quelques instants.

Le DSP de la console est largement mis à contribution pour traiter les différentes réverbérations, ou les effets sonores. Les développeurs mettent en place leurs propres algorithmes d’effets, qu’ils implantent ensuite dans leurs moteurs son puis ils transfèrent tout cela dans la console de jeux.

Lorsque tous les éléments sont à leur place, au niveau sonore mais aussi visuel, arrive alors l’étape du debug. Les jeux sont testés, joués et analysés dans les moindres détails. C’est à ce moment là que l’on affine le mixage, et qu’on le finalise. En testant chaque pas, chaque arme, les développeurs définissent ce qui n’est pas à sa place dans l’espace sonore et le modifient directement. Par exemple, un des sons de pas d’une séquence aléatoire pourrait ressortir par rapport aux autres. Les développeurs vont donc baisser ce son spécifiquement, afin d’homogénéiser la séquence. Puis ils passeront aux bruits de pas sur d’autres textures, talons sur de carrelage, bottes sur du parquet, pieds sur de la moquette, moon boots sur du grillage. Toutes les textures sonores utilisées dans le jeu seront décortiquées pour savoir si il n’y a aucun problème d’homogénéité qui pourrait gêner le joueur d’une manière ou d’une autre.

3.2.3 Prioriser les évènements sonores.

Charger auditivement un gameplay peut vite être dérangeant pour le joueur. Il est clair que, de toutes façons, il ne peut pas tout entendre, tout écouter, et le fait de rajouter encore et encore des éléments sonores peut se révéler contre-productif.

Il est donc important de limiter le nombre de voix de polyphonies (limitation à 128 voix dans les systèmes actuels). Il est aussi essentiel de donner des ordres de priorité aux éléments sonores qui, à un moment ou à un autre, seront importants dans l’action. Par un système de if… then, des ordres de priorité sont déclenchés, mettant en avant certaines informations sonores.

Il est également important de parler du mode de jeu multi-joueur. Même s’il est de plus en plus courant d’effectuer les parties multi-joueurs en réseau (chaque joueur joue sur son écran en utilisant internet, ce qui ne pose pas de problème supplémentaire dans ce cas), et non en écran splitté (plusieurs joueurs sur le même écran), il faut penser, dans cette dernière situation, à ce que les joueurs entendront lorsqu’ils contrôleront chacun un avatar sur le même écran. Même s’il est tout à fait possible d’intégrer les bruitages de chaque joueur, que faire lorsque l’un d’eux est dans un état critique au niveau de la santé alors que l’autre possède toute sa vie ? Ou lorsque l’un rentre dans la zone d’un ennemi alors que l’autre est toujours dans la « safe zone ». Il n’est évidemment pas possible de tout placer dans l’espace sonore, car cela serait très vite la cacophonie pour les deux joueurs (ou trois ou quatre). Là encore, les concepteurs vont devoir faire des choix, il est rare que tous les bruitages des deux joueurs soient cumulés mais cela arrive (comme dans Call of Duty Black Ops). Dans tous les autres cas, un des deux joueurs est considéré comme le principal, et c’est lui que la bande son va suivre.

L’étape de postproduction est donc des plus importantes, elle permet d’intégrer chaque son et chaque musique de la manière la plus crédible possible. Les concepteurs doivent toujours garder à l’esprit qu’un évènement important peut survenir à n’importe quel moment du gameplay, et donc faire suivre la bande sonore en conséquence.

Nous allons maintenant tenter d’établir quels rapports le joueur entretient avec la bande son, par l’intermédiaire de trois tests.

Partie III : Déterminer la manière dont le joueur entend, utilise et interprète l’audio des jeux vidéo.

La réelle problématique reste la perception des informations sonores par le joueur et la manière dont il les interprète et les utilise dans ses actions. Le seul moyen d’en apprendre un peu plus sur le sujet est d’être au contact des gamers pour avoir leurs avis et sensations. On peut légitimement penser que, sans des mises en situation ou des tests, les réponses seront approximatives et peu intéressantes. C’est pourquoi j’ai d’abord choisi de présenter les tests de Kristine Jorgensen « Left in the Dark : Playing video games with the sound turned off », puis ceux de Lennart Nacke, Mark Grimshaw et Craig Lindley intitulés : « More than a feeling : Measurement of sonic user experience and psychophysiology in a first=person shooter game » avant d’effectuer moiNmême mes propres expérimentations.

1.1) Left in the dark : Playing Computer Game with the sound turned off.

Le test de Kristine Jorgensen peut être résumé de manière très simple : Elle démontre le fait que jouer sans le son affecte l’expérience de jeu, au niveau de l’environnement et du système.

1.1.1) Protocole

Parce que le son est souvent considéré comme une « valeur ajoutée » à l’image, on lui octroie souvent un rôle moins important que celui qu’il remplit réellement dans les films ou les jeux vidéo. Il est important de noter que l’image et le son sont les seules façons par lesquelles le système peut communiquer avec l’utilisateur. Ne plus se servir de l’audio d’un jeu vidéo revient tout simplement à ne plus en utiliser qu’un seul et il n’est pas sûr que le joueur puisse trouver toutes les informations qu’il espère uniquement dans l’image.

Nous avons vu que l’audio supporte la présence à l’image, rehausse la sensation d’espace, et est utilisé pour donner des indications aux joueurs. Le but de ces expérimentations est simple. Comment les joueurs vont-ils réagir en jouant sans le son, et que vont-ils ressentir ?

Kristine Jorgensen a demandé à des joueurs de jouer à deux jeux d’ordinateur, le jeu de stratégie en temps réel Warcraft III (Blizzard 2002) et le jeu d’infiltration Hitman Contracts (Io Interactive 2004). Ils vont d’abord jouer dans des conditions normales pendant 15-20 minutes avant que le son ne soit coupé. Ils jouent ensuite de nouveau pendant 10-15 minutes. Leur partie a été enregistrée par un logiciel de capture vidéo, ce qui permettra à Kristine Jorgensen d’avoir un dialogue avec les joueurs immédiatement après la fin de leur jeu. Ce dialogue se focalisera sur la description de leurs actions de jeu, et particulièrement sur la manière dont le son les influence, ainsi que sur leurs ressentis.

Il faut garder à l’esprit que l’audio joue un rôle différent d’un jeu à l’autre, et d’un genre à l’autre. Les deux jeux ont été choisis car ils représentaient chacun un genre, et étaient joués de manière très différente. Hitman Contracts est un jeu d’infiltration, de discrétion et de tactique. Le joueur joue le rôle d’un assassin professionnel, et doit éliminer ses cibles. Il gagne des bonus s’il exécute ses missions sans avoir été repéré par les gardes ou les caméras de surveillance. Le deuxième support de test, Warcraft III est un jeu de stratégie en temps réel. Le joueur contrôle une race et est opposé à d’autres humains ou l’ordinateur, il ne gère pas un seul avatar mais une base militaire dans laquelle il produit une multitude d’unités semi-autonomes qui vont exécuter des ordres d’attaque, de patrouille ou de construction.

La place du son dans les deux jeux est importante. Dans Hitman Contracts, toute la partition musicale est adaptée à l’environnement de jeu. En effet, le background musical indique si la situation est calme ou critique, les gardes tirant à vue si notre avatar agit de manière suspicieuse. Il met également, grâce à des ambiances travaillées, le joueur dans un état de semi-alerte. Dans Warcraft III, le son joue d’abord un rôle informatif, puisqu’il répond en temps réel à une situation (château attaqué, bâtiment construit). Chaque unité possède des réponses verbales aux ordres donnés par le joueur et le fait d’en contrôler plusieurs peut vite devenir ingérable si celui-ci n’est pas informé de manière continue de la situation.

1.1.2) Résultats

K. Jorgensen a fait une première constatation : les joueurs ont la sensation de perdre le contrôle de la situation et d’être impuissants face aux évènements quand le son est coupé. La localisation des ennemis, ou d’évènements hors de champ visuel devient impossible. Cela signifie que le son est utile, dans toutes les situations où le champ visuel est occupé à d’autres tâches, pour récupérer des informations. Un des participants dit : « tu n’as aucun retour d’ambiances de l’environnement, le son contribue à t’y placer… quand tu entends une porte s’ouvrir derrière toi, ou entends simplement une porte s’ouvrir et qu’il n’y a pas de portes devant toi, tu en déduis que c’est derrière toi ».

L’absence de son enlève au joueur toutes les informations acousmatiques (au sens de P. Schaeffer ou M. Chion), c’est-à-dire les instants où l’on entend un son sans en voir la source. Et même lorsque l’on a l’information visuelle, le son est utile pour envoyer une grande quantité d’informations au joueur. Les batailles de Warcraft III deviennent vite chaotiques sans l’audio car il indique le type d’unités impliqué dans les combats, quand elles meurent, la taille de l’armée… Le fait de pouvoir entendre tout cela sans obligatoirement avoir à l’observer libère l’attention visuelle des tâches inutiles.

De plus, l’audio donne plus d’informations, dans certains cas, et de manière plus détaillée, que l’image ne pourrait le faire. Un exemple est trouvé dans Warcraft III, lorsque le joueur veut construire un bâtiment : « Je cliquais une fois, et j’entendais souvent « pas assez d’or », je cliquais une fois ou deux de plus pour être sûr, mais sans le son, c’était « click=click=click=click= click=click=click » Oh non ! Je n’ai plus d’or. Cela me prenait plus longtemps pour remarquer les choses ». Le joueur augmente son temps de réaction, soit parce qu’il n’a pas de retour du système, du fait que soit son ordre ne peut être exécuté, soit il a été exécuté mais il n’a pas eu la confirmation (qui aurait été sonore).

La deuxième grande constatation de K.Jorgensen concerne la « connexion émotionnelle » au monde du jeu. La sensation de présence disparaît immédiatement avec l’absence de son. Nous avons vu à quel point cette sensation de présence jouait sur celle de l’immersion, et le fait de ne pas pouvoir vivre l’aventure « de l’intérieur », de se sentir dans un espace en trois dimensions cohérent pose un problème. Un participant nous dit « C’est comme si les scènes de tir ne marchaient pas, parce qu’on se sait dans un jeu d’ordinateur. Donc quand il n’y a pas de son, la scène ressemble juste à deux figures animées étant debout, se tirant dessus, sans réelle conviction ». L’illusion d’un monde naturel disparaît donc devant celle d’un monde inconsistant, perdant les similarités avec le monde réel. Stockburger avait déjà précisé que l’effet sonore que produit un objet crée un lien cognitif entre l’objet visuel et le son, et permet l’orientation de l’objet dans l’espace. Le manque de vie sans le son rend le joueur moins attaché émotionnellement, donc plus distant avec le monde du jeu.

K. Jorgensen a enfin remarqué que, du fait du manque d’informations données au joueur, le joueur pouvait jouer de manière complètement différente, plus systématique du fait qu’il était devenu détaché du monde de jeu. Il est plus facile de se concentrer sur des tâches dans un monde sans son, parce que le joueur n’est pas distrait par la moindre information que pourrait donner une ambiance ou une atmosphère. Un des participants racontait jouer de manière beaucoup plus agressive dans Hitman Contracts, et rappelait, au lieu d’un jeu d’infiltration, un tireur fou qui terrorise la population plutôt qu’un assassin professionnel discret.

Malgré tout, certains participants, du fait de leur habitude de jeu, connaissent comment répond le système. Et même s’ils avouent que leur temps de réaction augmente, la redondance accroît fortement les performances du joueur : « Bien sûr, les premières secondes, je me demandais ce qu’il se passait. Mais j’ai été habitué à cela. Mes réactions étaient plus lentes, je le sais. Pourtant, j’étais habitué à ce qui allait arriver, je suis habitué à attaquer d’une certaine manière, ensuite que j’ai cette tâche à faire, puis celle là… ».

Cette étude nous apprend que l’absence de son, affecte le jeu à plusieurs niveaux. L’interactivité avec le système décroit, du fait que le joueur ne reçoit plus aucune information sonore concernant ses actions ou ses ordres, et l’investissement émotionnel du joueur décroit également, du fait de l’inconsistance du monde de jeu. Elle illustre la réelle importance des phénomènes d’interactivité sonore et d’immersion, que l’on a expliqué précédemment.

2.1)  More than a feeling : Measurement of sonic user experience and psychophysiology in a first-person shooter game.

Cette étude réalisée par Lennart E. Nacke, Mark N. Grimshaw, Craig A. Lindley tend à mieux comprendre le lien entre son, musique et psychophysiologie (étant définie comme la relation entre les tissus, organes des êtres humains et le psychisme). Partant du constat que les études liées au son dans le jeu vidéo étaient peu nombreuses, ils sont partis de l’hypothèse que l’altération d’une partie ou de toute la partition sonore entraînait un changement au niveau sensitif, mais aussi à un niveau physiologique.

2.1.1) Protocole

36 participants jouent à un FPS immersif et très rythmé dans les actions à effectuer, dans lequel les paramètres de l’audio sont modifiés (son on/off, musique on/off). L’activité électrique du derme (EDA), ainsi que l’activité des muscles faciaux (EMG) sont enregistrées, et un questionnaire sur l’expérience de jeu est remplit par tous les participants (GEQ). Les signaux physiologiques sont enregistrés grâce à des électrodes sur la peau, afin d’obtenir des informations sur l’état émotionnel et mental de l’utilisateur. Ces types d’enregistrements sont surtout utilisés en neuroscience, médecine ou ingénierie biomédicale. L’EMG est un bon indicateur d’une émotion plaisante ou désagréable, elle mesure l’activité électrique des muscles de la face. L’EDA est régulée par la production de sueur dans les glandes exocrines. En effet, l’augmentation de l’activité des glandes sudoripares est relative au niveau de conductance électrique de la peau (SCL), associé à un éveil physique. Pour évaluer l’EMG et l’EDA, les standards de psychophysiologie vont être utilisés, et établies sur un graphique de cette manière :

Voici les différentes hypothèses proposées par les auteurs :

  • Quand le son est présent, les niveaux d’EMG et d’EDA augmentent. Ils diminuent quand le son est coupé.
  • Quand la musique est présente, les niveaux d’EMG et d’EDA augmentent. Ils diminuent quand la musique est coupée.
  • Quand le son et la musique sont présents, le niveau d’EDA augmente. Il baisse quand l’audio est absent.

Le GEQ tend à établir les effets du son et de la musique sur l’expérience de jeu. L’étude globale essaye donc d’établir une corrélation entre les mesures physiologiques (réponses objectives) et le questionnaire (réponses subjectives).

Le jeu testé est Half=Life 2 (Valve Corporation), modifié pour l’occasion. Le monde du jeu se situe dans trois différentes chambres plus difficiles les unes que les autres, avec des ennemis de plus en plus forts, et avec moins en moins de munitions. Le son et la musique sont contrôlés de manière externe par un logiciel par l’expérimentateur. Les sessions de jeu durent deux heures. Après avoir évalué leurs activités physiologiques de base pendant 3 à 5 minutes, chaque participant commençait à jouer le niveau dans chacune des quatre dispositions de l’audio en ayant pour objectif de le finir. Les participants étaient arrêtés au bout de 10 minutes s’ils n’avaient pas fini le niveau, avaient une pause de 2 à 3 minutes pour remplir le GEQ, puis rejouaient sous d’autres conditions. Le GEQ combine sept différents états relatifs au jeu : immersion, tension, compétence, attrait pour le jeu, affect positif, affect négatif et challenge. Chaque catégorie était caractérisée par cinq phrases qu’il fallait noter de 0 (pas du tout d’accord) à 4 (tout à fait d’accord). Les phrases étaient, par exemple, « J’étais bon dans cette partie » (Compétence), « je me suis senti frustré » (tension), « j’étais distrait » (affect négatif).

2.1.2) Résultats

Les résultats physiologiques n’ont donné que peu de réponses. Les auteurs n’ont trouvé que ni le son, ni la musique, ni l’interaction entre les deux, n’avaient d’effets significatifs sur l’activité électrodermale, ou l’activité des muscles faciaux. De ce fait, les hypothèses formulées sont toutes rejetées. Le questionnaire donne quant à lui beaucoup plus de satisfaction. L’absence ou la présence de son influence de manière conséquente les réponses des participants.

On peut tout d’abord remarquer que, lorsque le son est actif (avec la musique soit off, soit on), les éléments positifs ou neutres du GEQ (immersion, compétence, attrait pour le jeu, affect positif, challenge) étaient expérimentés de manière plus positive, et que les éléments négatifs (affect négatif, tension) étaient expérimentés de manière moins négative. L’inverse, lorsque le son est coupé, est vérifié également. Par ailleurs, lorsque l’audio est actif, la tension est ressentie de manière moindre, alors que lorsque la musique est active mais que les bruitages sont coupés, le ressenti de tension est beaucoup plus important. Comme on pouvait le supposer, l’affect négatif est le plus important lorsque l’audio est coupé, à l’inverse de l’immersion qui est le plus importante lorsque l’audio est actif. Les participants se sont sentis moins compétents lorsqu’il n’y avait pas de son, et, chose étrange, l’affect positif est supérieur lorsque le bruitage est présent mais que la musique est coupée plutôt que lorsque toute la bande son est active.

Les résultats de ces expérimentations sont un peu décevants, la corrélation entre mesures physiologiques et questionnaire de jeu n’étant pas établie. Certaines zones de muscles faciaux indiquent d’habitude des émotions positives, et il n’a malheureusement été trouvé aucun lien entre ces zones et la notion de compétence par exemple (qui est positive). Cependant, les auteurs ont tout de même pu observer les effets des bruitages et de la musique sur les différents ressentis que le joueur peut éprouver lorsqu’il joue, de manière détaillée.

3.1) Déterminer l’importance de la musique dans le gameplay.

Après avoir constaté, grâce aux deux précédents tests, l’importance de la bande son, il me semblait important d’évoquer plus précisément le rôle de la musique pour le joueur. En effet, si elle détermine à la fois le lieu et l’ambiance d’un gameplay, il serait intéressant d’observer les réactions du joueur si, en lui refaisant faire la même partie du jeu, on modifiait la musique. C’est donc ce que j’ai tenté d’approfondir.

3.1.1) Préambule et mise en situation.

Le jeu que j’utilise est Red Dead Redemption, développé par Rockstar Game, et sorti en 2010, sur PS3. On incarne un cowboy solitaire, John Marston, qui se retrouve dans le Far West avec la ferme intention de se venger d’un certain Bill Williamson. Les possibilités pour le joueur dans ce jeu sont énormes et les missions variées. Il est tout à fait possible de dresser des chevaux sauvages, comme de partir à la recherche de criminels recherchés ou de provoquer des duels. Tout le long du jeu, la musique est basée sur le même tempo, à la même tonalité. Elle évolue par layer, c’est-à-dire par ajout ou retrait de couches successives en fonction de l’action de jeu.

J’ai choisi, pour effectuer ce test, un moment clé du jeu, l’attaque du Fort Mercer, là où est censé se terrer Williamson. Avec l’aide du shérif local, notre avatar va prendre d’assaut la forteresse, en utilisant une taupe à l’intérieur du fort qui nous aura ouvert les portes.

L’action se déroule en deux phases : notre avatar, dans la première, est aux commandes d’une grosse mitrailleuse et doit éliminer tous les ennemis qui arrivent par dizaines à l’intérieur d’une grande cour. Dans la deuxième phase, le joueur est à pied, et avec l’aide du shérif, élimine les derniers méchants planqués sur les toits. La musique correspondante est rythmée, chantant le Far West avec des instruments typiques (harmonica, trompette, etc), elle est dynamique, et plus précisément adaptée.

3.1.2) Protocole et installation.

Mon idée était de pouvoir modifier la musique à chaque fois que le joueur allait recommencer l’attaque, pour observer sa réaction face à une musique étrangère au gameplay. J’ai donc utilisé un patch programmé sous MaxMSP afin d’avoir une interface facile d’utilisation. J’ai la possibilité, en utilisant ce patch, de charger des morceaux en .wav ou .aif et, avec l’aide d’un mixeur, de les intégrer à l’audio qui provient du jeu. Je peux ensuite jouer le morceau, le boucler ou l’arrêter quand je le souhaite.

Voici le dispositif que j’utilise :

Le test va donc se dérouler de cette manière : Le joueur va d’abord jouer la partie avec la bande son originale, sans aucune modification. Il va remplir un questionnaire détaillant son expérience de jeu, sa sensation d’immersion… Il reviendra jouer ensuite à la même partie, mais avec la musique originale mutée et remplacée au même niveau sonore par une de celles que j’aurais choisies. Il remplira de nouveau le même questionnaire et répondra à la question « avez-vous remarqué des différences avec le(s) gameplay(s) précédent(s) ? », et ainsi de suite jusqu’au dernier gameplay. Les bruitages n’ont jamais été modifiés, ni aucun autre paramètre du jeu.

Les morceaux choisis sont, dans leur ordre d’écoute pour le joueur : le thème principal de pour quelques dollars de plus d’Ennio Morricone, Counter Attack extrait du film Dragons de John Powell, The man who sold the world de David Bowie et enfin You’re fit but you know it de The Streets.

Le choix de ces musiques ne s’est pas fait au hasard, il me semble important que, pour le joueur, il faille s’éloigner progressivement du style de la musique originale. Il est donc évident de choisir, comme premier morceau, le thème d’Ennio Morricone du film pour quelques dollars de plus, qui colle parfaitement à la situation. Il est plus lent que la musique de la bande originale, mais le joueur pourrait parfaitement s’y méprendre en rejouant l’action la deuxième fois.

Le morceau suivant est Counter Attack, de John Powell. C’est un morceau orchestral, avec beaucoup de rythme, qui colle à celui de l’action de jeu. Il est par contre sans aucune connotation « Far West », et les thèmes sont forts et complètement différents des précédents.

J’ai ensuite utilisé le titre de David Bowie The man who sold the world, qui emploie dans son instrumentation des guitares électriques lourdes, dans un style un peu « désertique ». L’ambiance est plus pesante, et le rythme de l’action n’est pas vraiment retranscrit dans la musique. Par contre, l’atmosphère pourrait coller à une ambiance western.

Le dernier morceau utilisé est You’re fit but you know it, de The Streets. Très éloigné de l’univers du gameplay, il possède par contre une énergie qui pourrait être communiquée au joueur. La chanson choisie est volontairement étrangère à une atmosphère de western, comme pour signaler au joueur (au cas où il ne l’aurait pas remarqué) que la musique n’est pas celle du gameplay.

Après chaque nouveau gameplay, le joueur va remplir un tableau estimant entre 1 (très mauvaise) et 5 (excellente) différents critères et sensations. Il s’agit donc pour le joueur de juger de son expérience globale de jeu, sa prise en main, sa compréhension du jeu, son identification à l’action et sa sensation d’immersion. Il lui est ensuite demandé s’il a perçu des différences de gameplay avec les précédents. Enfin, il est demandé à la fin du test, à titre informatif, s’il connaît chacun des 4 titres qu’il a entendu durant ses phases de jeu. Chaque gameplay dure entre 4 et 7 minutes, le joueur a la possibilité de mourir, et pour ne pas avoir à refaire le gameplay si c’était le cas, j’ai considéré que s’il jouait pendant une durée au moins égale à 4 minutes, le gameplay était validé et on pouvait passer à la phase de jeu suivante.

3.1.3) Participants, Matériel et Hypothèses formulées.

Le joueur ciblé doit au moins être un gamer occasionnel (sur PC ou console). En effet, une méconnaissance totale de l’univers vidéoludique, ainsi que de l’interface, entrainerait une trop longue prise en main, ainsi qu’une frustration du joueur pendant son gameplay. 22 participants ont donc été testés (19 hommes et 3 femmes), et la plupart avaient déjà joué aux jeux vidéo avant l’âge de 12 ans. Le plus jeune avait 14 ans, tandis que le plus âgé l’était de 36 ans, la majorité des joueurs avait un âge compris entre 17 et 25 ans.

Le matériel utilisé est le suivant : Console PS3, jeu Red Dead Redemption, Ordinateur MacBook, Software Max MSP, HP Celestion, Carte son FireFace 400.

Je formule plusieurs hypothèses quant à ces expériences. Tout d’abord, je dois signaler que ce test est très expérimental, il est assez difficile de prévoir quelles vont être les réactions du joueur face à une musique « random ». Malgré tout, on peut supposer qu’un certain nombre de joueurs ne va pas relever la plupart des changements de musique (hormis You’re fit but you know it), et que la sensation d’immersion, ainsi que la composante émotionnelle vont chuter au fur et à mesure que l’on s’éloigne de la musique originale. Il est également probable que le fait que le joueur connaisse la musique introduite facilite son démasquage lors du jeu. Enfin, il sera possible d’estimer la réelle importance pour le joueur de la musique interactive du jeu par rapport à une autre importée et superposée à l’action.

3.1.4) Résultats

Après avoir effectué le test sur 22 participants, les résultats sont plutôt concluants. Il est d’abord intéressant de remarquer que bon nombre de participants ont eu la sensation de changements dans le gameplay qui n’en étaient pas. Rappelons que le seul paramètre variable sur chacune des parties est la musique.

Certains ont trouvé la partie plus difficile que la précédente (difficulté plus importante ?), d’autres ont imaginé que les ennemis avaient changé de place, étaient plus près de notre avatar (sensation d’espace plus réduit ? persos plus proches), d’autres ont pensé que les bruits de tirs avaient été modifiés. Cela nous montre que certains participants étaient plutôt suspicieux à l’idée d’effectuer cinq fois le même gameplay, et cherchaient à deviner quel pourrait bien être l’objectif premier du test.

Avant de commencer à analyser les résultats, je résume les moyennes de chacun des critères évalués dans chaque gameplay à l’aide d’un tableau :

 Musique originaleEnnio MorriconeJohn PowellDavid BowieThe Streets
Expérience globale de jeu3,23,43,52,92,7
Prise en main2,53,13,23,53,5
Compréhension du jeu3,53,73,73,83,8
Identification                                à l’action33,33,22,92,5
Sensation d’immersion2,83,43,12,72,1
Rappel : Chacun des critères est noté de 1 à 5, et évalué entre très mauvais (1) et excellent (5)

Lors de la première approche de la séquence par le participant, on peut remarquer la moyenne sensation d’immersion perçue par le joueur, ce qui est certainement dû à la complexité des actions à effectuer, évaluée grâce au critère de « prise en main », qui est plutôt mauvais (on peut d’ailleurs pressentir que celui-ci va augmenter dans le temps, après quelques parties). Nous avons vu, dans les paragraphes précédents, que si le challenge à relever est trop compliqué pour le joueur, on observe une baisse de l’immersion, plus particulièrement l’immersion systémique. Malgré tout l’expérience de jeu est plutôt positive, sauf pour les gens qui ne sont pas habitués aux manettes PS3 (extrême difficulté pour diriger la mitrailleuse sur les ennemis), et l’identification à l’action est correcte.

Le 2e gameplay utilise le thème et pour quelques dollars de plus d’Ennio Morricone. Seules trois personnes ont formellement reconnu un changement de musique (musique d’Ennio Morricone vachement plus jolie ou musique qui amplifie l’immersion et la sensation de vitesse dans l’action). Il s’est avéré par la suite que deux de ces participants connaissaient ce thème. Deux autres personnes ont émis des doutes ou formulé des hypothèses concernant la musique (découverte de la musique II> ++ ou apparition d’une musique ?). Le reste des participants a joué le même gameplay sans trouver aucune différence au niveau sonore. Par contre, les avis concernant la prise en main plus facile ont été unanimes (plus facile du fait que je connaisse). On remarque une hausse de tous les critères testés, certainement due à une appréhension du jeu plus simple puisque connue.

Le troisième gameplay utilisait le thème Counter Attack du film Dragons, composé par John Powell. Une fois encore, de nombreux participants (16) n’ont pas fait attention au changement de musique, et ceux qui avaient entendu de manière plus ou moins sure le thème d’Ennio Morricone ont bien sur noté cette modification de gameplay. L’expérience globale de jeu augmente encore, ainsi que la prise en main, preuve que le joueur s’habitue convenablement au gameplay, et qu’il se sent progresser (découverte de la TNT ou découverte de nouveaux éléments qui peuvent aider pour la mission). Malgré tout, la sensation d’immersion diminue, preuve que même si la majorité n’a pas relevé le changement de musique, la perception de l’environnement sonore a été modifiée. Pour les joueurs ayant relevé le nouveau thème, les avis sont partagés, mais ils pensent globalement que la musique est moins adaptée que la précédente (musique de film d’aventure trop dense et moins intéressante ou plus sourde, moins agréable, musique pas en adéquation avec la scène jouée). Malgré tout, un participant trouve que la musique apporte un ingrédient supplémentaire puisqu’il se dit plus immergé au niveau sonore, avec une sensation de plus d’action.

Arrivé au quatrième gameplay, les remarques concernant la musique sont plus nombreuses. En effet, la majorité des gens (16) a maintenant identifié avec certitude les changements de bande musicale, et d’autres (4) ont émis de sérieux doutes quant à la présence de la musique de David Bowie dans le gameplay précédent (musique en plus ? ou il y a de la musique qu’il n’y avait pas avant quand on est à pied). Les deux derniers participants n’ont toujours pas relevé le moindre changement de musique dans les parties qu’ils sont en train d’effectuer. La sensation d’immersion chute fortement, la majorité des joueurs s’accordant sur le fait que la musique est trop lente et moins immersive que les précédentes (musique qui nous sort de l’action ou évoque d’autres univers). En effet, si la musique n’est pas en adéquation avec la scène, il est fortement probable qu’elle détruise le lien émotionnel entre le joueur et l’avatar, et donc fasse baisser l’immersion fictionnelle. L’expérience de jeu suit elle aussi la chute de l’immersion, faisant penser qu’il existe une corrélation entre une musique non adaptée et l’expérience globale ressentie par le joueur. Malgré tous ces points négatifs, la prise en main et la compréhension du jeu progressent, preuve que le joueur se sent de plus en plus à l’aise avec le gameplay (plus de maniabilité ou plus rapide, plus précis dans les tirs).

Le dernier gameplay était vraiment là pour dévoiler l’intérêt et la variable du test au joueur. Ils ont maintenant tous découvert que la musique changeait à chaque gameplay. La musique de The Streets fait chuter un peu plus l’immersion et l’expérience de jeu, ainsi que l’identification à l’action. (Musique entraînante mais vraiment pas adaptée ou mais que vient faire la musique dans cette scène de Far West ?). Certains joueurs ont même réellement été dérangés par la musique dans leur expérience de jeu (musique qui ne me plaisait pas et qui me dérangeait) et la plupart a ressenti un détachement émotionnel complet avec la scène (l’action a moins d’importance, sensation d’invincibilité). Cette dernière remarque a également été constatée visuellement, puisque la majorité des participants n’utilisait plus du tout les éléments du décor pour se cacher et être à couvert, mais fonçait tête baissée pour éliminer les ennemis le plus rapidement possible (et ce changement d’attitude ne peut pas être simplement dû au fait qu’il connaisse le jeu). L’expérience globale de jeu diminue également, ainsi que l’identification à l’action.

3.1.5) Conclusions

Ce test apporte quelques éléments intéressants dans la réflexion autour de la place de la musique dans le gameplay. Tout d’abord, notons que si certaines personnes vont tendre l’oreille et percevoir tout de suite si la musique a été changée ou non, la plupart des joueurs ne différencient pas le gameplay lorsque la musique varie, si elle est dans le style du jeu, et raconte un lieu, ou ambiance (Ennio Morricone) ou une action (John Powell). Dans les autres cas, la bande musicale saute généralement aux oreilles (David Bowie et the Streets), pour détruire la sensation d’immersion et d’identification à l’action. Il est intéressant de noter que les participants qui ont le mieux réussi le test (et donc ont trouvé dès le 2e gameplay de quoi il s’agissait) étaient tous des musiciens confirmés. On peut donc se demander si le fait de pratiquer la musique influe sur les informations auditives (et spécialement musicales) que l’on reçoit lorsque l’on joue à un jeu vidéo.

Mes conclusions suivantes concernent les critères qui ont été évalués par les participants. Logiquement, plus on s’éloigne de l’univers musical attendu par le joueur, plus la sensation d’immersion dégringole, entraînant avec elle l’identification à l’action, et même l’expérience globale de jeu.  Preuve que la musique a une grande influence sur le ressenti du joueur (on observe une baisse de la sensation d’immersion lorsque l’on regarde le gameplay utilisant Counter Attack de Powell, et pourtant, la majorité des participants n’a pas décelé que la musique avait changé entre-temps), même s’il ne sait pas expliquer les raisons de ce ressenti.

Pour finir, il est intéressant de remarquer que la sensation d’immersion la plus importante est pour Ennio Morricone. Or, la musique n’est ni adaptée, ni même dynamique. On peut donc se demander la portée de la musique dynamique sur le joueur. Il est possible que, si elle caractérise suffisamment bien un lieu ou une action, elle convienne amplement au joueur. Il faudrait pour vérifier ces hypothèses, effectuer des tests complémentaires sur d’autres jeux, dans d’autres situations.

Conclusion

Au cours de ce travail, nous avons pu comprendre les mécanismes qui relient jeu vidéo et bande sonore, et plus particulièrement la musique. Après un comparatif avec l’univers filmique, les notions d’immersion, d’interactivité et de dynamique ont été expliquées, ainsi que l’étape de Post production. Pour finir, les tests choisis permettent encore un peu plus de déterminer ce que le joueur entend, et comment il interprète l’audio du jeu.

J’ai pris un réel plaisir à choisir ce sujet et à le développer, car il me semble passionnant. Le jeu vidéo est actuellement en pleine période d’évolution, personne ne sait ce qu’il sera dans une dizaine d’années, et quelles seront les capacités des machines du futur. Néanmoins, quelques tendances commencent à apparaître, et les principaux progrès concerneront l’interface. Le Cloud Gaming en est à ses prémices, cela permettrait au joueur de pouvoir avoir accès aux jeux sur son écran de télévision en utilisant le réseau alors que celui-ci tourne sur des serveurs, et impliquerait la disparition des consoles de salon.

D’autres expériences plus folles les unes que les autres ont vu le jour. En 2009, on a assisté à la première poignée de main virtuelle entre San Francisco et Londres, grâce à des gants munis de capteurs et de petits appareils qui recréent la sensation de toucher. D’autre part, la société Sony a déposé un brevet concernant une technologie permettant d’envoyer des informations sensorielles directement dans le cerveau, ce qui mettrait fin à l’utilisation des manettes de jeu. Des vidéos circulent sur internet, mettant en scène des projections holographiques dans notre univers, après analyse du système de notre environnement. Cela impliquera certainement de nombreuses évolutions pour le son, la musique et promet aux gamers des heures de jeux en perspective.

Quelques définitions…

Avatar : L’avatar est le personnage que le joueur contrôle à l’écran, il peut prendre n’importe quelle forme, qu’elle soit humaine, extra-terrestre ou même animale, et réagit par ses actions aux pressions du joueur sur les boutons de sa manette.

Debug : Phase de test lors du développement du jeu qui est effectuée lorsque tous les éléments sonores et visuels sont mis en place (version Alpha). Les développeurs vérifient le moindre bug de jeu et le modifient pour donner au final la version Béta.

DSP : acronyme de Digital Signal Processing, c’est un processeur exclusivement dédié au traitement des signaux numériques. C’est le système qui va effectuer les différents algorithmes d’effets implantés par les développeurs.

FPS : acronyme de First Person Shooter. Le plus célèbre a été Doom. C’est un jeu en trois dimensions dans lequel le joueur se situe à l’intérieur de son avatar. Il n’en voit donc que l’arme et doit éliminer d’autres ennemis pour survivre.

Gameplay : Le mot gameplay n’a pas de réel équivalent en français, le plus proche étant le terme de « jouabilité ». Il désigne en fait toutes les facettes de l’interaction, comme les possibilités d’actions, l’ergonomie des commandes, l’architecture compétitive du jeu… Il peut également désigner, de manière extensive, tout ce qui est sous le contrôle du joueur.

Gamer/Hardcore Gamer : Un gamer est une personne qui a déjà joué au jeu vidéo, sur console, ordinateur, Smartphone… Un hardcore gamer s’implique énormément dans le jeu vidéo, jouant plusieurs heures par jour, essayant d’explorer toutes les possibilités que lui offre le jeu.

Immersion : l’immersion est un état psychologique dans lequel le joueur cesse d’avoir conscience de son corps physique pour concentrer toutes ses actions et sa pensée sur le jeu auquel il joue. Il existe plusieurs états d’immersion qui sont explicités dans mon mémoire.

Intelligence Artificielle (IA): utilisée par la console pour contrôler les personnages qui ne sont pas joués par des humains (également appelés PNJ), l’intelligence artificielle désigne les moyens susceptibles de les doter de capacités intellectuelles comparables à celles des êtres humains. Donner un comportement intelligent à un PNJ est essentiel pour le joueur qui rentrera en interaction avec eux. Une mauvaise IA peut être rebutante pour le joueur.

Interactivité : Le terme désigne une activité dans laquelle deux ou plusieurs êtres agissent de manière à ajuster leurs comportements. Chacun a une phase où il écoute, pense et agit qui va permettre une évolution de la situation.

MMORPG : Acronyme de massively multiplayer online roleAplaying game. C’est un type de jeu vidéo (dont le plus célèbre est World of Warcraft) associant le jeu de rôle et le jeu en ligne massivement multijoueur. Cela permet à un grand nombre de personnes d’interagir simultanément dans un monde virtuel, qui reste persistant (qui évolue lorsque le joueur n’est pas connecté).

Multijoueur : Multijoueur est un mode, et désigne lorsque le joueur est accompagné d’autres joueurs humains. Le multijoueur peut être en réseau, ou bien en écran splitté.

Bibliographie

  • D. Arsenault et M. Picard, « le jeu vidéo entre dépendance et plaisir immersif : les différentes formes d’immersion vidéoludique », 2008, Université de Montréal.
  • Edward Branigan, « Sound, Epistemology, film », 1997.
  • Michel Chion, « Audiovision », 1994, Columbia university Press
  • Karen Collins, « Game Sound : An introduction to the History, Theory, and Practice of Video Game Music and Sound Design », 2008, The MIT Press.
  • L. Ermi et F. Mäyrä, « Fundamental components of the Gameplay expérience, Analysing Immersion », 2005, présentation à la Digital Games research Association conference.
  • Oliver Grau, « Virtual art : From illusion to Immersion », 2004, The MIT Press
  • Andrew S. Glassner, « interactive Storytelling, techniques from 21st century », 2004, A K Peters.
  • Sander Huiberts, « Captivating sound : the role of audio for immersion in computer games », 2010, thesis.
  • Kristine Jørgensen, « What are those Grunts and Growls over there ? Computer Game Audio and Player Action », January 2007.
  • Kristine Jørgensen, « on transdiegetic sounds in computer games », 2007, article.
  • Kristine Jørgensen, « Left in the dark : Playing computer games with the sound turned off », 2008.
  • Kristine Jørgensen, « On the functional aspectes of Computer Game Audio », 2006, présentation à l’Audio Mosty Conference.
  • Koji Kondo, « painting an interactive musical Landscape », 2007, présentation à la Game Developer’s conference.
  • James Lastra, « Sound technology and the american cinema : perception, representation, modernity », 2000, Columbia university Press.
  • Aaron Marks, « The complete guide to Game Audo : for composers, musicians, sound designers, game developers », 2009, Focal Press.
  • L. Nacke, M. Grimshaw, C. Lindley, « More than a feeling : Measurement of sonic expérience and psychophysiology in a firstSperson shooter game », 2010, Interact. Comp.
  • J.R Parker, J. Heerema, « Audio interaction in Computer Mediated game », 2007.
  • Axel Stockburger, « The game environment from an Auditory Perspective », 2003, Marinka & Joost Raessens.
  • Guy Whitmore, « Design with Music in Mind : A guide to Adaptative Audio for game designers », 2003.

Remerciements

Je tenais tout d’abord à remercier Manu Bachet, music supervisor chez Ubisoft à Montreuil, pour ses nombreux éclairages et sans qui je n’aurais pu avoir accès à quantité d’informations. Merci également à Corsin Vogel, pour sa disponibilité et sa gentillesse, ainsi que pour ses conseils avisés. Merci à Augustin Muller pour le patch « super simple qui est fait en trente minutes » que j’ai utilisé dans ma partie de tests, j’aurais certainement passé beaucoup plus de temps que lui à le programmer (et j’y serais certainement encore).

Merci à Béatrice Sauvageot et Serge Hascoët de m’avoir offert les bons contacts. Merci à Georges Bloch qui m’a donné la possibilité de me consacrer au monde du jeu vidéo, au Conservatoire supérieur de Paris. Merci à ma famille, mes amis qui ont dû supporter mes sauts d’humeur et mes passages de folie (c’est très légèrement exagéré !!). Merci à tous les gens qui ont participé de près ou de loin à l’élaboration de ce mémoire et qui m’ont permis de découvrir mon extrême facilité dans le maniement des mots, ce qui me pousse à penser que je vais certainement abandonner la musique pour écrire des bouquins.

Merci à tous !!

Annexes

Dans les documents annexes, vous trouverez un nombre important de documents qui pourraient illustrer mes propos contenus dans ce mémoire. Tout d’abord, vous observerez des phots de différentes consoles et jeux, dont je parle dans mes travaux.

Vous trouverez ensuite les composantes détaillées du patch MaxMSP, utilisé pour ma phase de test, ainsi que mon questionnaire de jeu, et des images du gameplay de Red Dead Redemption.

Vous trouverez ensuite des documents fournis au compositeur pour penser sa musique, en amont du jeu vidéo, afin d’illustrer tout la partie II de ce mémoire. Le jeu en question est Ghost Recon Advanced Warfighter, sorti en 2006 et développé par Ubisoft.

Il y a également un CD de données qui comprend les musiques utilisées pour mes tests, ainsi que la musique originale. Vous y trouverez également différentes illustrations de bandes sonores réussies, et d’autres franchement mauvaises.  Pour finir, vous trouverez dans le dossier « Beowulf » un exemple de références données au compositeur, avec un briefing et des extraits audio dans le dossier Beowulf_Références, et les morceaux que le compositeur à créé suite à ces références dans le dossier Beowulf_Masters.

Quelques jeux illustres

Composition du Patch MaxMSP utilisé pour mes expérimentations

Voici l’interface Générale. Facile d’utilisation, elle permettait de naviguer entre les différentes musiques de manière extrêmement aisée.

Je vais maintenant vous détailler les différentes composantes du patch.

Voici le patch p_dsp, utilisé comme lecteur de fichier sons et dans le brassage de l’audio. Il renvoie à p_player, module détaillé ci après qui joue les fichiers sons.

Pour finir, voici le patch p_sflistmgmtGoptional. utilisé pour charger les fichiers sons en mémoire vive.

Présentation du questionnaire de jeu

Voici la phase d’introduction du test.

Le joueur va remplir, à chaque phase de jeu différente, cette cellule qui va évaluer différents paramètres.

Voici maintenant quelques images du gameplay de Red Dead Redemption.

Documents présentés au compositeur avant la composition

Images conceptuelles du jeu Ghost Recon d’Ubisoft.

Ces dessins sont donnés au compositeur pour qu’il ait une idée de l’ambiance de jeu, de ce que le joueur va devoir réaliser. Il n’y a bien sur aucune animation visible, et c’est à partir de ces documents qu’il va principalement créer la musique.

Extraits de plans de cartes de ghost recon

Ces plans sont utilisés par le compositeur et le sound supervisor du projet pour définir les différentes ambiances, où commencer et arrêter la musique, quels sont les évenements importants du gameplay, et où ils sont situés.

Photos d’enregistrement des musiques de Ghost Recon