L’influence de la vidéo sur la perception d’un défaut sonore temporaire : cas du visionnage d’un concert de musique classique

Conservatoire National Supérieur de Musique et de Danse de Paris : Formation Supérieure aux Métiers du Son

Mémoire de Fin d’Études, présenté par : Benjamin RIBOLET

Sous la Direction de : Corsin VOGEL , Session : juin 2009

Introduction

L’étude de la perception est domaine dans lequel de nombreuses recherches ont été effectuées et sont encore effectuées de nos jours. Alors que notre connaissance du fonctionnement physiologique de nos modalités sensorielles devient de plus en plus précise, de nombreuses théories existent encore sur la manière dont sont traitées les informations. En effet, il ne suffit pas de savoir comment nos sens fonctionnent, car la perception intègre une très grande part de psychologie.

Ce mémoire a pour objectif d’étudier une situation particulière de la perception. Dans notre métier d’ingénieur du son – directeur artistique, nous rencontrons cette situation très souvent : il s’agit de la perception auditive que nous avons d’un document audiovisuel. Plus précisément, il s’agit d’étudier l’influence que peut avoir la vidéo sur notre perception du son et des défauts sonores pouvant apparaître dans la bande son.

Pour cela, il convient en premier lieu d’étudier les différentes théories existantes de la perception ainsi que leur histoire. Nous verrons que toutes ont apporté de précieux éléments pour tenter d’expliquer les mécanismes psychologiques mis en œuvre.

Nous verrons également que l’attention joue un rôle très important en ce qui concerne notre perception du monde extérieur et notre apprentissage, et nous apporterons quelques éléments en ce qui concerne l’étude de la perception multimodale, appelée aussi perception multisensorielle. Nous laisserons volontairement de côté l’étude physiologique des sens, en nous appuyant sur les nombreuses publications qu’il existe à ce sujet.

Dans un second temps, nous tenterons d’élaborer un protocole expérimental qui nous permettra d’étudier la situation que nous venons de décrire, en partant de l’hypothèse suivante : « La perception des défauts sonores est atténuée ou devient nulle lorsque l’on ajoute une information visuelle synchrone : la vidéo. » L’étude des théories de la perception et de l’attention nous aidera à concevoir avec moins de difficulté notre expérience, qui contient de nombreux paramètres qui s’influencent les uns les autres.

Enfin, dans un troisième temps, nous étudierons les résultats et émettrons d’autres hypothèses qui nous permettrons de les expliquer.

Partie I : La perception

Introduction

La perception au sens large du terme a été l’objet de nombreuses études depuis de nombreuses années. Beaucoup de personnes ont en effet envie de savoir comment elles perçoivent le monde complexe qui nous entoure, quels sont les mécanismes qui nous permettent d’appréhender la réalité et d’évoluer dans notre environnement.

Mais il convient de mieux comprendre ce qu’est exactement la perception avant de se lancer dans l’étude de celle-ci. En effet, percevoir est une activité très complexe, même si elle paraît inconsciente et surtout triviale. Elle est la source de tous nos autres comportements comme apprendre, parler, mémoriser ou communiquer.

La perception est le premier degré vers la connaissance, et elle sert d’introduction à tout ce qui en fait le sujet. (Locke, 1690)

Ces considérations sur la perception conduiront les philosophes, puis les psychologues, à élaborer de nombreuses théories à propos de la perception.

Mais Locke s’intéresse également à l’attention. En effet, il constate que lorsque l’esprit contemple fortement un objet, ou lorsqu’il réfléchit à des idées qui se présentent à lui, il ne s’aperçoit plus de l’impression causée par les sons environnants. On voit ici que l’attention est partie prenante dans le phénomène de perception, et également dans le phénomène de mémorisation, que l’on ne traitera pas ici.

Nous nous intéresserons donc à l’histoire des théories de la perception, puis de l’attention, avant de reconsidérer l’étude de la perception dans sa version multisensorielle en lien avec le sujet de ce mémoire.

I  – Les Théories de la Perception

1. Approche Psychophysique

La psychophysique peut être considérée comme l’une des premières disciplines visant à étudier la perception, et plus précisément les relations entre les stimuli, objets objectivables et décrits par les sciences de la nature, et les sensations que ceux-ci suscitent chez l’individu.

Cette branche de la psychologie expérimentale trouve son origine dans la publication du livre Elemente der Psychophysik en 1860 par G. T. Fechner, qui a ainsi abordé le problème fondamental de la mesure en psychologie, et a développé des méthodes pour étudier objectivement des éléments subjectifs de perception.

La psychophysique repose principalement sur l’étude des seuils. Fechner distingue alors deux types de seuils :

  • seuil absolu, qui correspond à la plus petite quantité d’énergie nécessaire à produire une sensation. On passe alors d’une absence de sensation à une sensation ressentie.
  • seuil différentiel, qui correspond à la quantité d’énergie juste nécessaire pour produire une différence de sensation, une impression nouvelle.

Partant de cela, Fechner a mis au point trois méthodes de mesure des seuils.

1.1 Méthode des limites

Elle consiste à augmenter ou à faire décroître progressivement l’intensité d’un stimulus, et à effectuer le relevé des réponses ou des absences de réponse du sujet. On détermine les seuils de perception selon que l’expérimentateur utilise des séries de stimuli croissantes ou décroissantes, puisque l’on cesse de percevoir plus tard que l’on ne commence (BINET, 1894). Le seuil absolu est alors obtenu en faisant la moyenne de ces deux seuils.

1.2 Méthode des stimuli constants

Cette méthode consiste, à la différence de la méthode des limites, à présenter au sujet une série de stimuli d’intensité aléatoire. Le seuil est alors détecté en demandant au sujet s’il a perçu ou non le stimulus.

1.3 Méthode de l’ajustement

Ici, le sujet doit lui-même ajuster l’intensité d’un stimulus, de manière à ce que celui- ci devienne tout juste perceptible, puis tout juste imperceptible. La moyenne de ces deux intensités peut être alors considérée comme le seuil de détection du sujet pour ce stimulus donné.

À partir de ces méthodes, et en prenant pour référence les travaux de Weber, qui sera le premier à montrer que les accroissements égaux d’excitation sont proportionnels aux accroissements égaux de sensation, Fechner établira la loi aujourd’hui nommée « loi de Weber-Fechner », selon laquelle « la sensation varie selon le logarithme de l’excitation ».

L’amplitude de la sensation (Y) n’est pas proportionnelle à la valeur absolue de l’excitation (B), mais plutôt au logarithme de l’amplitude de l’excitation, quand cette dernière est exprimée en termes de valeur de seuil (b), c’est-à-dire que l’amplitude considérée comme l’unité à laquelle la sensation commence et disparaît. En résumé elle est proportionnelle au logarithme de la valeur de l’excitation fondamentale. (Fechner, 1860)

Les premiers expérimentalistes ont utilisé également les méthodes de l’introspection, qui consiste à tenter de décrire ses propres états mentaux.

Toutes ces méthodes susciteront de vives réactions et conduiront notamment à l’apparition du Behaviorisme.

2. Le Behaviorisme

C’est John Watson qui en 1913 initie le mouvement behavioriste, avec la parution de l’article « La Psychologie telle qu’un behavioriste la voit », dans la revue Psychological Review.

Le terme behaviorisme provient du mot anglais behavior, qu’on traduit par comportement. Ainsi, par rupture, voire par opposition avec le mouvement mentaliste et introspectif, Watson crée une science du comportement qui vise à étudier précisément des éléments observables objectifs, en rejetant les états de l’âme, de l’esprit et de la conscience.

La psychologie, telle que la conçoit le behavioriste, est une branche parfaitement objective des sciences de la nature. Elle a pour objectif théorique la prédiction et le contrôle du comportement. Le behavioriste, dans sa recherche sur le comportement, n’admet pas de ligne de démarcation entre l’homme et l’animal. (Watson, 1913)

Les éléments observables objectifs étudiés seront donc principalement les entrées, que constituent les stimuli appliqués à l’individu, et les sorties, ou réponses de celui-ci. Par extension, les sorties correspondront donc aux réactions, soit au comportement de l’individu. On considère ainsi l’être humain comme une boîte noire, dans le sens où ce qui se passe à l’intérieur de cette dernière est par nature inobservable.

On arrivera très vite alors à la conclusion première que le stimulus suscite une réponse, et ainsi naîtra le concept de stimulus-réponse, si cher aux behavioristes. Ceux-ci lanceront alors une large campagne d’études pour tenter de découvrir les relations entre stimuli et réponses.

Un des champs d’applications les plus importants a été celui de découvrir quels stimuli provoquent des réponses de façon innée, et lesquels provoquent des réponses apprises, conditionnées. L’apprentissage apparaît alors comme une modification du comportement face à un stimulus.

Thorndike1, Pavlov2 et Skinner3 poursuivent l’œuvre de Watson et élaborent certaines théories de l’apprentissage, en tenant compte des sentiments des individus. Ils mettent alors en évidence l’importance de la récompense et de la motivation dans l’apprentissage.

Pour les behavioristes, la perception reste donc un élément inobservable en tant que tel. En revanche, leurs travaux sur les stimuli (qui doivent être perçus) et les comportements résultant des stimuli, et donc de la perception, ont permis d’élaborer certaines théories concernant l’apprentissage, et donc les comportements conditionnés par l’environnement.

Nous allons voir que ces théories ont pu susciter elles aussi de vives réactions, notamment dans les pays germaniques.

3. Le Gestaltisme

Appelée également psychologie ou théorie de la forme, Goethe lui-même en émettra quelques idées fondatrices.

Ce mouvement apparaît en Allemagne, à peu près à la même période que le mouvement behavioriste, à propos duquel un certain nombre de critiques seront faites.

En effet, le gestaltisme s’intéresse tout particulièrement à la « boîte noire » que le behaviorisme avait laissée de côté. Ainsi, on cherchera à savoir de quelle manière l’individu organise les éléments perçus, l’environnement dans lequel il évolue, et non comment ce dernier influence le comportement. Les affects, les états mentaux, prennent alors une importance considérable dans cette étude. C’est d’ailleurs pour cette raison que ce courant sera considéré plus tard comme précurseur du cognitivisme dont nous parlerons un peu plus tard.

La Gestalttheorie établit que la perception est fortement influencée par le contexte, ainsi que par la configuration des éléments perçus. Une partie découlant souvent d’une totalité, cela implique qu’on ne peut nécessairement pas comprendre cette partie en dehors de son contexte, et de ses liens avec la totalité, d’où la loi fondamentale du courant gestaltiste : le tout est différent de la somme des parties qui le constituent.

De même, une partie dans un tout est autre chose que cette même partie isolée ou incluse dans un autre tout. Nous voyons ici que la notion de contexte est ici prépondérante.

En plus de ces constatations, le gestaltisme repose sur quelques affirmations fondamentales. En effet, dans un premier temps, il affirme qu’il existe une distinction de la forme sur le fond au sein de toute expérience perceptive. L’image du vase de Rubin nous donne un exemple tout à fait particulier de ce principe, puisqu’en général, la forme distinguée sera bien celle du vase blanc sur un fond noir, alors que nous pouvons également y voir deux visages se faisant face, sur un fond blanc. Cette distinction figure / fond nous permet donc à tout moment de hiérarchiser notre perception de notre milieu. Ainsi sommes-nous capables, selon les principes gestaltistes, de distinguer une ligne mélodique au milieu d’un brouhaha.

Exemples de vases de Rubin. Une représentation graphique classique
Exemples de vases de Rubin. Une représentation graphique classique
Exemples de vases de Rubin. Une photographie d'un vase avec son ombre.
Exemples de vases de Rubin. Une photographie d’un vase avec son ombre.

A gauche, une représentation graphique classique ; à droite, une photographie d’un vase avec son ombre.

Les Lois de la Forme

Selon la Gestalttheorie, la distinction figure / fond est permise grâce à plusieurs mécanismes, pour nous permettre de trier les informations et de regrouper les éléments. Ces mécanismes sont expliqués dans les lois suivantes (Wertheimer, 1923) :

  1. La loi de proximité : tendance à associer des éléments proches, et à séparer les éléments éloignés.
  2. La loi de similitude : regroupement des éléments semblables et dissociation des éléments différents.
  3. La loi de clôture : tendance à percevoir une forme complète plus facilement lorsqu’elle est parfaitement délimitée
  4. La loi de bonne continuité : capacité à regrouper, à relier de façon naturelle des éléments discontinus. Dans le cas d’une forme visuelle, c’est la capacité à interpréter un trait coupé comme ne l’étant pas.
  5. La loi de destin commun : regroupement d’éléments ayant la même trajectoire. Ces éléments sont alors regroupés au sein de la même forme.
  6. La loi de l’expérience : reconnaît la part jouée par l’apprentissage dans la perception de regroupements. L’expérience permet ainsi de structurer des éléments sans que celle-ci soit influencée par les lois précédentes.
  7. La loi de la bonne forme : capacité à organiser naturellement des éléments en une forme plutôt qu’une autre. Cette forme est en général de nature simple, géométrique et stable.

Pour Wertheimer, ces lois constituent donc les premiers principes de la perception, et ce, sans recourir à l’expérience personnelle. Ces principes seraient donc innés. C’est le courant constructiviste qui étudiera plus précisément les mécanismes de l’apprentissage.

4. L’approche constructiviste

Initié par Jean Piaget, ce mouvement est en partie l’origine des courants de la psychologie cognitive. En effet, on conçoit ici la perception comme étant le résultat d’une construction cognitive de la part de l’individu. Les perceptions sont elles-mêmes élaborées à partir de l’expérience personnelle, à partir d’indices issus de l’observation active du stimulus.

Au début du constructivisme, Piaget s’oppose à la théorie de la Gestalt, car il ne reconnaît pas le caractère inné de la perception, ainsi que les invariances de l’organisation perceptive, énoncées dans toutes les lois de la forme. Cependant, il adhère à la théorie de la totalité dans la figure, à la différence près que pour lui, cette notion dépend encore une fois de l’activité cognitive de l’individu et non de la configuration dans laquelle se présentent le ou les stimuli.

Piaget insiste ainsi sur les notions d’assimilation et d’accommodation. L’assimilation est justement ce qui nous permet de nous forger de nouvelles connaissances, d’intégrer de nouvelles données sur le monde qui nous entoure, à partir de nos différentes expériences perceptives. L’accommodation fait que notre perception est évolutive. En effet, en fonction de nos différentes perceptions, nous allons pouvoir adapter notre comportement et nos activités cognitives aux situations nouvelles. Le constructivisme est ainsi souvent assimilé à une théorie de l’apprentissage, que ce soit dans un cadre scolaire ou par exemple dans le cadre de la perception auditive qui nous intéresse plus particulièrement.

L’acquisition d’une information se traduit par une « perturbation » qui va entraîner chez l’individu un « déséquilibre » du champ cognitif et exiger un travail de synthèse pour assimiler, intégrer, critiquer, admettre, ajouter cette nouvelle dans un champ cognitif alors enrichi. (Jean Piaget, 1940)

5. New Look Perceptif

Cette théorie peut s’inscrire dans la continuité du mouvement constructiviste de Jean Piaget. Élaborée par Jerome Bruner, son origine tient dans une célèbre expérience de 1947 dans laquelle le psychologue découvre que les enfants surestiment la taille de pièces de monnaie par rapport à des disques en carton de la même surface. Par cette expérience, Bruner met le doigt sur l’importance des attentes, des motivations et de la préparation des individus dans la perception.

Pour Bruner, la perception est donc un processus qui consiste à tester des hypothèses à propos du stimulus perçu. Ainsi le sujet attribue une première signification sur la nature de l’objet observé, et qui sera confirmée ou non par des informations complémentaires reçues ultérieurement. Le sujet est alors pleinement acteur de sa perception.

Cependant, il est important de souligner le fait que le sujet formule ses hypothèses à partir de quelques indices, quelques échantillons sur le stimulus, et en aucun cas à partir d’une analyse complète de celui-ci. Ce sont ces premiers indices qui permettent de classifier le stimulus dans une catégorie. En voici un exemple :

Cette chose est ronde, sa surface n’est pas lisse, c’est de couleur orangée, de telle et telle dimension, c’est donc une orange. (Bruner, 1957)

A partir des hypothèses formulées sur certaines caractéristiques de l’objet, nous pouvons faire une première hypothèse sur la nature de celui-ci. Il s’agit d’un passage du particulier au général, des indices à la catégorie, contrairement à la théorie Gestaltiste qui part du général, la forme, pour aller vers le particulier.

De plus, nous voyons ici un premier indice d’une orientation catégorielle et prédictive de la perception, c’est-à-dire qu’à partir des hypothèses, le sujet place directement le stimulus dans une catégorie. À partir de cela, il peut prédire plus précisément ce qu’il pourra percevoir ultérieurement, en se forgeant une idée plus précise du contexte. Le sujet est ainsi dans un état constant de préparation et d’attente.

6. Approche cognitive

6.1.  Psychologie cognitive

Comme nous avons pu le voir avec Piajet ou Bruner, la psychologie cognitive consiste à étudier les processus mentaux mis en œuvre lors de la perception, qu’ils soient conscients ou inconscients. Ces processus sont en général le lien entre les entrées sensorielles et les réactions de l’individu. La psychologie cognitive étudie également et plus généralement la manière dont les personnes pensent, mémorisent, apprennent… Elle trouve des liens de parenté à d’autres disciplines comme les neurosciences, la philosophie et la linguistique, qui font elles aussi partie des sciences cognitives.

C’est le psychologue Ulric Neisser qui utilisera le premier le terme de « psychologie cognitive ». Considéré aujourd’hui comme le père de celle-ci, il la définira comme se référant « à tous les processus par lesquels l’input sensoriel est transformé, réduit, élaboré, stocké, rappelé et utilisé ». (Neisser, 1967)

Avec la psychologie cognitive émergent deux concepts très importants du traitement de l’information perceptive : les concepts de processus descendants ou ascendants. On parle encore de processus « bottom-up » (ou « Data-driven) ou « top-down » (ou Theory- driven).

Les processus ascendants sont basés sur l’information seule. Ils représentent un traitement de l’information du bas niveau, qui correspond aux caractéristiques du stimulus perçu, vers le haut niveau, l’intégration et le traitement cognitif. Ces processus interviennent typiquement lors de la première présentation d’un stimulus à un sujet. Celui- ci acquiert de nouvelles informations à partir de ce qu’il perçoit seulement. De plus, ces processus bottom-up dépendent en général peu des hypothèses ou des attentes du sujet. Les représentations formées à partir de ces processus constituent la base de l’identification perceptive.

Les processus descendants sont basés sur l’intégration d’informations préalablement acquises à propos d’un stimulus. Ces processus font en général suite aux processus ascendants. En effet, lors d’une deuxième présentation d’un même élément à un sujet, celui-ci se sert des informations préalablement acquises pour effectuer des hypothèses. Ces processus contrôlent l’information sensorielle à partir de l’expérience et des connaissances, et constituent donc des processus de haut niveau cognitif faisant suite à l’identification perceptive. Ils jouent un rôle essentiel dans les situations où les stimuli peuvent être ambigus ou tout juste perceptibles.

Cette distinction entre les deux types de processus a pour origine le constat selon lequel un stimulus perçu ne l’est pas de la même manière la première fois que les fois suivantes. Nous appréhendons d’abord l’élément présenté, puis nous pouvons nous resservir des informations recueillies lors d’expériences ultérieures.

Les processus top-down sont souvent à l’origine d’un état d’attente ou de préparation lors de la perception. La théorie de l’état central directeur4 traite ainsi de l’influence des caractéristiques du sujet percevant. En effet, en présence de ces éléments, on observe généralement un abaissement des seuils de perception. Ces éléments peuvent être de six natures différentes :

  1. besoins corporels (alimentation, sommeil, sexualité…). Certaines expériences montrent ainsi qu’il existe un abaissement des seuils perceptifs pour des mots portant sur l’alimentation chez des sujets ayant jeûné 24h.
  2. récompense / punition. On constate un abaissement des seuils perceptifs et des réponses plus rapides lors d’expériences mettant en jeu une récompense.
  3. valeurs caractéristiques du sujet.
  4. valeur monétaire d’un objet
  5. personnalité du sujet
  6. valeur sémantique des mots (par exemple des mots tabous)

En plus du phénomène de l’état central directeur, nous pouvons voir également apparaître un effet de mémoire lors de la présentation répétitive d’un stimulus, ce qui peut également être à l’origine d’un abaissement du seuil de perception pour ce stimulus.

6.2. Cognition auditive

Les recherches sur la cognition auditive ont au début concerné principalement un cas particulier de l’audition et de notre ouverture sur le monde : le langage parlé. Cependant, il existe de nos jours de nombreux documents concernant la psychologie cognitive de la perception des sons non verbaux, domaine qui s’élargit notamment avec des études sur la perception de la musique (voir les travaux mis en œuvre à l’IRCAM, notamment par Stephen McAdams, et au LAM par Michelle Castellingo…)

La cognition auditive, comme pour les autres modalités sensorielles, fait toujours intervenir une étape d’interprétation de l’information sensorielle. En effet, le contenu sensoriel des stimuli n’est pas suffisant pour se forger grâce à eux seuls une idée sur notre environnement. C’est ainsi que lorsque nous percevons, nous élaborons naturellement une représentation mentale à partir de notre expérience.

L’être humain cherche donc à attribuer une signification à l’ensemble de la structure sonore.

6.2.1 Un modèle de perception auditive

Le modèle de Peretz, basé sur les modèles de perception visuelle, décrit le processus de la reconnaissance auditive en deux étapes. Nous pouvons d’ailleurs remarquer que la plupart des théories perceptives se sont appuyées et s’appuient encore sur les théories de la vision.

Dans un premier temps, l’événement sonore est analysé, de manière à dégager les propriétés de ce son complexe. Ceci conduit alors à la perception de l’événement, à la discrimination de celui-ci.

Dans un second temps, les propriétés du son dégagées à la première étape sont mises en relation avec les représentations mentales stockées en mémoire. Les schémas ou expériences antérieures en rapport avec elles sont alors activés.

Modèle de Peretz (Bertrand & Garnier, 2005)
Modèle de Peretz (Bertrand & Garnier, 2005)
6.2.2 La perception de la musique

Avant de pouvoir apprécier la musique, il paraît naturel de pouvoir la reconnaître en tant que telle, c’est-à-dire, de pouvoir catégoriser l’événement sonore perçu comme un air musical. Le phénomène de reconnaissance de la musique repose sur une série de mécanismes complexes.

De plus, même si la musique peut susciter en nous, et dès notre plus jeune âge, un panel d’émotions tout à fait impressionnant, et qu’il n’est pas nécessaire d’en être un spécialiste pour l’apprécier, la perception de la musique repose pour une grande partie sur l’apprentissage. Cet apprentissage peut être de nature différentes. Il peut être initié par des spécialistes qui vont permettre également d’acquérir un savoir technique (cas de l’apprentissage en école de musique). Il peut également être le résultat d’un phénomène d’habituation, d’appréhension autonome (cas des autodidactes).

En étudiant le cas de personnes souffrant de troubles de la cognition musicale, la neuropsychologue Isabelle Peretz met en évidence l’existence d’une zone spécifique du traitement de la musique dans notre cerveau qu’elle appelle le Système de Reconnaissance Musicale (PERETZ, 1993). Selon elle, le modèle de perception de la musique est analogue à celui des sons non verbaux. La différence réside dans la présence de nombreux modules de détection (hauteur, organisation temporelle…), dont les sorties seront mises en relation entre elles, et aussi avec la mémoire.

Système de Reconnaissance Musicale selon Peretz (Peretz, 2003)
Système de Reconnaissance Musicale selon Peretz (Peretz, 2003)

7. La Psychologie écologique

Le concept de psychologie écologique est initié par James Jerome Gibson. Il expose sa théorie selon laquelle la perception ne peut être expliquée que dans des conditions naturelles de perception, dans la relation de l’animal avec son environnement, dans The Ecological Approach to Visual Perception en 1979.

Gibson propose ainsi le couplage perception-action, et soutient que ces deux composantes sont inséparables. Le psychologue avance qu’il n’existe pas de représentation intermédiaire entre la perception et le comportement. Ce que nous percevons dépend de nos actions, et nos actions, de nos perceptions.

Ainsi, on peut dire que le mouvement est presque le seul moyen dont nous disposons pour interagir avec notre environnement, le cerveau ayant alors pour fonction de déterminer nos actions futures. Il appartient donc de laisser les sujets libres de leurs mouvements et de leurs actions dans l’étude de la perception.

Gibson introduit également le concept d’ »affordances ». En effet, il existe dans l’environnement un nombre d’éléments qui offrent une possibilité d’interaction avec l’individu. La notion d’affordance désigne alors les possibilités d’interaction du sujet avec son environnement.

Les affordances de l’environnement sont ce qu’il offre à l’animal, ce qu’il lui fournit, que ce soit bon ou mauvais. (Gibson, 1979)

II   – Psychologie de l’attention

1. Qu’est-ce que l’attention?

Mobilisée dans toutes les activités cognitives, l’attention peut être considérée comme la capacité à se concentrer, à capter certaines informations parmi d’autres. Elle améliore grandement l’efficacité des individus dans leurs activités quotidiennes et intellectuelles.

Elle permet d’effectuer une grande variété d’opérations sensorielles comme la sélection de l’information, la focalisation intentionnelle, la mobilisation des ressources attentionnelles dans la concentration et l’effort, la résistance à la distraction, le contrôle de l’activité, etc.

On peut distinguer trois fonctions de l’attention. L’attention sélective permet justement de sélectionner l’information pertinente pour une tâche à accomplir ou pour approfondir la connaissance de cette information. L’attention partagée nous permet de suivre plusieurs actions ou plusieurs informations en parallèle. Enfin, l’attention soutenue ou prolongée nous permet de rester concentré sur une source d’information pendant une longue durée.

Le système attentionnel (Camus, 1996)
Le système attentionnel (Camus, 1996)

L’attention fait naturellement apparaître la notion de cible, ainsi que la notion de distracteur. Ainsi, l’élément distracteur est celui qui va venir perturber notre attention, alors que l’élément cible est celui sur lequel nous allons devoir nous concentrer.

L’attention est la prise de possession par l’esprit, sous une forme claire et vive, d’un objet ou d’une suite de pensées parmi plusieurs qui semblent possibles […] Elle implique le retrait de certains objets afin de traiter plus efficacement les autres. (James, 1890)

2. Mécanismes de l’attention

2.1. L’attention sélective

Pour traiter une information, il est nécessaire de se focaliser sur celle-ci, ce qui suppose de la sélectionner parmi un ensemble d’informations disponibles. A l’extrême, il peut être possible d’éliminer totalement les stimuli non pertinents. Parmi les différentes théories de l’attention sélective existantes, toutes postulent que nous ne pouvons laisser rentrer dans le système cognitif qu’une quantité limitée d’informations. La différence réside dans le moment où survient la sélection des informations.

2.1.1 La théorie du filtre de Broadbent

En 1958, Donald Broadbent effectue une expérience d’écoute dichotique. Dans cette expérience, on diffuse au moyen d’un casque des informations différentes dans chacune des deux oreilles. On demande ensuite au sujet de répéter au fur et à mesure le message qui arrive dans une de ses deux oreilles (cible), tout en ignorant le message arrivant à l’autre oreille (distracteur). Les résultats de cette expérience sont alors restés au cœur de la recherche sur l’attention, que sa théorie soit critiquée, ou même réfutée.

En effet, Broadbent postule l’idée selon laquelle l’information est traitée par le système cognitif en suivant trois étapes.

Dans un premier temps, le stimulus est capté par les sens, et les registres sensoriels encodent l’information sans aucune transformation, et les stockent dans la mémoire à court terme.

Dans un second temps, un filtre sélectif est appliqué sur les stimuli. Ce filtre repose sur des caractéristiques prédéterminées de l’information.

Enfin, l’information passe par une sorte de détecteur pour déterminer par exemple la signification du message, avant d’utiliser les informations, ou de les transmettre à la mémoire à long terme. Broadbent avance par ailleurs que les informations stockées en mémoire à court terme disparaissent si elles ne sont pas utilisées.

2.1.2 La théorie de l’atténuation de Treisman

Anne Treisman propose un nouveau modèle en 1960, à partir de celui de Broadbent. La différence majeure réside dans le fait que là où Broadbent proposait une sélection des informations, Treisman propose un mécanisme d’atténuation.

En d’autres termes, là où Broadbent pense que les stimuli qui ne font pas l’objet d’une focalisation attentionnelle ne passent même pas à travers le « filtre », Treisman propose l’idée que les stimuli-cibles font l’objet d’un traitement plus approfondi que les autres. On n’a plus un filtre « tout-ou-rien », mais bien un filtre atténuateur des informations, grâce auquel certains éléments distracteurs peuvent être traités, mais dans une qualité dégradée.

2.1.3 Le modèle de sélection tardive de Deutsch et Deutsch

Proposée en 1963, cette théorie suggère que toutes les informations passent par le système cognitif. La sélection ne se ferait alors qu’au moment où l’information passe en mémoire à court-terme, afin d’être traitée plus en profondeur. Il n’y aurait alors sélection qu’après une étape d’analyse sémantique de l’information, c’est-à-dire qu’elle est choisie en fonction de son sens et de son importance, et non en fonction de ses propriétés physiques.

2.1.4 La théorie de filtre mouvant de Norman

Norman réintroduit en 1968 le concept de capacité limitée à l’intérieur du modèle de Deustch & Deutsch. Ainsi, Norman soutient qu’on ne traite réellement qu’une faible quantité d’informations, puisqu’une majorité aura pu être rejetée au fur et à mesure des étapes du traitement. Ainsi, un message paraissant très pertinent pourra en réalité se révéler petit à petit sans intérêt.

2.2. L’attention partagée

L’attention partagée nous permet de percevoir l’ensemble d’une scène ou d’appréhender plusieurs informations fournies par plusieurs événements. Il n’y a pas ici de réelle focalisation, mais notre attention va nous permettre d’assimiler un ensemble d’événements ou d’éléments essentiels d’une scène. Ces événements pourront ou non être liés entre eux.

Cependant, la perception simultanée de plusieurs informations implique qu’il est plus difficile de restituer avec précision un seul de ces événements. En effet, plusieurs aspects sont tout simplement ignorés pour permettre ce traitement simultané.

On peut remarquer que nous sommes en difficulté lorsque les tâches à effectuer sont similaires, qu’elles sont difficiles, ou si ces deux tâches nécessitent une attention consciente. Au contraire, nos actions sont facilitées lorsque les tâches à effectuer sont différentes, peu complexes, si l’une des deux tâches ne nécessite pas d’attention consciente et/ou si elles sont répétées.

2.2.1 Le modèle de Kahneman

En s’inspirant des modèles proposés par les économistes, Daniel Kahneman propose en 1973 la notion de « ressource » attentionnelle. Ce concept repose sur l’idée que nous disposons d’un stock de ressources limité, et qu’il possible de mener de front plusieurs activités sous réserve que la demande totale en ressources attentionnelles n’excède pas le stock disponible. Kahneman fait également l’hypothèse qu’il existe un mécanisme de gestion qui décide de l’assignation de l’effort à une activité plutôt qu’à une autre. Ainsi, la quantité de ressources disponibles à un instant « t » provient de différents facteurs, tels que le degré d’éveil, les dispositions permanentes, les intentions du moment, les exigences de la tâche…

Modèle de Kahneman, 1973
2.2.2 Modèle des ressources attentionnelles multiples de Wickens

Wickens propose en 1984 une théorie approfondie, qui fait intervenir des stocks de ressources distincts, ceci à partir de constatations qui montrent qu’il est possible de réaliser simultanément deux activités sans interférence.

Il adopte alors une métrique tridimensionnelle. La première dimension, correspondant au stade de traitement, oppose les processus à l’entrée du système (traitement perceptif, encodage) à ceux qui à la sortie sous-tendent la réponse. La deuxième dimension, correspondant au type de traitement, oppose les processus verbaux situés dans l’hémisphère gauche du cerveau, aux processus spatiaux situés dans l’hémisphère droit. Enfin la troisième dimension correspond au canal d’entrée de l’information, et se base sur l’hypothèse que les informations sont moins perturbées lorsqu’elles proviennent de deux modalités différentes.

Modèle de Wickens, 1984
Modèle de Wickens, 1984
2.3 L’attention « de longue durée »

Peut-on maintenir durablement son attention focalisée? L’attention fluctue-t-elle d’un instant à l’autre? Un nombre de scientifiques se sont penchés sur ces questions. En effet, les réponses que l’on peut donner à ces dernières ont des implications nombreuses en matière de théorie de l’apprentissage par exemple, ou des sciences de l’éducation.

On peut distinguer deux types d’attention de longue durée. La vigilance, dans un premier temps, est considérée comme un état physiologique. L’attention soutenue, elle, s’apparente plutôt à un contrôle conscient de l’activité.

2.3.1 La vigilance

Elle est définie en 1923 comme un « état de haut niveau d’efficience du système nerveux central » par Head (Head, 1923). Elle permet notamment de résister à l’endormissement. Il appartient de préciser qu’aucun niveau de vigilance ne préjuge de la qualité d’une réponse comportementale. Le niveau de vigilance peut être mesuré de deux façons différentes, soit par un électroencéphalogramme, soit par l’exécution d’une tâche, qui consiste généralement en une tâche de surveillance, telle que l’a définie Macworth (longue et monotone, et présentant peu de cibles à détecter).

La performance à une tâche n’est pas linéaire avec le niveau de vigilance. En effet, s’il paraît intuitif qu’en état d’hypovigilance ou même de veille diffuse, la performance est détériorée, il en va de même pour un état d’hyperexcitation (niveau de vigilance surélevé), qui favorise ainsi l’augmentation des erreurs, et qui traduit donc un mauvais contrôle attentionnel.

Loi de Yerkes et Dodson ou loi de l'optimum
Loi de Yerkes et Dodson ou loi de l’optimum
2.3.2 L’attention soutenue

L’attention soutenue correspond à la capacité de maintenir une performance sur une longue période qui dépend du maintien de la vigilance, de la capacité de détection du stimulus et de la résistance à la distraction, donc du contrôle mental. Il s’agit donc d’un mécanisme d’attention sélective ou partagée, mais sur une longue période.

On observe que la capacité à focaliser son attention de manière durable progresse significativement en fonction de l’âge, et avec le développement de stratégies.

Kahneman introduit en 1973 la notion d’effort attentionnel qui allie deux paramètres : d’une part, la composante intensive reflétant l’effort investi, et d’autre part, la composante sélective, que l’on peut relier au degré de focalisation. Ainsi, l’efficacité du comportement serait modulée par l’effort investi, qui n’est autre que la régulation, par le sujet, de son propre niveau d’activation en fonction des exigences de la situation.

2.4 Processus automatiques ou conscients

On a tous remarqué combien il était nécessaire de se concentrer pour effectuer une tâche nouvelle, comme par exemple composer un numéro de téléphone que l’on ne connaît pas. Au contraire, il est très facile de suivre assidûment une conversation tout en composant un numéro de téléphone connu, dont on a l’habitude.

Ainsi, Shiffrin et Schneider distinguent en 1977 deux types de processus attentionnels : les processus dits contrôlés, qui opèrent en série et avec une certaine lenteur. Ce sont des processus coûteux mais souples ; et les processus automatiques rapides, qui opèrent en parallèle. Ces mécanismes sont plus économiques, mais plus rigides, généralement involontaires. De plus, ce ne sont en général pas des mécanismes conscients.

2.5 Attention endogène et attention exogène

L’orientation de l’attention peut-être déclenchée de plusieurs manières. En effet, elle peut aussi bien être causée par un élément extérieur soudain, qu’être le résultat de la volonté de l’individu de se concentrer sur un sujet précis.

Un événement soudain peut attirer notre attention soudainement. En effet, cet événement inattendu produit chez le sujet une réaction d’orientation de son attention, qui aura pour conséquence un arrêt immédiat de l’activité en cours. Cette orientation exogène est en général rapide (50 à 150 ms). Elle peut-être d’une durée très brève si le signal ne contient aucune information intéressante.

L’attention endogène correspond à une orientation volontaire de l’attention vers un endroit ou un stimulus précis. Elle trouve son origine dans une attitude et une décision du sujet. Plus lente à se déployer (350 à 500 ms), l’attention endogène prend généralement le relais de l’orientation exogène afin d’appréhender plus précisément l’événement qui vient d’être perçu.

III – Multimodalité

L’étude des phénomènes perceptifs au cours de l’histoire a souvent privilégié un seul de nos cinq sens. De nombreuses théories ont été élaborées par rapport à la vision, moins par rapport à l’ouïe et au toucher, mais elles sont presque inexistantes à propos du goût et de l’odorat. Ces théories nous ont apporté de nombreuses réponses et l’étude de ces sens nous ont permis de connaître le fonctionnement de nos organes sensoriels.

Cependant, il apparaît aujourd’hui que l’étude de la perception, si l’on souhaite approfondir nos connaissances de celle-ci, nécessite quelques ajustements. En effet, il peut sembler paradoxal d’étudier une seule modalité sensorielle étant donné que tous nos comportements suggèrent l’intégration de plusieurs informations provenant de tous les systèmes sensoriels. De plus, dans le domaine qui nous intéresse, c’est-à-dire l’audiovisuel, la multimodalité est le principe central de la perception.

1. Les origines

Les questions sur la multimodalité commencent dès le XVIIᵉ siècle, avec l’étude de la relation toucher-vision et la question de Molyneux. Cette question, plutôt d’ordre philosophique, apparaît dans la correspondance du 7 juillet 1688 entre William Molyneux et John Locke :

« Supposez un aveugle de naissance qui soit présentement homme fait, auquel on ait appris à distinguer par l’attouchement un cube et un globe du même métal, et à peu près la même grosseur, en sorte que lorsqu’il touche l’un ou l’autre, il puisse dire quel est le cube, et quel est le globe. Supposez que, le cube et le globe étant posés sur une table, cet aveugle vienne à jouir de la vue : on demande si, en les voyant sans les toucher, il pourrait les discerner, et dire quel est le globe et quel est le cube. » (William Molyneux, correspondance du 7 juillet 1688)

Les deux correspondants répondent par la négative à cette question, avançant que même si l’aveugle sait comment le globe et le cube affectent son sens du toucher, il ne peut pas savoir comment ceux-ci affectent son sens de la vue.

Ce problème suscite ensuite un important débat qui implique notamment Georges Berkeley, Gottfried Wilhem von Leibniz, Voltaire, Diderot, et nombre d’autres grands penseurs de l’époque. Cette question est celle qui a suscité le plus de réflexions chez les philosophes de la perception dans l’histoire de la philosophie.

Depuis lors, quelques études ont été menées en parallèle des études monomodales et ont pris un essor considérable ces dernières années.

2. Associations acquises ou innées

Comme nous venons de le voir, la perception multisensorielle a supposé au départ une séparation de chacun de nos cinq sens. En effet, alors qu’il est possible d’associer nos perceptions lorsque nous jouissons de tous nos sens simultanément, ceci paraît difficile dans le cas du problème de Molyneux une fois que l’aveugle recouvre la vue. Pour arriver à cette conclusion, les penseurs partent de la constatation que ces associations entre modalités se mettent en place par apprentissage.

En 1960, Senden réalise les premières expérimentations à propos de ce fameux problème en effectuant une opération de la cataracte sur des aveugles de naissance dans le but de leur restaurer la vue. Il s’avère que les conclusions de Molyneux et de Locke sont exactes.

Cette hypothèse de la séparation initiale des modalités sensorielles a été d’ailleurs consolidée notamment par les théories de Jean Piaget vers 1935. Dans ses théories de l’apprentissage, il postule que dans les premières semaines de notre vie, nos espaces perceptifs (visuels, tactiles, auditifs, etc) sont séparés, et que les modalités vont petit à petit « s’assimiler », se coordonner.

A l’inverse, Gibson émet la théorie selon laquelle les modalités sensorielles partagent quelque chose en commun dès le début de la vie (Gibson, 1966). De plus, il invente le concept de perception « amodale », où la relation entre les modalités sensorielles ne dépend pas d’elles mais de l’information véhiculée par chacune des modalités. Delorme et Flückiger citent dans leur ouvrage « Perception et Réalité » l’exemple du feu, qui est à la source de sensations auditives, olfactives, tactiles (chaleur). Le fait que toutes ces sensations véhiculent simultanément la même information « feu » suffit à associer nos perceptions selon Gibson. La perception est dite « amodale » (Delorme & Flückiger, 2003).

3. Les recherches actuelles

La psychologie cognitive présente des points de vue très divers. En effet, il n’existe pas d’explication unique des relations entre les modalités sensorielles. Il semble ainsi exister une grande variété d’interactions. C’est ainsi que l’on peut voir apparaître aujourd’hui un grand nombre de publications aux champs d’applications plus restreints, qui ne cherchent pas à établir une théorie générale de la perception multisensorielle, mais plutôt à expliquer comment celle-ci fonctionne dans une situation donnée.

Les travaux concernant la relation audition-vision découlent en partie des expériences de Harry McGurk et John MacDonald, dont ils publient les résultats dans l’article « Hearing Lips and Seeing Voices » dans la revue Nature en 1976.

Ils démontrent ainsi l’existence d’une interférence entre l’audition et la vision lors de la perception de la parole. On a d’ailleurs les premières suggestions d’une perception

multimodale de la parole. Pour montrer cet effet, on présente habituellement une vidéo montrant une personne prononçant le phonème /ga/, alors que la bande sonore synchronisée diffuse le phonème /ba/. On a alors généralement l’impression de percevoir un phonème différent des deux autres, ici /da/. De plus, McGurck et MacDonald montrent que cet effet dure même lorsque l’on connaît le « truc ».

Aujourd’hui, certains laboratoires comme le Laboratoire d’Acoustique Musicale à Paris, la NASA ou encore le CIRMMT et le Multimodal Interaction Laboratory à l’université McGill au Canada, s’intéressent de près aux perceptions multisensorielles. Ces recherches s’intéressent aussi bien à la réalité virtuelle, qu’à l’architecture ou bien la perception de concerts musicaux.

On peut noter par exemple l’importance du visuel sur la perception de la distance apparente d’un sujet. Plus précisément, Santhie Nathanail met en évidence dans sa thèse « Influence des informations visuelles sur la perception auditive : conséquences sur la caractérisation de la qualité acoustique des salles » l’influence de la distance visuelle de la scène sur la perception de la distance auditive dans une salle. En effet, les mêmes éléments sonores sont perçus plus proches sous des conditions visuelles proches, et plus lointains sous des conditions visuelles lointaines.

Certaines études portent également sur le rapport entre la multimodalité et l’émotion dans la perception, et spécifiquement dans le cadre de concerts musicaux. Dan Levitin en fait d’ailleurs le sujet d’expériences très intéressantes dont il publie les résultats en 2007. Il démontre ainsi que les réactions des sujets sont beaucoup plus importantes lorsqu’ils reçoivent un stimulus à la fois visuel et sonore.

En ce qui concerne l’influence d’une ou plusieurs modalités sur une modalité donnée, il apparaît que l’on ne peut pas hiérarchiser nos différentes modalités sensorielles. En effet, nous avons vu que la vision pouvait altérer notre perception du son, mais l’inverse est également possible. On peut alors émettre l’hypothèse que la modalité dominante dépend de la tâche à effectuer et de son contexte (Calvert, 2004).

Conclusion

Les théories de la perception ont beaucoup évolué au fil de l’histoire, en partant d’hypothèses et de théories très générales, pour laisser finalement toute la place à l’individu et aux différences interindividuelles. Il existe certes des schémas applicables à tous, mais il reste impossible de prévoir comment chacun perçoit, puisque la perception reste un événement très personnel.

Malgré les nombreuses réfutations et affrontements entre les différents courants de pensée, il est à mon sens important de noter que chaque théorie permet d’avancer et prend tout son sens. On peut paradoxalement remarquer que les théories générales se sont mises en place à partir de cas particuliers, alors que, de nos jours, le champ d’application est plus vaste, puisqu’il dépend de chacun.

Bien entendu, bon nombre d’études sont encore en cours, et les théories actuelles ne peuvent pas apporter toutes les réponses aux questions, mais on peut tout de même avoir un certain éclairage.

La connaissance de toutes ces théories sur la perception, sur l’attention et sur la perception multimodale vont nous permettre de comprendre un peu mieux les processus mis en œuvre dans le sujet qui nous intéresse, c’est-à-dire, la perception d’un événement audiovisuel musical. Ces théories vont nous permettre d’élaborer notre expérience perceptive, en tenant compte des phénomènes cognitifs, en prenant garde aux effets indésirables, comme les attentes par exemple, et avec un souci de sa validité écologique.

De plus, nous allons pouvoir ensuite formuler des hypothèses sur les mécanismes de la perception, précisément dans cette situation d’écoute dans un contexte multimodal.

Partie II : L’expérience

1. Contexte

Il s’agit d’étudier une situation commune dans notre métier d’ingénieur du son : le montage son à l’image. Nous allons nous intéresser plus précisément au montage d’un concert ou d’un opéra filmé, avec plusieurs prises, dans le but d’une diffusion ultérieure à la télévision avec la réalisation d’un DVD, et peut-être à la radio, avec la réalisation d’un CD audio. Nous sommes donc dans le domaine de la musique dite « classique ».

Dans cette situation de production, plusieurs étapes seront nécessaires :

  1. – Élaboration du système de captation (caméras, microphones…), enregistrement de plusieurs représentations ou au minimum de la répétition générale et du concert.
  2. – Montage de l’image et montage du son. Ces deux opérations seront effectuées en général par deux équipes techniques différentes, chacune ayant son domaine de spécialisation.
  3. – Visionnage et validation des montages.
  4. – Mixage du son, mastering.
  5. – Création du DVD, du CD, envoi du P.A.D. (prêt à diffuser) à la télévision, et du son à la radio.

Nous allons ici nous préoccuper de l’étape de montage de la bande sonore, en relation avec l’image. Un phénomène assez complexe, déjà identifié par la plupart des personnes familières de cette tâche, peut se produire : lorsqu’un point de montage (passage d’une prise à une autre) est difficilement réalisable, et que, malgré les tentatives de correction, celui-ci reste encore audible, il n’est cependant pas rare qu’il « disparaisse » en ajoutant la vidéo. Darcy Proper, qui a longtemps effectué ce genre de travail chez Sony, et qui aujourd’hui fait du mastering chez Galaxy Studio en Belgique, l’a elle-même évoqué lors de la126ᵉ convention de l’AES à Munich. Nous pouvons d’ailleurs faire l’hypothèse qu’un tel phénomène se reproduit pour tout défaut présent sur la bande sonore, tel que des clics numériques, des bruits parasites, ou que du moins, ces défauts sont moins bien perçus lorsque la bande sonore est diffusée conjointement avec la vidéo.

Mais le montage présente également d’autres questions. En effet, en superposant l’enregistrement vidéo d’une représentation et l’enregistrement sonore d’une autre, pour corriger par exemple la justesse d’une ou plusieurs notes, nous pouvons être confrontés à des problèmes de cohérence entre des intentions perçues, le geste musical, et la perception du son. Ces problèmes sont beaucoup plus difficiles à résoudre. C’est le problème de ce qu’on appelle par exemple le « playback ».

Un troisième problème pouvant être rencontré est celui de la synchronisation. En effet, un montage pourra être rendu totalement impossible lorsque, par exemple, les musiciens n’ont pas joué ni chanté au même tempo entre les différentes prises. Si l’on vient à mélanger le son d’une prise avec l’image d’une autre, les deux composantes son et image vont en effet se décaler temporellement, ce qui pourra conduire de la part du spectateur à un sentiment de malaise lorsque le décalage est trop faible pour identifier clairement le problème, puis à un sentiment de totale incompréhension du discours pour un décalage important.

Le caractère multimodal de cette tâche la rend donc plus complexe et plus difficile à réaliser d’un point de vue tout d’abord simplement logistique, mais surtout d’un point de vue perceptif. C’est pourquoi nous allons essayer d’analyser cette tâche d’un point de vue psychologique en questionnant des auditeurs, pour essayer de comprendre les processus mis en œuvre.

2. Approche méthodologique

Une telle étude semble tout d’abord difficilement réalisable, puisqu’elle fait appel principalement à des mesures du subjectif. Il va donc falloir établir un protocole expérimental qui nous permettra d’identifier les processus mis en œuvre et de les rapporter ensuite à des mesures physiques. Les sciences humaines, et plus précisément la psychologie cognitive, nous seront ainsi requises dans cette démarche, et nous allons nous appuyer sur les théories de la perception détaillées en première partie.

A partir des trois types de problèmes pouvant être rencontrés dans cette étape de montage, nous nous focaliserons sur deux catégories :

  • Les problèmes dits « de congruence », qui font référence à des problèmes de cohérence entre deux éléments : un élément de référence, constitué par la vidéo, et un élément que nous pourrons faire varier ponctuellement, la bande sonore. Cette dernière étant la plupart du temps travaillée sans cet élément de référence, des problèmes de congruence peuvent apparaître. C’est le cas des problèmes d’intention ou de dynamique gestuelle, mais également de nos problèmes de point de montage ou de clic. Lors de la phase d’écoute, l’élément de référence agit alors comme un distracteur par rapport à la bande son. Il en résultera alors soit une atténuation du problème sonore, soit une amplification.
  • Les problèmes temporels : ce sont principalement les problèmes de synchronisation. En travaillant sans l’image, le monteur son peut involontairement décaler une note lors d’un montage, et changer faiblement le rythme de la musique. Cette variation, imperceptible lors d’une diffusion uniquement sonore, pourra être flagrante avec l’ajout de l’image qui était au départ synchrone lors de l’enregistrement. Ici, nous n’avons plus cette notion de cible et de distracteur, les deux éléments interagissent. Au moment du visionnage, la question de savoir si c’est le son qui a été désynchronisé, ou bien la vidéo, peut se poser.

Nous allons nous limiter ici aux problèmes de congruence, que nous pouvons également subdiviser en deux sous-catégories :

  • Les problèmes d’ordre perceptif : ils sont généralement dus à un problème « technique » comme des parasites sur le signal audio, ou à un élément indésirable présent dans la salle où la prise de son a été effectuée. On a affaire à un événement plutôt unimodal, où l’image va venir modifier la perception du son.
  • Les problèmes d’ordre sémiotique : ceux-ci font appel à des processus cognitifs plus complexes, notamment aux processus « top-down » dont nous avons parlé en première partie. La perception de ce type de défaut fait appel à un niveau supérieur de traitement. Le sujet doit ici mettre en relation ce qu’il voit et ce qu’il entend, pour ensuite déterminer si les deux éléments sont en cohérence l’un avec l’autre, tandis que pour les problèmes d’ordre perceptif, cette mise en relation n’est pas nécessaire ; nous sommes dans ce cas dans une configuration dite « bottom-up ».

3.  L’expérience

3.1 But de l’expérience

A partir des phénomènes observés, nous allons essayer d’observer l’influence de l’image dynamique sur la perception d’un défaut présent sur la bande sonore. Il s’agira de détecter les seuils de perception des défauts avec ou sans vidéo, puis de voir si ceux-ci sont différents, pour ensuite tenter de mettre en évidence les mécanismes mis en œuvre. Deux hypothèses s’offrent à nous : s’agit-il « simplement » de problèmes d’attention, de sélectivité de l’attention? Ou s’agit-il d’un phénomène de masquage entre l’image et le son?

En d’autres termes, il s’agit de déterminer de quelle manière le défaut sonore est rendu imperceptible, ou devient perceptible.

3.2 Matériel utilisé

Nous allons présenter aux sujets des extraits d’un concert de musique classique, qui a fait l’objet d’un enregistrement audio-visuel, dans des conditions réelles de production, et dans lequel un montage vidéo a été effectué. Ce concert a eu lieu au Conservatoire National Supérieur de Musique et de Danse de Paris le 2 avril 2008 dans la salle d’orgue du Conservatoire, pour la création mondiale avec viole d’amour, du deuxième quatuor à cordes de Leoš Janáček, Lettres intimes, par Sylvie Gazeau, Sébastien Richaud, Pierre- Henri Xuereb et Jérôme Perno.

Cet enregistrement ayant eu pour finalité la création d’un DVD, il m’a été demandé d’assurer la direction artistique (musicale) ainsi que le montage son du concert, en relation avec les musiciens. Un schéma du dispositif de captation est disponible en annexe.

Le montage audio terminé, l’enregistrement a par ailleurs fait l’objet d’une diffusion sur France-Musique, dans le cadre de l’émission « Miniatures » consacrant une semaine à la viole d’amour et aux instruments rares, du 5 janvier au 9 janvier 2009.

Nous avons ensuite sélectionné un extrait d’une durée de deux minutes et quarante- cinq secondes environ, dans le but de replacer le sujet dans une situation d’écoute proche d’une expérience ordinaire. Puis nous avons inséré quelques défauts les plus fréquemment rencontrés lors de l’étape de montage : points de montage difficiles, un défaut technique du signal, des problèmes de niveaux sonores. Ces défauts sont distribués séquentiellement, à des intervalles de temps différents pour éviter les effets de régularité, et pour donc éviter que les sujets s’attendent à percevoir un défaut à un instant donné.

3.3 Dispositif utilisé pour le test

Nous avons disposé de la régie de la salle interdisciplinaire (ex-Maurice Fleuret) du CNSMDP. Celle-ci est équipée du logiciel Pyramix, qui permet via un synchroniseur virtuel de diffuser de l’image et du son de façon synchrone, tout en effectuant des modifications au niveau de notre session de travail.

Nous avions donc d’un côté la vidéo, sous la forme d’un fichier extrait d’un DVD- vidéo, et de l’autre le son enregistré grâce à notre dispositif de captation. Ce son avait par ailleurs déjà fait l’objet d’un montage, comme indiqué dans la section précédente.

Les enceintes de cette régie sont des enceintes Skiff du constructeur Cabasse5.

3.4 Protocole de test

Nous nous attachons à détecter les seuils de détection des défauts sonores, avec ou sans image. Il s’agira donc de faire varier la « qualité » de ces défauts, de « pas du tout perceptible » à « très nettement perceptible », et de relever les réponses ou non-réponses des sujets, dans une situation avec image, puis sans image.

Après une expérience préliminaire qui a surtout pour but de familiariser le sujet avec le contexte de l’expérience, nous procédons donc au visionnage d’un extrait de 2’45 », présenté à cinq reprises. À chaque écoute, la « qualité » des défauts se voit dégradée6.

Nous avons successivement :

  • un crossfade dont le temps s’allonge de quelques millisecondes à plus de deux secondes au fur et à mesure des extraits,
  • un deuxième fade dont le temps se raccourcit jusqu’à être quasiment égal à zéro,
  • un clic numérique dont le niveau augmente par pas de trois décibels,
  • un troisième fade qui s’allonge jusqu’à une valeur moyenne,
  • une baisse de volume qui s’amplifie sur une note de violoncelle,
  • une désynchronisation,
  • une baisse de volume au niveau des trois accords de fin.

Après ces cinq écoutes, nous revenons à un extrait précédent pour vérifier l’effet de mémoire et si besoin ajuster la valeur de seuil détectée pour chacun des défauts. Nous avons donc rediffusé généralement l’extrait 2 ou 1, après cela, nous procédons à la diffusion du son seul de ce même extrait pour tenter de quantifier l’influence de l’image sur la perception du son. En d’autres termes, nous essayons par ce moyen de voir si l’on détecte mieux certains défauts en ôtant la vidéo lors de la diffusion.

Schéma du déroulement de la première partie de l'expérience
Schéma du déroulement de la première partie de l’expérience

Enfin, nous procédons à la dernière phase de l’expérience. Ici, nous nous attardons sur de plus courts extraits, là où les sujets n’ont pas détecté les défauts. La méthode utilisée est alors de diffuser successivement le même extrait de quelques secondes avec l’image, puis sans l’image.

Une telle expérience s’avère beaucoup plus difficile à monter qu’il n’y paraît. En effet, la mise en place de celle-ci dépend entièrement de la propre perception de la personne qui l’élabore. Ainsi il convient de faire particulièrement attention à ce que les défauts inclus puissent être à un moment donné suffisamment perceptibles pour chacun, ce qui est difficilement évaluable à l’avance.

3.5 Type de population testé

Nous avons choisi une population d’ingénieurs du son et directeurs artistiques, qui par leur métier sont experts du type de produit que représentent le DVD ou le CD audio. Ce sont eux qui abaisseront les seuils et qui détermineront ainsi la qualité minimum à atteindre.

Experts au niveau du son en tant que matériau sonore, les ingénieurs du son sont directement impliqués dans l’étape de post-production qui nous intéresse. En étant directeurs artistiques, ils ont l’avantage de pouvoir être également des musiciens de bon niveau et d’être par conséquent des experts musicaux de confiance. Ils sont les premiers à intervenir sur le montage et constituent donc un « filtre perceptif », en abaissant les seuils de détection. Nous faisons en effet l’hypothèse que les personnes non formées et non familières de ce type de travail ont des seuils de détection plus élevés, et que leur tolérance aux défauts sonores est plus forte.

3.6 Validité écologique et conditions de test

Nous nous attachons à ce que les extraits présentés et le contexte de l’expérience soient écologiquement valides, c’est-à-dire proches d’une situation naturelle, pour que les sujets répondent de façon comparable à la réalité. Ainsi, nous pourrons transposer les résultats obtenus en laboratoire à des situations réelles.

Dans un premier temps, le type de matériau choisi (concert filmé) présente une validité écologique. En effet, ayant déjà fait l’objet d’une exploitation réelle en vue de la production d’un DVD ou d’un CD audio, il est assez aisé de se replacer dans un tel contexte pour un ingénieur du son comme pour un musicien, puisqu’ils interviennent tous deux en amont de la diffusion du produit.

Dans un second temps, nous apporterons une attention toute particulière à la longueur du ou des extraits choisis. En effet, la tâche à accomplir n’est pas du tout la même selon que l’on demande à un technicien un « contrôle qualité » ou un travail de montage. En effet, ce dernier nécessite d’écouter et de réécouter souvent de courts extraits, en modifiant certaines propriétés. De plus, une grande concentration, une grande attention est demandée, mais sur de brefs passages, ce qui renforce l’effet de mémoire.

Le « contrôle qualité », qui lui demande l’écoute de longs extraits, se rapproche d’une situation d’écoute domestique, à la différence qu’il nécessite une forte mobilisation de notre attention soutenue, et que l’écoute se déroule dans une régie audiovisuelle professionnelle.

Nous plaçons ainsi les sujets dans un contexte de « contrôle qualité ». C’est pourquoi nous avons sélectionné des extraits plutôt longs, que nous diffusons dans une régie de taille modeste, reproduisant le plus fidèlement possible des conditions naturelles de travail. La régie est équipée d’un écran de 19 pouces, ainsi que d’une paire d’enceintes Cabasse.

3.7 Choix de la consigne

Nous avons choisi de donner une consigne ouverte. En effet, en effectuant l’expérience sur une population d’ingénieurs du son, nous pouvons nous attendre à ce qu’ils ne jugent que le son du produit audiovisuel qui leur est présenté. Cependant, il nous a paru également intéressant de pouvoir leur laisser la liberté de nous indiquer les incongruences perçues entre la vidéo et le son, c’est-à-dire de nous dire à quel moment et en quoi la vidéo pouvait être en incohérence avec le son. Pour indiquer à quel moment le sujet perçoit un défaut, il lui suffit d’appuyer sur une touche de son clavier AZERTY pour placer un marqueur au curseur, pendant la diffusion de l’extrait.

Le point sur lequel nous avons particulièrement insisté lors de la phase de test a été de ne pas fermer les yeux pendant le visionnage de la vidéo. En effet, notre travail étant basé sur la relation du visuel avec l’audition, le fait de fermer les yeux revient à écouter la bande sonore seule, chose qui est effectuée uniquement à la fin du test pour comparer avec les résultats obtenus lors du visionnage « complet » (son et image).

Partie III : Résultats et discussion

1. Introduction

Douze sujets ont pu nous prêter quarante-cinq minutes de leur temps pour se soumettre aux tests de perception décrits dans la partie précédente. Ce sont tous des musiciens-ingénieurs du son experts dans le type de produit que nous présentons.

Évidemment, la faible quantité de sujets ne nous permettra pas de tirer des conclusions générales. Nous nous efforcerons cependant de dégager quelques indices concernant les seuils de perception dans une telle situation d’écoute et de travail.

Nous tenterons également de trouver un mode de représentation pertinent des résultats obtenus pour les différentes parties de l’expérience, et de classifier les types de problèmes en fonction des réponses obtenues.

2. Résultats généraux

Nous pouvons remarquer dans un premier temps que les résultats obtenus ne sont pas ceux que l’on attendait. En effet, alors que de nombreuses personnes confirment notre hypothèse de l’atténuation ou même la disparition des défauts sonores avec l’ajout de l’image, ce phénomène a été ici difficilement quantifiable, et même difficilement démontrable.

Il apparaît ainsi que la plupart des personnes testées ne perçoivent pas les points de montage, que ce soit avec ou sans vidéo. Il en va de même pour les variations de volume sonore. Nous essaierons d’en dégager les raisons ultérieurement.

Nous pouvons toutefois mettre en évidence quelques indices, quelques données qui ne peuvent évidemment pas s’appliquer à la majorité des personnes, mais qui pourraient être approfondies dans le cadre d’une thèse par exemple.

Moyenne des seuils de perception des défauts sur la séquence longue.
Moyenne des seuils de perception des défauts sur la séquence longue.

L’absence d’histogramme signifie qu’aucune ou trop peu de personnes ont pu percevoir le défaut, même à son intensité maximale.

Nombre de personnes ayant perçu les défauts.
Nombre de personnes ayant perçu les défauts.

Les histogrammes précédents nous montrent respectivement les seuils de perception moyens des défauts sur la séquence vidéo longue, ainsi que le nombre de personnes ayant perçu chaque défaut, avec image sur la séquence longue, avec image sur les séquences courtes et longues, puis avec et sans image sur toutes les séquences. Cette troisième indication nous montre si le défaut est globalement perçu ou non, et donc si les réponses sont pertinentes ou non pour ce test.

Nous voyons donc clairement qu’avec l’image, les crossfades ne sont pas perçus. On considère ainsi que la réponse de l’unique personne ayant repéré le premier défaut et ce dès la première séquence constitue une exception dans les résultats de ce test.

Nous pouvons dans un second temps considérer que les résultats concernant la perception du clic numérique constituent un élément pertinent. Nous étudierons le phénomène et analyserons plus précisément ces résultats dans un paragraphe ultérieur.

Dans un troisième temps nous pouvons observer des résultats analogues dans le domaine du volume sonore. Il est donc a priori possible de regrouper ces deux défauts en une même famille, d’autant plus que le même type de défaut est appliqué.

Enfin, nous pourrons parler brièvement de la désynchronisation. Nous pouvons remarquer une absence de données sur le deuxième diagramme pour ce défaut. Ceci est volontaire. En effet, pour des problèmes de temps, nous n’avons pas re-testé ce défaut sur une séquence courte et pour finir, le nombre total de personnes ayant perçu ce défaut est le même dans tous les cas (avec ou bien avec + sans vidéo), puisque ce défaut ne peut pas être perçu en l’absence de l’une des deux informations. C’est un défaut purement multimodal, comme nous l’indiquions en deuxième partie.

3. Résultats détaillés

3.1 Perception des points de montage

Nous avons vu grâce aux diagrammes précédents qu’en général, les sujets n’ont pas perçu les points de montage dans la séquence longue de presque trois minutes. C’est pourquoi nous ne pouvons pas évaluer le seuil de perception de ces points de montage.

De plus, ces mêmes points de montage ont été assez peu repérés lors d’une présentation de plus courtes séquences alors même que les attentes des sujets étaient motivées par la consigne. En effet, ceux-ci étaient sûrs de la présence d’un défaut dans ces passages d’une dizaine de secondes.

En revanche, il se trouve que quelques sujets ont tout de même perçu le défaut lorsqu’on les prive de l’image. Ils sont ainsi trois de plus à avoir perçu le point numéro un (Fade Long), deux de plus pour le point numéro deux (Fade Court), et un pour le troisième point (Fade Moyen).

Ainsi, nous ne pouvons pas clairement mesurer les seuils de perception de ce défaut, mais les résultats nous indiquent que la capacité de perception de ces points de montage est accrue lorsque l’on prive les sujets de la vidéo. En d’autres termes, nous avons ici un indice qui nous permettrait de confirmer notre hypothèse de l’atténuation de la perception lorsque celle-ci est partagée entre les deux modalités audition et vision.

3.2 Perception du « Clic »

Nous pouvons voir ici que la totalité des sujets a perçu cet artefact. Nous pouvons ainsi établir une moyenne des seuils de perception avec vidéo pour ce test sur la séquence longue. Le clic numérique est perçu à partir du troisième visionnage de la séquence, ce qui correspond à un niveau de dégradation supérieur.

Nous pouvons remarquer pour certains sujets l’apparition d’un phénomène d’hystérésis. En effet, comme nous l’avons précisé dans notre première partie, nous cessons de percevoir plus tard que nous ne commençons (Binet, 1894).

Exemple de résultat pour le défaut "clic" avec apparition d'un phénomène d'hystérésis. (Sujet B)
Exemple de résultat pour le défaut « clic » avec apparition d’un phénomène d’hystérésis. (Sujet B)

Le sujet a un seuil croissant au quatrième extrait, mais en redescendant, il perçoit le défaut jusqu’au deuxième.

En observant les résultats complets pour ce défaut, nous remarquons également une légère influence de la vision sur l’audition, puisque deux sujets ont une meilleure perception du clic lorsque l’on enlève l’image. Nous ne pouvons là encore pas généraliser, mais ceci peut constituer une piste à creuser en effectuant d’autres expérimentations uniquement sur ce défaut.

Résultats complets (11 sujets) pour le défaut "clic".
Résultats complets (11 sujets) pour le défaut « clic ».

Nous voyons que pour deux sujets le seuil de perception est inférieur lorsque seul le son de la séquence est diffusé (cf. flèches sur le graphique).

Nous pouvons également ajouter qu’un sujet n’a jamais perçu le clic lors du visionnage de la séquence longue, et que lors de la diffusion d’une séquence plus courte, le défaut est perçu uniquement lorsque l’image est absente.

Nous avons donc trois sujets (soit 25 %) dont les performances sont améliorées lorsqu’ils ont la possibilité de ne prêter attention qu’à la bande sonore.

3.3 Perception des variations de volume

Nous pouvons remarquer que les personnes ayant participé à l’expérience sont en moyenne plus sensibles aux variations de volume sonore, comme les phénomènes de « pompage », par exemple, qu’aux points de montage.

En outre, il est important de remarquer que la moitié des sujets perçoit ce défaut uniquement lorsque l’image est absente, ce qui constitue là encore un indice qui nous permettrait de confirmer notre hypothèse de départ pour cette expérience, si le nombre de sujets était suffisant.

Résultats pour le défaut "volume fin", Sujet A.
Résultats pour le défaut « volume fin », Sujet A.
Résultats pour le défaut "volume fin", Sujet J.
Résultats pour le défaut « volume fin », Sujet J.

Les deux courbes précédentes nous indiquent encore une fois que pour trois sujets, le seuil de perception de ces variations de volume est inférieur lorsque l’image est absente, ce qui rejoint notre remarque précédente quant au nombre important de sujets (8 sujets) ayant perçu le défaut uniquement lorsque l’image est absente.

Nous pouvons donc noter encore une fois que l’image semble avoir une certaine influence sur les seuils de perception des défauts sonores lors du visionnage d’une séquence audiovisuelle.

3.4 Perception de la désynchronisation

Bien que ce ne soit pas le point central du sujet, il nous a semblé intéressant d’inclure ce défaut dans la séquence, puisque celui-ci est apparu pendant la production du DVD. En effet, après avoir effectué le montage son, et après avoir ajouté la vidéo, nous avons eu besoin de visionner le montage une petite dizaine de fois avant de repérer cette désynchronisation qui intervient sur un seul des instrumentistes.

Il s’agit d’un passage musical dans lequel le second violon joue en pizzicati, et le premier violon, arco. Il s’est alors produit la chose suivante : nous avons corrigé ce passage en insérant dans la bande sonore un extrait de la répétition générale. Nous avons pu alors parfaitement recaler les pizzicati du second violon, mais nous avons remarqué seulement après quelques visionnages que les deux violons n’avaient pas joué avec le même synchronisme entre la générale et le concert.

La séquence choisie nous montre les deux violonistes. A ce moment, pour le second violon, le son est parfaitement synchrone avec l’image. Cependant, il apparaît que le premier violon ne l’est pas du tout.

Le phénomène a été repéré par la moitié de nos sujets et ceci aux alentours de la troisième diffusion, ce qui confirme notre propre expérience du phénomène.

De plus, nous mettons en évidence une hystérésis importante. Lorsque le défaut a été repéré une première fois, les sujets l’identifient à chaque fois ensuite.

Dans la mesure où ce défaut ne faisait pas partie de nos intérêts premiers, nous n’avons pas effectué d’expériences concernant la mesure des seuils pour la désynchronisation. Il serait néanmoins très intéressant de pouvoir déterminer à partir de quel moment le défaut devient déstabilisant.

Exemple de phénomène d'hystérésis pour la désynchronisation, sujet A.
Exemple de phénomène d’hystérésis pour la désynchronisation, sujet A.
Exemple de phénomène d'hystérésis pour la désynchronisation, sujet J.
Exemple de phénomène d’hystérésis pour la désynchronisation, sujet J.

4. Interprétation des résultats et discussion

Nous allons émettre ici quelques hypothèses pouvant éclaircir les résultats obtenus. Il s’agira d’explorer quelques pistes qui nous permettent de comprendre comment fonctionne notre perception dans une telle situation multimodale. Nous essaierons en outre de dégager quelques pistes interprétatives sur le rôle que jouent les mécanismes cognitifs et les mécanismes de l’attention.

4.1 Différents niveaux de perception

Dans la situation précise que nous avons décrite, nous pouvons repérer plusieurs niveaux de perception. La connaissance de ceux-ci pourra nous donner quelques informations à propos des procédés attentionnels mis en œuvre.

Au même niveau, nous avons la perception auditive combinée avec la perception visuelle lorsque l’image nous est présentée avec le son. Il s’agit ici du niveau le plus basique de la perception, avant que ces éléments ne fassent sens.

Ce que nous avons vu concernant la cognition prend ensuite toute son importance. En effet, à un niveau supérieur, les informations provenant des deux modalités audition et vision sont alors mises en relation. Une certaine signification est attribuée au message. C’est à ce moment-là que nous pouvons appréhender cette situation de concert retransmis par l’intermédiaire d’un écran et de haut-parleurs.

Deux types de perception différents agissent ensuite en parallèle : nous avons d’un côté notre perception de la musique, du concert à proprement parler, et de l’autre côté notre perception « technique », selon la consigne qui nous a été indiquée. Ici, il s’agissait donc de détecter d’éventuels problèmes au niveau du son ou même de l’image.

4.1.1 Perception musicale dans cette situation

Notre perception musicale nous permet d’apprécier la relation des instruments entre eux, l’harmonie, la mélodie, etc. Elle nous permet également de ressentir un certain nombre d’émotions en fonction de la sensibilité de chacun. De plus, comme nous l’avons vu dans le troisième chapitre de notre première partie (III – Multimodalité), nous savons que les stimuli à la fois visuels et sonores ont pour effet une augmentation de nos réactions et de nos émotions (Levitin D., 2007).

Le montage vidéo peut influencer également la perception. Selon les plans choisis par le réalisateur, notre attention peut être dirigée vers une partie seulement des instrumentistes. En mettant en relation notre perception visuelle avec notre perception

auditive de la musique, nous pouvons alors percevoir plus distinctement telle ou telle partie de la partition.

4.1.2 Perception « technique » dans cette situation

Pendant qu’une partie de notre système cognitif nous permet de percevoir la musique et d’en ressentir des émotions, une autre nous permet, selon la consigne demandée, d’évaluer la qualité d’un produit. Il s’agit donc de repérer des éléments souvent brefs, peu perceptibles, que nous avons appris à reconnaître et à qualifier, grâce à nos connaissances spécifiques et notre savoir-faire d’ingénieur du son. Ainsi, là où une personne inexpérimentée pourra soit ne rien percevoir, soit ressentir un malaise sans pouvoir l’exprimer, les ingénieurs du son ont la capacité de pouvoir qualifier, interpréter, et exprimer ce qu’ils ont perçu grâce au langage.

Il s’agit donc d’essayer de faire abstraction des messages musicaux pour se concentrer sur le signal lui-même. Cependant, il n’est pas rare que les défauts possibles aient un certain rapport avec la musique. Les points de montage en sont typiquement l’exemple.

Ici, le seul élément qui n’ait aucun rapport avec la musique et qui relève de l’évaluation de la qualité purement technique du signal est le « clic ». Notre système perceptif l’analyse donc comme un élément étranger. C’est d’ailleurs l’élément le plus facilement détecté dans notre expérience.

4.2 Détection des défauts en rapport avec la musique – première interprétation

À partir de quels critères pouvons-nous juger de la mauvaise qualité d’un point de montage ? Il s’agit essentiellement de repérer les discontinuités. En effet, le point de montage parfait est celui qui ne s’entend pas, en d’autres termes, ce passage d’une prise à une autre s’effectue le plus naturellement possible, comme si ces deux éléments faisaient partie d’un même tout.

Dans notre situation, les discontinuités relèvent essentiellement d’une écoute plutôt technique (problème de raccord entre les timbres des instruments, différence d’image sonore…), puisque le son et l’image sont sensés être synchrones tout au long de la séquence.

Cependant, l’image du concert, dans laquelle nous pouvons percevoir une unité de lieu et de temps, nous apparaît continue. Et même dans le cas de plusieurs prises, le fait de voir le même décor, les mêmes costumes, les mêmes éléments nous font accepter sans aucun problème la continuité de la situation. C’est l’illusion qui est créée au cinéma, même si chacun a pu appréhender ce phénomène en voyant des films dès son plus jeune âge.

Nous effectuons alors une première hypothèse concernant la non-perception de ces points de montage avec la vidéo : le synchronisme entre le son et la vidéo fait que l’on

considère ces deux éléments comme un tout. De plus, l’image étant supposée continue, il n’y a donc aucune raison pour que le son ne le soit pas pour notre système cognitif.

Cette hypothèse part donc du principe que la non-perception des défauts lorsque l’image est présente, relève de mécanismes cognitifs, et plus précisément de processus top- down et bottom-up.

4.3 Hypothèse d’un masquage attentionnel

Notre deuxième hypothèse concernant l’explication de la non-perception, ou du moins la moins bonne perception des défauts sonores lorsque nous ajoutons une information visuelle, repose sur les mécanismes attentionnels mis en œuvre.

En effet, comme nous l’avons sous-entendu précédemment, pour détecter les défauts sonores, il faut prêter attention à la bande sonore. Or, notre attention est ici perturbée par l’image, qui joue alors le rôle de distracteur.

Un élément supplémentaire vient s’ajouter à cela. Il s’agit, comme nous l’avons décrit, de la signification du message, et donc de la perception musicale que nous avons de l’extrait. Nos émotions et nos attentes musicales jouent elles aussi un rôle de distracteur. Pourtant, elles font partie intégrante de la perception de ce concert retransmis.

Nous avons donc un distracteur perceptif, constitué par l’image, et un distracteur que l’on peut qualifier de « cognitif », qui résulte de notre perception et de notre ressenti de la musique.

Notre attention est donc partagée entre deux modalités, certes, mais surtout entre trois voire quatre éléments (son, image, musique, émotions). Il n’est donc pas chose aisée de détecter des défauts dans ces conditions. De plus, la situation principale fait appel à notre attention soutenue, ce qui rend encore plus difficile la tâche de détection.

Nous pouvons donc faire l’hypothèse que la non-perception des défauts sonores résulte d’un masquage attentionnel provoqué par l’ajout de l’image qui renforce alors nos émotions et notre perception de la musique.

Mais alors, comment expliquer le fait que les points de montage ne sont pas perçus même lorsque l’on ôte l’image?

Nous pouvons avancer un élément de réponse en remettant en cause notre expérience. En effet, comme nous l’avons indiqué précédemment, celle-ci dépend fortement de la propre perception de l’expérimentateur. Il est donc possible qu’en ayant travaillé beaucoup sur ce montage, nous avons mémorisé chaque caractéristique des points de montage, et que nous avons été trop optimistes sur les seuils. Mais si ce n’était pas le cas ? Nous avons tous au moins une fois fait l’expérience d’écouter un montage en fermant les yeux et en se détachant de notre travail. Par miracle, les points montages que l’on pouvait trouver perfectibles ne s’entendent plus. Que se passe-t-il alors ?

4.4 Attention soutenue et attentes

Là encore, nous pouvons faire l’hypothèse que la non-perception des défauts dans une même modalité relève des mécanismes de l’attention.

En effet, comme nous l’avons précédemment indiqué, l’écoute d’une longue séquence dans un but de « contrôle qualité » mobilise notre attention soutenue, ce qui rend la tâche de détection plus difficile. Fondamentalement, il reste possible que des défauts soient présents, mais ce n’est pas certain. De plus, nous n’avons aucun moyen de savoir ni de prévoir à quels moments peuvent survenir ces défauts.

Nous ajouterons également que dans certains cas, nous pouvons percevoir un point de montage par exemple là où il n’y en a pas. Ceci peut arriver lorsque nous percevons un bruit « parasite » qui nous fait donc penser à un tel défaut.

Une personne qui écoute un montage pour la première fois ne connaît jamais le plan de montage. À aucun moment celle-ci ne sait quand plusieurs prises s’enchaînent l’une à l’autre. Les attentes du sujet sont donc modifiées dans ce cas. En effet, n’ayant pas repéré à l’avance où peuvent se situer les points « critiques », le sujet n’a pas d’attente concernant ces points, contrairement à quelqu’un qui a travaillé des heures sur le montage. La perception n’est donc à aucun moment influencée par des indices extérieurs.

Il en résulte que sur un long extrait sonore, les défauts du type « mauvais point de montage » sont difficiles à détecter pour quelqu’un qui n’a pas travaillé sur le projet auparavant, et qui donc n’a pas mémorisé le plan de montage ainsi que les points critiques.

On peut cependant remarquer que lorsque nous présentons la session de montage aux sujets, et que ceux-ci visualisent les points de montage, la perception de ces derniers devient absolument flagrante. Les effets d’attente sont rétablis, puisque l’on voit le curseur défiler et s’approcher des points. De plus, la visualisation de la session de travail nous replace dans un contexte d’écoute technique, avec l’environnement adéquat. Il est donc plus aisé de se détacher de la musique et de concentrer uniquement sur ce qui nous intéresse.

4.5 Notes sur le problème du « playback »

Au cours de productions sur lesquelles j’ai pu travailler au studio EtLaNuit à Montreuil, j’ai été chargé d’effectuer le montage musical d’un moyen-métrage de la réalisatrice sénégalaise Dyana Gaye. Il s’agit précisément d’une comédie musicale.

Il m’a donc été donné de travailler sur le problème du playback. Après avoir enregistré la musique, les comédiens ont dû tourner les scènes en playback. Après le montage image, il m’a fallu recaler plus précisément les voix en fonction de l’image.

Ce travail m’a donc permis de réfléchir sur le problème du playback, et de l’intention musicale, qui peut différer entre le son et l’image. La difficulté du problème réside alors dans le fait de faire correspondre les deux composantes.

Dans un premier temps, j’ai pu m’apercevoir que les tolérances temporelles qui sont communément admises au niveau du synchronisme son-image se retrouvent fortement réduites lorsque cela concerne un contenu musical. En effet, lorsque la musique rentre en jeu, et que de plus elle devient l’acteur principal du film, nous avons besoin d’être en parfaite synchronie.

Dans un second temps, j’ai pu également travailler au niveau des intentions des chanteurs. Il n’a pas été rare de voir que par exemple les ouvertures de bouche sur les voyelles diffèrent entre image et son (par exemple, un /a/ qui apparaît plus « ouvert » à l’image qu’au son). Ceci contribue fortement à un playback « qui se voit », à un effet inverse de celui recherché qui est d’amplifier la perception de la musique.

Conclusion

Au cours de ce travail, nous avons pu comprendre les mécanismes de la perception d’un point de vue psychologique et cognitif. En effet, bien qu’ayant une bonne connaissance du fonctionnement physiologique de nos mécanismes sensoriels, cette connaissance ne peut pas à elle seule expliquer tous les procédés de la perception.

Nous avons étudié notamment un cas de perception multisensorielle dans une situation courante de notre métier d’ingénieur du son – directeur artistique, et nous avons vu que les informations transmises sont très nombreuses, et qu’il était difficile d’élaborer un protocole expérimental, du fait que tous les éléments sont imbriqués et s’influencent les uns les autres. Il a fallu en outre prévenir les effets cognitifs pouvant influencer les résultats, tels que les effets de mémoire ou d’attente.

Nous avons cependant pu vérifier grâce à quelques sujets qu’il semble bien exister une influence de l’image sur la perception du son et des défauts sonores. Encore une fois, il ne s’agit pas ici de généraliser mais de trouver quelques indices pouvant confirmer notre hypothèse de départ. Il en ressort ainsi qu’il semble que les seuils de détection des défauts sonores soient plus élevés lorsque l’image est diffusée avec le son.

En outre, nous avons pu remarquer que la perception des mauvais points de montage dans notre expérience est presque nulle, même lorsque nous diffusons que le son. Il semble donc que leur détection devient très difficile sur de longues périodes, et lorsque les effets d’attente sont inhibés.

Nous avons enfin pu faire plusieurs hypothèses pouvant expliquer l’influence de l’image sur le son, et du contenu sur le son : une première hypothèse qui relève du traitement cognitif de l’information, où nous avons donc un masquage du défaut par l’information et les émotions que celle-ci suscite ; et une seconde hypothèse qui relève plus simplement d’un masquage attentionnel, dans la continuité des travaux qui ont été effectués sur l’attention au cours de l’Histoire.

Il serait intéressant de pouvoir creuser ces deux hypothèses en réduisant encore notre champ d’action. L’étude de tels phénomènes peut cependant poser de nombreuses difficultés et demande l’élaboration de protocoles expérimentaux très maîtrisés et sophistiqués pour savoir si l’une ou l’autre de nos hypothèses est valide ou non.

Remerciements

Je tiens à remercier en premier lieu Corsin Vogel, qui a assuré la direction de mon mémoire, et qui a su parfaitement m’aiguiller et me rassurer dans les moments de doute.

Je remercie également chaleureusement Danièle Dubois, du laboratoire Langages, Cognitions, Pratiques, Ergonomie, qui a assuré la co-direction de mon mémoire, et Caroline Cance du Laboratoire d’Acoustique Musicale, pour leur regard critique et leur aide ô combien précieuse.

Merci également à Hugues Genevois, du Laboratoire d’Acoustique Musicale, qui m’a conseillé lors de l’élaboration de mon sujet.

Un grand merci à toute l’équipe pédagogique de la FSMS, Daniel Zalay, Georges Bloch, Catherine Barbe et Philippe Lafargue (une pensée particulière pour Didier Salles), ainsi que Catherine de Boishéraud et toute l’équipe du Centre Audiovisuel.

Je tiens à remercier ma famille, mes amis, toutes les personnes qui ont été à mes côtés au cours de ces quatre années.

A ces personnes qui m’ont soutenu pendant les moments difficiles, je ne vous remercierai jamais assez.

J’aimerais remercier toutes les personnes qui se sont prêtées au jeu de l’expérience, et sans qui il m’aurait été impossible de mener ce travail à son terme.

Bibliographie

  • BERTRAND, A., GARNIER, P.-H. Psychologie Cognitive. Levallois-Perret : Studyrama, 2005.
  • BINET, A. Introduction à la psychologie expérimentale. Paris : L’Harmattan, 2006 (1894).
  • BROADBENT, D. Perception and Communication. London: Pergamon Press, 1958.
  • BRUNER, J.S. On perceptual readiness. Psychol Rev., 1957, n°64, 123-152.
  • CALVER, G., SPENCE, C., STEIN, B. E. The hand book of multisensory processes. Cambridge : MIT Press, 2004.
  • CAMUS, J.-F. La psychologie cognitive de l’attention. Paris : Armand Colin ed., 1996.
  • DELORME, A., FLÜCKIGER, M. Perception et Réalité : une introduction à la psychologie des perceptions. Bruxelles : DeBoeck Université, 2003.
  • DUMAURIER, E. Psychologie expérimentale de la perception. Paris : PUF, Le Psychologue, 1992.
  • FECHNER, G.T. Elemente der Psychophysik. Leipzig : Breitskopf and Härtel, 1860.
  • GODEFROID, J. Psychologie : science humaine et science cognitive. Bruxelles : De Boeck Université, 2001.
  • GIBSON, J.-J. The Senses Considered as Perceptual Systems. Boston: Houghton Mifflin, 1966.
  • GUASTAVINO, C. (2003).Etude sémantique et acoustique de la perception des basses fréquences dans l’environnement sonore urbain. (Thèse de doctorat – LAM, Paris VI).
  • HEAD, H. The conception of nervous and mental energy : II. Vigilance : A physiological state of the nervous system. British Journal of Psychology. 1923, n°14, p. 126-147.
  • JAMES, W. Attention. The Principles of Psychology, 1890, Vol 1, Chap. 11, p. 403-404.
  • KAHNEMAN, D. Attention and Effort. Englewood Cliffs, NJ : Prenticehall, 1973.
  • LEMAIRE, P. Abrégé de psychologie cognitive. Bruxelles : De Boeck, 2006.
  • LEVITIN, D., CHAPADOS C. Cross-modal interactions in the experience of muscial performances : Physiological correlates. Cognition. 2007, n°108. p. 638-651.
  • LOCKE, J. Essai sur l’entendement humain. Paris : Vrin, 2001 (1690).
  • MCADAMS, S., BIGAND E. Penser les sons, psychologie cognitive de l’audition. Paris : PUF, Psychologie et Sciences de la Pensée, 1994.
  • MCGURCK, H., MACDONALD, J. Hearing Lips and Seeing Voices. Nature. 1976, n° 264, p. 746-748.
  • MOLYNEUX, W. Correspondance, 1688.
  • NATHANAIL, C. (1999). Influence des informations visuelles sur la perception auditive : conséquences sur la caractérisation de la qualité acoustique des salles. (Thèse de doctorat – LAM, Paris).
  • NEISSER, U. Cognitive psychology. New York : Appleton-Century-Crofts, 1967.
  • PERETZ, I. Les agnosies auditives: une analyse fonctionnelle. in MCADAMS, S., BIGAND E. Penser les sons, psychologie cognitive de l’audition. Paris : PUF, Psychologie et Sciences de la Pensée, p. 215-248, 1994.
  • PERETZ, I. Modularity of Music Processing. Nature Neurosciences. 2003, vol 6, p. 688-691.
  • PIAGET, J. Le développement mental de l’enfant. dans Six Etudes de Psychologie. 1940, folio essais, n°71, p.11-101.
  • PINEAU, M., TILLMANN, B. Percevoir la Musique : Une Activité Cognitive. coll. Sciences de l’Education Musicale. Paris : L’Harmathan, 2001.
  • PROPER, D. Mastering for Multichannel. Workshop, AES 126th Convention, Munich, 2009.
  • QUINLAN, P., DYSON, B. Cognitive Psychology. Harlow/New York, Pearson/Prentice Hall, 2008.
  • ROULIN, J.-L. Psychologie Cognitive. Rosny : Bréal, coll. Grand amphi Psychologie, 2006.
  • ROY, S., NATTIEZ, J.-J.L’analyse des musiques électroacoustiques : Modèles et propositions. Paris : L’Harmattan, 2004.
  • TREISMAN, A. Contextual cues in selective listening. Quarterly Journal of Experimental Psychology. 1960, n°12, p.242-248.
  • VIOLLON, S. (2000) Influence des informations visuelles sur la caractérisation de la qualité acoustique de l’environnement urbain. (Thèse de doctorat – LAM, Paris VI).
  • VOGEL, C. (1999) Etude sémiotique et acoustique de l’identification des signaux sonores d’avertissement en contexte urbain. (Thèse de doctorat – LAM, Paris VI).
  • WATSON, J.Psychology as the Behaviorist Views it. Psychological Review. 1913, n°20, p.158- 177.
  • WEIL-BARAIS, A. L’homme cognitif. Paris : PUF, coll. Premier Cycle, 1993.
  • WERTHEIMER, M. Untersuchungen zur Lehre der Gestalt, II. Psychologische Forschung 1923, n°4, p. 301-350.
  • WICKENS, C. D. Processing resources in attention. In R. Parasuraman & D. R. Davies (Eds.),Varieties of attention. 1984, Orlando, Fl : Academic, p. 63-102.

Bibliographie complémentaire

  • ALLPORT, G. Becoming : basic considerations for a psychology of personality. New Haven : Yale University Press, 1955.
  • BAILBLE, C. (1998). L’image frontale, le son spatial. in Beau, F., Dubois, P., Leblanc, G.

Cinema et dernières technologies. Paris : De Boeck & Larcier, 1998.

  • BAILBLE, C. (2003). Le réel, le sonore et l’imaginaire auditif. Dossiers de l’Audiovisuel. 2003, n°109.
  • PAVLOV, I. P.Conditioned reflexes. London : Routledge and Kegan Paul, 1927.
  • POIRIER, A., BOUKOBZA, J.-F., XUEREB, P.-H., STRANSKA, L., SRNKA, M. Leos Janacek,

Lettres intimes, quatuor à cordes n°2. Fascicule, programme de concert, CNSMDP, Paris, 2008.

  • SKINNER, B. F. Science and human behavior. New York: Macmillan, 1953.
  • THORNDIKE, E. Educational Psychology : The Psychology of Learning. New York : Teachers College Press, 1913.

Annexes

Annexe A.

Dispositif de captation du concert ayant servi de support à l’expérience

Nous disposions pour cette captation d’une équipe vidéo avec 3 caméras, et d’une équipe son. Le principe même du concert filmé nous a quelque peu imposé le système de prise de son et son emplacement, de façon à ce que celui-ci ne se voie pas.

Le quatuor à cordes a donc été enregistré au moyen d’un couple suspendu de microphones Schoeps mk4V. Une réverbération artificielle a ensuite été ajoutée en post- production à l’aide du logiciel Altiverb.

Salle d’Orgue, Conservatoire National Supérieur de Musique et de Danse de Paris

Caractéristiques techniques des microphones utilisés (source : www.schoeps.de)

Capsules microphoniques MK 4V + amplificateurs microphoniques CMC 6, CCM 4V U, CCM 4V L

Bande passante :40 Hz – 20 kHz
Sensibilité :13 mV/Pa
Niveau de bruit de fond acoustique équivalent :pondéré A: 14 dB-A
 CCIR: 24 dB
Niveau de signal/bruit (pondéré A) :80 dB-A
Pression acoustique maximum (0,5% THD*) :132 dB
*distorsion harmonique totale

Amplificateurs microphoniques CMC 5, 6 :

Type d’amplificateurAlimentationIntensité de courantImpédanceSeuil de fréquence basse(-3 dB)
CMC 6U: commutation automatique12 V fantôme8 mA25 Ohms20 Hz
 48 V fantôme4 mA35 Ohms20 Hz
CMC 5U:48 V fantôme4 mA35 Ohms30 Hz
Tension maximale de sortie:1 V (pour 1 kHz et 1 kOhms de résistance de charge)
Résistance de charge conseillée:600 Ohms (au valeurs inférieures, réduction notable du niveau de modulation)
Longueur:116 mm (y compris 3mm de filetage pour la capsule)
Diamètre:20 mm
Poids:65 à 68 g (en fonction du type)
Surface:gris anti-reflet (g) ou nickel (ni)

Annexe B.

Détail des valeurs de défauts ajoutés

Fade LongFade CourtClicFade MoyenVolume VioloncelleVolume Fin
251,2 ms501 ms-42dB211 ms-2,5 dB0 dB
398,1 ms170,9 ms-36 dB265,7 ms-3,8 dB-3 dB
857,5 ms107,8 ms-30 dB309,8 ms-5,2 dB-6 dB
1,6 s92,4 ms-24 dB390 ms-7,8 dB-9 dB
2,9 s34,1 ms-18 dB530 ms-10,3 dB-12 dB

Explication des défauts :

  • « Fade Long » : point de montage dont la longueur augmente au fur et à mesure des 5 écoutes, pour arriver au dédoublement de la source.
  • « Fade Court » : point de montage dont la longueur diminue au fur et à mesure des 5 écoutes, pour arriver pratiquement à une rupture sonore.
  • « Clic » : clic numérique rajouté et mélangé à la bande son suivant les valeurs ci-dessus.
  • « Fade Moyen » : point de montage dont la longueur augmente au fur et à mesure des 5 écoutes. Les différences de temps sont plus faibles que pour le « Fade Long »
  • « Volume violoncelle » : Variation de volume à un instant t de la séquance, qui ne comporte qu’une note de violoncelle, ainsi que la réverbération de l’accord précédent.
  • « Volume fin » : effet de pompage sur l’attaque des trois accords de fin. Une courbe de volume est appliquée de manière analogue sur les trois accords, en suivant les valeurs ci- dessus.

Annexe C.

Photographie de la régie ayant servi à l’expérience

Régie de l'espace interdisciplinaire (ex - Salle Maurice Fleuret) Conservatoire Nationale Supérieur de Musique et de Danse de Paris
Régie de l’espace interdisciplinaire (ex – Salle Maurice Fleuret) Conservatoire Nationale Supérieur de Musique et de Danse de Paris

Caractéristiques techniques des enceintes (source : www.cabasse.com)

Annexe D.

Copie du questionnaire ayant servi à l’expérience

Notes

  1. voir THORNDIKE, E. Educational Psychology : The Psychology of Learning. New York : Teachers College Press,
    1913. ↩︎
  2. voir PAVLOV, I. P. Conditioned reflexes. London : Routledge and Kegan Paul, 1927. ↩︎
  3. voir SKINNER, B. F. Science and human behavior. New York: Macmillan, 1953. ↩︎
  4. voir ALLPORT, G. Becoming : basic considerations for a psychology of personality. New Haven : Yale University Press, 1955. ↩︎
  5. Caractéristiques à l’annexe C. ↩︎
  6. Valeurs complètes à l’annexe B. ↩︎