Informations

Quelle est la durée la plus courte pour qu'une différence de hauteur dans les signaux audio soit perçue par le système auditif humain ?

Quelle est la durée la plus courte pour qu'une différence de hauteur dans les signaux audio soit perçue par le système auditif humain ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Si j'ai deux signaux audio courts, par exemple un ton pur C4 et C#4, donc une différence de demi-tons, à quel point peuvent-ils être courts pour que l'humain puisse entendre la différence de hauteur ? Y a-t-il eu des expériences/recherches à l'aveugle avec un bon ensemble de sujets à ce sujet ?

Je testais causalement avec un script court et il semble que je sois capable de distinguer des échantillons de 30 ms de long si je joue un échantillon, puis une seconde de pause et un autre échantillon supérieur d'un demi-ton.

Je peux aussi le faire plus court, mais je ne sais plus si je l'entends vraiment, ou si j'imagine juste entendre la différence.

Question bonus : à quel point cela peut-il être court si le signal est composé de deux tonalités. Donc de C4 et C#4 en même temps. Peut-on entendre qu'il y a à la fois C4 et C#4 dans le signal s'il ne dure que 30 ms ?


Cela dépend vraiment de ce que vous entendez par différence de hauteur. Les sujets peuvent discriminer les différences de fréquence pour des tons très courts, mais cela ne signifie pas qu'ils sont perçus comme des différences de hauteur. L'article classique dans ce domaine est Moore (1973) :

Comme la durée est réduite de 200 ms à 6,25 ms, les performances chutent, en particulier pour les tonalités à basse fréquence. Il convient de noter qu'il est difficile de créer des sons extrêmement courts avec des bandes passantes étroites. Avec une durée de 12,5 ms, les sujets peuvent toujours discriminer entre les tons avec des fréquences de 250 Hz et 255,7 Hz (un Delta f de 5,7 Hz et un (Delta f)/f de 0,023).

C4 a une fréquence de 261,63 Hz et C4# a une fréquence de 277,18 Hz pour un Delta f de 15,55 Hz et un (Delta f)/f d'environ 0,06. On s'attendrait à ce que vous puissiez discriminer C4 de C4# avec des durées sensiblement inférieures à 12,5 ms

En ce qui concerne votre "question bonus", lorsque le stimulus se compose de deux tons, les choses deviennent très compliquées. Les jugements tels que pouvez-vous entendre les deux tons sont très différents de pouvez-vous entendre la différence entre un seul ton et la paire de tons.


J'ai utilisé des rafales de tonalité de 5 ms dans une expérience où les gens devaient faire la distinction entre une tonalité pure de 1000 Hz et une tonalité de 1200 Hz (ou plutôt, un clic). Ils pouvaient généralement très bien le faire, si je me souviens bien, la précision était supérieure à 90 %.

J'ai alors eu un paradigme différent qui était un peu plus difficile en termes de tâche, et j'ai dû augmenter les tonalités à 20 ms pour une précision similaire. Donc, je suppose que 30 ms devraient suffire, si votre équipement audio est raisonnablement bon.

Les participants à mon étude étaient des jeunes en bonne santé (autrement appelés étudiants) ayant une audition normale.


La durée minimale absolue des rafales de tonalité est limitée par des limitations mathématiques (physiques) et, plus important encore, par votre matériel.

Mathématiquement, la durée minimale dépendra de la fréquence, car une période est le temps minimum nécessaire pour définir mathématiquement une fréquence particulière. Par exemple, pour compléter une période d'une tonalité de 100 Hz, au moins 10 ms sont nécessaires. Pour une tonalité de 10 kHz, 0,1 ms suffit.

En ce qui concerne les limitations matérielles, la présentation d'une rafale de tonalité courte peut entraîner des éclaboussures de fréquence. Ce phénomène dépend du matériel et même les systèmes de haut-parleurs les plus chers sont soumis à cet effet. Fondamentalement, c'est le résultat de la génération de fréquences indésirables dues à l'apparition et au décalage de la rafale de tonalité. Les éclaboussures peuvent être réduites en utilisant des rampes d'attaque et de décalage. Des rampes de début et de décalage sont utilisées afin d'augmenter et de diminuer progressivement la puissance du signal au début et à la fin de la rafale de tonalité, respectivement. La durée exacte de ces rampes dépend du matériel utilisé. En règle générale, des temps de rampe de début et de décalage de 2 périodes peuvent être utilisés avec une phase de plateau d'au moins 2 périodes entre les deux. Cela fait un total de 6 périodes. Une rafale de tonalité de 500 Hz nécessiterait donc au moins 6*2 ms = 12 ms.

À des fréquences relativement élevées (disons 1 kHz et plus), cette règle empirique peut ne pas s'appliquer car les périodes deviennent très courtes. À des fréquences plus élevées, par conséquent, la réponse de @Strongbad donnera une bonne indication de la limite de durée inférieure. Cependant, gardez à l'esprit que l'introduction de rampes de début et de décalage est toujours une bonne idée, même pour des stimuli longs (disons 100 ms) car les éclaboussures de fréquence contaminent toujours le signal.


Comment la hauteur et le motif d'un signal affectent-ils les seuils d'éveil auditif ?

La façon dont les seuils d'éveil varient en fonction des différents sons est un problème critique pour les réveils d'urgence, d'autant plus que les dormeurs meurent dans les incendies malgré le fonctionnement d'un détecteur de fumée. Des recherches antérieures ont montré que le signal d'alarme de fumée aigu (3000+ Hz) actuel est nettement moins efficace qu'un signal alternatif, l'onde carrée de 520 Hz, dans toutes les populations testées. Cependant, comme le nombre de sons testés est faible, des recherches supplémentaires sont nécessaires. Ici, nous avons mesuré les seuils d'éveil auditif (AAT) à travers des signaux avec une gamme de caractéristiques pour déterminer le signal de réveil le plus efficace. Trente-neuf jeunes adultes ont participé pendant trois nuits. Dans la partie A, neuf signaux ont été présentés au stade 4 du sommeil avec des niveaux de décibels croissants. Les signaux étaient des bips courts dans la gamme des fréquences basses à moyennes avec différentes complexités spectrales : ondes carrées, tons purs, whoops et bruit blanc. La partie B a manipulé des modèles temporels, en insérant des silences de 0, 10 et 21 s après chaque 12 s de bips. Il a été constaté que les ondes carrées à basse fréquence (400 et 520 Hz) produisaient des AAT significativement plus faibles que les alternatives. Une tendance a été trouvée à travers les trois manipulations temporelles, avec un silence intermédiaire de 10 s montrant un certain avantage. Ces résultats soutiennent des recherches antérieures indiquant que le meilleur son pour se réveiller du sommeil profond est une onde carrée à basse fréquence. Il est avancé que le signal avec le seuil de réponse le plus bas lorsqu'il est éveillé peut être le même que le signal le plus excitant lorsqu'il est endormi, en particulier lorsque le dormeur considère le signal comme significatif.


RÉSULTATS

Type de connexions entre les régions médiale, moyenne et latérale de l'HG

Les parties médiale et médiane de HG sont réciproquement reliées par des connexions latérales et se situent à un niveau de hiérarchie similaire.

La partie latérale de l'HG se situe à un niveau plus élevé de la hiérarchie auditive que les parties médiale et médiane.

Probabilité postérieure des familles de modèles, où chaque famille (ou partition de l'espace modèle) a été définie en termes de type de connexion pour chaque connexion. La probabilité a posteriori a été calculée en utilisant une analyse à effets fixes sur trois conditions (8, 16 et 32 ​​itérations) et deux sujets.

Probabilité postérieure des familles de modèles, où chaque famille (ou partition de l'espace modèle) a été définie en fonction du type de connexion pour chaque connexion. La probabilité a posteriori a été calculée en utilisant une analyse à effets fixes sur trois conditions (8, 16 et 32 ​​itérations) et deux sujets.

Types de connexion les plus probables entre les parties médiale, médiane et latérale de l'HG.

Types de connexion les plus probables entre les parties médiale, médiane et latérale de l'HG.

Modulation de la connectivité par régularité temporelle

Après avoir établi les types de connexion, nous avons ensuite étudié comment ces connexions étaient modulées par la régularité temporelle du RIN. Les réponses liées à l'événement au RIN avec 0, 8, 16 et 32 ​​itérations de l'HG médial, moyen et latéral ont été analysées ensemble dans un seul DCM. Cela impliquait d'optimiser des paramètres supplémentaires qui contrôlaient la façon dont la force du pitch (nombre d'itérations RIN) modulait la force des connexions de manière monotone, sur les quatre ERP (comme dans Garrido et al., 2008). Nous avons construit 64 variantes du modèle illustré à la figure 3. Ces modèles étaient basés sur toutes les combinaisons possibles de la façon dont la force du pas pouvait moduler les connexions extrinsèques entre les trois zones. Les probabilités postérieures pour chacun de ces 64 modèles pour les deux sujets R154 et L156 sont représentées respectivement sur les figures 4A et B. Pour le sujet R154, il existe deux modèles comparables plausibles (64 et 48) qui ont des probabilités postérieures de 0,52 et 0,37, respectivement. Pour le sujet L156, le meilleur modèle (modèle 60) a une probabilité postérieure de 0,78 et le deuxième meilleur modèle (modèle 44) a une probabilité postérieure de 0,20. Les meilleurs modèles (64 et 48 pour le sujet R154 et 60 et 44 pour le sujet L156) pour les deux sujets sont illustrés à la figure 5. Les triangles rouges et verts indiquent les connexions qui sont modulées par la force du pas. Ces résultats montrent que dans le sujet R154 (Figure 5A), les deux modèles gagnants ont une structure très similaire : Dans le modèle 64 (probabilité postérieure = .52), toutes les connexions sont modulées, alors que dans le modèle 48 (probabilité postérieure = .37) , tous sauf la connexion médiane à médiane sont modulés par la régularité temporelle. Dans le sujet L156 (Figure 5B), le meilleur modèle (modèle 60, probabilité postérieure = 0,78) nécessite une modulation de toutes les connexions à l'exception de latéral à milieu alors que dans le deuxième meilleur modèle (modèle 44, probabilité postérieure = 0,2), en plus de la connexion dans le meilleur modèle, la connexion du milieu vers le milieu n'est pas non plus modulée.

Probabilités postérieures de 64 modèles de type modulation pour le sujet R154 (A) et pour le sujet L156 (B).

Probabilités postérieures de 64 modèles de type modulation pour le sujet R154 (A) et pour le sujet L156 (B).

Structure des meilleurs modèles pour le sujet R154 (A) et pour le sujet L156 (B).

Structure des meilleurs modèles pour le sujet R154 (A) et pour le sujet L156 (B).

Pour le sujet R154, toutes les connexions présentent des modèles très similaires de modulation d'intensité de hauteur, à l'exception de la connexion de la région médiane à la région médiane, qui est modulée dans un modèle (modèle 64) mais pas dans l'autre (modèle 48).

Pour le sujet L156, le schéma de connectivité est à nouveau très similaire sauf dans la région médiane à médiane, qui est modulée dans le meilleur modèle (modèle 60) mais pas dans le deuxième meilleur modèle (modèle 44).

Les connexions en arrière de l'HG latéral (à la fois vers l'HG médiane et médiane chez le sujet R154 et vers l'HG médiale uniquement chez le sujet L156) augmentent avec la régularité temporelle. Chez les deux sujets, il y a presque un doublement de la force de connexion avec une régularité temporelle croissante.

Les connexions directes de l'HG médial et moyen diminuent avec la régularité temporelle.

Les forces de connexion latérales (de médiale à médiane et médiane à médiale) augmentent avec la régularité temporelle. Cependant, la connexion médiane à moyenne change beaucoup plus que la connexion réciproque.

Modulation de connectivité avec régularité temporelle pour le sujet R154 (A) et pour le sujet L156 (B).

Modulation de connectivité avec régularité temporelle pour le sujet R154 (A) et pour le sujet L156 (B).


Une approche judicieuse de la conception d'alarmes médicales

Les hôpitaux peuvent être bruyants, en particulier les unités de soins intensifs, et les machines électroniques qui sauvent des vies surveillant les signes vitaux des patients font le plus de bruit. Mike Rayo, professeur adjoint en ingénierie des systèmes intégrés à l'Ohio State University, s'efforce d'améliorer et d'organiser la cacophonie pour aider les soignants et les patients.

Pendant près d'une décennie, Rayo a collaboré à la recherche sur les alarmes hospitalières avec des experts en facteurs humains et en ergonomie comme Judy Edworthy et les professeurs de l'État de l'Ohio David Woods et Emily Patterson. Edworthy, professeur de psychologie appliquée à l'Université de Plymouth, est considéré par beaucoup comme « la marraine » de la conception d'alarmes auditives. Rayo l'appelle une "rock star".

Les travaux les plus récents de Rayo, rendus possibles grâce à une subvention des Centres P30 de l'Agence pour la recherche et la qualité des soins de santé au Centre médical Wexner de l'Ohio State University (OSUWMC), lui ont permis de poursuivre la recherche sur les alarmes et d'améliorer directement les soins aux patients. Il est né avec Rayo contribuant à Edworthy, et. l'article de recherche 2018 d'al. « Getting Better Hospital Alarm Sounds Into a Global Standard » paru dans Ergonomie dans la conception : le trimestriel des applications des facteurs humains. Dans cet article, ils décrivent le processus de conception puis de test des signaux d'alarme sonore potentiels pour remplacer ceux de la norme mondiale de sécurité des dispositifs médicaux, IEC 60601-1-8. Ils ont démontré que, dans tous les tests, leurs signaux d'alarme nouvellement conçus surpassent de manière significative les signaux d'alarme actuels.

"Judy a réuni un grand nombre d'entre nous de différentes disciplines pour comprendre l'efficacité des alarmes dans des situations de soins de santé réelles", a déclaré Rayo. Lui et d'autres co-auteurs sont également membres d'un comité de l'Association pour l'avancement de l'instrumentation médicale, dirigé par Edworthy, pour rédiger la norme IEC 60601-1-8 mise à jour.

Les recherches actuelles de Rayo explorent l'utilisation de la qualité acoustique du timbre, les caractéristiques qui permettent à l'oreille de distinguer les sons qui ont la même hauteur, le même tempo et le même volume.

"C'est essentiellement la qualité sonore qui reste lorsque vous supprimez toutes les autres qualités facilement décrites, comme la hauteur, le rythme, la fréquence, etc.", a-t-il expliqué. "Si je joue exactement la même note à la même hauteur pendant la même durée au même rythme sur une clarinette, une trompette et un piano, l'oreille humaine peut faire la différence."

Son article "Utiliser le timbre pour améliorer les performances de plus grands ensembles d'alarmes auditives" est paru fin 2019 dans la revue Ergonomics. En coordination avec le groupe de travail sur les alarmes de l'OSUWMC, Rayo et son équipe ont comparé deux ensembles d'alarmes dans un contexte réel d'hospitalisation.

Dans un environnement hospitalier, Rayo a estimé que plus de dix sources d'alarme sont présentes dans une pièce donnée. "Chacun de ceux-ci va émettre un certain nombre d'alarmes", a-t-il expliqué. "Par exemple, un moniteur cardiaque que nous avons observé avait des alarmes à plusieurs timbres."

Rayo a proposé d'attribuer un timbre spécifique à chaque catégorie médicale ou physiologique de moniteurs, par exemple le cœur, les poumons, le cerveau, etc. Alors que d'autres qualités sonores, comme la fréquence ou la hauteur, signaleraient des différences entre la normalité et l'urgence.

L'étude a été menée dans 11 unités d'hospitalisation au Wexner Medical Center. Les alarmes ont été transmises aux infirmières hospitalisées sur des appareils portatifs typiques d'un hôpital moderne.

Son équipe a découvert que rendre les alarmes plus riches sur le plan acoustique en utilisant le timbre pour transmettre des groupes médicaux et en associant d'autres qualités à l'urgence améliorait l'identifiabilité et la correspondance de catégorie.

« Notre nouvel ensemble de sons était perçu comme plus similaire au sein des groupes d'alarmes, facilitait une meilleure identification des sons d'alarme individuels et des groupes d'alarmes, et transmettait une gamme d'urgence plus large que les sons de base », a expliqué Rayo. Les sons améliorés et axés sur le timbre développés par son équipe sont désormais mis en œuvre sur les appareils portables des infirmières du Ohio State Wexner Medical Center.

"Je n'ai pas entendu parler d'un autre hôpital ou système qui a conçu ses tonalités d'alarme sur mesure", a-t-il ajouté. « Ce partenariat est quelque part entre rare et extrêmement unique. »

Le Dr Susan Moffatt-Bruce, qui était la chercheuse principale de la subvention P30 et directrice exécutive de l'hôpital universitaire OSUWMC pendant le projet, a ajouté : Centre. C'est là que des experts en facteurs humains comme le Dr Rayo et le Dr Patterson peuvent améliorer les résultats cliniques et la résilience des soins de santé.

Rayo a déclaré que les conclusions de son équipe sont également pertinentes pour d'autres industries qui utilisent une série de sons d'alarme.

Il pense que trop d'hypothèses sont formulées lors de la conception d'alarmes médicales ou de sécurité, au lieu de prendre des décisions de conception basées sur des données et des tests. "Une hypothèse est que si quelque chose alarme davantage, cela doit être mieux alarmant", a-t-il proposé. « Une autre hypothèse souvent avancée par les concepteurs est que le son de l'alarme sera compris par les autres exactement comme ils l'avaient prévu et imaginé pour qu'il soit compris. »

Les collaborateurs de Rayo sont : Dr Iahn Gonsenhauser, Jackie Lamendola, Traci Mignery, Dr Susan Moffatt-Bruce, Todd Yamokoski et Lynette Roush of Ohio State Wexner Medical Center School of Health and Rehabilitation Sciences Professeur agrégé Emily Patterson Cognitive Systems Engineering Laboratory Research Associate Morgan Fitzgerald et Lextant, directeur de la conception de l'expérience utilisateur, Steve Simula.


Prosogramme 3.0 + Polytonie

Prosogram est un outil d'analyse et de transcription des variations de hauteur de la parole. Sa stylisation simule la perception auditive de la hauteur par l'auditeur. Un élément clé de la perception tonale est la segmentation de la parole en éléments de la taille d'une syllabe, résultant du changement spectral (timbre sonore) et de la variation d'intensité.

L'outil fournit également des mesures des caractéristiques prosodiques pour des syllabes individuelles (telles que la durée, la hauteur, la direction et la taille du mouvement de la hauteur), ainsi que les propriétés prosodiques d'étendues de discours plus longues prononcées par un locuteur donné (telles que le débit de parole, la proportion de pauses silencieuses , plage de hauteur et trajectoire de hauteur).

L'outil peut facilement interagir avec d'autres outils logiciels. Il est utilisé comme première étape dans la transcription phonologique automatique de l'intonation, la détection de l'accentuation des phrases et des limites d'intonation.

    • stylisation de hauteur basée sur un modèle de perception tonale,
    • segmentation acoustique automatique de la parole en éléments de la taille d'une syllabe,
    • alternativement, segmentation en rimes, syllabes ou voyelles, à partir de l'alignement phonétique et/ou syllabique dans une annotation TextGrid,
    • détermination F0 en deux passes avec réglage automatique de la plage de détection F0, ou plage F0 sélectionnée par l'utilisateur,
    • estimation de la plage de hauteur par locuteur (utilise l'étiquetage des tours de parole),
    • profil prosodique par locuteur, y compris la gamme de hauteurs, hauteur moyenne globale (médiane), mesures de variabilité de hauteur (histogramme F0, trajectoire, proportion de noyaux de niveau, histogramme des glissandos haut et bas, histogramme des mouvements de hauteur inter-syllabiques), débit de parole, proportion de silence pauses,
    • dessins (prosogrammes) de stylisation de hauteur avec des niveaux sélectionnés par l'utilisateur à partir de l'annotation TextGrid, avec/sans paramètres acoustiques tels que F0, intensité, voicing, pause, avec/sans plage de hauteur, dans de nombreux formats de fichiers graphiques, étiquetage prosodique des niveaux de hauteur et des mouvements de hauteur,
    • visualisation interactive de la stylisation avec lecture, resynthèse, défilement et zoom, affichant en option la plage de hauteur, les cibles de hauteur en Hz ou ST et les niveaux d'annotation sélectionnés par l'utilisateur,
    • normalisation de la tonalité basée sur la plage de tonalité des haut-parleurs,
    • table de sortie avec de nombreux variables prosodiques par syllabe noyau (hauteur : moyenne, médiane, haute, basse, début, fin, intervalle de hauteur, glissando (haut, bas, aucun) durée du noyau, rime, voyelle, syllabe intensité de crête pause étiquette du locuteur),
    • table de sortie des profils prosodiques (avec des lignes par locuteur et par fichier), pour l'export vers un logiciel d'analyse statistique,
    • traitement par lots de corpus vocaux à grande échelle, avec gestion des dossiers et dispositions pour la conversion d'annotations de corpus à la volée (à l'exécution),
    • enregistrement de la segmentation automatique en syllabes et noyaux syllabiques dans un fichier TextGrid pour validation et édition
    • validation des niveaux phonétiques et syllabiques dans l'annotation TextGrid

    La première illustration montre un léger Prosogramme avec la stylisation (lignes noires) et la plage de hauteur (lignes horizontales rouges indiquant le haut, la médiane et le bas). Les annotations des sons, des syllabes et des mots sont fournies par le corpus.

    Large, léger, avec plage de hauteur

    L'illustration suivante montre un riche Le prosogramme, qui ajoute les paramètres de F0 (ligne bleue), d'intensité (ligne verte) et de voicing (dent de scie), ainsi que la segmentation (boîtes rouges), et le calibrage des axes X et Y (en ST par rapport à 1 Hz et en Hz). Les lignes pointillées verticales correspondent aux limites de segmentation dans l'annotation.

    La troisième illustration montre un léger Prosogramme, dans un plus compact Taille.

    La figure suivante montre un prosogramme utilisant segmentation automatique en unités de la taille d'une syllabe. La courbe magenta montre l'intensité du signal vocal filtré passe-bande, sur lequel cette segmentation est basée.

    La dernière figure montre l'écran du interactif Prosogramme. Ici, l'utilisateur peut parcourir interactivement le signal de parole et sa stylisation, lire des parties (syllabes, mots. ), et re-synthétiser le signal avec la hauteur stylisée. (L'annotation tonale dans le niveau "polytonia" est obtenue à l'aide de l'analyse Polytonia.)

    Fenêtre de prosogramme interactif

    De nombreux phonéticiens utilisent la courbe de fréquence fondamentale (F0) pour représenter les contours de hauteur dans la parole. F0 est un paramètre acoustique qui fournit des informations utiles sur les propriétés acoustiques du signal vocal. Mais ce n'est certainement pas la représentation la plus précise du contour de l'intonation tel qu'il est perçu par les auditeurs humains.

    Dans le ྂ, le pitch contour stylisation a été introduit comme un moyen de simplifier la courbe F0 pour les aspects potentiellement pertinents pour la communication vocale. L'approche provient des travaux de J. 't Hart et R. Collier à l'I.P.O. (Institute for Perception Research) à Eindhoven ('t Hart et al. 1990), et a été encore amélioré par D. Hermes dans les ྌ et ྖ (Hermes 2006). D'autres types de stylisation ont été proposés, comme le système Momel (Hirst & Espesser (1993), Hirst, Di Cristo, Espesser (2000). Cependant, la plupart de ces approches de stylisation sont basées sur des propriétés statistiques ou mathématiques des données F0 et ignorer les faits de la perception du ton.

    Il est bien connu que la perception auditive des variations de hauteur dépend de nombreux facteurs autres que la variation F0 elle-même. En 1995, une stylisation basée sur la simulation de perception tonale a été proposé par Ch. d'Alessandro & P. Mertens (Mertens & d'Alessandro, 1995, d'Alessandro & Mertens, 1995). Le but de cette stylisation est de fournir une représentation qui se rapproche de l'image dans la mémoire auditive de l'auditeur. Ce modèle de perception tonale a été validé dans des expériences d'écoute utilisant des stimuli resynthétisés à l'aide du contour stylisé (Mertens et al, 1997).

    Cette approche peut être utilisée pour obtenir un faible niveau transcription du niveau de tangage et du mouvement de tangage et. Elle nécessite une segmentation du signal de parole en unités de la taille d'une syllabe, motivée par des propriétés phonétiques, acoustiques ou perceptives. Différents types d'alignement peuvent être obtenus manuellement ou automatiquement et sont stockés dans un fichier d'annotation (format de fichier TextGrid de Praat). Le prosogramme peut utiliser différents types de segmentation :

      • une segmentation automatique en pics d'intensité locaux (à la fois celui du signal vocal filtré passe-bande et celui du signal pleine bande)
      • un alignement phonétique des sons de la parole (ou alternativement uniquement des voyelles),
      • un alignement de syllabes
      • un alignement de rimes syllabiques
      • une segmentation fournie par un programme externe.

      La stylisation est appliquée à la courbe F0 de ces unités segmentées (voyelles, rimes, syllabes), qui sont des approximations de la partie la plus sonore de la syllabe.


      Fonction du cortex auditif

      Classiquement, deux régions fonctionnelles principales ont été décrites dans le cortex auditif :

      1. Cortex auditif primaire (IA), composé de neurones impliqués dans le décodage de la représentation spatiale cochléotopique et tonotopique d'un stimulus.
      2. Cortex auditif secondaire (AII), qui n'a pas d'organisation tonotopique claire mais a un rôle important dans la localisation sonore et l'analyse de sons complexes : en particulier pour des vocalisations animales spécifiques et le langage humain. Il a également un rôle dans la mémoire auditive.
      3. La région de la ceinture, entourant l'IA et l'AII, ce qui aide à intégrer l'audition avec d'autres systèmes sensoriels.

      Lorsqu'ils sont éveillés, les humains, comme les autres animaux, sont capables de percevoir les petites variations temporelles de sons complexes. Ces variations sont essentielles à la compréhension de la parole humaine. Un certain nombre d'études portant sur l'IA ont identifié que chez les primates éveillés, deux populations distinctes de neurones synchrones et asynchrones (respectivement) codent différemment les stimuli séquentiels.

      Les neurones synchrones analysent les changements temporels lents. Ils répondent précisément aux stimulations à faible fréquence (A1), mais sont incapables de maintenir leur activité si le nombre de stimuli augmente. Les changements rapides de fréquence sont perçus par ces neurones comme un son continu. Ils sont impliqués à la fois dans l'analyse de fréquence et d'intensité.
      Les neurones asynchrones analysent les changements temporels rapides (de nombreux stimuli). Ils peuvent déterminer des variations de courte durée et distinguer avec précision un stimulus du suivant.

      La division fonctionnelle du cortex auditif permet de décoder avec une extrême précision les variations temporelles d'un stimulus par rapport aux autres centres de la voie auditive. Il permet d'obtenir plus d'informations sur les sons complexes, ainsi que sur l'emplacement d'une source sonore et son mouvement.

      Neurones synchrones et asynchrones

      • Les neurones synchrones répondent toujours à chaque stimulus (clic) lorsque les trains de stimulus ont des intervalles supérieurs à 20 ms (A1). Au fur et à mesure que l'intervalle intertrain diminue (c'est-à-dire que le taux de répétition s'accélère), ces neurones commencent à désynchroniser leur taux de décharge. Lorsque l'intervalle interstimulus tombe en dessous de 10 ms (B1), ces neurones ne se déclenchent qu'au début et à la fin du stimulus (réponses de début et de fin, respectivement).
      • Les neurones asynchrones ne répondent pas de manière synchrone aux stimuli (A2 et B2), mais leur activité augmente progressivement jusqu'à un taux de décharge très élevé (B2).

      Types de traitement

      Différents aspects des sons environnementaux (par exemple, l'atténuation : l'intensité du son selon la fréquence spatiale et la sensibilité de la combinaison) sont traités dans chacune des zones auditives centrales. La plupart des noyaux auditifs du cerveau sont arrangés de manière tonotopique. De cette façon, les signaux auditifs ascendants vers le cortex peuvent préserver les informations de fréquence de l'environnement 11).

      L'atténuation (l'intensité d'un son) est traitée dans le système auditif par des neurones qui déclenchent des potentiels d'action à différentes vitesses en fonction de l'intensité sonore. La plupart des neurones réagissent en augmentant leur taux de décharge en réponse à une atténuation accrue. Les neurones plus spécialisés répondent au maximum aux sons environnementaux dans des plages d'intensité spécifiques 12) .

      Le cerveau traite l'emplacement d'un son dans l'espace en comparant les différences d'atténuation et de synchronisation des entrées des deux oreilles au sein du complexe olivaire supérieur. Si un son est directement médian (c'est-à-dire à l'avant ou à l'arrière de la tête), il atteindra les deux oreilles en même temps. S'il se trouve à droite ou à gauche de la ligne médiane, un délai temporel se produit entre les entrées des deux oreilles. Au sein du complexe olivaire supérieur, les neurones spécialisés reçoivent des informations des deux oreilles et peuvent coder pour ce délai temporel (c'est-à-dire le traitement binaural) 13) .

      Les neurones sensibles à la combinaison sont un autre sous-ensemble de neurones du système auditif qui ont des réponses améliorées ou inhibées spécifiquement à 2 sons ou plus avec un retard temporel spécifique. Les neurones sensibles à la combinaison sont situés dans le colliculus inférieur, le lemnisque latéral, le genouillé médial et le cortex auditif 14) . Étant donné que la plupart des sons de l'environnement ne sont pas des sons purs, ces types de neurones sensibles aux combinaisons sont censés faciliter l'amélioration du traitement des combinaisons de sons qui peuvent être importantes pour l'individu (par exemple, la parole, les sons de communication) 15).

      Circuits descendants

      On pensait autrefois que le traitement auditif était un simple relais des signaux environnementaux jusqu'au cortex. Les scientifiques savent maintenant qu'il existe un important système descendant de circuits dans le système auditif qui aide à moduler le traitement auditif à tous les niveaux. Le cortex auditif a des projections directes bilatérales vers le colliculus inférieur, le complexe olivaire supérieur et le noyau cochléaire 16) . Ces circuits contactent les neurones de ces noyaux qui se projettent à tous les niveaux du système auditif central et à la cochlée (pour moduler les cellules ciliées externes) au sein du système auditif périphérique. Les connexions entre les fibres descendantes, ascendantes et croisées rendent le système auditif hautement interconnecté. Ces circuits descendants aident à moduler l'attention auditive en fonction de la pertinence, de l'attention, des comportements appris et de l'état émotionnel d'un individu. Ces fonctions d'ordre supérieur proviennent de nombreuses régions du cerveau (par exemple, le cortex préfrontal, l'hippocampe, le noyau basal de Meynert et les circuits limbiques) qui ont des connexions directes et indirectes entre elles et le cortex auditif 17).

      Fonction primaire du cortex auditif

      Dans l'IA, les neurones sont sélectifs pour des fréquences particulières et sont disposés en bandes d'isofréquences organisées de manière tonotopique. La distribution spatiale précise des bandes d'isofréquences est liée à l'organisation des récepteurs auditifs. Leur activité dépend des caractéristiques du stimulus : fréquence, intensité et position de la source sonore dans l'espace. Fonctionnellement, cette région est fortement influencée par l'état de veille du sujet. Un certain nombre de neurones très spécifiques de l'IA sont également impliqués dans l'analyse de sons complexes.

      De nouvelles techniques d'étude du cortex cérébral (imagerie par résonance magnétique fonctionnelle : IRMf, tomographie par émission de positons : TEP et magnétoencéphalographie : MEG) suggèrent que la distribution de fréquence observée chez l'animal (avec les méthodes expérimentales traditionnelles) ne correspond pas exactement à celle observée chez l'homme, bien qu'elles tous ont des bandes d'isofréquences, comme on le voit en utilisant la magnétoencéphalographie (MEG) ci-dessous. L'IRMf chez l'homme suggère que les basses fréquences sont codées dans les régions postéro-latérales superficielles de la fissure sylvienne, tandis que les hautes fréquences sont situées dans les régions plus profondes et antéromédiales. Il est important de noter, cependant, qu'un certain degré de variation existe entre les individus.

      Fonction corticale auditive secondaire

      Le cortex auditif secondaire fonctionne également dans l'interprétation des sons, mais surtout dans les activités qui impliquent l'exigence de la tâche 18) .


      DIVULGATION DE L'INVENTION

      L'invention concerne un procédé qui génère une caractérisation d'informations réduites unique d'un signal audio qui peut être utilisée pour identifier le signal audio. La caractérisation peut être considérée comme une « signature » ou une « empreinte digitale » du signal audio. Selon la présente invention, une analyse de scène auditive (ASA) est effectuée pour identifier des événements auditifs en tant que base pour caractériser un signal audio. Idéalement, l'analyse de la scène auditive identifie les événements auditifs les plus susceptibles d'être perçus par un auditeur humain même après que l'audio a subi un traitement, comme un codage à faible débit ou une transmission acoustique via un haut-parleur. Le signal audio peut être caractérisé par les emplacements limites d'événements auditifs et, facultativement, par la sous-bande de fréquence dominante de chaque événement auditif. Le motif d'informations résultant constitue une empreinte ou une signature audio compacte qui peut être comparée à une ou plusieurs autres empreintes ou signatures audio. Une détermination qu'au moins une partie des signatures respectives sont les mêmes (à un degré de confiance souhaité) indique que les parties liées des signaux audio à partir desquels les signatures respectives ont été dérivées sont les mêmes ou ont été dérivées du même signal audio.

      Le procédé d'analyse de scène auditive selon la présente invention fournit un procédé rapide et précis de comparaison de deux signaux audio, en particulier de musique, en comparant des signatures sur la base d'informations d'événement auditif. L'ASA extrait des informations ou des caractéristiques sous-jacentes à la perception de similitude, contrairement aux méthodes traditionnelles d'extraction de caractéristiques qui extraient des caractéristiques moins fondamentales pour percevoir les similitudes entre les signaux audio (telles que l'amplitude de hauteur, la puissance et la structure harmonique). L'utilisation de l'ASA améliore les chances de trouver une similitude dans un matériau ayant subi un traitement important, tel qu'un codage à faible débit ou une transmission acoustique via un haut-parleur.

      Bien qu'en principe l'invention puisse être mise en pratique dans le domaine analogique ou numérique (ou une combinaison des deux), dans des modes de réalisation pratiques de l'invention, les signaux audio sont représentés par des échantillons dans des blocs de données et le traitement est effectué dans le domaine numérique.

      En se référant à la Fig. 1A, analyse de scènes auditives 2 est appliqué à un signal audio afin de produire une « signature » ​​ou une « empreinte digitale » liée à ce signal. Dans ce cas, il y a deux signaux audio intéressants. Ils peuvent être similaires en ce sens que l'un peut être dérivé de l'autre ou que les deux peuvent avoir été précédemment dérivés du même signal d'origine, mais cela n'est pas connu à l'avance. Ainsi, l'analyse de la scène auditive est appliquée aux deux signaux. Pour simplifier, la Fig. 1A montre uniquement l'application de l'ASA à un signal. Comme le montre la Fig. 1B, les signatures des deux signaux audio, Signature 1 et signature 2, sont appliqués à une fonction de correction ou de corrélation 4 qui génère un score de corrélation. Un utilisateur peut définir un score de corrélation minimum comme fournissant un degré de confiance souhaité qu'au moins une partie des deux signatures sont identiques. En pratique, les deux signatures peuvent être des données stockées. Dans une application pratique, l'une des signatures peut être dérivée, par exemple, d'une copie non autorisée d'une œuvre musicale et l'autre signature peut être l'une d'un grand nombre de signatures dans une base de données (chaque signature étant dérivée d'un travail) contre laquelle la signature de copie non autorisée est comparée jusqu'à ce qu'une correspondance, à un degré de confiance souhaité, le cas échéant, soit obtenue. Ceci peut être effectué automatiquement par une machine, dont les détails sortent du cadre de la présente invention.

      Étant donné que les signatures sont représentatives des signaux audio mais sont sensiblement plus courtes (c'est-à-dire qu'elles sont plus compactes ou ont moins de bits) que les signaux audio dont elles sont dérivées, la similitude des deux signatures (ou leur absence) peut être déterminée beaucoup plus rapide qu'il n'en faudrait pour déterminer la similitude entre les signaux audio.

      D'autres détails des Fig. 1A et 1B sont indiqués ci-dessous.

      Conformément à des aspects de la présente invention, un processus efficace en termes de calcul pour diviser l'audio en segments temporels ou « événements auditifs » qui ont tendance à être perçus comme séparés est fourni.

      On pense qu'un indicateur puissant du début ou de la fin d'un événement auditif perçu est un changement de contenu spectral. Afin de détecter des changements de timbre et de hauteur (contenu spectral) et, comme résultat accessoire, certains changements d'amplitude, le processus de détection d'événement audio selon un aspect de la présente invention détecte des changements de composition spectrale par rapport au temps. Facultativement, selon un autre aspect de la présente invention, le processus peut également détecter des changements d'amplitude par rapport au temps qui ne seraient pas détectés en détectant des changements de composition spectrale par rapport au temps.

      Dans sa mise en œuvre la moins exigeante en termes de calcul, le processus divise l'audio en segments temporels en analysant toute la bande de fréquence du signal audio (audio à pleine bande passante) ou sensiblement toute la bande de fréquence (dans les mises en œuvre pratiques, le filtrage de limitation de bande aux extrémités du spectre est souvent utilisé) et accordant le plus grand poids aux composants de signal audio les plus forts. Cette approche tire parti d'un phénomène psychoacoustique dans lequel, à des échelles de temps plus petites (20 ms et moins), l'oreille peut avoir tendance à se concentrer sur un seul événement auditif à un moment donné. Cela implique que même si plusieurs événements peuvent se produire en même temps, un composant a tendance à être le plus important sur le plan de la perception et peut être traité individuellement comme s'il s'agissait du seul événement qui se produisait. Tirer parti de cet effet permet également à la détection d'événements auditifs de s'adapter à la complexité de l'audio en cours de traitement. Par exemple, si le signal audio d'entrée en cours de traitement est un instrument solo, les événements audio identifiés seront probablement les notes individuelles jouées. De même pour un signal vocal d'entrée, les composants individuels de la parole, les voyelles et les consonnes par exemple, seront probablement identifiés comme des éléments audio individuels. Au fur et à mesure que la complexité de l'audio augmente, comme la musique avec un battement de tambour ou plusieurs instruments et voix, la détection d'événement auditif identifie l'élément audio le plus important (c'est-à-dire le plus fort) à un moment donné. Alternativement, l'élément audio « le plus important » peut être déterminé en tenant compte du seuil d'audition et de la réponse en fréquence.

      Facultativement, selon d'autres aspects de la présente invention, au détriment d'une plus grande complexité de calcul, le processus peut également prendre en considération des changements dans la composition spectrale par rapport au temps dans des bandes de fréquences discrètes (fixes ou déterminées dynamiquement ou à la fois des bandes fixes et déterminées dynamiquement ) plutôt que la bande passante complète. Cette approche alternative prendrait en compte plus d'un flux audio dans différentes bandes de fréquences plutôt que de supposer qu'un seul flux est perceptible à un moment donné.

      Même un processus simple et efficace du point de vue informatique selon un aspect de la présente invention pour segmenter l'audio s'est avéré utile pour identifier des événements auditifs.

      Un processus de détection d'événement auditif de la présente invention peut être mis en œuvre en divisant une forme d'onde audio du domaine temporel en intervalles de temps ou en blocs, puis en convertissant les données de chaque bloc dans le domaine fréquentiel, en utilisant soit un banc de filtres soit une transformation temps-fréquence, telle en tant que transformée de Fourier discrète (DFT) (implémentée en tant que transformée de Fourier rapide (FFT) pour la vitesse). L'amplitude du contenu spectral de chaque bloc peut être normalisée afin d'éliminer ou de réduire l'effet des changements d'amplitude. La représentation du domaine fréquentiel qui en résulte fournit une indication du contenu spectral (amplitude en fonction de la fréquence) de l'audio dans le bloc particulier. Le contenu spectral de blocs successifs est comparé et un changement supérieur à un seuil peut être pris pour indiquer le début temporel ou la fin temporelle d'un événement auditif.

      Afin de minimiser la complexité de calcul, une seule bande de fréquences de la forme d'onde audio dans le domaine temporel peut être traitée, de préférence soit la totalité de la bande de fréquences du spectre (qui peut être d'environ 50 Hz à 15 kHz dans le cas d'une qualité moyenne système musical) ou pratiquement toute la bande de fréquences (par exemple, un filtre de définition de bande peut exclure les extrêmes de haute et basse fréquence).

      De préférence, les données du domaine fréquentiel sont normalisées, comme cela est décrit ci-dessous. Le degré auquel les données du domaine fréquentiel doivent être normalisées donne une indication de l'amplitude. Par conséquent, si un changement de ce degré dépasse un seuil prédéterminé, cela peut également être considéré comme indiquant une limite d'événement. Les points de début et de fin d'événement résultant de changements spectraux et de changements d'amplitude peuvent être combinés par OU de sorte que les limites d'événement résultant des deux types de changement soient identifiées.

      Dans des modes de réalisation pratiques dans lesquels l'audio est représenté par des échantillons divisés en blocs, chaque limite temporelle de point de départ et d'arrêt d'événement auditif coïncide nécessairement avec une limite du bloc dans lequel la forme d'onde audio du domaine temporel est divisée. Il existe un compromis entre les exigences de traitement en temps réel (car les blocs plus volumineux nécessitent moins de temps système) et la résolution de l'emplacement de l'événement (des blocs plus petits fournissent des informations plus détaillées sur l'emplacement des événements auditifs).

      Comme option supplémentaire, comme suggéré ci-dessus, mais au détriment d'une plus grande complexité de calcul, au lieu de traiter le contenu spectral de la forme d'onde du domaine temporel dans une seule bande de fréquences, le spectre de la forme d'onde du domaine temporel avant la conversion du domaine fréquentiel peut être divisé en deux ou plusieurs bandes de fréquences. Chacune des bandes de fréquences peut ensuite être convertie dans le domaine fréquentiel et traitée comme s'il s'agissait d'un canal indépendant. Les limites d'événement résultantes peuvent ensuite être combinées par OU pour définir les limites d'événement pour ce canal. Les bandes de fréquences multiples peuvent être fixes, adaptatives ou une combinaison de fixes et adaptatives. Les techniques de filtrage de suivi utilisées dans la réduction du bruit audio et d'autres arts, par exemple, peuvent être utilisées pour définir des bandes de fréquences adaptatives (par exemple, des ondes sinusoïdales simultanées dominantes à 800 Hz et 2 kHz pourraient entraîner deux bandes déterminées de manière adaptative centrées sur ces deux fréquences) .

      D'autres techniques pour fournir une analyse de scène auditive peuvent être utilisées pour identifier des événements auditifs dans la présente invention.


      Introduction

      Nous sommes constamment bombardés par une myriade de signaux sensoriels et sommes chargés de les trier pour obtenir des informations utiles sur notre environnement. Les signaux véhiculés par nos systèmes sensoriels interagissent dans le temps et dans l'espace, affectant non seulement quand et où nous percevons des événements significatifs, mais même l'identité et le contenu de ces événements. Des exemples familiers de telles interactions perceptives incluent l'illusion de ventriloquie (dans laquelle la visualisation d'un objet biaise l'emplacement perçu d'une source sonore distincte Thomas, 1941) et l'effet McGurk (dans lequel la vision des mouvements des lèvres biaise la perception des sons de parole entendus simultanément McGurk et MacDonald , 1976). Un objectif majeur des neurosciences perceptives est de comprendre comment les signaux de différentes modalités sensorielles sont combinés pour produire des expériences perceptives stables et cohérentes.

      Les interactions multisensorielles sont complexes et variées, et la mise en place de mécanismes neuronaux multisensoriels peut dépendre de nombreux facteurs. Parce que nous percevons rarement le monde à travers une seule modalité, nous développons des représentations qui sont liées à travers nos sens, les forces de ces liens reflètent l'histoire de nos expériences multisensorielles. Par exemple, les objets que nous palpons doivent être à proximité de notre corps. En conséquence, nous pouvons généralement entendre les sons générés lors de nos interactions haptiques avec les objets. De telles expériences sensorielles corrélées, accumulées au cours d'une vie de co-stimulation, peuvent modeler les mécanismes neuronaux sous-jacents aux interactions audio-tactiles dans la détection d'événements simples (Gescheider et Niblette, 1967 Ro et al., 2009 Tajadura-Jimenez et al., 2009 Wilson et al., 2009 Occelli et al., 2010 Wilson et al., 2010b) et le comptage des événements (Hotting et Roder, 2004 Bresciani et al., 2005 Bresciani et Ernst, 2007).

      Les représentations neuronales partagées peuvent également être très spécifiques. Parce que nous pouvons ressentir simultanément des oscillations environnementales par l'audition et le toucher (transduites par des récepteurs dans la membrane basilaire et dans la peau, respectivement), nous avons précédemment pensé que les deux systèmes sensoriels pourraient interagir dans l'analyse spectrale des vibrations. Nous avons testé cela et constaté que les tonalités auditives et les stimuli sonores influencent en effet systématiquement la perception de la fréquence tactile (Yau et al., 2009b), bien que les tonalités n'affectent pas les jugements d'intensité tactile. Ces représentations fréquentielles audio-tactiles liées peuvent sous-tendre notre capacité à percevoir des textures (Lederman, 1979 Jousmaki et Hari, 1998 Guest et al., 2002 Yau et al., 2009a), à apprécier la musique (Musacchia et Schroeder, 2009 Soto-Faraco et Deco, 2009), et même pour comprendre la parole (Gick et Derrick, 2009).

      Dans la présente étude, nous avons testé l'hypothèse selon laquelle les interactions perceptives audio-tactiles sont de nature réciproque en examinant comment les distracteurs tactiles affectent l'analyse du tonus auditif. Nous avons mesuré la capacité des participants à discriminer la fréquence ou l'intensité des stimuli auditifs à tonalité pure en présence ou en l'absence de vibrations tactiles simultanées. Nous avons en outre caractérisé la sensibilité de ces effets au timing relatif entre les tonalités auditives et les distracteurs tactiles. Les résultats rapportés ici, combinés à nos découvertes précédentes (Yau et al., 2009b), fournissent une vue complète des interactions audio-tactiles dans la perception de la hauteur et de l'intensité sonore.


      Sensation et perception Chapitre 10

      Les recherches qui révèlent ce fonctionnement interne du système auditif utilisent généralement des stimuli très simples dans des situations contraintes - souvent des sons purs isolés entendus au casque par des auditeurs assis dans un laboratoire par ailleurs parfaitement silencieux. Bien que ces méthodes soient inestimables pour comprendre le fonctionnement du système auditif, ce n'est évidemment pas la façon dont nous expérimentons les sons dans notre vie quotidienne. Dans ce chapitre, nous allons « hors de la tête » pour étudier comment l'audition nous aide à découvrir le monde réel.

      Le système auditif utilise une approche similaire pour déterminer l'emplacement dans l'espace d'où provient un son.

      Tout comme avoir deux yeux s'est avéré être l'une des clés pour déterminer les relations de profondeur visuelle, avoir deux oreilles est crucial pour déterminer les emplacements auditifs. Pour la plupart des positions dans l'espace, la source sonore sera plus proche d'une oreille que de l'autre. Ainsi, il existe deux types potentiels d'informations pour déterminer la source d'un son.

      Si la source est à gauche, le son atteindra d'abord l'oreille gauche. S'il est à droite, il atteindra d'abord l'oreille droite.

      Ainsi, nous pouvons dire si un son vient de notre droite ou de notre gauche en déterminant quelle oreille reçoit le son en premier. Le terme utilisé pour décrire les emplacements sur un cercle imaginaire s'étendant autour de nous dans un plan horizontal (avant, arrière, gauche et droite) est l'azimut.

      Les ITD pour les sons provenant de divers angles sont représentés par des cercles colorés. Les cercles rouges indiquent les positions à partir desquelles un son atteindra l'oreille droite avant l'oreille gauche, les cercles bleus indiquent les positions à partir desquelles un son atteindra l'oreille gauche en premier. La taille et la luminosité de chaque cercle représentent la magnitude de l'ITD.

      Au fur et à mesure que l'information circule
      vers le haut à travers le système, cependant, avec chaque synapse supplémentaire le tim-
      entre les deux oreilles risque de devenir moins précis. Le supérieur médial
      olives (MSO) sont les premiers endroits dans le système auditif où les entrées de
      les deux oreilles convergent (Figure 10.5), et bien sûr, les taux de décharge des neurones dans
      les MSO augmentent en réponse à de très brèves différences de temps entre les entrées
      des deux oreilles de chat.

      Les détecteurs ITD forment leurs connexions à partir des entrées provenant des deux
      les oreilles au cours des premiers mois de la vie et le développement de la capacité à utiliser les ITD pour localiser les sons dépend essentiellement de l'expérience avec des sons séparés provenant de différents endroits dans l'espace

      Le deuxième indice de localisation du son est la différence de niveau interaural, ou ILD, dans l'intensité sonore. Les sons sont plus intenses à l'oreille la plus proche de la source sonore, car la tête empêche partiellement l'onde de pression acoustique d'atteindre l'oreille opposée. Les propriétés de l'ILD pertinentes pour la localisation auditive sont similaires à celles de l'ITD :
      -Les sons sont plus intenses à l'oreille la plus proche de la source sonore, et ils sont moins intenses à l'oreille la plus éloignée de la source.
      -L'ILD est le plus grand à 90 et -90 degrés, et il est inexistant à 0 degré (directement devant) et 180 degrés (directement derrière).
      -Entre ces deux extrêmes, l'ILD est en corrélation avec l'angle de la source sonore, mais en raison de la forme irrégulière de la tête, la corrélation est moins précise qu'avec les ITD.

      Bien que la relation générale entre l'ILD et l'angle de la source sonore soit
      presque identique à la relation entre l'ITD et l'angle, il y a une importance
      grande différence entre les deux queues : la tête bloque les sons aigus
      beaucoup plus efficacement que les sons à basse fréquence. C'est parce que le
      les longues longueurs d'onde des sons à basse fréquence " se penchent autour" la tête dans beaucoup
      Wolfe Sensation and Perception 4/e : de la même manière qu'une grande vague océanique s'écrase sur un pilotis près du rivage.

      Si vous examinez un peu les figures 10.4 et 10.6, vous devriez voir un potentiel
      problème avec l'utilisation des ITD et des ILD pour la localisation du son : un ITD de -480 μs provient d'une source sonore située soit à un angle de -60 degrés par rapport à la ligne de visée (à dix heures sur la figure 10.4) soit à un angle de -120 degrés (huit heures). L'ajout d'informations à partir des différences d'intensité ne nous aide pas ici,
      car les ILD pour ces deux angles sont également identiques. Si l'on considère aussi
      une station relais dans le tronc cérébral où les entrées
      10.06
      des deux oreilles contribuent à la détection de la différence de niveau interauriculaire.
      l'élévation d'une source sonore (à quelle distance au-dessus ou au-dessous de notre tête le son
      Groupe de médias Dragonfly
      source est un facteur que nous avons ignoré jusqu'à présent), nous constatons qu'un ITD donné
      ou ILD pourrait provenir de n'importe quel point sur la surface d'un cône de confusion qui s'étend perpendiculairement à partir de l'oreille gauche ou droite.

      N'oubliez pas que les pavillons canalisent l'énergie sonore dans le conduit auditif. En raison de leurs formes complexes, les pavillons canalisent certaines fréquences sonores plus efficacement que d'autres. En plus des pavillons, la taille et la forme du reste du corps, en particulier le haut du torse, affectent les fréquences qui atteignent le plus facilement l'oreille. En raison de ces effets, l'intensité de chaque fréquence varie légèrement selon la direction du son. Cette variation nous fournit un autre indice de localisation auditive.

      Supposons que vous vous trouviez dans une pièce anéchoïque, une pièce dans laquelle les murs sont rembourrés de sorte que très peu de son entre de l'extérieur et que très peu de son rebondisse (réverbère) sur les murs. La pièce est pleine de haut-parleurs à de nombreux endroits, en haut, en bas et tout autour de vous. De minuscules microphones sont insérés à l'intérieur de vos conduits auditifs, juste à côté de vos tympans. Vous pouvez désormais mesurer la quantité d'énergie provenant de différentes fréquences qui atteint réellement vos tympans à partir de différents endroits. La figure 10.10a montre les mesures au tympan dans une configuration expérimentale similaire, dans ce cas pour les sons diffusés sur un haut-parleur à 30 degrés à gauche d'un auditeur et à 12 degrés au-dessus de la tête de l'auditeur. Bien que les quantités d'énergie à toutes les fréquences aient été également intenses en provenance du haut-parleur, vous pouvez voir que les quantités d'énergie n'étaient pas également intenses au niveau du tympan. Certaines fréquences (par exemple, 5000 Hz) avaient une intensité plus élevée lorsqu'elles arrivaient au tympan, d'autres (par exemple, 800 Hz) avaient une intensité moindre.

      L'importance du DTF dans la localisation sonore se comprend aisément si l'on considère la différence entre entendre un concert en direct et écouter de la musique au casque. En personne, nous percevons le son des cors français comme venant d'un côté de l'orchestre et le son des flûtes comme venant de l'autre côté. Mais lorsque nous portons des écouteurs (en particulier du type inséré directement à l'intérieur des conduits auditifs), les sons sont délivrés directement aux tympans, en contournant les pavillons. Les ingénieurs audio peuvent utiliser plusieurs microphones pour simuler les ITD et ILD qui résultent des différents emplacements des musiciens (les Beatles ont été les premiers utilisateurs de ce type de technologie), mais les DTF ne sont pas simulés. En conséquence, vous pourrez peut-être avoir une idée de l'orientation lorsque vous écoutez un concert avec des écouteurs, mais les sons sembleront provenir de l'intérieur de votre crâne plutôt que de l'extérieur du monde. La situation s'apparente à celle de la perception visuelle de la profondeur. Les repères picturaux peuvent donner une impression de profondeur limitée, mais pour obtenir une véritable perception de la tridimensionnalité, nous avons vraiment besoin d'informations de disparité binoculaire que nous n'obtenons normalement que lorsque nous voyons des objets réels.

      En fait, tout comme les stéréoscopes peuvent être conçus pour simuler la disparité binoculaire, il est possible de simuler des DTF. Au lieu d'utiliser deux objectifs de caméra au lieu de deux yeux, deux microphones sont placés près des tympans comme décrit précédemment. Ensuite, la source sonore, comme un concert, est enregistrée à partir de ces deux microphones. Lorsque cet enregistrement stéréo spécial, appelé « enregistrement binaural », est joué au casque, l'auditeur ressent les sons comme s'il était de retour dans le monde auquel il appartient. Malheureusement, cependant, chaque ensemble de pavillons est différent (voir Figure 10.9), donc pour que cette simulation fonctionne, tous les auditeurs ont besoin de leurs propres enregistrements individuels.

      Tout comme les têtes (et leurs ITD et ILD correspondants) deviennent plus grosses, les oreilles grandissent et changent au cours du développement et sont souvent sujettes à des mutilations à des degrés divers (par exemple, des piercings). La recherche suggère que les auditeurs apprennent la manière dont les DTF se rapportent aux lieux de l'environnement grâce à leur vaste expérience d'écoute des sons, tandis que d'autres sources d'informations, telles que la vision, fournissent des informations sur l'emplacement.
      -Cet apprentissage par l'expérience suggère que les enfants peuvent mettre à jour la façon dont ils utilisent les informations DTF au cours du développement, et il semble qu'un tel apprentissage puisse se poursuivre à l'âge adulte.

      Hofman, Van Riswick et Van Opsal (1998) ont inséré des moules en plastique dans les plis des pavillons des adultes. Comme prévu, les auditeurs sont immédiatement devenus beaucoup plus pauvres dans la localisation des sons. Mais après 6 semaines de vie avec ces moisissures dans les oreilles, les capacités de localisation des sujets s'étaient grandement améliorées. De manière assez surprenante, ces auditeurs sont également restés assez bons pour localiser avec leurs "anciennes oreilles" lorsque les moules ont été retirés. Il serait intéressant de savoir à quel point Leonard Nimoy (qui jouait Spock dans la série originale Star Trek) pouvait localiser les sons avec ses embouts d'oreille Vulcan. L'expérience des auditeurs de cette étude suggère que le passage quotidien des pavillons humains et vulcains est peut-être devenu une partie normale de la vie auditive de Nimoy.

      L'indice le plus simple pour juger de la distance d'une source sonore est l'intensité relative du son. Parce que les sons deviennent moins intenses avec une plus grande distance, les auditeurs ont peu de difficulté à percevoir les distances relatives de deux sources sonores identiques.

      Malheureusement, cet indice souffre du même problème que la taille relative dans la perception de la profondeur. Interpréter le signal nécessite de faire des hypothèses sur les sources sonores qui peuvent s'avérer fausses (par exemple, la grenouille au son plus doux pourrait être très proche, avec ses coassements étouffés par la végétation environnante).

      L'efficacité de l'intensité relative diminue rapidement à mesure que la distance augmente, car l'intensité sonore diminue selon la loi de l'inverse des carrés. Lorsque les sources sonores sont proches de l'auditeur, une petite différence de distance peut produire une différence d'intensité relativement importante.
      - Par exemple, un son distant de 1 mètre est plus intense de 6 décibels (dB) qu'un son distant de 2 mètres. Mais la même différence de 1 mètre entre les sources sonores distantes de 39 et 40 mètres produit un changement d'intensité d'une fraction de 1 dB seulement.
      -Comme on peut s'y attendre d'après ces faits, les auditeurs savent assez bien utiliser les différences d'intensité pour déterminer la distance lorsque les sons sont présentés à moins d'un mètre de la tête (Brungart, Durlach et Rabinowitz, 1999), mais les auditeurs ont tendance à sous-estimer systématiquement la distance à laquelle sources sonores plus éloignées, et la quantité de sous-estimation est plus grande pour de plus grandes distances

      L'intensité fonctionne mieux comme repère de distance lorsque la source sonore ou l'auditeur se déplace. Si une grenouille coassant commence à sauter vers vous, vous le saurez car ses coassements deviendront de plus en plus forts. Les auditeurs obtiennent également des informations sur la distance à laquelle se trouve une source lorsqu'ils se déplacent dans l'environnement. En effet, à la manière d'une parallaxe de mouvement dans la perception de la profondeur visuelle, les sons les plus éloignés ne semblent pas changer de direction par rapport à l'auditeur autant que les sons les plus proches.

      Un autre indice possible de la distance auditive est la composition spectrale des sons. Les qualités d'absorption acoustique de l'air atténuent davantage les hautes fréquences que les basses fréquences. Ainsi, lorsque les sources sonores sont éloignées, les fréquences plus élevées diminuent d'énergie plus que les fréquences plus basses, car les ondes sonores se déplacent selon la loi du carré inverse.
      de la source à l'oreille. Ainsi, plus une source sonore est éloignée, plus elle sonne "mudier". Ce changement de composition spectrale n'est perceptible que pour des distances assez grandes, supérieures à 1000 mètres. Vous ressentez le changement de composition spectrale lorsque vous entendez le tonnerre près de votre fenêtre ou de loin.

      Notez que ce repère auditif est analogue au repère visuel de profondeur de la perspective aérienne

      Un dernier indice de distance provient du fait que, dans la plupart des environnements, le son qui arrive à l'oreille est une combinaison d'énergie directe (qui arrive directement de la source) et d'énergie réverbérante (qui a rebondi sur les surfaces de l'environnement).
      -Les quantités relatives d'énergie directe par rapport à l'énergie réverbérante informent l'auditeur de la distance car lorsqu'une source sonore est proche d'un auditeur, la majeure partie de l'énergie atteignant l'oreille est directe, tandis que l'énergie réverbérante fournit une plus grande proportion du total lorsque la source sonore est plus loin. Supposons que vous assistiez à un concert. Les intensités de la chanson du musicien et des commentaires chuchotés de votre voisin peuvent être identiques, mais la voix du chanteur mettra du temps à rebondir sur les murs de la salle de concert avant d'atteindre votre oreille, alors que vous n'entendrez que l'énergie directe des chuchotements de votre voisin


      13 - Rythme et synchronisation en musique

      Ce chapitre donne un aperçu des recherches relatives à la dimension temporelle en musique. Il se concentre principalement sur les phénomènes temporels à petite et moyenne échelle dans la musique, le domaine que l'on appelle communément le rythme, plutôt que sur les propriétés à plus grande échelle de la forme. Le chapitre a adopté une vision du rythme qui le voit comme l'interaction entre le mètre et le groupement. Il existe des descriptions théoriques des conditions de formation des structures de groupement. Le terme timing utilisé dans ce chapitre fait référence à la microstructure temporelle qui est caractéristique des interprétations musicales et est largement considérée comme la conséquence générative de la conception de la structure musicale d'un interprète.La recherche sur le rythme et la synchronisation, est un glissement d'une approche symbolique plutôt abstraite de la perception et de la production vers une perspective qui prend davantage en compte les propriétés des systèmes auditifs et moteurs, et du corps en général, ou fait appel à des principes sous-symboliques. , qui nécessitent moins de règles explicites à intégrer dans les modèles.


      13 - Rythme et synchronisation en musique

      Ce chapitre donne un aperçu des recherches relatives à la dimension temporelle en musique. Il se concentre principalement sur les phénomènes temporels à petite et moyenne échelle dans la musique, le domaine que l'on appelle communément le rythme, plutôt que sur les propriétés à plus grande échelle de la forme. Le chapitre a adopté une vision du rythme qui le voit comme l'interaction entre le mètre et le groupement. Il existe des descriptions théoriques des conditions de formation des structures de groupement. Le terme timing utilisé dans ce chapitre fait référence à la microstructure temporelle qui est caractéristique des interprétations musicales et est largement considérée comme la conséquence générative de la conception de la structure musicale d'un interprète. La recherche sur le rythme et la synchronisation, est un glissement d'une approche symbolique plutôt abstraite de la perception et de la production vers une perspective qui prend davantage en compte les propriétés des systèmes auditifs et moteurs, et du corps en général, ou fait appel à des principes sous-symboliques. , qui nécessitent moins de règles explicites à intégrer dans les modèles.


      Sensation et perception Chapitre 10

      Les recherches qui révèlent ce fonctionnement interne du système auditif utilisent généralement des stimuli très simples dans des situations contraintes - souvent des sons purs isolés entendus au casque par des auditeurs assis dans un laboratoire par ailleurs parfaitement silencieux. Bien que ces méthodes soient inestimables pour comprendre le fonctionnement du système auditif, ce n'est évidemment pas la façon dont nous expérimentons les sons dans notre vie quotidienne. Dans ce chapitre, nous allons « hors de la tête » pour étudier comment l'audition nous aide à découvrir le monde réel.

      Le système auditif utilise une approche similaire pour déterminer l'emplacement dans l'espace d'où provient un son.

      Tout comme avoir deux yeux s'est avéré être l'une des clés pour déterminer les relations de profondeur visuelle, avoir deux oreilles est crucial pour déterminer les emplacements auditifs. Pour la plupart des positions dans l'espace, la source sonore sera plus proche d'une oreille que de l'autre. Ainsi, il existe deux types potentiels d'informations pour déterminer la source d'un son.

      Si la source est à gauche, le son atteindra d'abord l'oreille gauche. S'il est à droite, il atteindra d'abord l'oreille droite.

      Ainsi, nous pouvons dire si un son vient de notre droite ou de notre gauche en déterminant quelle oreille reçoit le son en premier. Le terme utilisé pour décrire les emplacements sur un cercle imaginaire s'étendant autour de nous dans un plan horizontal (avant, arrière, gauche et droite) est l'azimut.

      Les ITD pour les sons provenant de divers angles sont représentés par des cercles colorés. Les cercles rouges indiquent les positions à partir desquelles un son atteindra l'oreille droite avant l'oreille gauche, les cercles bleus indiquent les positions à partir desquelles un son atteindra l'oreille gauche en premier. La taille et la luminosité de chaque cercle représentent la magnitude de l'ITD.

      Au fur et à mesure que l'information circule
      vers le haut à travers le système, cependant, avec chaque synapse supplémentaire le tim-
      entre les deux oreilles risque de devenir moins précis. Le supérieur médial
      olives (MSO) sont les premiers endroits dans le système auditif où les entrées de
      les deux oreilles convergent (Figure 10.5), et bien sûr, les taux de décharge des neurones dans
      les MSO augmentent en réponse à de très brèves différences de temps entre les entrées
      des deux oreilles de chat.

      Les détecteurs ITD forment leurs connexions à partir des entrées provenant des deux
      les oreilles au cours des premiers mois de la vie et le développement de la capacité à utiliser les ITD pour localiser les sons dépend essentiellement de l'expérience avec des sons séparés provenant de différents endroits dans l'espace

      Le deuxième indice de localisation du son est la différence de niveau interaural, ou ILD, dans l'intensité sonore. Les sons sont plus intenses à l'oreille la plus proche de la source sonore, car la tête empêche partiellement l'onde de pression acoustique d'atteindre l'oreille opposée. Les propriétés de l'ILD pertinentes pour la localisation auditive sont similaires à celles de l'ITD :
      -Les sons sont plus intenses à l'oreille la plus proche de la source sonore, et ils sont moins intenses à l'oreille la plus éloignée de la source.
      -L'ILD est le plus grand à 90 et -90 degrés, et il est inexistant à 0 degré (directement devant) et 180 degrés (directement derrière).
      -Entre ces deux extrêmes, l'ILD est en corrélation avec l'angle de la source sonore, mais en raison de la forme irrégulière de la tête, la corrélation est moins précise qu'avec les ITD.

      Bien que la relation générale entre l'ILD et l'angle de la source sonore soit
      presque identique à la relation entre l'ITD et l'angle, il y a une importance
      grande différence entre les deux queues : la tête bloque les sons aigus
      beaucoup plus efficacement que les sons à basse fréquence. C'est parce que le
      les longues longueurs d'onde des sons à basse fréquence " se penchent autour" la tête dans beaucoup
      Wolfe Sensation and Perception 4/e : de la même manière qu'une grande vague océanique s'écrase sur un pilotis près du rivage.

      Si vous examinez un peu les figures 10.4 et 10.6, vous devriez voir un potentiel
      problème avec l'utilisation des ITD et des ILD pour la localisation du son : un ITD de -480 μs provient d'une source sonore située soit à un angle de -60 degrés par rapport à la ligne de visée (à dix heures sur la figure 10.4) soit à un angle de -120 degrés (huit heures). L'ajout d'informations à partir des différences d'intensité ne nous aide pas ici,
      car les ILD pour ces deux angles sont également identiques. Si l'on considère aussi
      une station relais dans le tronc cérébral où les entrées
      10.06
      des deux oreilles contribuent à la détection de la différence de niveau interauriculaire.
      l'élévation d'une source sonore (à quelle distance au-dessus ou au-dessous de notre tête le son
      Groupe de médias Dragonfly
      source est un facteur que nous avons ignoré jusqu'à présent), nous constatons qu'un ITD donné
      ou ILD pourrait provenir de n'importe quel point sur la surface d'un cône de confusion qui s'étend perpendiculairement à partir de l'oreille gauche ou droite.

      N'oubliez pas que les pavillons canalisent l'énergie sonore dans le conduit auditif. En raison de leurs formes complexes, les pavillons canalisent certaines fréquences sonores plus efficacement que d'autres. En plus des pavillons, la taille et la forme du reste du corps, en particulier le haut du torse, affectent les fréquences qui atteignent le plus facilement l'oreille. En raison de ces effets, l'intensité de chaque fréquence varie légèrement selon la direction du son. Cette variation nous fournit un autre indice de localisation auditive.

      Supposons que vous vous trouviez dans une pièce anéchoïque, une pièce dans laquelle les murs sont rembourrés de sorte que très peu de son entre de l'extérieur et que très peu de son rebondisse (réverbère) sur les murs. La pièce est pleine de haut-parleurs à de nombreux endroits, en haut, en bas et tout autour de vous. De minuscules microphones sont insérés à l'intérieur de vos conduits auditifs, juste à côté de vos tympans. Vous pouvez désormais mesurer la quantité d'énergie provenant de différentes fréquences qui atteint réellement vos tympans à partir de différents endroits. La figure 10.10a montre les mesures au tympan dans une configuration expérimentale similaire, dans ce cas pour les sons diffusés sur un haut-parleur à 30 degrés à gauche d'un auditeur et à 12 degrés au-dessus de la tête de l'auditeur. Bien que les quantités d'énergie à toutes les fréquences aient été également intenses en provenance du haut-parleur, vous pouvez voir que les quantités d'énergie n'étaient pas également intenses au niveau du tympan. Certaines fréquences (par exemple, 5000 Hz) avaient une intensité plus élevée lorsqu'elles arrivaient au tympan, d'autres (par exemple, 800 Hz) avaient une intensité moindre.

      L'importance du DTF dans la localisation sonore se comprend aisément si l'on considère la différence entre entendre un concert en direct et écouter de la musique au casque. En personne, nous percevons le son des cors français comme venant d'un côté de l'orchestre et le son des flûtes comme venant de l'autre côté. Mais lorsque nous portons des écouteurs (en particulier du type inséré directement à l'intérieur des conduits auditifs), les sons sont délivrés directement aux tympans, en contournant les pavillons. Les ingénieurs audio peuvent utiliser plusieurs microphones pour simuler les ITD et ILD qui résultent des différents emplacements des musiciens (les Beatles ont été les premiers utilisateurs de ce type de technologie), mais les DTF ne sont pas simulés. En conséquence, vous pourrez peut-être avoir une idée de l'orientation lorsque vous écoutez un concert avec des écouteurs, mais les sons sembleront provenir de l'intérieur de votre crâne plutôt que de l'extérieur du monde. La situation s'apparente à celle de la perception visuelle de la profondeur. Les repères picturaux peuvent donner une impression de profondeur limitée, mais pour obtenir une véritable perception de la tridimensionnalité, nous avons vraiment besoin d'informations de disparité binoculaire que nous n'obtenons normalement que lorsque nous voyons des objets réels.

      En fait, tout comme les stéréoscopes peuvent être conçus pour simuler la disparité binoculaire, il est possible de simuler des DTF. Au lieu d'utiliser deux objectifs de caméra au lieu de deux yeux, deux microphones sont placés près des tympans comme décrit précédemment. Ensuite, la source sonore, comme un concert, est enregistrée à partir de ces deux microphones. Lorsque cet enregistrement stéréo spécial, appelé « enregistrement binaural », est joué au casque, l'auditeur ressent les sons comme s'il était de retour dans le monde auquel il appartient. Malheureusement, cependant, chaque ensemble de pavillons est différent (voir Figure 10.9), donc pour que cette simulation fonctionne, tous les auditeurs ont besoin de leurs propres enregistrements individuels.

      Tout comme les têtes (et leurs ITD et ILD correspondants) deviennent plus grosses, les oreilles grandissent et changent au cours du développement et sont souvent sujettes à des mutilations à des degrés divers (par exemple, des piercings). La recherche suggère que les auditeurs apprennent la manière dont les DTF se rapportent aux lieux de l'environnement grâce à leur vaste expérience d'écoute des sons, tandis que d'autres sources d'informations, telles que la vision, fournissent des informations sur l'emplacement.
      -Cet apprentissage par l'expérience suggère que les enfants peuvent mettre à jour la façon dont ils utilisent les informations DTF au cours du développement, et il semble qu'un tel apprentissage puisse se poursuivre à l'âge adulte.

      Hofman, Van Riswick et Van Opsal (1998) ont inséré des moules en plastique dans les plis des pavillons des adultes. Comme prévu, les auditeurs sont immédiatement devenus beaucoup plus pauvres dans la localisation des sons. Mais après 6 semaines de vie avec ces moisissures dans les oreilles, les capacités de localisation des sujets s'étaient grandement améliorées. De manière assez surprenante, ces auditeurs sont également restés assez bons pour localiser avec leurs "anciennes oreilles" lorsque les moules ont été retirés. Il serait intéressant de savoir à quel point Leonard Nimoy (qui jouait Spock dans la série originale Star Trek) pouvait localiser les sons avec ses embouts d'oreille Vulcan. L'expérience des auditeurs de cette étude suggère que le passage quotidien des pavillons humains et vulcains est peut-être devenu une partie normale de la vie auditive de Nimoy.

      L'indice le plus simple pour juger de la distance d'une source sonore est l'intensité relative du son. Parce que les sons deviennent moins intenses avec une plus grande distance, les auditeurs ont peu de difficulté à percevoir les distances relatives de deux sources sonores identiques.

      Malheureusement, cet indice souffre du même problème que la taille relative dans la perception de la profondeur. Interpréter le signal nécessite de faire des hypothèses sur les sources sonores qui peuvent s'avérer fausses (par exemple, la grenouille au son plus doux pourrait être très proche, avec ses coassements étouffés par la végétation environnante).

      L'efficacité de l'intensité relative diminue rapidement à mesure que la distance augmente, car l'intensité sonore diminue selon la loi de l'inverse des carrés. Lorsque les sources sonores sont proches de l'auditeur, une petite différence de distance peut produire une différence d'intensité relativement importante.
      - Par exemple, un son distant de 1 mètre est plus intense de 6 décibels (dB) qu'un son distant de 2 mètres. Mais la même différence de 1 mètre entre les sources sonores distantes de 39 et 40 mètres produit un changement d'intensité d'une fraction de 1 dB seulement.
      -Comme on peut s'y attendre d'après ces faits, les auditeurs savent assez bien utiliser les différences d'intensité pour déterminer la distance lorsque les sons sont présentés à moins d'un mètre de la tête (Brungart, Durlach et Rabinowitz, 1999), mais les auditeurs ont tendance à sous-estimer systématiquement la distance à laquelle sources sonores plus éloignées, et la quantité de sous-estimation est plus grande pour de plus grandes distances

      L'intensité fonctionne mieux comme repère de distance lorsque la source sonore ou l'auditeur se déplace. Si une grenouille coassant commence à sauter vers vous, vous le saurez car ses coassements deviendront de plus en plus forts. Les auditeurs obtiennent également des informations sur la distance à laquelle se trouve une source lorsqu'ils se déplacent dans l'environnement. En effet, à la manière d'une parallaxe de mouvement dans la perception de la profondeur visuelle, les sons les plus éloignés ne semblent pas changer de direction par rapport à l'auditeur autant que les sons les plus proches.

      Un autre indice possible de la distance auditive est la composition spectrale des sons. Les qualités d'absorption acoustique de l'air atténuent davantage les hautes fréquences que les basses fréquences. Ainsi, lorsque les sources sonores sont éloignées, les fréquences plus élevées diminuent d'énergie plus que les fréquences plus basses, car les ondes sonores se déplacent selon la loi du carré inverse.
      de la source à l'oreille. Ainsi, plus une source sonore est éloignée, plus elle sonne "mudier". Ce changement de composition spectrale n'est perceptible que pour des distances assez grandes, supérieures à 1000 mètres. Vous ressentez le changement de composition spectrale lorsque vous entendez le tonnerre près de votre fenêtre ou de loin.

      Notez que ce repère auditif est analogue au repère visuel de profondeur de la perspective aérienne

      Un dernier indice de distance provient du fait que, dans la plupart des environnements, le son qui arrive à l'oreille est une combinaison d'énergie directe (qui arrive directement de la source) et d'énergie réverbérante (qui a rebondi sur les surfaces de l'environnement).
      -Les quantités relatives d'énergie directe par rapport à l'énergie réverbérante informent l'auditeur de la distance car lorsqu'une source sonore est proche d'un auditeur, la majeure partie de l'énergie atteignant l'oreille est directe, tandis que l'énergie réverbérante fournit une plus grande proportion du total lorsque la source sonore est plus loin. Supposons que vous assistiez à un concert. Les intensités de la chanson du musicien et des commentaires chuchotés de votre voisin peuvent être identiques, mais la voix du chanteur mettra du temps à rebondir sur les murs de la salle de concert avant d'atteindre votre oreille, alors que vous n'entendrez que l'énergie directe des chuchotements de votre voisin


      DIVULGATION DE L'INVENTION

      L'invention concerne un procédé qui génère une caractérisation d'informations réduites unique d'un signal audio qui peut être utilisée pour identifier le signal audio. La caractérisation peut être considérée comme une « signature » ou une « empreinte digitale » du signal audio. Selon la présente invention, une analyse de scène auditive (ASA) est effectuée pour identifier des événements auditifs en tant que base pour caractériser un signal audio. Idéalement, l'analyse de la scène auditive identifie les événements auditifs les plus susceptibles d'être perçus par un auditeur humain même après que l'audio a subi un traitement, comme un codage à faible débit ou une transmission acoustique via un haut-parleur. Le signal audio peut être caractérisé par les emplacements limites d'événements auditifs et, facultativement, par la sous-bande de fréquence dominante de chaque événement auditif. Le motif d'informations résultant constitue une empreinte ou une signature audio compacte qui peut être comparée à une ou plusieurs autres empreintes ou signatures audio. Une détermination qu'au moins une partie des signatures respectives sont les mêmes (à un degré de confiance souhaité) indique que les parties liées des signaux audio à partir desquels les signatures respectives ont été dérivées sont les mêmes ou ont été dérivées du même signal audio.

      Le procédé d'analyse de scène auditive selon la présente invention fournit un procédé rapide et précis de comparaison de deux signaux audio, en particulier de musique, en comparant des signatures sur la base d'informations d'événement auditif. L'ASA extrait des informations ou des caractéristiques sous-jacentes à la perception de similitude, contrairement aux méthodes traditionnelles d'extraction de caractéristiques qui extraient des caractéristiques moins fondamentales pour percevoir les similitudes entre les signaux audio (telles que l'amplitude de hauteur, la puissance et la structure harmonique). L'utilisation de l'ASA améliore les chances de trouver une similitude dans un matériau ayant subi un traitement important, tel qu'un codage à faible débit ou une transmission acoustique via un haut-parleur.

      Bien qu'en principe l'invention puisse être mise en pratique dans le domaine analogique ou numérique (ou une combinaison des deux), dans des modes de réalisation pratiques de l'invention, les signaux audio sont représentés par des échantillons dans des blocs de données et le traitement est effectué dans le domaine numérique.

      En se référant à la Fig. 1A, analyse de scènes auditives 2 est appliqué à un signal audio afin de produire une « signature » ​​ou une « empreinte digitale » liée à ce signal. Dans ce cas, il y a deux signaux audio intéressants. Ils peuvent être similaires en ce sens que l'un peut être dérivé de l'autre ou que les deux peuvent avoir été précédemment dérivés du même signal d'origine, mais cela n'est pas connu à l'avance. Ainsi, l'analyse de la scène auditive est appliquée aux deux signaux. Pour simplifier, la Fig. 1A montre uniquement l'application de l'ASA à un signal. Comme le montre la Fig. 1B, les signatures des deux signaux audio, Signature 1 et signature 2, sont appliqués à une fonction de correction ou de corrélation 4 qui génère un score de corrélation. Un utilisateur peut définir un score de corrélation minimum comme fournissant un degré de confiance souhaité qu'au moins une partie des deux signatures sont identiques. En pratique, les deux signatures peuvent être des données stockées. Dans une application pratique, l'une des signatures peut être dérivée, par exemple, d'une copie non autorisée d'une œuvre musicale et l'autre signature peut être l'une d'un grand nombre de signatures dans une base de données (chaque signature étant dérivée d'un travail) contre laquelle la signature de copie non autorisée est comparée jusqu'à ce qu'une correspondance, à un degré de confiance souhaité, le cas échéant, soit obtenue. Ceci peut être effectué automatiquement par une machine, dont les détails sortent du cadre de la présente invention.

      Étant donné que les signatures sont représentatives des signaux audio mais sont sensiblement plus courtes (c'est-à-dire qu'elles sont plus compactes ou ont moins de bits) que les signaux audio dont elles sont dérivées, la similitude des deux signatures (ou leur absence) peut être déterminée beaucoup plus rapide qu'il n'en faudrait pour déterminer la similitude entre les signaux audio.

      D'autres détails des Fig. 1A et 1B sont indiqués ci-dessous.

      Conformément à des aspects de la présente invention, un processus efficace en termes de calcul pour diviser l'audio en segments temporels ou « événements auditifs » qui ont tendance à être perçus comme séparés est fourni.

      On pense qu'un indicateur puissant du début ou de la fin d'un événement auditif perçu est un changement de contenu spectral. Afin de détecter des changements de timbre et de hauteur (contenu spectral) et, comme résultat accessoire, certains changements d'amplitude, le processus de détection d'événement audio selon un aspect de la présente invention détecte des changements de composition spectrale par rapport au temps.Facultativement, selon un autre aspect de la présente invention, le processus peut également détecter des changements d'amplitude par rapport au temps qui ne seraient pas détectés en détectant des changements de composition spectrale par rapport au temps.

      Dans sa mise en œuvre la moins exigeante en termes de calcul, le processus divise l'audio en segments temporels en analysant toute la bande de fréquence du signal audio (audio à pleine bande passante) ou sensiblement toute la bande de fréquence (dans les mises en œuvre pratiques, le filtrage de limitation de bande aux extrémités du spectre est souvent utilisé) et accordant le plus grand poids aux composants de signal audio les plus forts. Cette approche tire parti d'un phénomène psychoacoustique dans lequel, à des échelles de temps plus petites (20 ms et moins), l'oreille peut avoir tendance à se concentrer sur un seul événement auditif à un moment donné. Cela implique que même si plusieurs événements peuvent se produire en même temps, un composant a tendance à être le plus important sur le plan de la perception et peut être traité individuellement comme s'il s'agissait du seul événement qui se produisait. Tirer parti de cet effet permet également à la détection d'événements auditifs de s'adapter à la complexité de l'audio en cours de traitement. Par exemple, si le signal audio d'entrée en cours de traitement est un instrument solo, les événements audio identifiés seront probablement les notes individuelles jouées. De même pour un signal vocal d'entrée, les composants individuels de la parole, les voyelles et les consonnes par exemple, seront probablement identifiés comme des éléments audio individuels. Au fur et à mesure que la complexité de l'audio augmente, comme la musique avec un battement de tambour ou plusieurs instruments et voix, la détection d'événement auditif identifie l'élément audio le plus important (c'est-à-dire le plus fort) à un moment donné. Alternativement, l'élément audio « le plus important » peut être déterminé en tenant compte du seuil d'audition et de la réponse en fréquence.

      Facultativement, selon d'autres aspects de la présente invention, au détriment d'une plus grande complexité de calcul, le processus peut également prendre en considération des changements dans la composition spectrale par rapport au temps dans des bandes de fréquences discrètes (fixes ou déterminées dynamiquement ou à la fois des bandes fixes et déterminées dynamiquement ) plutôt que la bande passante complète. Cette approche alternative prendrait en compte plus d'un flux audio dans différentes bandes de fréquences plutôt que de supposer qu'un seul flux est perceptible à un moment donné.

      Même un processus simple et efficace du point de vue informatique selon un aspect de la présente invention pour segmenter l'audio s'est avéré utile pour identifier des événements auditifs.

      Un processus de détection d'événement auditif de la présente invention peut être mis en œuvre en divisant une forme d'onde audio du domaine temporel en intervalles de temps ou en blocs, puis en convertissant les données de chaque bloc dans le domaine fréquentiel, en utilisant soit un banc de filtres soit une transformation temps-fréquence, telle en tant que transformée de Fourier discrète (DFT) (implémentée en tant que transformée de Fourier rapide (FFT) pour la vitesse). L'amplitude du contenu spectral de chaque bloc peut être normalisée afin d'éliminer ou de réduire l'effet des changements d'amplitude. La représentation du domaine fréquentiel qui en résulte fournit une indication du contenu spectral (amplitude en fonction de la fréquence) de l'audio dans le bloc particulier. Le contenu spectral de blocs successifs est comparé et un changement supérieur à un seuil peut être pris pour indiquer le début temporel ou la fin temporelle d'un événement auditif.

      Afin de minimiser la complexité de calcul, une seule bande de fréquences de la forme d'onde audio dans le domaine temporel peut être traitée, de préférence soit la totalité de la bande de fréquences du spectre (qui peut être d'environ 50 Hz à 15 kHz dans le cas d'une qualité moyenne système musical) ou pratiquement toute la bande de fréquences (par exemple, un filtre de définition de bande peut exclure les extrêmes de haute et basse fréquence).

      De préférence, les données du domaine fréquentiel sont normalisées, comme cela est décrit ci-dessous. Le degré auquel les données du domaine fréquentiel doivent être normalisées donne une indication de l'amplitude. Par conséquent, si un changement de ce degré dépasse un seuil prédéterminé, cela peut également être considéré comme indiquant une limite d'événement. Les points de début et de fin d'événement résultant de changements spectraux et de changements d'amplitude peuvent être combinés par OU de sorte que les limites d'événement résultant des deux types de changement soient identifiées.

      Dans des modes de réalisation pratiques dans lesquels l'audio est représenté par des échantillons divisés en blocs, chaque limite temporelle de point de départ et d'arrêt d'événement auditif coïncide nécessairement avec une limite du bloc dans lequel la forme d'onde audio du domaine temporel est divisée. Il existe un compromis entre les exigences de traitement en temps réel (car les blocs plus volumineux nécessitent moins de temps système) et la résolution de l'emplacement de l'événement (des blocs plus petits fournissent des informations plus détaillées sur l'emplacement des événements auditifs).

      Comme option supplémentaire, comme suggéré ci-dessus, mais au détriment d'une plus grande complexité de calcul, au lieu de traiter le contenu spectral de la forme d'onde du domaine temporel dans une seule bande de fréquences, le spectre de la forme d'onde du domaine temporel avant la conversion du domaine fréquentiel peut être divisé en deux ou plusieurs bandes de fréquences. Chacune des bandes de fréquences peut ensuite être convertie dans le domaine fréquentiel et traitée comme s'il s'agissait d'un canal indépendant. Les limites d'événement résultantes peuvent ensuite être combinées par OU pour définir les limites d'événement pour ce canal. Les bandes de fréquences multiples peuvent être fixes, adaptatives ou une combinaison de fixes et adaptatives. Les techniques de filtrage de suivi utilisées dans la réduction du bruit audio et d'autres arts, par exemple, peuvent être utilisées pour définir des bandes de fréquences adaptatives (par exemple, des ondes sinusoïdales simultanées dominantes à 800 Hz et 2 kHz pourraient entraîner deux bandes déterminées de manière adaptative centrées sur ces deux fréquences) .

      D'autres techniques pour fournir une analyse de scène auditive peuvent être utilisées pour identifier des événements auditifs dans la présente invention.


      Comment la hauteur et le motif d'un signal affectent-ils les seuils d'éveil auditif ?

      La façon dont les seuils d'éveil varient en fonction des différents sons est un problème critique pour les réveils d'urgence, d'autant plus que les dormeurs meurent dans les incendies malgré le fonctionnement d'un détecteur de fumée. Des recherches antérieures ont montré que le signal d'alarme de fumée aigu (3000+ Hz) actuel est nettement moins efficace qu'un signal alternatif, l'onde carrée de 520 Hz, dans toutes les populations testées. Cependant, comme le nombre de sons testés est faible, des recherches supplémentaires sont nécessaires. Ici, nous avons mesuré les seuils d'éveil auditif (AAT) à travers des signaux avec une gamme de caractéristiques pour déterminer le signal de réveil le plus efficace. Trente-neuf jeunes adultes ont participé pendant trois nuits. Dans la partie A, neuf signaux ont été présentés au stade 4 du sommeil avec des niveaux de décibels croissants. Les signaux étaient des bips courts dans la gamme des fréquences basses à moyennes avec différentes complexités spectrales : ondes carrées, tons purs, whoops et bruit blanc. La partie B a manipulé des modèles temporels, en insérant des silences de 0, 10 et 21 s après chaque 12 s de bips. Il a été constaté que les ondes carrées à basse fréquence (400 et 520 Hz) produisaient des AAT significativement plus faibles que les alternatives. Une tendance a été trouvée à travers les trois manipulations temporelles, avec un silence intermédiaire de 10 s montrant un certain avantage. Ces résultats soutiennent des recherches antérieures indiquant que le meilleur son pour se réveiller du sommeil profond est une onde carrée à basse fréquence. Il est avancé que le signal avec le seuil de réponse le plus bas lorsqu'il est éveillé peut être le même que le signal le plus excitant lorsqu'il est endormi, en particulier lorsque le dormeur considère le signal comme significatif.


      RÉSULTATS

      Type de connexions entre les régions médiale, moyenne et latérale de l'HG

      Les parties médiale et médiane de HG sont réciproquement reliées par des connexions latérales et se situent à un niveau de hiérarchie similaire.

      La partie latérale de l'HG se situe à un niveau plus élevé de la hiérarchie auditive que les parties médiale et médiane.

      Probabilité postérieure des familles de modèles, où chaque famille (ou partition de l'espace modèle) a été définie en fonction du type de connexion pour chaque connexion. La probabilité a posteriori a été calculée en utilisant une analyse à effets fixes sur trois conditions (8, 16 et 32 ​​itérations) et deux sujets.

      Probabilité postérieure des familles de modèles, où chaque famille (ou partition de l'espace modèle) a été définie en fonction du type de connexion pour chaque connexion. La probabilité a posteriori a été calculée en utilisant une analyse à effets fixes sur trois conditions (8, 16 et 32 ​​itérations) et deux sujets.

      Types de connexion les plus probables entre les parties médiale, médiane et latérale de l'HG.

      Types de connexion les plus probables entre les parties médiale, médiane et latérale de l'HG.

      Modulation de la connectivité par régularité temporelle

      Après avoir établi les types de connexion, nous avons ensuite étudié comment ces connexions étaient modulées par la régularité temporelle du RIN. Les réponses liées à l'événement au RIN avec 0, 8, 16 et 32 ​​itérations de l'HG médial, moyen et latéral ont été analysées ensemble dans un seul DCM. Cela impliquait d'optimiser des paramètres supplémentaires qui contrôlaient la façon dont la force du pitch (nombre d'itérations RIN) modulait la force des connexions de manière monotone, sur les quatre ERP (comme dans Garrido et al., 2008). Nous avons construit 64 variantes du modèle illustré à la figure 3. Ces modèles étaient basés sur toutes les combinaisons possibles de la façon dont la force du pas pouvait moduler les connexions extrinsèques entre les trois zones. Les probabilités postérieures pour chacun de ces 64 modèles pour les deux sujets R154 et L156 sont représentées respectivement sur les figures 4A et B. Pour le sujet R154, il existe deux modèles comparables plausibles (64 et 48) qui ont des probabilités postérieures de 0,52 et 0,37, respectivement. Pour le sujet L156, le meilleur modèle (modèle 60) a une probabilité postérieure de 0,78 et le deuxième meilleur modèle (modèle 44) a une probabilité postérieure de 0,20. Les meilleurs modèles (64 et 48 pour le sujet R154 et 60 et 44 pour le sujet L156) pour les deux sujets sont illustrés à la figure 5. Les triangles rouges et verts indiquent les connexions qui sont modulées par la force du pas. Ces résultats montrent que dans le sujet R154 (Figure 5A), les deux modèles gagnants ont une structure très similaire : Dans le modèle 64 (probabilité postérieure = .52), toutes les connexions sont modulées, alors que dans le modèle 48 (probabilité postérieure = .37) , tous sauf la connexion médiane à médiane sont modulés par la régularité temporelle. Dans le sujet L156 (Figure 5B), le meilleur modèle (modèle 60, probabilité postérieure = 0,78) nécessite une modulation de toutes les connexions à l'exception de latéral à milieu alors que dans le deuxième meilleur modèle (modèle 44, probabilité postérieure = 0,2), en plus de la connexion dans le meilleur modèle, la connexion du milieu vers le milieu n'est pas non plus modulée.

      Probabilités postérieures de 64 modèles de type modulation pour le sujet R154 (A) et pour le sujet L156 (B).

      Probabilités postérieures de 64 modèles de type modulation pour le sujet R154 (A) et pour le sujet L156 (B).

      Structure des meilleurs modèles pour le sujet R154 (A) et pour le sujet L156 (B).

      Structure des meilleurs modèles pour le sujet R154 (A) et pour le sujet L156 (B).

      Pour le sujet R154, toutes les connexions présentent des modèles très similaires de modulation d'intensité de hauteur, à l'exception de la connexion de la région médiane à la région médiane, qui est modulée dans un modèle (modèle 64) mais pas dans l'autre (modèle 48).

      Pour le sujet L156, le schéma de connectivité est à nouveau très similaire sauf dans la région médiane à médiane, qui est modulée dans le meilleur modèle (modèle 60) mais pas dans le deuxième meilleur modèle (modèle 44).

      Les connexions en arrière de l'HG latéral (à la fois vers l'HG médiane et médiane chez le sujet R154 et vers l'HG médiale uniquement chez le sujet L156) augmentent avec la régularité temporelle. Chez les deux sujets, il y a presque un doublement de la force de connexion avec une régularité temporelle croissante.

      Les connexions directes de l'HG médial et moyen diminuent avec la régularité temporelle.

      Les forces de connexion latérales (de médiale à médiane et médiane à médiale) augmentent avec la régularité temporelle. Cependant, la connexion médiane à moyenne change beaucoup plus que la connexion réciproque.

      Modulation de connectivité avec régularité temporelle pour le sujet R154 (A) et pour le sujet L156 (B).

      Modulation de connectivité avec régularité temporelle pour le sujet R154 (A) et pour le sujet L156 (B).


      Introduction

      Nous sommes constamment bombardés par une myriade de signaux sensoriels et sommes chargés de les trier pour obtenir des informations utiles sur notre environnement. Les signaux véhiculés par nos systèmes sensoriels interagissent dans le temps et dans l'espace, affectant non seulement quand et où nous percevons des événements significatifs, mais même l'identité et le contenu de ces événements. Des exemples familiers de telles interactions perceptives incluent l'illusion de ventriloquie (dans laquelle la visualisation d'un objet biaise l'emplacement perçu d'une source sonore distincte Thomas, 1941) et l'effet McGurk (dans lequel la vision des mouvements des lèvres biaise la perception des sons de parole entendus simultanément McGurk et MacDonald , 1976). Un objectif majeur des neurosciences perceptives est de comprendre comment les signaux de différentes modalités sensorielles sont combinés pour produire des expériences perceptives stables et cohérentes.

      Les interactions multisensorielles sont complexes et variées, et la mise en place de mécanismes neuronaux multisensoriels peut dépendre de nombreux facteurs. Parce que nous percevons rarement le monde à travers une seule modalité, nous développons des représentations qui sont liées à travers nos sens, les forces de ces liens reflètent l'histoire de nos expériences multisensorielles. Par exemple, les objets que nous palpons doivent être à proximité de notre corps. En conséquence, nous pouvons généralement entendre les sons générés lors de nos interactions haptiques avec les objets. De telles expériences sensorielles corrélées, accumulées au cours d'une vie de co-stimulation, peuvent modeler les mécanismes neuronaux sous-jacents aux interactions audio-tactiles dans la détection d'événements simples (Gescheider et Niblette, 1967 Ro et al., 2009 Tajadura-Jimenez et al., 2009 Wilson et al., 2009 Occelli et al., 2010 Wilson et al., 2010b) et le comptage des événements (Hotting et Roder, 2004 Bresciani et al., 2005 Bresciani et Ernst, 2007).

      Les représentations neuronales partagées peuvent également être très spécifiques. Parce que nous pouvons ressentir simultanément des oscillations environnementales par l'audition et le toucher (transduites par des récepteurs dans la membrane basilaire et dans la peau, respectivement), nous avons précédemment pensé que les deux systèmes sensoriels pourraient interagir dans l'analyse spectrale des vibrations. Nous avons testé cela et constaté que les tonalités auditives et les stimuli sonores influencent en effet systématiquement la perception de la fréquence tactile (Yau et al., 2009b), bien que les tonalités n'affectent pas les jugements d'intensité tactile. Ces représentations fréquentielles audio-tactiles liées peuvent sous-tendre notre capacité à percevoir des textures (Lederman, 1979 Jousmaki et Hari, 1998 Guest et al., 2002 Yau et al., 2009a), à apprécier la musique (Musacchia et Schroeder, 2009 Soto-Faraco et Deco, 2009), et même pour comprendre la parole (Gick et Derrick, 2009).

      Dans la présente étude, nous avons testé l'hypothèse selon laquelle les interactions perceptives audio-tactiles sont de nature réciproque en examinant comment les distracteurs tactiles affectent l'analyse du tonus auditif. Nous avons mesuré la capacité des participants à discriminer la fréquence ou l'intensité des stimuli auditifs à tonalité pure en présence ou en l'absence de vibrations tactiles simultanées. Nous avons en outre caractérisé la sensibilité de ces effets au timing relatif entre les tonalités auditives et les distracteurs tactiles. Les résultats rapportés ici, combinés à nos découvertes précédentes (Yau et al., 2009b), fournissent une vue complète des interactions audio-tactiles dans la perception de la hauteur et de l'intensité sonore.


      Fonction du cortex auditif

      Classiquement, deux régions fonctionnelles principales ont été décrites dans le cortex auditif :

      1. Cortex auditif primaire (IA), composé de neurones impliqués dans le décodage de la représentation spatiale cochléotopique et tonotopique d'un stimulus.
      2. Cortex auditif secondaire (AII), qui n'a pas d'organisation tonotopique claire mais a un rôle important dans la localisation sonore et l'analyse de sons complexes : en particulier pour des vocalisations animales spécifiques et le langage humain. Il a également un rôle dans la mémoire auditive.
      3. La région de la ceinture, entourant l'IA et l'AII, ce qui aide à intégrer l'audition avec d'autres systèmes sensoriels.

      Lorsqu'ils sont éveillés, les humains, comme les autres animaux, sont capables de percevoir les petites variations temporelles de sons complexes. Ces variations sont essentielles à la compréhension de la parole humaine. Un certain nombre d'études portant sur l'IA ont identifié que chez les primates éveillés, deux populations distinctes de neurones synchrones et asynchrones (respectivement) codent différemment les stimuli séquentiels.

      Les neurones synchrones analysent les changements temporels lents. Ils répondent précisément aux stimulations à faible fréquence (A1), mais sont incapables de maintenir leur activité si le nombre de stimuli augmente. Les changements rapides de fréquence sont perçus par ces neurones comme un son continu. Ils sont impliqués à la fois dans l'analyse de fréquence et d'intensité.
      Les neurones asynchrones analysent les changements temporels rapides (de nombreux stimuli). Ils peuvent déterminer des variations de courte durée et distinguer avec précision un stimulus du suivant.

      La division fonctionnelle du cortex auditif permet de décoder avec une extrême précision les variations temporelles d'un stimulus par rapport aux autres centres de la voie auditive. Il permet d'obtenir plus d'informations sur les sons complexes, ainsi que sur l'emplacement d'une source sonore et son mouvement.

      Neurones synchrones et asynchrones

      • Les neurones synchrones répondent toujours à chaque stimulus (clic) lorsque les trains de stimulus ont des intervalles supérieurs à 20 ms (A1). Au fur et à mesure que l'intervalle intertrain diminue (c'est-à-dire que le taux de répétition s'accélère), ces neurones commencent à désynchroniser leur taux de décharge. Lorsque l'intervalle interstimulus tombe en dessous de 10 ms (B1), ces neurones ne se déclenchent qu'au début et à la fin du stimulus (réponses de début et de fin, respectivement).
      • Les neurones asynchrones ne répondent pas de manière synchrone aux stimuli (A2 et B2), mais leur activité augmente progressivement jusqu'à un taux de décharge très élevé (B2).

      Types de traitement

      Différents aspects des sons environnementaux (par exemple, l'atténuation : l'intensité du son selon la fréquence spatiale et la sensibilité de la combinaison) sont traités dans chacune des zones auditives centrales. La plupart des noyaux auditifs du cerveau sont arrangés de manière tonotopique. De cette façon, les signaux auditifs ascendants vers le cortex peuvent préserver les informations de fréquence de l'environnement 11).

      L'atténuation (l'intensité d'un son) est traitée dans le système auditif par des neurones qui déclenchent des potentiels d'action à différentes vitesses en fonction de l'intensité sonore. La plupart des neurones réagissent en augmentant leur taux de décharge en réponse à une atténuation accrue. Les neurones plus spécialisés répondent au maximum aux sons environnementaux dans des plages d'intensité spécifiques 12) .

      Le cerveau traite l'emplacement d'un son dans l'espace en comparant les différences d'atténuation et de synchronisation des entrées des deux oreilles au sein du complexe olivaire supérieur. Si un son est directement médian (c'est-à-dire à l'avant ou à l'arrière de la tête), il atteindra les deux oreilles en même temps. S'il se trouve à droite ou à gauche de la ligne médiane, un délai temporel se produit entre les entrées des deux oreilles.Au sein du complexe olivaire supérieur, les neurones spécialisés reçoivent des informations des deux oreilles et peuvent coder pour ce délai temporel (c'est-à-dire le traitement binaural) 13) .

      Les neurones sensibles à la combinaison sont un autre sous-ensemble de neurones du système auditif qui ont des réponses améliorées ou inhibées spécifiquement à 2 sons ou plus avec un retard temporel spécifique. Les neurones sensibles à la combinaison sont situés dans le colliculus inférieur, le lemnisque latéral, le genouillé médial et le cortex auditif 14) . Étant donné que la plupart des sons de l'environnement ne sont pas des sons purs, ces types de neurones sensibles aux combinaisons sont censés faciliter l'amélioration du traitement des combinaisons de sons qui peuvent être importantes pour l'individu (par exemple, la parole, les sons de communication) 15).

      Circuits descendants

      On pensait autrefois que le traitement auditif était un simple relais des signaux environnementaux jusqu'au cortex. Les scientifiques savent maintenant qu'il existe un important système descendant de circuits dans le système auditif qui aide à moduler le traitement auditif à tous les niveaux. Le cortex auditif a des projections directes bilatérales vers le colliculus inférieur, le complexe olivaire supérieur et le noyau cochléaire 16) . Ces circuits contactent les neurones de ces noyaux qui se projettent à tous les niveaux du système auditif central et à la cochlée (pour moduler les cellules ciliées externes) au sein du système auditif périphérique. Les connexions entre les fibres descendantes, ascendantes et croisées rendent le système auditif hautement interconnecté. Ces circuits descendants aident à moduler l'attention auditive en fonction de la pertinence, de l'attention, des comportements appris et de l'état émotionnel d'un individu. Ces fonctions d'ordre supérieur proviennent de nombreuses régions du cerveau (par exemple, le cortex préfrontal, l'hippocampe, le noyau basal de Meynert et les circuits limbiques) qui ont des connexions directes et indirectes entre elles et le cortex auditif 17).

      Fonction primaire du cortex auditif

      Dans l'IA, les neurones sont sélectifs pour des fréquences particulières et sont disposés en bandes d'isofréquences organisées de manière tonotopique. La distribution spatiale précise des bandes d'isofréquences est liée à l'organisation des récepteurs auditifs. Leur activité dépend des caractéristiques du stimulus : fréquence, intensité et position de la source sonore dans l'espace. Fonctionnellement, cette région est fortement influencée par l'état de veille du sujet. Un certain nombre de neurones très spécifiques de l'IA sont également impliqués dans l'analyse de sons complexes.

      De nouvelles techniques d'étude du cortex cérébral (imagerie par résonance magnétique fonctionnelle : IRMf, tomographie par émission de positons : TEP et magnétoencéphalographie : MEG) suggèrent que la distribution de fréquence observée chez l'animal (avec les méthodes expérimentales traditionnelles) ne correspond pas exactement à celle observée chez l'homme, bien qu'elles tous ont des bandes d'isofréquences, comme on le voit en utilisant la magnétoencéphalographie (MEG) ci-dessous. L'IRMf chez l'homme suggère que les basses fréquences sont codées dans les régions postéro-latérales superficielles de la fissure sylvienne, tandis que les hautes fréquences sont situées dans les régions plus profondes et antéromédiales. Il est important de noter, cependant, qu'un certain degré de variation existe entre les individus.

      Fonction corticale auditive secondaire

      Le cortex auditif secondaire fonctionne également dans l'interprétation des sons, mais surtout dans les activités qui impliquent l'exigence de la tâche 18) .


      Prosogramme 3.0 + Polytonie

      Prosogram est un outil d'analyse et de transcription des variations de hauteur de la parole. Sa stylisation simule la perception auditive de la hauteur par l'auditeur. Un élément clé de la perception tonale est la segmentation de la parole en éléments de la taille d'une syllabe, résultant du changement spectral (timbre sonore) et de la variation d'intensité.

      L'outil fournit également des mesures des caractéristiques prosodiques pour des syllabes individuelles (telles que la durée, la hauteur, la direction et la taille du mouvement de la hauteur), ainsi que les propriétés prosodiques d'étendues de discours plus longues prononcées par un locuteur donné (telles que le débit de parole, la proportion de pauses silencieuses , plage de hauteur et trajectoire de hauteur).

      L'outil peut facilement interagir avec d'autres outils logiciels. Il est utilisé comme première étape dans la transcription phonologique automatique de l'intonation, la détection de l'accentuation des phrases et des limites d'intonation.

        • stylisation de hauteur basée sur un modèle de perception tonale,
        • segmentation acoustique automatique de la parole en éléments de la taille d'une syllabe,
        • alternativement, segmentation en rimes, syllabes ou voyelles, à partir de l'alignement phonétique et/ou syllabique dans une annotation TextGrid,
        • détermination F0 en deux passes avec réglage automatique de la plage de détection F0, ou plage F0 sélectionnée par l'utilisateur,
        • estimation de la plage de hauteur par locuteur (utilise l'étiquetage des tours de parole),
        • profil prosodique par locuteur, y compris la gamme de hauteurs, hauteur moyenne globale (médiane), mesures de variabilité de hauteur (histogramme F0, trajectoire, proportion de noyaux de niveau, histogramme des glissandos haut et bas, histogramme des mouvements de hauteur inter-syllabiques), débit de parole, proportion de silence pauses,
        • dessins (prosogrammes) de stylisation de hauteur avec des niveaux sélectionnés par l'utilisateur à partir de l'annotation TextGrid, avec/sans paramètres acoustiques tels que F0, intensité, voicing, pause, avec/sans plage de hauteur, dans de nombreux formats de fichiers graphiques, étiquetage prosodique des niveaux de hauteur et des mouvements de hauteur,
        • visualisation interactive de la stylisation avec lecture, resynthèse, défilement et zoom, affichant en option la plage de hauteur, les cibles de hauteur en Hz ou ST et les niveaux d'annotation sélectionnés par l'utilisateur,
        • normalisation de la tonalité basée sur la plage de tonalité des haut-parleurs,
        • table de sortie avec de nombreux variables prosodiques par syllabe noyau (hauteur : moyenne, médiane, haute, basse, début, fin, intervalle de hauteur, glissando (haut, bas, aucun) durée du noyau, rime, voyelle, syllabe intensité de crête pause étiquette du locuteur),
        • table de sortie des profils prosodiques (avec des lignes par locuteur et par fichier), pour l'export vers un logiciel d'analyse statistique,
        • traitement par lots de corpus vocaux à grande échelle, avec gestion des dossiers et dispositions pour la conversion d'annotations de corpus à la volée (à l'exécution),
        • enregistrement de la segmentation automatique en syllabes et noyaux syllabiques dans un fichier TextGrid pour validation et édition
        • validation des niveaux phonétiques et syllabiques dans l'annotation TextGrid

        La première illustration montre un léger Prosogramme avec la stylisation (lignes noires) et la plage de hauteur (lignes horizontales rouges indiquant le haut, la médiane et le bas). Les annotations des sons, des syllabes et des mots sont fournies par le corpus.

        Large, léger, avec plage de hauteur

        L'illustration suivante montre un riche Le prosogramme, qui ajoute les paramètres de F0 (ligne bleue), d'intensité (ligne verte) et de voicing (dent de scie), ainsi que la segmentation (boîtes rouges), et le calibrage des axes X et Y (en ST par rapport à 1 Hz et en Hz). Les lignes pointillées verticales correspondent aux limites de segmentation dans l'annotation.

        La troisième illustration montre un léger Prosogramme, dans un plus compact Taille.

        La figure suivante montre un prosogramme utilisant segmentation automatique en unités de la taille d'une syllabe. La courbe magenta montre l'intensité du signal vocal filtré passe-bande, sur lequel cette segmentation est basée.

        La dernière figure montre l'écran du interactif Prosogramme. Ici, l'utilisateur peut parcourir interactivement le signal de parole et sa stylisation, lire des parties (syllabes, mots. ), et re-synthétiser le signal avec la hauteur stylisée. (L'annotation tonale dans le niveau "polytonia" est obtenue à l'aide de l'analyse Polytonia.)

        Fenêtre de prosogramme interactif

        De nombreux phonéticiens utilisent la courbe de fréquence fondamentale (F0) pour représenter les contours de hauteur dans la parole. F0 est un paramètre acoustique qui fournit des informations utiles sur les propriétés acoustiques du signal vocal. Mais ce n'est certainement pas la représentation la plus précise du contour de l'intonation tel qu'il est perçu par les auditeurs humains.

        Dans le ྂ, le pitch contour stylisation a été introduit comme un moyen de simplifier la courbe F0 pour les aspects potentiellement pertinents pour la communication vocale. L'approche provient des travaux de J. 't Hart et R. Collier à l'I.P.O. (Institute for Perception Research) à Eindhoven ('t Hart et al. 1990), et a été encore amélioré par D. Hermes dans les ྌ et ྖ (Hermes 2006). D'autres types de stylisation ont été proposés, comme le système Momel (Hirst & Espesser (1993), Hirst, Di Cristo, Espesser (2000). Cependant, la plupart de ces approches de stylisation sont basées sur des propriétés statistiques ou mathématiques des données F0 et ignorer les faits de la perception du ton.

        Il est bien connu que la perception auditive des variations de hauteur dépend de nombreux facteurs autres que la variation F0 elle-même. En 1995, une stylisation basée sur la simulation de perception tonale a été proposé par Ch. d'Alessandro & P. Mertens (Mertens & d'Alessandro, 1995, d'Alessandro & Mertens, 1995). Le but de cette stylisation est de fournir une représentation qui se rapproche de l'image dans la mémoire auditive de l'auditeur. Ce modèle de perception tonale a été validé dans des expériences d'écoute utilisant des stimuli resynthétisés à l'aide du contour stylisé (Mertens et al, 1997).

        Cette approche peut être utilisée pour obtenir un faible niveau transcription du niveau de tangage et du mouvement de tangage et. Elle nécessite une segmentation du signal de parole en unités de la taille d'une syllabe, motivée par des propriétés phonétiques, acoustiques ou perceptives. Différents types d'alignement peuvent être obtenus manuellement ou automatiquement et sont stockés dans un fichier d'annotation (format de fichier TextGrid de Praat). Le prosogramme peut utiliser différents types de segmentation :

          • une segmentation automatique en pics d'intensité locaux (à la fois celui du signal vocal filtré passe-bande et celui du signal pleine bande)
          • un alignement phonétique des sons de la parole (ou alternativement uniquement des voyelles),
          • un alignement de syllabes
          • un alignement de rimes syllabiques
          • une segmentation fournie par un programme externe.

          La stylisation est appliquée à la courbe F0 de ces unités segmentées (voyelles, rimes, syllabes), qui sont des approximations de la partie la plus sonore de la syllabe.


          Une approche judicieuse de la conception d'alarmes médicales

          Les hôpitaux peuvent être bruyants, en particulier les unités de soins intensifs, et les machines électroniques qui sauvent des vies surveillant les signes vitaux des patients font le plus de bruit. Mike Rayo, professeur adjoint en ingénierie des systèmes intégrés à l'Ohio State University, s'efforce d'améliorer et d'organiser la cacophonie pour aider les soignants et les patients.

          Pendant près d'une décennie, Rayo a collaboré à la recherche sur les alarmes hospitalières avec des experts en facteurs humains et en ergonomie comme Judy Edworthy et les professeurs de l'État de l'Ohio David Woods et Emily Patterson. Edworthy, professeur de psychologie appliquée à l'Université de Plymouth, est considéré par beaucoup comme « la marraine » de la conception d'alarmes auditives. Rayo l'appelle une "rock star".

          Les travaux les plus récents de Rayo, rendus possibles grâce à une subvention des Centres P30 de l'Agence pour la recherche et la qualité des soins de santé au Centre médical Wexner de l'Ohio State University (OSUWMC), lui ont permis de poursuivre la recherche sur les alarmes et d'améliorer directement les soins aux patients. Il est né avec Rayo contribuant à Edworthy, et. l'article de recherche 2018 d'al. « Getting Better Hospital Alarm Sounds Into a Global Standard » paru dans Ergonomie dans la conception : le trimestriel des applications des facteurs humains. Dans cet article, ils décrivent le processus de conception puis de test des signaux d'alarme sonore potentiels pour remplacer ceux de la norme mondiale de sécurité des dispositifs médicaux, IEC 60601-1-8. Ils ont démontré que, dans tous les tests, leurs signaux d'alarme nouvellement conçus surpassent de manière significative les signaux d'alarme actuels.

          "Judy a réuni un grand nombre d'entre nous de différentes disciplines pour comprendre l'efficacité des alarmes dans des situations de soins de santé réelles", a déclaré Rayo. Lui et d'autres co-auteurs sont également membres d'un comité de l'Association pour l'avancement de l'instrumentation médicale, dirigé par Edworthy, pour rédiger la norme IEC 60601-1-8 mise à jour.

          Les recherches actuelles de Rayo explorent l'utilisation de la qualité acoustique du timbre, les caractéristiques qui permettent à l'oreille de distinguer les sons qui ont la même hauteur, le même tempo et le même volume.

          "C'est essentiellement la qualité sonore qui reste lorsque vous supprimez toutes les autres qualités facilement décrites, comme la hauteur, le rythme, la fréquence, etc.", a-t-il expliqué. "Si je joue exactement la même note à la même hauteur pendant la même durée au même rythme sur une clarinette, une trompette et un piano, l'oreille humaine peut faire la différence."

          Son article "Utiliser le timbre pour améliorer les performances de plus grands ensembles d'alarmes auditives" est paru fin 2019 dans la revue Ergonomics. En coordination avec le groupe de travail sur les alarmes de l'OSUWMC, Rayo et son équipe ont comparé deux ensembles d'alarmes dans un contexte réel d'hospitalisation.

          Dans un environnement hospitalier, Rayo a estimé que plus de dix sources d'alarme sont présentes dans une pièce donnée. "Chacun de ceux-ci va émettre un certain nombre d'alarmes", a-t-il expliqué. "Par exemple, un moniteur cardiaque que nous avons observé avait des alarmes à plusieurs timbres."

          Rayo a proposé d'attribuer un timbre spécifique à chaque catégorie médicale ou physiologique de moniteurs, par exemple le cœur, les poumons, le cerveau, etc. Alors que d'autres qualités sonores, comme la fréquence ou la hauteur, signaleraient des différences entre la normalité et l'urgence.

          L'étude a été menée dans 11 unités d'hospitalisation au Wexner Medical Center. Les alarmes ont été transmises aux infirmières hospitalisées sur des appareils portatifs typiques d'un hôpital moderne.

          Son équipe a découvert que rendre les alarmes plus riches sur le plan acoustique en utilisant le timbre pour transmettre des groupes médicaux et en associant d'autres qualités à l'urgence améliorait l'identifiabilité et la correspondance de catégorie.

          « Notre nouvel ensemble de sons était perçu comme plus similaire au sein des groupes d'alarmes, facilitait une meilleure identification des sons d'alarme individuels et des groupes d'alarmes, et transmettait une gamme d'urgence plus large que les sons de base », a expliqué Rayo. Les sons améliorés et axés sur le timbre développés par son équipe sont désormais mis en œuvre sur les appareils portables des infirmières du Ohio State Wexner Medical Center.

          "Je n'ai pas entendu parler d'un autre hôpital ou système qui a conçu ses tonalités d'alarme sur mesure", a-t-il ajouté. « Ce partenariat est quelque part entre rare et extrêmement unique. »

          Le Dr Susan Moffatt-Bruce, qui était la chercheuse principale de la subvention P30 et directrice exécutive de l'hôpital universitaire OSUWMC pendant le projet, a ajouté : Centre. C'est là que des experts en facteurs humains comme le Dr Rayo et le Dr Patterson peuvent améliorer les résultats cliniques et la résilience des soins de santé.

          Rayo a déclaré que les conclusions de son équipe sont également pertinentes pour d'autres industries qui utilisent une série de sons d'alarme.

          Il pense que trop d'hypothèses sont formulées lors de la conception d'alarmes médicales ou de sécurité, au lieu de prendre des décisions de conception basées sur des données et des tests. "Une hypothèse est que si quelque chose alarme davantage, cela doit être mieux alarmant", a-t-il proposé. « Une autre hypothèse souvent avancée par les concepteurs est que le son de l'alarme sera compris par les autres exactement comme ils l'avaient prévu et imaginé pour qu'il soit compris. »

          Les collaborateurs de Rayo sont : Dr Iahn Gonsenhauser, Jackie Lamendola, Traci Mignery, Dr Susan Moffatt-Bruce, Todd Yamokoski et Lynette Roush of Ohio State Wexner Medical Center School of Health and Rehabilitation Sciences Professeur agrégé Emily Patterson Cognitive Systems Engineering Laboratory Research Associate Morgan Fitzgerald et Lextant, directeur de la conception de l'expérience utilisateur, Steve Simula.


          Voir la vidéo: Hauteur et timbre signaux sonore 2nde 1ère enseignement scientifique (Mai 2022).