Offres de stage, de thèses et d’emploi

🇫🇷 Français
🇬🇧 English


Stage de recherche (M2) : Trouver les notes musicales influentes à l’aide des réseaux de neurones Transformers

  • Stage M2 2021, avec gratification, de 4 à 6 mois
  • Thèmes: apprentissage machine, NLP, informatique musicale
  • Lieu: Lille (Villeneuve d’Ascq, Laboratoire CRIStAL, métro 4 Cantons), télétravail également possible selon l'évolution de la situation
  • Encadrement et contacts: Mikaela Keller et Louis Bigo (CRIStAL)
  • Candidatures ouvertes

Contexte

Les techniques modernes en apprentissage automatique, notamment autour des réseaux de neurones, suscitent de nombreuses recherches dans les domaines de la modélisation du langage naturel (Natural Language Processing) d’une part et de l’informatique musicale (Music Information Research) d’autre part. Ces recherches ont de multiples applications allant de l’analyse de corpus textuels/musicaux à la génération automatique de texte/musique.

Parmi les multiples types de réseaux de neurones utilisés dans ces disciplines, les transformers [1] ont fourni des résultats prometteurs en modélisation du langage, par exemple pour la conception de systèmes de questions-réponses [2]. Ils ont été par la suite adapté en MIR pour la génération automatique de musique [3]. Le fonctionnement des transformers repose sur le principe d’attention, qui incite un modèle, lors de son entraînement, à comparer l’“importance” des termes successifs dans une séquence. Dans une phrase textuelle, comme dans une phrase musicale, la présence de certains éléments a en effet plus de poids que d’autres pour le sens global de la phrase. C’est le cas de la négation en texte (le simple mot “pas” inverse à lui seul le sens de la phrase). C’est aussi le cas en musique tonale des notes fondamentales et réelles des accords qui sont le signe de progressions harmoniques sous-jacentes, ou encore à une échelle plus fine des notes modulantes qui annoncent une transition vers une nouvelle tonalité.

Objectifs

Malgré leur performance, les réseaux de neurones profonds sont souvent critiqués pour leur opacité qui complique l’identification des abstractions qu’a re-constitué le modèle au cours de son entraînement et qui lui permettent de prendre des décisions correctes. Ce projet exploratoire a pour but d’étudier le fonctionnement d’un Transformer entraîné sur des corpus de musique de différents styles. L’idée est d’analyser les représentations internes au modèle, afin d’extraire les éléments du langage musical sur lesquels a tendance à se focaliser le mécanisme d’attention et de les comparer avec des règles issues de la théorie musicale. Il s’agira pour cela d’analyser les poids des matrices des unités d’attention qu’a appris le modèle afin d’identifier les éléments musicaux (généralement des notes) qui ont le plus d’influence sur les autres au sein d’une séquence.

Des premières expériences seront menés sur les modèles pré-entrainés mis à disposition par le projet Magenta. On généralisera l’expérience dans un second temps sur des modèles entrainés sur différents corpus auquel l’équipe Algomus a accès notamment les quatuors à cordes classiques (Haydn, Mozart et Beethoven), des pièces pour piano seul et des tablatures pour guitare dans le style pop/rock.

Références

  • [1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008, 2017.
  • [2] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert : Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv :1810.04805, 2018.
  • [3] Cheng-Zhi Anna Huang, Ashish Vaswani, Jakob Uszkoreit, Ian Simon, Curtis Hawthorne, Noam Shazeer, Andrew M Dai, Matthew D Hoffman, Monica Dinculescu, and Douglas Eck. Music transformer : Generating music with long-term structure. In International Conference on Learning Representations, 2018.