Informations segmentales pour la caractérisation phonétique du locuteur : variabilité inter- et intra-locuteurs - Conférences TALN RECITAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

An automatic classification task involving 44 speakers was performed using convolutional neural networks (CNN) on broadband spectrograms extracted from 2-second sequences of a spontaneous speech corpus (NCCFr)

Informations segmentales pour la caractérisation phonétique du locuteur : variabilité inter- et intra-locuteurs

Résumé

Nous avons effectué une classification automatique de 44 locuteurs à partir de réseaux de neurones convolutifs (CNN) sur la base de spectrogrammes à bandes larges calculés sur des séquences de 2 secondes extraites d'un corpus de parole spontanée (NCCFr). Après obtention d'un taux de classification moyen de 93,7 \%, les différentes classes phonémiques composant chaque séquence ont été masquées afin de tester leur impact sur le modèle. Les résultats montrent que les voyelles orales influent avant toute autre classe sur le taux de classification, suivies ensuite par les occlusives orales. Ces résultats sont expliqués principalement par la représentation temporelle prédominante des voyelles orales. Une variabilité inter-locuteurs se manifeste par l'existence de locuteurs attracteurs qui attirent un grand nombre de faux positifs et qui ne sont pas sensibles au masquage effectué. Nous mettons en avant dans la discussion des réalisations acoustiques qui pourraient expliquer les spécificités de ces locuteurs.
Fichier principal
Vignette du fichier
91.pdf (1.23 Mo) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-02798547 , version 1 (11-06-2020)
hal-02798547 , version 2 (18-06-2020)
hal-02798547 , version 3 (23-06-2020)

Identifiants

  • HAL Id : hal-02798547 , version 3

Citer

Cédric Gendrot, Emmanuel Ferragne, Thomas Pellegrini. Informations segmentales pour la caractérisation phonétique du locuteur : variabilité inter- et intra-locuteurs. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole, Jun 2020, Nancy, France. pp.262-270. ⟨hal-02798547v3⟩
279 Consultations
141 Téléchargements

Partager

Gmail Facebook X LinkedIn More