Titre : | Indexation automatique des documents audio en vue d'une classification par locuteurs : application à l'archivage des émissions TV et radio | Type de document : | texte imprimé | Auteurs : | Ouamour Ep. Sayoud, Siham, Auteur ; Guerti, Mhania, Directeur de thèse | Editeur : | [S.l.] : [s.n.] | Année de publication : | 2009 | Importance : | 107 f. | Présentation : | ill. | Format : | 30 cm | Accompagnement : | 1 CD-ROM. | Note générale : | Thèse de Doctorat: Electronique: Alger, Ecole Nationale Supérieure Polytechnique: 2009
Bibliogr. f. 100 - 107 | Langues : | Français (fre) | Mots-clés : | Indexation audio
Segmentation de la parole
Fusion des classifieurs
Classifieurs statistiques
Réseaux de neurones SVM | Index. décimale : | D001109 | Résumé : | Ce travail de thèse s’intéresse à l’indexation des émissions radio et télé-diffusées en classes de locuteurs, dans le but d’obtenir un archivage hiérarchique des interventions audio en fonction des différents locuteurs.
La tâche d’indexation fait appel à deux disciplines différentes, la première s’intéresse à découper le flux audio en segments homogènes: c’est la segmentation, tandis que la deuxième tâche consiste à identifier les différents segments ou bien les regrouper en classes de locuteurs: c’est l’étiquetage ou le regroupement.
Pour arriver à cette fin, nous avons proposé et implémenté deux systèmes:
• Le premier s’intéresse à l’indexation avec connaissances a priori des locuteurs où les identités des différents locuteurs, sont connues à l’avance par le système;
• Le deuxième traite la tâche d’indexation sans aucune connaissance des modèles des locuteurs.
Pour réaliser le premier système, nous avons développé un nouvel algorithme d’indexation que nous avons appelé ISI (Interlaced Speech Indexing).
Ce dernier est basé sur une indexation entrelacée en utilisant les mesures SOSM (Mesures Statistiques du Second Ordre).
Pour le second système, nous avons développé une nouvelle caractéristique relative du locuteur que nous avons appelée RSC (Relative Speaker Characteristic).
Nous avons implémenté trois classifieurs différents: un classifieur statistique, un réseau de neurones du type MLP (Multi-Layer Perceptron) et un classifieur SVM (Support Vector Machines).
Par la suite, nous avons proposé plusieurs architectures afin de fusionner ces classifieurs.
L’évaluation de nos systèmes a été faite sur une base de données de parole réelle: HUB-4 Broadcast News.
Les résultats obtenus ont montré la bonne performance de l’algorithme ISI, la pertinence de la nouvelle caractéristique RSC, ainsi que l’intérêt de la fusion quant à l’amélioration de la précision de segmentation et d’indexation.
Nous avons organisé notre document en quatre chapitres:
• Dans le chapitre 1, nous définissons certaines généralités sur la reconnaissance du locuteur et ses différentes disciplines, ensuite, nous présentons l’indexation par locuteurs et ses applications.
Nous détaillons après, les deux tâches principales de l’indexation, notamment la segmentation et le regroupement, tout en définissant les différents algorithmes existants dans la littérature, en rapport avec ces deux tâches;
• Le chapitre 2 expose un état de l’art détaillé sur les principales caractéristiques et les différents algorithmes relatifs à la segmentation et au regroupement par locuteurs;
• Au chapitre 3, nous définissons les différents classifieurs implémentés durant notre étude.
Nous expliquons ensuite les différents algorithmes que nous avons développés pour accomplir la tâche d’indexation avec et sans connaissances a priori des locuteurs.
Nous présentons aussi dans ce chapitre les différentes architectures que nous avons développées pour fusionner les différents classifieurs utilisés;
• Le dernier chapitre expose les résultats expérimentaux obtenus durant cette étude, avec des interprétations et des conclusions.
Une conclusion générale clôture ce travail de thèse, et quelques perspectives concernant les deux tâches étudiées (segmentation et regroupement) sont proposées.
Finalement, des références bibliographiques ainsi que des annexes utiles sont mises à la disposition du lecteur pour plus de détails. |
Indexation automatique des documents audio en vue d'une classification par locuteurs : application à l'archivage des émissions TV et radio [texte imprimé] / Ouamour Ep. Sayoud, Siham, Auteur ; Guerti, Mhania, Directeur de thèse . - [S.l.] : [s.n.], 2009 . - 107 f. : ill. ; 30 cm + 1 CD-ROM. Thèse de Doctorat: Electronique: Alger, Ecole Nationale Supérieure Polytechnique: 2009
Bibliogr. f. 100 - 107 Langues : Français ( fre) Mots-clés : | Indexation audio
Segmentation de la parole
Fusion des classifieurs
Classifieurs statistiques
Réseaux de neurones SVM | Index. décimale : | D001109 | Résumé : | Ce travail de thèse s’intéresse à l’indexation des émissions radio et télé-diffusées en classes de locuteurs, dans le but d’obtenir un archivage hiérarchique des interventions audio en fonction des différents locuteurs.
La tâche d’indexation fait appel à deux disciplines différentes, la première s’intéresse à découper le flux audio en segments homogènes: c’est la segmentation, tandis que la deuxième tâche consiste à identifier les différents segments ou bien les regrouper en classes de locuteurs: c’est l’étiquetage ou le regroupement.
Pour arriver à cette fin, nous avons proposé et implémenté deux systèmes:
• Le premier s’intéresse à l’indexation avec connaissances a priori des locuteurs où les identités des différents locuteurs, sont connues à l’avance par le système;
• Le deuxième traite la tâche d’indexation sans aucune connaissance des modèles des locuteurs.
Pour réaliser le premier système, nous avons développé un nouvel algorithme d’indexation que nous avons appelé ISI (Interlaced Speech Indexing).
Ce dernier est basé sur une indexation entrelacée en utilisant les mesures SOSM (Mesures Statistiques du Second Ordre).
Pour le second système, nous avons développé une nouvelle caractéristique relative du locuteur que nous avons appelée RSC (Relative Speaker Characteristic).
Nous avons implémenté trois classifieurs différents: un classifieur statistique, un réseau de neurones du type MLP (Multi-Layer Perceptron) et un classifieur SVM (Support Vector Machines).
Par la suite, nous avons proposé plusieurs architectures afin de fusionner ces classifieurs.
L’évaluation de nos systèmes a été faite sur une base de données de parole réelle: HUB-4 Broadcast News.
Les résultats obtenus ont montré la bonne performance de l’algorithme ISI, la pertinence de la nouvelle caractéristique RSC, ainsi que l’intérêt de la fusion quant à l’amélioration de la précision de segmentation et d’indexation.
Nous avons organisé notre document en quatre chapitres:
• Dans le chapitre 1, nous définissons certaines généralités sur la reconnaissance du locuteur et ses différentes disciplines, ensuite, nous présentons l’indexation par locuteurs et ses applications.
Nous détaillons après, les deux tâches principales de l’indexation, notamment la segmentation et le regroupement, tout en définissant les différents algorithmes existants dans la littérature, en rapport avec ces deux tâches;
• Le chapitre 2 expose un état de l’art détaillé sur les principales caractéristiques et les différents algorithmes relatifs à la segmentation et au regroupement par locuteurs;
• Au chapitre 3, nous définissons les différents classifieurs implémentés durant notre étude.
Nous expliquons ensuite les différents algorithmes que nous avons développés pour accomplir la tâche d’indexation avec et sans connaissances a priori des locuteurs.
Nous présentons aussi dans ce chapitre les différentes architectures que nous avons développées pour fusionner les différents classifieurs utilisés;
• Le dernier chapitre expose les résultats expérimentaux obtenus durant cette étude, avec des interprétations et des conclusions.
Une conclusion générale clôture ce travail de thèse, et quelques perspectives concernant les deux tâches étudiées (segmentation et regroupement) sont proposées.
Finalement, des références bibliographiques ainsi que des annexes utiles sont mises à la disposition du lecteur pour plus de détails. |
|