Construction et stratégie d’exploitation des réseaux de confusion en lien avec le contexte applicatif de la compréhension de la parole

作者: Bogdan Minescu

DOI:

关键词:

摘要: Cette these s’interesse aux reseaux de confusion comme representation compacte et structuree des hypotheses multiples produites par un moteur reconnaissance parole transmises a module post-traitement applicatif. Les (CN pour Confusion Networks) sont generes partir graphes mots structurent l’information sous la forme d’une sequence classes contenant en concurrence. Le cas d’usage etudie dans ces travaux est celui comprehension le cadre application dialogue deployee France Telecom. Deux problematiques inherentes ce contexte applicatif soulevees. De facon generale, systeme doit non seulement reconnaitre enonce prononce utilisateur, mais aussi l’interpreter afin deduire sons sens. Du point vue l’utilisateur, les performances percues plus proches celles chaine complete que vocale seule. Ce nous cherchons optimiser. particulier implique pouvoir traiter donnees reelles donc tres variees. Un peut etre ou moins bruite, domaine hors-domaine, couvert modele semantique l’application non, etc. Etant donnee cette grande variabilite, posons question savoir si fait d’appliquer memes traitements sur l’ensemble donnees, c’est approches classiques, une solution adaptee. Avec double perspective, s’attache fois enrichir l’algorithme construction CNs but d’optimiser globalement processus proposer strategie adequate d’utilisation reelle. Apres analyse proprietes deux corpus reelles, retenu du "pivot". Nous proposons version modifiee adaptee au introduisant notamment traitement differencie graphe qui privilegie porteurs En reponse variabilite enonces deployee, decision plusieurs niveaux vise mieux prendre compte specificites differents types d’enonces. montrons qu’il preferable n’exploiter richesse sorties reellement permet temps calcul d’ameliorer

参考文章(43)
Man-Hung Siu, Fred Richardson, Herbert Gish, Improved estimation, evaluation and applications of confidence measures for speech recognition. conference of the international speech communication association. ,(1997)
Thomas Kemp, Thomas Schaaf, Estimating confidence using word lattices. conference of the international speech communication association. ,(1997)
Delphine Charlet, Guy Mercier, Denis Jouvet, On Combining Confidence Measures for Improved Rejection of Incorrect Data conference of the international speech communication association. pp. 2113- 2116 ,(2001)
Mari Ostendorf, David D. Palmer, Improved Word Confidence Estimation using Long Range Features conference of the international speech communication association. pp. 2117- 2120 ,(2001)
Hermann Ney, Frank Wessel, Klaus Macherey, A comparison of word graph and n-best list based confidence measures. conference of the international speech communication association. ,(1999)
Alexandre Preti, Bertrand Ravera, François Capman, Jean-François Bonastre, Driss Matrouf, Confidence measure based unsupervised target model adaptation for speaker verification conference of the international speech communication association. pp. 754- 757 ,(2007)
G Evermann, PC Woodland, Posterior probability decoding, confidence estimation and system combination NIST: National Institute of Standards and Technology. ,(2000)
W. Ward, C. Uhrik, Confidence metrics based on n-gram language model backoff behaviors. conference of the international speech communication association. ,(1997)
Géraldine Damnati, H. Hamimed, Integration of phonetic length properties in the acoustic models of false starts and out-of-vocabulary words. conference of the international speech communication association. ,(2002)
Frank K Soong, Wai-Kit Lo, Satoshi Nakamura, Generalized word posterior probability (GWPP) for measuring reliability of recognized words Proc. SWIM 2004. ,(2004)