Extraction de lexiques bilingues à partir de corpus comparables

作者: Amir Hazem

DOI:

关键词:

摘要: La plupart des travaux en acquisition de lexiques bilingues a partir corpus comparables reposent sur l'hypothese distributionnelle qui ete etendue au scenario bilingue. Deux mots ont fortes chances d'etre relation traduction s'ils apparaissent dans les memes contextes lexicaux. Ce postulat suppose donc une definition claire et rigoureuse du contexte connaissance parfaite indices contextuels. Or, la complexite specificites chaque langue font qu'il n'est pas aise d'enoncer telle garantisse extraction couples traductions, efficace tous cas figure. Toute difficulte reside maniere definir, d'extraire comparer ces le but construire fiables. Nous nous efforcerons tout long differents chapitres cette these essayer mieux comprendre notion contexte, pour ensuite l'etendre l'adapter afin d'ameliorer qualite bilingues. Une premiere partie contributions vise ameliorer l'approche directe fait office reference communaute. proposerons plusieurs manieres d'aborder caracteriser. Dans deuxieme contributions, commencerons par presenter approche similarite inter-langue. Ensuite, methode nommee Q-Align, directement inspiree systemes question/reponse sera presentee. Enfin, presenterons transformations mathematiques representations vectorielles, concentrer essentiellement celles que aurons choisi developper nouvelle d'alignement.

参考文章(64)
Amir Hazem, Li Bo, Emmanuel Morin, Éric Gaussier, Degré de comparabilité, extraction lexicale bilingue et recherche d'information interlingue TALN 2011 - Conférence sur le Traitement Automatique des Langues Naturelles. ,vol. 1, pp. 211- 222 ,(2011)
Belinda Mary Harper Sousa Maia, What are comparable corpora [S.l. : s.n.. ,(2003)
Hinrich Schütze, Word Space neural information processing systems. ,vol. 5, pp. 895- 902 ,(1992)
Pascale N. Fung, Percy Chi Shun Cheung, Mining Very-Non-Parallel Corpora: Parallel Sentence and Lexicon Extraction via Bootstrapping and EM Conference on Empirical Methods in NLP 2004, Barcelona, Span. ,(2004)
Ali Mansour, Blind Separation of Sources Exposé invité au Venture Business Laboratory (VBL). ,(1999)
J. R. Firth, A Synopsis of Linguistic Theory, 1930-1955 Studies in Linguistic Analysis. pp. 10- 32 ,(1957)
Dekang Lin, Dependency-Based Evaluation of Minipar Treebanks. pp. 317- 329 ,(2003) , 10.1007/978-94-010-0201-1_18
Philippe Langlais, Alexandre Patry, PARADOCS: A Language Independant Go-Between for Mating Parallel Documents. Trait. Autom. des Langues. ,vol. 51, pp. 41- 63 ,(2010)