Nombre de données linguistiques essentielles recueillies au fil des ans dorment dans des placards et ne sont pas accessibles à la communauté linguistique ou au public intéressé. Nous (Gray & Greenhill) exploitons ces données pour reconstruire des arbres phylogénétiques des langues à l'aide des méthodes informatiques utilisées en biologie de l'évolution et pour vérifier ainsi les hypothèses émises sur le peuplement du Pacifique. Dans cette optique, nous avons informatisé une grande quantité de données lexicales et construit une base de données à grande échelle. Nous avons débuté avec le vocabulaire fourni par les listes de Swadesh rassemblées par Blust ces dernières vingt années ; notre base s'est ensuite enrichie grâce aux données de nombreux linguistes ou de publications. On peut consulter la base de données de vocabulaire austronésien (Austronesian Basic Vocabulary Database) à l'adresse suivante: http://language.psy.auckland.ac.nz. Actuellement, cette base concerne 481 langues, pour un total de plus de 100 000 entrées. Nous présenterons quelques-unes des techniques requises pour construire une telle base et nous évoquerons l'intéret qu'il y a à mettre à disposition sur internet ces données pour des recherches en collaboration. Pour terminer, nous exposerons nos projets d’extension et de consolidation de cette base de données, en invitant les chercheurs à nous fournir de nouvelles données. Au cours de notre communication, nous mentionnerons quelques résultats issus de nos dernières analyses.

continue Continue...