Here’s the abstract of the talk I gave at the Seventh International Conference on Oceanic Linguistics (COOL7), in Noumea, New Caledonia, entitled Language trees and the des langues et base de données du vocabulaire austronésien (Language trees and the Austronesian Basic Vocabulary Database):

Nombre de données linguistiques essentielles recueillies au fil des ans dorment dans des placards et ne sont pas accessibles à la communauté linguistique ou au public intéressé. Nous (Gray & Greenhill) exploitons ces données pour reconstruire des arbres phylogénétiques des langues à l’aide des méthodes informatiques utilisées en biologie de l’évolution et pour vérifier ainsi les hypothèses émises sur le peuplement du Pacifique. Dans cette optique, nous avons informatisé une grande quantité de données lexicales et construit une base de données à grande échelle. Nous avons débuté avec le vocabulaire fourni par les listes de Swadesh rassemblées par Blust ces dernières vingt années ; notre base s’est ensuite enrichie grâce aux données de nombreux linguistes ou de publications. On peut consulter la base de données de vocabulaire austronésien (Austronesian Basic Vocabulary Database) à l’adresse suivante: http://language.psy.auckland.ac.nz. Actuellement, cette base concerne 481 langues, pour un total de plus de 100 000 entrées. Nous présenterons quelques-unes des techniques requises pour construire une telle base et nous évoquerons l’intéret qu’il y a à mettre à disposition sur internet ces données pour des recherches en collaboration. Pour terminer, nous exposerons nos projets d’extension et de consolidation de cette base de données, en invitant les chercheurs à nous fournir de nouvelles données. Au cours de notre communication, nous mentionnerons quelques résultats issus de nos dernières analyses.

..or in English:

Much of the valuable linguistic data that has been collected over the years is languishing in filing cabinets and is not immediately available to linguists and interested members of the public. We (Gray & Greenhill) are using this data to construct phylogenetic trees with computational methods adopted from evolutionary biology to test hypotheses about Pacific settlement. As part of this project we have “computerised” a large amount of lexical data, and constructed a large scale comparative database of this vocabulary. This data began with a collection of Swadesh lists collected by Blust over the last 20 years, and has been supplemented with lists from many other linguists and published resources. This Austronesian Basic Vocabulary Database is available on the internet at http://language.psy.auckland.ac.nz, and currently has word lists from 481 languages, for a total of over 100,000 entries. We shall describe some of the technologies required to build a repository such as this, and talk about the benefits of releasing data onto the internet for collaborative purposes. Finally, we will discuss our plans for expansion and consolidation of this database and make a special plea for more data. A few results from our recent analyses will be presented along the way.