Développement d’une API REST pour l’analyse de données de variations génétiques (Lic.-M2)

(English version bellow)

La compréhension de la structure des génomes et de leur évolution est une approche fondamentale dans l’amélioration de l’adaptation des plantes à leurs écosystèmes. Pour cela, l’exploitation des données de variations génétiques (SNP, INDEL, SV,...) en relation avec les données fonctionnelles (expression des gènes et protéines), phénotypiques et environnementale est essentielle. Les résultats des analyses de détection de variations génomiques sont généralement stockés dans des fichiers au format VCF (Variant Call Format1). Or ces fichiers peuvent atteindre des volumes très importants (de l’ordre du Tera Octet).

Comme alternative aux outils disponibles en ligne de commande (VCFTools2, etc.) et aux workflows de transformation, nous avons développé Gigwa, une application web (installable en réseau ou localement), qui a pour vocation de stocker dans une base de données NoSQL (MongoDB) des volumes importants de génotypes (typiquement issus de fichiers VCF), et d’offrir une interface WEB permettant d’appliquer des filtres sur ceux-ci. Le système permet alors de naviguer dans les résultats et de réexporter ces sous-jeux de données sous divers formats courants.

L’objectif du stage sera de développer une couche de services REST pour l’application Gigwa comme alternative à son interface web. Il consistera tout d’abord à définir la structure et l’organisation des services pour insérer et stocker les données issues des fichiers VCF  ainsi que les méta-informations afférentes à chaque VCF. Puis viendra une phase de conception de service permettant un filtrage des données sur différents critères (ex : variabilité sur un groupe d’individus), ainsi que la mise en place d’un module permettant l’export des données filtrées au format VCF.

Le stage se déroulera dans un environnement technique motivant et pluridisciplinaire, encadré par une équipe d’informaticiens et de bioinformaticiens. Les technologies principalement utilisées seront Java, Javascript et MongoDB.

Description du stage

  • Concevoir la structure du framework REST pour la gestion des données VCF;
  • Développer des services visant à se substituer à l’interface (fournissant listes de séquences, d’individus, de filtres, etc…)
  • Développer des services permettant un filtrage des données sur différents critères;
  • Développer des services interfaçant les fonctionnalités existantes d’import et export de fichier VCF.

Profil recherché

  • Licence pro, Master 2 en informatique ou bioinformatique;
  • Solides connaissances du langage de programmation Java;
  • Bonnes connaissances du développement Web;
  • Autonomie;
  • Bon relationnel;
  • Des connaissances dans les domaines suivants seraient un plus (mais non nécessaires pour réaliser le stage) : bioinformatique, développement REST, manipulation de MongoDB.

Rémunération : 508.20 euros net (gratification) 
Dossier de candidature : CV et lettre de motivation
Encadrement: Pierre Larmande, Guilhem Sempéré
Contacts : This email address is being protected from spambots. You need JavaScript enabled to view it. , This email address is being protected from spambots. You need JavaScript enabled to view it.

 

English version

Developing a REST API for genetic variations data analysis  

Understanding the genomes structure and their evolution is a fundamental approach for improving the adaptation of plants to ecosystems. For this, the use of genetic data variations (SNPs, INDELs, SV, ...) in relation to the functional data (gene expression and protein), phenotypic and environmental is essential. The results of genomic variations in detection assays are usually stored in files in VCF files (Variant Call Format [1]). But these files can reach very high volumes . As an alternative to the tools available mostly in command line (such as VCFTools2, etc.) and workflow engines, we have developed Gigwa, a web application, which aims to store in a NoSQL database (MongoDB) large volumes of genotypes (typically from VCF files), and offers a WEB interface to apply filters upon them. The system allows users to browse results and to re-export these data subsets in various popular formats. 

The objective of this student project is to develop a layer of REST services for Gigwa as an alternative to its web interface. It first will be to define the structure and organization of services to insert and store the data from the VCF files as well as meta information relating to each VCF. Then will come a service design phase allows filtering of data on different criteria (eg variability on a group of individuals), and the introduction of a module to export filtered data in VCF format.  The internship will take place in a motivating and multidisciplinary technical environment, supervised by a team of computer scientists and bioinformaticians. The technologies will be used primarily Java, Javascript and MongoDB.

Internship Description

- Designing the structure of the REST framework for the management of VCF data; 
- Developing services to replace the interface ( providing sequence listings , individuals, filters, etc) 
- Develop services for filtering data on different criteria; 
- Develop services interfacing existing features import and export VCF file

Required profile

- Master in computer science or bioinformatics ; 
- Strong knowledge of Java programming language ;
Good knowledge of web development ; 
Autonomy
Knowledge in the following areas would be an advantage (but not needed to complete the internship) : bioinformatics , REST development, handling MongoDB

Compensation: 508.20 euros net ( gratification ) 
Application: CV and cover letter 
Supervised: Pierre Larmande , Guilhem Sempéré 
Contacts : This email address is being protected from spambots. You need JavaScript enabled to view it. , This email address is being protected from spambots. You need JavaScript enabled to view it.

[1] http://samtools.github.io/hts-specs/VCFv4.3.pdf2

[2] http://vcftools.sourceforge.net/