Séminaire de Probabilités et Statistique
lundi 16 novembre 2020 à 14:00 - UM - Bât 09 - Salle de conférence (1er étage)
Audrey Winter (IGH)
Anonymisation des données omiques à l'aide des k-mers (Séminaire KIM)
La génération de données génomiques et transcriptomiques devenant de plus en plus facile et bon marché, pour tirer le meilleur parti de ces vastes ensembles de données complexes générés, les chercheurs doivent travailler ensemble pour atteindre l'objectif ultime de traduire ces données en résultats cliniquement exploitables dont les patients pourraient directement bénéficier [1]. Cependant, « à mesure que l'utilité des données augmente, la confidentialité diminue » et ceci est d'autant plus vrai pour les données génétiques [2,3]. Aujourd'hui, les plus grands enjeux, voire freins, du partage de données sont à la fois juridique, (bio)éthique, informationnelle et politique [4-7].
Deux solutions se profilent afin de minimiser le risque d'atteinte à la vie privée : d'abord limiter et contrôler l'accès aux bases de données [2]. C'est actuellement l'approche majoritaire, mais, bien que l'accès soit théoriquement accessible à la plupart des scientifiques universitaires, la procédure pour l'obtenir est longue. La seconde solution est celle du contrôle de la sensibilité des données partagées (par opposition au contrôle de la « sensibilité » de l'utilisateur) [2]. L'on réduit alors les risques associés au partage en supprimant ou masquant les données permettant l'identification d'un individu. C'est l'anonymisation. La question que l'on peut alors se poser est la suivante : à quel point une donnée anonyme est-elle anonyme ? [8-12] Une étude récente [13] a montré qu'à partir de données de séquençage d'ARN, il était possible de retrouver le génotype d'un individu au sein d'une base de génomes. Une autre [14], décrit une méthode statistique permettant de retrouver des génotypes individuels à partir d'un mélange d'échantillons d'ADN. L'anonymisation des données est actuellement peu standardisée et leur sensibilité est difficilement évaluable.
Comment anonymiser les données génétiques de manière efficace et irréversible tout en gardant l'information nécessaire à son traitement ? Afin d'anonymiser les données, l'utilisation des matrices de k-mers [15] (séquences nucléotidiques de longueur k) sera proposée.
WEBINAIRE ouvert à toutes et tous : https://umontpellier-fr.zoom.us/j/85813807839
ATTENTION: Séminaire KIM - débute à 14h.
1. Petersen, B.-S., Fredrich, B., Hoeppner, M. P., Ellinghaus, D. & Franke, A. Opportunities and challenges of whole-genome and -exome sequencing. BMC Genet 18, (2017).
2. Raza, S. & Hall, A. Genomic medicine and data sharing. Br. Med. Bull. 123, 35-45 (2017).
3. Ohm, P. Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization. https://papers.ssrn.com/abstract=1450006 (2009).
4. Cook-Deegan, R., Ankeny, R. A. & Jones, K. M. Sharing Data to Build a Medical Information Commons: From Bermuda to the Global Alliance. Annu Rev Genomics Hum Genet 18, 389-415 (2017).
5. Sethi, N. & Laurie, G. T. Delivering proportionate governance in the era of eHealth: Making linkage and privacy work together. Med Law Int 13, 168-204 (2013).
6. Laurie, G. & Sethi, N. Towards Principles-Based Approaches to Governance of Health-related Research using Personal Data. Eur J Risk Regul 4, 43-57 (2013).
7. Lowrance, W. W. & Collins, F. S. Ethics. Identifiability in genomic research. Science 317, 600-602 (2007).
8. Schmidt, H. & Callier, S. How anonymous is "anonymous"? Some suggestions towards a coherent universal coding system for genetic samples. J Med Ethics 38, 304-309 (2012).
9. Heeney, C., Hawkins, N., de Vries, J., Boddington, P. & Kaye, J. Assessing the privacy risks of data sharing in genomics. Public Health Genomics 14, 17-25 (2011).
10. Group, B. M. J. P. Data protection and patients' consent. BMJ 322, 549 (2001).
11. Lowrance, W. W. & Collins, F. S. Identifiability in Genomic Research. Science 317, 600-602 (2007).
12. Greenbaum, D., Du, J. & Gerstein, M. Genomic Anonymity: Have We Already Lost It? The American Journal of Bioethics 8, 71-74 (2008).
13. Schadt, E. E., Woo, S. & Hao, K. Bayesian method to predict individual SNP genotypes from gene expression data. Nat. Genet. 44, 603-608 (2012).
14. Homer, N. et al. Resolving Individuals Contributing Trace Amounts of DNA to Highly Complex Mixtures Using High-Density SNP Genotyping Microarrays. PLOS Genetics 4, e1000167 (2008).
15. Marçais, G. & Kingsford, C. A fast, lock-free approach for efficient parallel counting of occurrences of k-mers. Bioinformatics 27, 764-770 (2011).