Primaires ou secondaires : Lorsqu’un protocole de recherche produit ses propres données, on parle de données primaires. Mais toute recherche scientifique ne produit pas systématiquement son propre set de données avant de réaliser ses analyses. Les données de la recherche peuvent en effet être produites et fournies aux équipes de recherche par d’autres équipes ayant mis leurs données en partage sur des répertoires de données (Data repositories) ou par des organismes tiers chargés de constituer des bases de données (observatoires nationaux par ex.). On parle alors de données secondaires (ou de seconde main) lorsque les équipes de recherche exploitent et analysent des données qu’elles n’ont pas produites.
Formatées et regroupées : les données de la recherche doivent faire l’objet d’un traitement afin d’être lisibles, compréhensibles, contextualisées, associables entre elles. Une fois formatées et regroupées dans un même espace, elles forment entre elles un corpus ou set de données. C’est seulement une fois rassemblées qu’elles peuvent être analysées puisque l’administration de la preuve scientifique repose sur la recherche et l’analyse de répétitivités.
Sensibles : Certaines données personnelles peuvent être qualifiées de sensibles et nécessiter des précautions particulières afin que leur utilisation ne nuise pas aux individus (cf. « Données personnelles » dans le glossaire). Il s’agit notamment des données sur la santé.
Intègres : Obtenues dans le cadre de la mise en œuvre d’un protocole de recherche, les données sont en elles-mêmes un produit scientifique qui a à la fois une certaine valeur (scientifique, historique mais aussi commerciale) et une certaine confidentialité (informations sensibles, propriété intellectuelle). Les données doivent donc être conservées de manière sécurisée et leur partage doit être l’objet d’une régulation afin que leur usage, strictement scientifique, ne soit pas détourné à des fins politiques ou commerciales.
FAIR : Dans le cadre des politiques en faveur de l’Open Science, les données doivent être FAIR, c’est-à-dire faciles à trouver (Findable), accessibles (Accessible), interopérables (Interoperable) et réutilisables (Reusable). Pour désigner l’ensemble des opérations de formatage, enregistrement et partage des données en conformité avec les politiques en faveur de l’Open Data, on parle donc aujourd’hui de « données FAIR » ou de « fairisation » des données.
Quantitatives ou qualitatives : Selon les disciplines, les données peuvent être quantitatives (données codées en quantité importante) ou qualitatives (données observationnelles, discours et textes devant faire l’objet d’une interprétation). Si ces deux types de données peuvent être utilisées de manière complémentaires ou interconnectées (Grounded theory), elles relèvent de deux méthodologies distinctes :
- Les données quantitatives relèvent d’une méthode dite « hypothético-déductive » : l’hypothèse de recherche est antérieure à la production des données et l’analyse de ces dernières a pour objectif de confirmer ou infirmer l’hypothèse de travail. Ce type de données relève donc prioritairement des sciences expérimentales.
- Les données qualitatives relèvent d’une méthode dite « empirico-inductive » : l’hypothèse s’élabore et s’affine durant la phase de production et d’interprétation des données. Ce type de données relève donc prioritairement des sciences humaines et sociales.