Aller au contenu principal

Dépôt de données

À la différence du stockage actif en cours de projet, le dépôt de données se dit du transfert, dans un référentiel fiable au terme d’un projet, d’un ensemble de données dûment référencées afin d’en assurer la découverte, la citation, la protection par les contrôles d’accès appropriés et la conservation à long terme. Cette page explique quoi déposer, comment préparer et documenter vos fichiers, comment choisir un dépôt et comment satisfaire aux exigences en matière de politique, de licence et d’éthique, en tenant compte également des considérations relatives aux données à gestion communautaire.

Que déposer et quand le faire?

Définition et portée

Le dépôt de données consiste à transférer, dans un référentiel fiable, au terme d’un projet, un ensemble final de données dûment référencées afin d’en assurer la découverte, la citation, la protection par les contrôles d’accès appropriés et la conservation à long terme. En cela, le dépôt se distingue du stockage actif, en cours de projet, et du partage informel. Le retour à votre page de planification des données, par lien interposé, vous amènera aux définitions du cycle de vie et aux décisions antérieures concernant les données à créer, à conserver et à faire partager.

Que faut-il verser?

Il y a lieu de déposer la version de référence des données étayant les résultats publiés, les dérivés essentiels à la compréhension ou au réemploi de ces résultats, le code d’analyse ou les liens stables vers une version indexée, ainsi que la documentation complète (fichiers LISEZMOI et livre des codes/dictionnaire des données).

Calendrier

Le dépôt des données doit s’opérer selon les attentes ou exigences du bailleur de fonds et de l’établissement; ces données doivent en général être disponibles à la publication des résultats ou dans un délai défini après le projet ou encore, lorsque cela se justifie, à l’expiration d’un embargo de courte durée, dûment motivé et assorti d’une date de levée.

Sélection et organisation

Vous devez identifier le jeu de fichiers faisant autorité; supprimer les fichiers redondants et temporaires; établir clairement une structure de répertoires et une convention de nommage (tirée de votre PGD); geler sous forme d’exportations stables, lorsque cela est possible, les extrants dépendants de l’outil (p. ex., transformer les fichiers docx en .RTF); documenter dans le fichier LISEZMOI toutes les dépendances non standard.

Formats préservateurs

Vous avez intérêt à préférer les formats ouverts et à large diffusion (p. ex., CSV/TXT pour les données tabulaires; TIFF/PNG pour les images; WAV/FLAC pour le son; PDF/A pour les documents). En outre, si la fidélité commande un format propriétaire, vous devez en indiquer un équivalent ouvert et signaler toute perte de fonctionnalités.

Documentation

Mettez à disposition un fichier LISEZMOI (aperçu du projet, inventaire des fichiers, méthodes, étapes de traitement, logiciels et versions, limitations connues) et un livre des codes/dictionnaire des données (variables, unités, valeurs admissibles, codages, conventions sur les valeurs manquantes, variables dérivées).

Contrôles d’intégrité

Ces contrôles consistent à valider l’exhaustivité et la cohérence des données, à s’assurer que les fichiers s’ouvrent et se restituent sur des systèmes indépendants et, lorsqu’ils sont pris en charge, à calculer et à conserver les sommes de contrôle dans le cas de fichiers volumineux ou critiques.

Mini-liste de l’état de préparation

  1. 1. Ensemble de fichiers finaux organisés.
  2. 2. Formats préservateurs en place ou justifiés.
  3. 3. Fichier LISEZMOI et livre des codes terminés.
  4. 4. Données délicates examinées/dépersonnalisées ou restrictions envisagées.

Métadonnées requises

Il convient de fournir des métadonnées du niveau étude (titre, auteurs et leurs affiliations, résumé, mots-clés, méthodes, couverture temporelle/géographique, sources de financement, extrants connexes) et, le cas échéant, les schémas propres à la discipline (p. ex., DDI pour les sciences sociales, QuDEx pour les études qualitatives, etc.).

Identificateurs rémanents 

Vous devez activer un système DOI pour l’ensemble de données; inclure les identificateurs ORCID des contributeurs; les identificateurs ROR pour les établissements; enregistrer les identificateurs de subventions; établir un lien avec les versions de logiciels/codes accompagnés de leurs propres PID, le cas échéant.

Citation

Il faudra inclure dans le dossier du référentiel et dans le fichier LISEZMOI une citation standard de l’ensemble de données (créateur, année, titre, version, référentiel, DOI). Demandez aux autres auteurs de citer l’ensemble de données dans leurs manuscrits, leurs CV et leurs rapports. Revenez lier les publications aux subventions afin de renforcer le suivi de la provenance et de l’impact.

Choix de référentiel

Vous avez intérêt à privilégier les référentiels propres à votre discipline par souci de complémentarité; optez pour les référentiels institutionnels aux fins d’alignement et d’édition; envisagez des options généralistes lorsque les référentiels d’ordre disciplinaire ne sont pas disponibles. Évaluez le niveau de conservation, la politique de conservation, les contrôles d’accès, la durabilité ou certification et les frais de dépôt potentiels.

Modèle d’accès, licence, embargo

Choisissez un niveau d’accès (ouvert, restreint ou métadonnées seules/fermées) en accord avec le consentement, les limites prévues par la loi ou contractuelles et les mandats politiques. Optez pour une licence Creative Commons qui répond le mieux à vos besoins et, le cas échéant, imposez un embargo dûment motivé, assorti d’une date de levée.

Ancrage politique

Vous devez aligner vos décisions en matière de référentiel et d’accès sur les attentes des bailleurs de fonds et des établissements, en tenant compte des préférences d’ordre disciplinaire s’il y en a, et veiller à la cohérence de vos choix avec les engagements pris dans le cadre de votre PGD.

Souveraineté des données autochtones

S’agissant des données sous régie d’une communauté, il convient de mettre en œuvre une gouvernance alignée sur les principes OCAP/CARE, un consentement respectueux de la culture et des conditions d’accès définies par la communauté. Envisagez un accès restreint aux données, la garde par la communauté ou le rapatriement plutôt qu’un dépôt ouvert, et documentez les accords de gouvernance dans les métadonnées.

Flux de travail de dépôt

  1. 1. Créer le dossier de l’ensemble de données.
  2. 2. Compléter les métadonnées requises.
  3. 3. Téléverser les fichiers et la documentation.
  4. 4. Définir la licence et l’accès ou l’embargo.
  5. 5. Répondre aux observations éventuelles de l’éditeur.
  6. 6. Finaliser la mise en forme et la publication de l’identificateur des objets numériques (DOI).

Post-dépôt

Utilisez le versionnage du référentiel pour procéder aux corrections et publier les nouvelles versions, tout en veillant à ce que la provenance des documents soit conservée d’une version à l’autre. Actualisez les liens vers les publications et les logiciels, et assurez-vous que les coordonnées des contacts et des intendants restent à jour pour répondre aux demandes d’accès à caractère permanent.