IN2P3 CERN Enigmass Asterics LAPTh IDEX


Rechercher


Accueil du site > Thèmes de recherche > CTA > Activités > Pipeline et calcul à haute perfomance

Pipeline et calculs à haute perfomance

Lorsqu’au moins deux télescopes reçoivent simultanément un flash de lumière suffisamment intense, l’électronique d’acquisition se déclenche, puis enregistre et stocke les images des caméras déclenchées. Ces données brutes sont alors enregistrées dans un fichier de donnée puis traitées par quatre étapes fortement liées, qui se succèdent dans un Framework d’analyse :

  • La calibration consiste à transformer les signaux électroniques de chaque pixel des cameras en quantité de lumière (nombre de photons).
  • La reconstruction permet d’identifier la direction de provenance du photon gamma et d’en estimer son énergie.
  • La réjection permet d’identifier les rayons gamma des rayons cosmiques, principal bruit de fond. Cette étape est particulièrement importante puisqu’on observe en moyenne un rayon gamma pour mille rayons cosmiques.
  • L’analyse extrait les spectres et les images finales du ciel en astronomie gamma. Elle permet ainsi d’étudier les sources potentielles.

Bien qu’il existe un grand nombre de variantes développées aujourd’hui, les algorithmes de reconstruction et de réjection sont tous basés sur la comparaison des images enregistrées à des images d’événements simulés par Monte Carlo. L’ensemble de ces algorithmes repose ainsi sur deux techniques :

  • La méthode développée par A. M. Hillas en 1985 suppose que l’intensité des images suit une distribution gaussienne bidimensionnelle. La gerbe observée par un télescope est ainsi proche d’une ellipse dont les paramètres géométriques (barycentre, grands et petits axes, asymétries, etc.) sont d’abord utilisés pour la reconstruction puis par la réjection. La comparaison avec simulation MC se fait aujourd’hui par analyse multi-variée par arbres de décision.
  • Développée au début des années 2000, la méthode semi-analytique est basée sur la comparaison de chaque pixel des images enregistrées avec des images préalablement calculées à partir d’un modèle physique de gerbes. Cette comparaison se fait aujourd’hui par maximisation de vraisemblance (MINUIT, méthode de Levenberg-Marquardt).

Bien que nettement plus performante, la méthode semi-analytique est fortement limitée par le temps de calcul qu’elle nécessite (100ms par événement alors que typiquement H.E.S.S. observe un événement toutes les 3ms et CTA en observera un toutes les 0,3ms). Cela a pour conséquences de restreindre le nombre d’images de référence pour la comparaison donnée-modèle et réduit donc l’efficacité de l’algorithme ; de limiter le retraitement des données qui peut être nécessaire durant la vie des télescopes ; d’empêcher l’utilisation de cet algorithme pour une reconstruction temps réelle. Ce dernier point étant critique, puisque seule une analyse temps réel peut permettre la détection de phénomènes astrophysiques transitoires (flambé de noyau actif de galaxie, sursaut gamma, etc.) et l’envoie d’alerte aux télescopes du monde entier, le cas échéant.

L’importante quantité de données à traiter conduit à des temps de calcul de plus en plus prohibitifs pour la mise en œuvre des méthodes et algorithmes cités et posent des problèmes d’occupation mémoire. Etant donné le volume gigantesque de ces données, les méthodes numériques utilisées doivent être capables de soutenir la mise à l’échelle des données comme par exemple de giga-octets au exa- ou zetta-octets. Par conséquence, la plupart des méthodes et algorithmes sont à repenser pour tenir compte de ces contraintes. La puissance de calcul permettant de résoudre ces problèmes est offerte par des nouvelles architectures parallèles/distribuées avec un nombre important de cœurs et d’accélérateurs (GPU, etc.) dont la disponibilité n’est pas toujours connue sur un pas de temps permettant une optimisation par recherche opérationnelle. L’exploitation efficace de ces architectures est une tâche très délicate nécessitant une maîtrise des architectures ciblées, des modèles de programmation associés et des applications visées. Toutefois, cette exploitation efficace peut être facilitée par des environnements de programmation et d’exécution pour systèmes parallèles/distribués à grande échelle.

Dans ce contexte, le groupe s’investit aujourd’hui à plusieurs niveaux :

  • Le format des données : les travaux déjà entamés ont mis en lumière l’importance primordiale du format de données pour l’aspect calcul haute performance (HPC). Le groupe participe donc à l’évolution du DATA-Model au sein de la collaboration CTA.
  • Le Framework de l’analyse : le groupe du LAPP développe le pipeline Python dans lequel le pipeline de l’expérience CTA sera développé. Le groupe est engagé à le maintenir et le faire évoluer en fonction des besoins futurs.
  • La reconstruction : Le groupe du LAPP développe les algorithmes de reconstruction (Hillas et Model++) en explorant les techniques de calculs hautes performances (architecture, vectorisation, multi-CPU, multi-GPU etc.) afin de réduire les temps et donc les couts liés au traitement des données. Le gain en temps de calcul devrait permettre de proposer à la collaboration une reconstruction performante offline et online. Le groupe a par ailleurs une motivation scientifique pour ce point : la détection des périodes d’activité des AGNs.