Le site de l'Université Paris-Saclay est actuellement en cours de mise à jour suite à sa restauration, après la cyberattaque subie en août. Certaines informations peuvent ne pas être encore actualisées. Nous travaillons à les remettre à jour au plus vite. Dans l'intervalle, nous vous remerçions de votre compréhension.
M2 DataScale : Gestion de données et extraction de connaissances à large échelle
La réunion de rentrée du M2 DataScale aura lieu le lundi 16 septembre 2024 à 10h
en salle D101 du bâtiment Descartes, UFR des Sciences de l'UVSQ, 45, avenue des Etats-Unis, 78000 Versailles.
Accès : https://www.uvsq.fr/campus-des-sciences
Les cours démarreront dès le mardi 17/09 matin.
PRESENTATION DE LA FORMATION
La ‘data’ au cœur de tous les défis technologiques et de tous les métiers
• Administration des nouveaux gisements de données, analyse de données de capteurs (domotique, énergie, santé, mobilité), protection de la vie privée, prédiction de l’évolution du climat ou d’une pandémie …
DataScale, une double compétence très recherchée entre :
• Ingénierie des données : conception, administration, sécurisation et optimisation d’architectures multi-échelles (des grands « data centers » aux myriades d'objets connectés).
• Analyse des données : intégration de données hétérogènes, qualité des données, fouille de données et apprentissage automatique pour transformer les données en réelles connaissances.
Des débouchés multiples autour de la ‘data’
• Dans le monde industriel, les services, les startups, la recherche académique ou la R&D dans des laboratoires publics ou privés.
Lieu(x) d'enseignement
EVRY
VERSAILLES
Pré-requis, profil d’entrée permettant d'intégrer la formation
Le parcours DataScale est proposé en formation initiale uniquement. Les pré-requis correspondent à un niveau équivalent à celui d'un master 1 en informatique français avec de solides notions en bases de données.
Les profils typiques d'étudiants intégrant la formation DataScale sont : étudiants ayant obtenu un master 1 informatique en France, étudiants d'écoles d'ingénieurs partenaires effectuant leur dernière année en double cursus, étudiants ayant déjà obtenu un diplôme d'ingénieur ou de master informatique à l'étranger.
Compétences
Déployer, utiliser et administrer une infrastructure de gestion de données à large échelle.
Extraire, analyser et exploiter l’information et la connaissance stockées dans une infrastructure de gestion de données à large échelle.
Développer et déployer des applications de gestion de données orientés services.
Produire et présenter un état de l’art et conduire une démarche scientifique.
Profil de sortie des étudiants ayant suivi la formation
Au terme de leur formation, les étudiants sont en mesure de mettre en œuvre les compétences clés suivantes :
Concevoir, déployer, utiliser et administrer une infrastructure de gestion de données à large échelle.
Extraire, analyser et exploiter l’information et la connaissance stockées dans une infrastructure de gestion de données à large échelle.
Développer et déployer des applications de gestion de données orientés services.
Produire et présenter un état de l’art et conduire une démarche scientifique.
Ces compétences sont acquises au travers d'UEs de tronc commun et d'options leur apportant un savoir académique ciblé, de projets complétant la formation par un savoir empirique, de séminaires ouvrant les étudiants sur des sujets et pratiques issus du monde de la recherche, de l'industrie et des services et enfin d'un stage de longue durée confrontant les savoirs acquis à la réalité terrain.
Débouchés de la formation
La formation conduit les étudiants vers des carrières de cadres et cadres supérieurs en informatique dans l'industrie et les services ou de carrières tournées vers la recherche et la R&D en gestion de données dans les universités, les organismes de recherche privés et publics, les grandes entreprises et les start-up. Les étudiants peuvent poursuivre leurs études après l'obtention du master et s'inscrire en doctorat.
Les étudiants seront particulièrement armés pour accomplir des missions telles que :
Data engineer
Data analyst
Chief Data Officer
Administrateur de bases de données (DBA)
Administrateur de sécurité (DSA)
Urbaniste de systèmes d’informations
Architecte / Concepteur / développeur d’applications Big Data, Web, IoT
Contexte Covid-19 (rentrée académique 2020-2021 pour cette formation)
Proposition de formation entièrement en distanciel jusqu'à fin décembre 2020 pour les étudiants internationaux retenus hors de France
Philippe Pucheral (UVSQ)
Pierre Sutra (Télécom SudParis).
Déroulement et organisation pratique :
- cours/TD intégrés
- évaluation par un examen terminal.
Objectifs pédagogiques visés :
Contenu :
Pour gérer efficacement et de façon fiable des masses de données de plus en plus volumineuses, hétérogènes et largement distribuées, les mécanismes internes de gestion de données sont en profonde mutation. Ces mécanismes doivent s'adapter aux évolutions profondes des applications (des applications OLTP/OLAP traditionnelles au big data et à l'edge computing) et exploiter au mieux les avancées liées aux technologies hardware (mémoires stables électroniques NAND ou 3D Xpoint, tera-byte RAM, architectures massivement distribuées, microcontrôleurs embarqués).
En premier lieu, ce module introduit les principes fondamentaux liés au stockage et à l'indexation de données, à l'évaluation et à l'optimisation de traitements massifs et à la cohérence et la résilience des données. Il détaille ensuite comment ces concepts fondamentaux sont déclinés dans des architectures aussi différentes que les serveurs relationnels High End, les systèmes NoSQL largement distribués et désormais les micro-serveurs embarqués constituant l'Internet des Objets. Dans une dernière partie, ce module s'intéresse aux mécanismes de gestion de la cohérence et de la concurrence, et présente plusieurs algorithmiques représentatifs du domaine (Bayou, ABD, primary replication et consensus).
Prérequis :
Niveau M1 informatique ou 4ème année d'école d'ingénieur ayant reçu une formation en :
- bases de données : concepts fondamentaux, SGBD relationnels, principes de base de l'indexation et de l'évaluation de requêtes
- systèmes distribués : concepts fondamentaux, principes de base du contrôle de concurrence et de la réplication.
Bibliographie :
- Principles of Distributed Database Systems, Ozsu, T., Valduriez P., Prentice-Hall, 2nd edition, 2011 (Springer)
- Fundamentals of Database Systems, 6th Ed, Elmasri and Navathe, Addison Wesley, 2011
- Replication Techniques for Availability, R. Van Rene.
Intitulé de l’UE en anglais :
Service Oriented Architecture
ECTS :
2.5
Détail du volume horaire :
Cours :15
Travaux dirigés :12
Modalités d'organisation et de suivi :
Coordinateur :
Equipe pédagogique :
Yehia Taher
Walid Gaaloul.
Déroulement et organisation pratique :
L'UE se compose d'une alternance de cours magistraux et d'application pratique.
Objectifs pédagogiques visés :
Contenu :
Ces dernières années, le développement d'applications a beaucoup évolué sous l'impulsion du besoin grandissant des entreprises pour des applications ubiquitaires. Dans l'informatique ubiquitaire, les services modélisent les ressources et les applications, et sont utilisés pour gérer l'hétérogénéité et la dynamique de ces environnements. Le web n'est alors plus simplement un ensemble des pages statiques reliées entre elles, mais un dispositif permettant une intégration des services ubiquitaires, rendant accessible des applications avec une interface utilisateur riche et réactive.
L’objectif de ce cours est donc d'aborder les principes fondamentaux des architectures orientées services pour la conception d’applications d’entreprise. Pour cela seront abordés les principaux modèles, algorithmes, technologies et outils pour la construction d’applications à base de services. Ce module adresse les points suivants : Les architecture orientée services et leurs standards; les modèles de contrats (SLA) et qualités de services (QoS) ; les approches pour la découverte et composition de services (orchestration et chorégraphie) ; ou encore les architectures de services (SCA, services web sémantiques, REST).
Prérequis :
Bonne connaissance des concepts de base de la programmation orientée-objet, et du développement d’applications Web.
Bibliographie :
Michael P. Papazoglou: Web Services: Principles and Technology. Prentice Hall, 2007. ISBN, 140825073X, 9781408250730.
7 séances de cours
Évaluation par un examen terminal.
Objectifs pédagogiques visés :
Contenu :
Un nombre croissant d’applications nécessitent de manipuler des données provenant de sources de données distantes, autonomes et hétérogènes. L’interopérabilité entre ces sources se fait à travers des architectures d’intégration de données, dont le but est de fournir un accès uniforme à ces sources de données. La conception de telles architectures pose des problèmes techniques, sémantiques et qualitatifs. Le but de ce module est double : (i) passer en revue les architectures d’intégration de données (ex. médiation, entrepôt de données) et leurs propriétés opérationnelles ; (ii) analyser les problèmes de conception de ces architectures et donner une synthèse des principales techniques associées. Seront notamment abordés la définition de mappings (LAV / GAV et autres), la réécriture des requêtes et l’appariement de schéma. Les problèmes spécifiques aux entrepôts de données seront étudiés, notamment la représentation des données multidimensionnelles, la sélection des agrégats à matérialiser, le processus de rafraîchissement d’un entrepôt de données, les opérations OLAP et les outils ETL.
Prérequis :
Bases de données : création et manipulation de bases de données relationnelles, mécanismes internes des SGBD relationnels.
Bibliographie :
Principles of distributed database systems, Tamer Oszu et Patrick Valduriez
The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering, Ralph Kimball & Joe Caserta.
- Marie Szafranski (ENSIIE)
- 1 intervenant ENSIIE
- Philippe Pucheral [UVSQ).
Déroulement et organisation pratique :
21h de cours/TD.
Objectifs pédagogiques visés :
Contenu :
L’objectif du cours consiste à appréhender les concepts théoriques et méthodologiques sous-jacent à l’apprentissage automatique (machine learning). L’accent sera mis l’apprentissage supervisé.
1. Introduction : notions d'apprentissage supervisé, d’apprentissage non supervisé, de sciences des données
2. Concepts : minimisation du risque empirique, minimisation du risque structurel, compromis biais-variance
2. Méthodologie : mesures d’évaluation du risque, estimation du risque (échantillons indépendants, validation croisée, méthodes réchantillonnage)
3. Apprentissage supervisé : K plus proches voisins, SVM, modèles de régression, réseaux de neurones.
Ce cours alternera entre présentation des concepts et applications sous la forme de travaux dirigés.
Objectifs pédagogiques visés :
Contenu :
Les systèmes de gestion de bases de données relationnelles permettent de gérer efficacement des données structurées de taille moyenne (tables de quelques centaines de Go). L’avalanche de données Big Data disponibles sur le Web (traces de navigation, opinions, posts, etc.), ou amassées par les entreprises (tickets d’appels téléphoniques, historiques des achats, etc.) se heurte à la rigidité des systèmes de gestion de bases de données traditionnels (besoin de schéma, modèle de données inadéquat pour les données complexes, contraintes d’intégrité et propriétés ACID).
Pour répondre aux besoins des nouvelles applications de nombreuses solutions ont été développées ces dernières années. Ces modèles post-relationnels se répartissent en différentes catégories : bases de données en colonne, entrepôts clé-valeur, bases de données XML, bases de données graphe, etc.
L’objectif de ce cours est de décrire les enjeux et les fondements de ces solutions et d’en présenter les principales composantes.
Maîtrise des concepts des bases de données relationnelles et des systèmes de gestion de bases de données, maîtrise d'un langage de programmation orienté-objet (Java, Python, ...), maîtrise des outils systèmes (shell, ...) et des outils de développement.
Bibliographie :
A Survey on NoSQL Stores. Ali Davoudian, Liu Chen, Mengchi Liu. ACM Computing Surveys, Vol. 51, Issue 2, June 2018.
Persisting big-data: The NoSQL landscape. Alejandro Corbellini, Cristian Mateos, Alejandro Zunino, Daniela Godoy, Silvia Schiaffino. Information Systems, Volume 63, 2017, pp. 1-23.
7 séances de cours
Réalisation d'un mini-projet pendant toute la durée de l'UE
Évaluation par un examen terminal et le mini-projet.
Objectifs pédagogiques visés :
Contenu :
Evaluer et améliorer la qualité de l’information est un enjeu crucial dans les systèmes d’information. Une large collection d'outils commerciaux et open source est disponible sur le marché pour gérer les problèmes de qualité des données dans les systèmes d'information. Chacun de ces outils fournit des fonctionnalités spécifiques, et a sa propre vision de la qualité des données.
L'objectif de ce cours est de présenter les concepts fondamentaux pour comprendre et analyser la qualité des données, notamment dans le contexte des systèmes d’intégration. Le cours présente les différentes dimensions et facteurs caractérisant la qualité des données ainsi que la qualité des processus qui les produisent. Les métriques de qualité, outils de mesures associés aux différentes dimensions, sont présentées, ainsi qu'un état de l'art des modèles, approches et outils pour l'évaluation, l'amélioration et l'analyse de la qualité. Les dimensions de la qualité des données étudiés sont mise en œuvre de façon concrète dans le cadre d’un mini-projet.
Intitulé de l’UE en anglais :
Spatio-temporal Data Processing and Mining
ECTS :
2.5
Détail du volume horaire :
Cours :21
Modalités d'organisation et de suivi :
Coordinateur :
Equipe pédagogique :
Karine Zeitouni, Professeure
Iulian Sandu Popa, Maitre de Conférences.
Déroulement et organisation pratique :
The lecture will alternate the courses and the labs. It will end with the presentation of the project and an exam.
The evaluation is equally based on an exam and a project.
Objectifs pédagogiques visés :
Contenu :
The continued advances in mobile devices, geo-location wireless sensors and positioning technologies have led to a profusion of spatio-temporal data. A wide range of applications rely on these data, such as intelligent transportation systems, shared mobility, traffic management, location-aware services, environmental studies, etc. Subsequently, an important research and development (R&D) effort went into the general field of Spatio-temporal (or moving objects) databases (MODB). We can divide them in three classes:
(i) modeling moving object databases
(ii) indexing techniques and query processing of big spatial and spatio-temporal data
(iii) spatial/temporal data analytics, pattern mining, and machine learning.
The goal of this lecture is to review the state of the art, from operational and research point of views, and to highlight the application needs, and obstacles / challenges, which guide the trends in R&D.
Prérequis :
Advance database techniques (query processing, data integration and quality)
Machine learning (recommended).
Bibliographie :
Books:
- Andrienko, Gennady, et al. Visual analytics of movement. Springer Science & Business Media, 2013.
- Corti, Paolo, et al. PostGIS Cookbook. Packt Publishing Ltd, 2014.
- Giannotti F., Pedreschi D. Mobility, Data Mining and Privacy: Geographic Knowledge Discovery, Springer, 2008.
- Ralf Hartmut Güting, Markus Schneider: Moving Objects Databases. Morgan Kaufmann (2005).
- Rigaux P., Scholl M. and Voisard A., Spatial Databases-With Application to GIS, Morgan Kaufmann Series in Data Management Systems (2001).
7 cours de 3h avec une évaluation sous forme de lectures d'articles/rapport/soutenance.
Objectifs pédagogiques visés :
Contenu :
Les systèmes de gestion de bases de données (SGBD) sont devenus des composantes omniprésentes des logiciels d'application modernes. Par exemple, SQLite, un SGBDR léger, est livré en tant que composante de Firefox, Zoom, Skype, SymbianOS et McAfee Antivirus et doit maintenir de façon très stricte l'intégrité et la confidentialité des données. Par ailleurs, déléguer la gestion de données à des serveurs cloud (ex. amazon cloud ou microsoft Azure) présente de nouveaux problèmes de sureté.
Pour s'assurer de la fiabilité de ces SGBD et de leurs algorithmes sous-adjacents, il faut comprendre quels sont les aspects de modélisation et de requêtage qui pourront poser des problèmes de cohérence ou de perte/fuite d'information et quelles sont les techniques qui pourraient êtres appliquées pour y remédier. En particulier, on s'intéressera aux méthodes, dites formelles, qui permettent de raisonner rigoureusement, à l'aide de la logique mathématique, pour établir qu l'exécution des programmes (et des requêtes) est conforme à une spécification.
La première partie du cours concernera les aspects liés à la preuve mécanisée et aux tests formels appliqués aux bases de données relationnelles et non-relationnelles (de type graphe). La seconde partie concerne les questions de chiffrement des bases de données et les garanties de sécurité lors de l'exécution de requêtes sur un serveur malhonnête.
Prérequis :
Notions de logique
- Notions de cryptographie.
Bibliographie :
K. Trivedi and A. Bobbio, Reliability and Availability Engineering, Cambridge University Press.
- B. Schneier, Applied Cryptography, Wiley.
La fouille de données ou « Data Mining » offre un ensemble de techniques d’exploration de données permettant, à partir d’une grande masse de données stockées dans des bases ou des entrepôts de données, d’extraire des connaissances qui sont utiles et inconnues pour l’aide à la décision. A la fin de ce module, les étudiants seront capables d'identifier la technique adéquate face à un problème réel à résoudre, de traiter les données selon leurs types, de produire des résultats commentés, et d'évaluer la portée réelle de ces résultats.
Pour réaliser l’objectif de ce module, le syllabus comportera l’étude des points suivants :
⎯ Le pré-traitement des données (e.g., nettoyage, intégration, transformation, réduction, discrétisation) ;
⎯ Les modèles de segmentation de données (e.g. k-means, classification hiérarchique, DBSCAN) ;
⎯ Les modèles de classification/prédiction (e.g., les arbres de décision, les réseaux de neurones, l’apprentissage profond) ;
⎯ L’extraction de motifs (e.g., les règles d’associations, algorithme Apriori) ;
⎯ Apprentissage de représentation et fouille de données complexes et (e.g., textes, séries temporelles, trajectoires).
La mise en pratique de ces concepts s'appuiera sur l'utilisation d'un logiciel gratuit/libre de fouille de données (e.g., Weka) et d’un ensemble de bibliothèque libre destinée à l'apprentissage automatique (e.g., scikit-learn).
Compétences :
a) Explorer des données, b) traiter les données manquantes, c) développer un modèle de fouille de données en utilisant la technique adéquate face à un problème réel à résoudre, d) comparer et expliquer les modèles de fouille de données, e) évaluer la portée réelle des résultats produits.
Prérequis :
Notions de statistiques et d'analyse de données.
Bibliographie :
● Han, J., Kamber, M., & Pei, J. (2011). Data mining: concepts and techniques: concepts and techniques. Elsevier
● H Witten, Ian. "Data mining: practical machine learning tool and techniques." (2016). 4th edition.
● Gupta GK. Introduction to data mining with case studies. PHI Learning Pvt. Ltd.; 2014 Jun 28.
● Cios KJ, Pedrycz W, Swiniarski RW. Data mining methods for knowledge discovery. Springer Science & Business Media; 2012 Dec 6.
Frameworks pour le développement d'applications Web avancées
Langues d’enseignement :
FR
ECTS :
2.5
Détail du volume horaire :
Cours :15
Travaux dirigés :6
Modalités d'organisation et de suivi :
Coordinateur :
Equipe pédagogique :
Marc DEXET.
Déroulement et organisation pratique :
Ce cours alternera entre présentation des concepts et applications sous la forme de travaux dirigés.
Objectifs pédagogiques visés :
Contenu :
Le Web est aujourd'hui un support privilégié pour la majorité des applications. Leurs développements répondent à des exigences croissantes et multiples. Leur capacité à être maintenables et évolutives est déterminante. Il n'est plus envisageable de recréer l'ensemble des briques nécessaires. L'ère est définitivement à l'utilisation de frameworks.
Ces ensembles cohérents de composants, alignés sur des philosophies et des architectures logicielles reconnues, permettent aux développeurs de se concentrer sur les réponses aux besoins, apportant des solutions éprouvées aux problématiques usuelles du Web.
Encore faut-il les connaître ! Cette UE se propose, à travers les frameworks phares de l'écosystème java, d'en comprendre les concepts et de les mettre en pratique. Nous traiterons de sécurité, de persistance des données, de qualité logicielle, d'architecture REST. Nous verrons comment développer, côté serveur, des applications web de niveau professionnel, car il ne lui suffit pas de tomber en marche, encore faut-il qu'elle soit de qualité.
Maîtrise des concepts des bases de données relationnelles et des systèmes de gestion de bases de données
Maîtrise de Java
Maîtrise des outils systèmes (shell, ...) et des outils de développement.
Dans ce module 2 évaluations ont lieu : (1) un mini-projet à faire en binône sur une thématique du cours, et (2) un mini-contrôle écrit individuel sur la compréhension des concepts vus en cours.
La moyenne sera calculée sur la base 2/3 mini-projet et 1/3 mini-contrôle.
En complément et en dehors du cours, un projet est proposé dans le Master pour ceux qui désirent approfondir cette thématique. Il permet la réalisation dans un cadre réel (i.e. salle complètement équipée de capteurs) d’applications d’intelligence ambiante (domotique).
Objectifs pédagogiques visés :
Contenu :
Descriptif : L’explosion sans précédent des volumes de données générés par les capteurs et les équipements mobiles conduit à un couplage entre monde physique et monde numérique. Cette évolution initiée dans les années 2000 recouvre différents termes technologiques comme le Web des capteurs, l’Internet des objets, l’intelligence ambiante, les systèmes ubiquitaires, les systèmes cyber-physiques, l’informatique mobile, etc.... Cette masse d’informations issues du monde physique, dite masse de données ambiantes, est caractérisée par une distribution à grande échelle (fragmentation et duplication de l’information), une très forte hétérogénéité (aussi bien sémantique que technologique), une grande sensibilité au contexte (déterminant l’interprétation, l’usage et la fragilité de l’information), une dynamicité des sources de données, et une volatilité des flux circulant entre objets communicants.
C’est un tour d’horizon des solutions à l’architecture des données ambiantes que propose ce cours.
Mots-clef : systèmes de gestion de flux de données (DSMS, CEP), langages de requêtes continues (CQL), médiation de données, intergiciels pour l’internet des objets, déploiement de systèmes IoT, systèmes de crowdsensing, architecture IoT largement distribuée, composition dynamique de smart services, sensibilité au contexte et adaptation….
Prérequis :
Bonne connaissance des SGBD (langages et mécanismes internes), des services et protocoles du web.
Intitulé de l’UE en anglais :
Data and service management on the cloud
ECTS :
2.5
Détail du volume horaire :
Cours :15
Travaux dirigés :6
Modalités d'organisation et de suivi :
Coordinateur :
Equipe pédagogique :
Yehia Taher
Walid Gaaloul.
Déroulement et organisation pratique :
L'UE se compose d'une alternance de cours magistraux et d'application pratique.
Objectifs pédagogiques visés :
Contenu :
Le Cloud Computing est un modèle récent de fourniture à la demande de ressources virtuelles d’infrastructure, de plateforme et de logiciel. Ce cours décrit les concepts de bases, les modèles de déploiements, les services et standard de Cloud et de la gestion de données dans le Cloud. En particulier, on introduit les différents types de services de Cloud (IaaS, PaaS, SaaS), les modèles de déploiement (Privé, Public, Virtuel, Communautaire, Hybride), les architectures de Cloud et les standards (Docker, OGF OCCI, OASIS TOSCA). On décrit également comment les propriétés non-fonctionnelles (telle que l'élasticité) peuvent être assurées.
Objectif & Contenu : Les concepts introduits dans ce cours sont illustrés avec des travaux pratiques. Ils portent sur un gestionnaire d’infrastructure (par exemple OpenStack ou OpenNubela), une plateforme de déploiement (Docker, AWS, Google App Engine ou Cloudfoudry) et des outils de gestion de stockage (Google Storage, ObjectStore S3, Amazon Dynamo, etc.).
Prérequis :
Bonne connaissance des architectures à bases de services, des concepts fondamentaux des bases de données, des applications client/serveur.
Intitulé de l’UE en anglais :
Business Process Management
ECTS :
2.5
Détail du volume horaire :
Cours :15
Travaux dirigés :6
Modalités d'organisation et de suivi :
Coordinateur :
Equipe pédagogique :
Yehia Taher
Walid Gaaloul.
Déroulement et organisation pratique :
L'UE se compose d'une alternance de cours magistraux et d'application pratique.
Objectifs pédagogiques visés :
Contenu :
De nos jours, l’évolution de la technologie informatique et notamment l’émergence des architecture SOA, du Cloud Computing et de l’Internet des Objets d’une part, et la complexité et dynamicité croissante des besoins d’utilisateurs d’autre part, ont un impact très important sur la manière avec laquelle l’entreprise effectue ses activités. En effet, il est très important pour une entreprise de s’adapter aux différentes évolutions tant sur le plan métier que sur le plan technologie afin de satisfaire au mieux ses clients. Pour faire face à ces challenges, la notion de processus métier, qui vise à informatiser les procédés d’entreprise ainsi qu'à maîtriser leur complexité, se manifeste comme un enjeu majeur dans l’entreprise de nos jours.
L’objectif de ce cours est donc d'aborder à la fois les concepts théoriques et pratiques de la modélisation, développement, et mise en place des processus métier. Pour cela seront abordés les principaux modèles, méthodologies, technologies et outils pour la construction des processus métier d’entreprise, et enfin, les enjeux d’analyse et optimisation des processus à base des techniques de fouille de log de processus.
Prérequis :
Bonne connaissance des concepts de base des systèmes d’information, les architectures SOA, et du développement d’applications Web.
Bibliographie :
Marlon Dumas, Marcello La Rosa, Jan Mendling, and Hajo A. Reijers. 2013. Fundamentals of Business Process Management. Springer Publishing Company, Incorporated.
Philippe Pucheral (UVSQ)
Iulian Sandu Popa (UVSQ).
Déroulement et organisation pratique :
5 cours et 2 TP.
Objectifs pédagogiques visés :
Contenu :
Les menaces sur les données n'ont jamais été aussi nombreuses, qu'il s'agisse d'atteinte à la vie privée des individus, de violation de secrets industriels, commerciaux ou diplomatiques ou encore de falsification de données pouvant avoir des conséquences dramatiques sur le fonctionnement d'un système d'information.
Ce module présente les propriétés attendues d’un système d’information en terme de protection des données (confidentialité, intégrité, disponibilité) et passe en revue les familles d'attaques visant à violer ces propriétés. Il détaille ensuite les différentes stratégies pour se prémunir de ces attaques : modèles de contrôle d’accès (DAC, MAC, RBAC, ABAC), chiffrement de bases de données, protections hardware (HSM, co-processeurs sécurisés), audit, anonymisation de données, ainsi que les protections juridiques relatives aux données à caractère personnel (règlement européen RGPD).
Prérequis :
Bonnes connaissances des SGBD
Concepts de base de la cryptographie (un rappel sera effectué).
Bibliographie :
- Security, Privacy, and Trust in Modern Data Management, Milan Petkovi?, Willem Jonker, Springer, 2007.
7 séances de cours.
Réalisation d'un mini-projet pendant la durée de l'UE.
Objectifs pédagogiques visés :
Contenu :
Le Web des données (Linked Data) est un espace constitué d’un très grand nombre de sources de données interconnectées, qui peut être vu comme un graphe distribué à l’échelle mondiale. Ces données sont décrites dans les langages développés par le W3C (World Wide Web Consortium). Le Web sémantique est l’ensemble des technologies qui permettent aux applications d’utiliser les données du Web, de reconnaître leur sens, et de permettre le raisonnement sur ces données.
L’objectif de ce cours est de présenter les principes du Web sémantique et du Web des données. Il porte sur les langages de représentation proposés par le W3C pour les données : d’abord le langage RDF, puis les langages d’ontologies RDF/S et OWL. L’interrogation de données RDF avec le langage de requêtes Sparql est également abordée, ainsi que les approches d’interconnexion des données (data interlinking). Ce cours présente également des approches alternatives à l’interrogation de données RDF en Sparql, et notamment la recherche mots-clés ou l’exploration thématique.
Prérequis :
Maîtrise des concepts de la gestion de données, maîtrise d'un langage de programmation (Java ou Python).
Bibliographie :
F. Gandon, C. Faron-Zucker et O. Corby. Le web sémantique.
T. Heath et C. Bizer. Linked Data. Evolving the web into a global data space.
S. Abiteboul, I. Manolescu, P. Rigaux, MC. Rousset, P. Senellart. Web Data Management.
Période(s) et lieu(x) d’enseignement :
Période(s) :
Décembre - Janvier - Février.
Lieu(x) :
VERSAILLES
Le second semestre est composé principalement d'un stage de 5 mois ainsi que d'un groupe d'UE professionnalisantes composé d'une UE d'anglais, une UE de connaissance de l'entreprise, une UE de séminaires industriels/recherche et d'un projet annuel.
L'équipe pédagogique est composée d'enseignants de l'Institut d’études culturelles et internationales de l'UVSQ (IECI), qui assure la coordination pédagogique de l’enseignement des langues et cultures étrangères pour tous les étudiants de l'UVSQ.
Déroulement et organisation pratique :
Contrôle continu et examen.
Objectifs pédagogiques visés :
Contenu :
Maîtrise de la langue anglaise, notamment dans le domaine scientifique et informatique.
- travail réalisé seul ou en binôme en fonction des projets
- le projet se déroule tout au long de l'année, sur des demi-journées bloquées et une semaine complète bloquée
- évaluation sur la base d'un rapport et d'une soutenance.
Objectifs pédagogiques visés :
Contenu :
L'UE "projet conception" a pour objectif de réaliser un travail de conception d'envergure autour d'un sujet en relation avec la gestion de données à large échelle. Sont par exemple proposés des sujets relatifs à la gestion de données ambiantes, au machine learning, au requêtage et à la fouille de données scientifiques ou encore aux usines logicielles.
- Travail réalisé seul ou en binôme en fonction des projets
- le projet se déroule tout au long de l'année, sur des demi-journées bloquées et une semaine complète bloquée
- évaluation sur la base d'un rapport et d'une soutenance.
Objectifs pédagogiques visés :
Contenu :
L'UE "projet programmation" fait suite à l'UE 'projet conception' et a pour objectif de réaliser un travail de développement d'envergure autour d'un sujet en relation avec la gestion de données à large échelle. Sont par exemple proposés des sujets relatifs à la gestion de données ambiantes, au machine learning, au requêtage et à la fouille de données scientifiques,aux usines logicielles, aux architectures de SGBD.
Régulations des données et des contenus numériques
Langues d’enseignement :
FR
ECTS :
1
Détail du volume horaire :
Cours :9
Modalités d'organisation et de suivi :
Coordinateur :Mélanie Clément-Fontaine
Equipe pédagogique :
Mélanie Clément-Fontaine (PR UVSQ).
Objectifs pédagogiques visés :
Contenu :
Cette UE a pour objet de présenter les grands principes des régimes juridique applicables aux :
- données à caractère personnel
- données à caractère non personnel.
- contenus numériques relevant du droit de la propriété intellectuelle (PI).
- contenus numériques hors du champ de la PI.
Cette présentation permettra d’explorer les grandes interrogations du moment en particulier soulevées par
l’émergence de l’IA ou encore l’accroissement des plateformes d’intermédiation.
Cette séquence de séminaires à vocation à ouvrir les étudiants à des problématiques industrielles ou recherche en relation avec la gestion de données à large échelle.
Les séminaires prennent la forme d'interventions de personnalités extérieures, ingénieurs, managers, chefs de projet ou chercheurs, venant partager leurs compétences autour d'un outil, d'une méthode de travail, d'un projet ou encore d'un retour d'expérience présentant un intérêt pédagogique direct aux étudiants, complémentaire à leur formation académique.
Prérequis :
Aucun.
Période(s) et lieu(x) d’enseignement :
Période(s) :
Octobre - Novembre - Décembre - Janvier - Février.
Document justificatif des candidats exilés ayant un statut de réfugié, protection subsidiaire ou protection temporaire en France ou à l’étranger (facultatif mais recommandé, un seul document à fournir) :
- Carte de séjour mention réfugié du pays du premier asile
- OU récépissé mention réfugié du pays du premier asile
- OU document du Haut Commissariat des Nations unies pour les réfugiés reconnaissant le statut de réfugié
- OU récépissé mention réfugié délivré en France
- OU carte de séjour avec mention réfugié délivré en France
- OU document faisant état du statut de bénéficiaire de la protection subsidiaire en France ou à l’étranger.