L’Actualité de la donnée de Septembre 2024

J’ai vu un mème présentant le premier ministre – enfin nous en avons un – avec l’accroche : “ je vais vous dire toute la vérité ”. Bien sûr, l’auteur du post ne voulait pas parler des finances de la France, mais de la qualité de données.


C’est un concept sur lequel je devrais un jour m’étendre : la prise en compte de l’analyse des données dès la conception !  Dès la conception des logiciels ! Dès la conception des systèmes d’information eux mêmes. Ici, ce que je voudrais dire c’est que trop peu de gens s’en préoccupent ! Il faut bien se figurer que si l’on considère que toutes les décisions sont guidées par les données… il serait de bon ton de la chouchouter !


A mon humble avis, toutes les organisations devraient la mettre au centre pour pouvoir mieux s’en servir et qu’elle, en retour, donne les clés pour comprendre un contexte sous tous les angles. Pour y parvenir, des termes ont été posés sur des pratiques. Je pense à Data Mesh qui apporte une standardisation, un cadre pour travailler avec des données dans les organisations. De même, les organisations devraient s’assurer qu’en leur sein elles ont bien des personnes pouvant faire évoluer la culture de la donnée.


A l’heure de Big Data AI Paris 2024, Synaltic, ayant travaillé, de près ou de loin et à une autre époque, autour d’applications Cobol, rappelle que si l’on a évité le bug de l’an 2000 on ne sait pas ce qu’il en sera au 31 décembre 2038  ! Le compte à rebours semble avoir commencé ! Certainement, un bon cas d’usage pour les catalogues de données et ainsi procéder avec de l’analyse d’impact.


Est-ce que OpenStreetMap, la carte construite en open source avec les valeurs de partage, ne serait pas l’un des plus grand catalogue de données à l’échelle mondiale ? Quelle organisation a été mise en place ? Les contributions proviennent de toutes parts ! OpenStreetMap a 20 ans !


La lettre évoque souvent la souveraineté pour l’Europe, pour la France, et pour votre organisation aussi du reste. Avez-vous déjà fait le lien entre souveraineté et compétence  ? Ces sujets relèvent éminemment de la géopolitique !






 


IA Gen : la phase de désillusion ?

Bientôt deux ans que OpenAI bouscule nos habitudes et nos certitudes. Les organisations ayant franchi le pas, semblent marquer une pause !

La data littératie n’est point à son asymptote dans les organisations ! Leur demander d’adopter l’IA Generative en masse amène forcément à de la désillusion ! D’autant plus que les organisations n’ont pas plus préparer leur données pour ces IA.


A la fin, il est évident que l’emploi de ces nouvelles technologies de l’information et de la communication trouvera ces usages et transformeront les organisations !





Arrêtez de partager des fichiers ! Partagez de la donnée !

Ce titre n’est pas encore un slogan mais il va le devenir !

Nous mettrons sans doute du temps à le faire comprendre aux organisations. Néanmoins, la vision partagée autour des catalogues de données bouleverse tout le marché !

Pourquoi travaille-t-on à échanger des données sous forme de fichiers qui contiennent des données ? Parce que c’est tellement simple ! Et ça passe à l’échelle !  Par contre, pas de contrainte sur l’échange de données par fichiers CSV.

Les nouveaux catalogues de données se placent pour apporter une réponse digne du 21èm siècle. Si depuis une vingtaine d’années le mot Big Data a fait son apparition, il est l’heure en 2024, de gérer rigoureusement son patrimoine de données et les accès tant en interne qu’en externe.




La Base de données en perpétuelle évolution 

Nous mettrons sans doute du temps à le faire Vous n’avez pas finir de voir la base de données relationnelles ! Il est assez édifiant de voir à quel point tous les acteurs qui ont décrié la base de données relationnelles finissent par retrouver le droit chemin. Certainement, parce que l’écosystème existant est déjà tellement large !

L’un des fondateurs de DuckDB revient sur l’histoire récente des bases de données. Il pense que toutes les charges de travail peuvent être assurées par un SGBDR.

Si l’AI Gen avale des data centers de GPU, la base de données analytiques y prend elle aussi ses marques ! Les performances sont au rendez-vous des acteurs comme Heavy.AI (anciennement Omnisci) avait ouvert la voie.





CE QU’IL FAUT RETENIR D’APACHE ICEBERG

Je me suis intéressé à Dremio dès 2018, et déjà le projet Iceberg semblait être la réponse à tout.


J’ai depuis, petit à petit, découvert tout ce qu’allait nous apporter ce nouveau format. Aujourd’hui, je continu de découvrir un potentiel que je n’avais jusqu’alors qu’entre aperçu.

Apache iceberg est devenu incontournable pour les architectures modernes de données (Big Data, Data Lake, Data Lakehouse).

Apache iceberg fournit une solution puissante et évolutive pour gérer et analyser des ensembles de données à grande échelle dans des systèmes distribués.



SQL va évoluer !

Les nouveaux catalogues de données ouvrent l’organisation comme jamais, le data lakehouse apporte un découplage stockage, calcul données .

Le GPU pousse les performances… Et bien le langage de manipulation de données aussi va bouger ! Google a déjà fait émerger Malloy  ! Google revient à la charge en proposant Pipe SQL ! ANSI SQL va connaître à mon avis une nouvelle version !




LOGICIELS

Debezium 3.0.0

Cette étape majeure est basée sur Java 17, qui introduit un nouveau récepteur MongoDB, la prise en charge des types de vecteurs pour PostgreSQL et MySQL, de nombreuses nouvelles fonctionnalités Oracle, et bien plus encore !


Dremio 25.1

Dremio améliore encore les performances des requêtes SQL et l’ingestion de données. Cette nouvelle version introduit notamment une gestion améliorée des requêtes fédérées, renforçant la sécurité et la gestion des données.



Airflow 2.10

La version 2.10 introduit les puissantes améliorations de Dataset et l’innovant Hybrid Executor. Ces nouvelles fonctionnalités redéfinissent les capacités des workflows, rendant Airflow encore plus performant.




Power BI Desktop 2.136.1202.0

La mise à jour de septembre 2024 de Power BI Desktop apporte des améliorations significatives, notamment des mises à jour des calculs de visuels et une disponibilité générale de l’accueil Power BI dans Power BI Desktop.