Oreilly

Think Stats

Ce livre offre un bon panorama de l’utilisation des statistiques dans un contexte data science, mais il est loin d’être réussi. Tout d’abord je n’ai pas adhéré au plan suivi par l’auteur. Il se prête peut-être à des cours – ce livre est issu des cours dispensés par l’auteur –, mais pas à la lecture. Ensuite il mixe mathématiques et programmation et c’est justement là qu’il pèche. Si les deux disciplines sont intimement liées, il est en effet impensable de faire des statistiques avec un papier et un crayon, mais de là à expliquer comment on a codé ses propres fonctions en Python alors qu’il existe des librairies comme pandas, statsmodel, scipy, seaborn, etc.

Effective Monitoring and Alerting

Juste une courte note à propos de ce livre que j’ai utilisé dans le cadre de mon travail. Tout d’abord deux points positifs. Le premier est qu’il traite des sujets monitoring, alerting et reporting en général, c’est-à-dire indépendamment de l’outillage utilisé. C’est à la fois un point fort et un point faible puisqu’il pourrait être utile d’identifier des familles d’outils adaptés à chaque usage. Cette volonté de s’écarter des outils est assez rare pour être soulignée.

Release It!

Ce livre est une bible pour tout professionnel qui souhaite déployer une solution en production – c’est quand même l’objectif normalement, les POC ça va un moment et le titre de ce livre vous y incite fortement. C’est une référence reconnue puisqu’il a contribué à populariser certains patterns comme le circuit breaker et qu’il caracole en tête de toutes les listes de lecture (must read) du domaine. Il est bourré de bons conseils issus d’un énorme retour d’expérience puisque Michael T.

Architecting for Scale

Ce livre est simple et bien conçu. Il aborde les thèmes essentiels auxquels il est nécessaire de s’intéresser si l’on veut construire, déployer et opérer des applications à grande échelle. Les voici, je n’invente rien, ce sont les cinq sections du livre: Disponibilité: Comment rendre les systèmes hautement disponibles et comment s’assurer qu’ils le sont via la mise en place de mesures. Gestion des risques: Comment construire une analyse de risques et mener des actions de remédiation.

Data Analysis with Open Source Tools

Les reproches faits à ce livre sont de deux ordres. Le premier porte sur sa structure – voire son contenu – qui n’est pas conventionnelle pour un livre intitulé Data analysis. C’est vrai que l’on s’attend à suivre une méthodologie, à être guidé et il faut bien reconnaître que ce n’est pas le cas. Si vous cherchez ce type d’ouvrage, je vous conseille de vous plonger dans Practical Data Science with R qui est un excellent ouvrage tout à fait dans ce registre.

Real-World Hadoop

Comme l’on pourrait s’y attendre en découvrant son titre, ce livre a pour objectif de nous faire découvrir l’utilisation de la technologie Hadoop au travers de cas concrets mis en oeuvre par des applications qui sont en production. C’est une distinction importante car il ne faut pas oublier que ces technologies sont encore très récentes et du prototype à la production il n’y a en effet qu’un pas, mais qui peut parfois être très compliqué à franchir et ceux qui y sont parvenus étaient encore considérés en 2015 comme des pionniers.

Field Guide to Hadoop

Pour vous y retrouver dans la jungle du big data et être en mesure de passer avec succès le test Is it Pokemon or Big Data ?, vous aurez besoin d’un guide pratique, clair, concis – très important – et bien organisé. Ce Field Guide to Hadoop sera votre plus fidèle compagnon de voyage et je vous conseille de l’avoir toujours a porté de main – ou de click – pour pouvoir écouter une conversation ou lire un article sans vous dire que vous êtes sur une autre planète – vous allez quand même y être un peu.

Python for data analysis

Si vous souhaitez faire de l’analyse de données en Python, l’utilisation de pandas est indispensable. D’ailleurs le sous-titre est clair Data Wrangling with Pandas, NumPy, and IPython. Si vous souhaitez utiliser pandas, la lecture de ce livre est indispensable – Stack Overflow aussi. D’ailleurs il aurait dû porter le titre pandas for data analysis. Ce livre a été écrit par le créateur de pandas, Wes McKinney, lorsqu’il travaillait pour une société effectuant des analyses financières.

Think Python

Ce livre s’adresse aux débutants, pas seulement en Python, mais aux débutants en programmation. La nuance est très importante car ses implications sont nombreuses. En fonction de la cible, le discours peut changer du tout au tout. Un concept aussi simple et aussi évident pour un développeur que l’itération au sein d’une liste, devra d’abord être appréhendé et compris par un novice avant de se focaliser sur la syntaxe et / ou les différentes façon de procéder et / ou les particularités du langage Python.