Data Science

Think Stats

Ce livre offre un bon panorama de l’utilisation des statistiques dans un contexte data science, mais il est loin d’être réussi. Tout d’abord je n’ai pas adhéré au plan suivi par l’auteur. Il se prête peut-être à des cours – ce livre est issu des cours dispensés par l’auteur –, mais pas à la lecture. Ensuite il mixe mathématiques et programmation et c’est justement là qu’il pèche. Si les deux disciplines sont intimement liées, il est en effet impensable de faire des statistiques avec un papier et un crayon, mais de là à expliquer comment on a codé ses propres fonctions en Python alors qu’il existe des librairies comme pandas, statsmodel, scipy, seaborn, etc.

Data Analysis with Open Source Tools

Les reproches faits à ce livre sont de deux ordres. Le premier porte sur sa structure – voire son contenu – qui n’est pas conventionnelle pour un livre intitulé Data analysis. C’est vrai que l’on s’attend à suivre une méthodologie, à être guidé et il faut bien reconnaître que ce n’est pas le cas. Si vous cherchez ce type d’ouvrage, je vous conseille de vous plonger dans Practical Data Science with R qui est un excellent ouvrage tout à fait dans ce registre.

Python for data analysis

Si vous souhaitez faire de l’analyse de données en Python, l’utilisation de pandas est indispensable. D’ailleurs le sous-titre est clair Data Wrangling with Pandas, NumPy, and IPython. Si vous souhaitez utiliser pandas, la lecture de ce livre est indispensable – Stack Overflow aussi. D’ailleurs il aurait dû porter le titre pandas for data analysis. Ce livre a été écrit par le créateur de pandas, Wes McKinney, lorsqu’il travaillait pour une société effectuant des analyses financières.