Data Science

Think Stats

Ce livre offre un bon panorama de l’utilisation des statistiques dans un contexte data science, mais il est loin d’être réussi. Tout d’abord je n’ai pas adhéré au plan suivi par l’auteur. Il se prête peut-être à des cours – ce livre est issu des cours dispensés par l’auteur –, mais pas à la lecture. Ensuite il mixe mathématiques et programmation et c’est justement là qu’il pèche. Si les deux disciplines sont intimement liées, il est en effet impensable de faire des statistiques avec un papier et un crayon, mais de là à expliquer comment on a codé ses propres fonctions en Python alors qu’il existe des librairies comme pandas, statsmodel, scipy, seaborn, etc. je ne comprends pas mis à part, encore une fois, pour le côté didactique. Et puis à trop vouloir coder on oublie la méthode en route, le pourquoi. Qu’est-ce qu’il faut faire dans quel ordre, le comment étant quasiment accessoire avec ce qu’y existe aujourd’hui. A mon sens, un bon livre de statistiques moderne devrait se contenter d’expliquer la démarche, le pourquoi utiliser telle ou telle technique, telle ou telle mesure, mais pas comment les mettre en oeuvre. Ça me rappelle un peu les cours où l’on nous demandait de faire des calculs de matrice ou d’intégrale à la main c’est un peu la même démarche que je trouve toujours aussi inutile. ...

Data Analysis with Open Source Tools

Les reproches faits à ce livre sont de deux ordres. Le premier porte sur sa structure – voire son contenu – qui n’est pas conventionnelle pour un livre intitulé Data analysis. C’est vrai que l’on s’attend à suivre une méthodologie, à être guidé et il faut bien reconnaître que ce n’est pas le cas. Si vous cherchez ce type d’ouvrage, je vous conseille de vous plonger dans Practical Data Science with R qui est un excellent ouvrage tout à fait dans ce registre. Cette approche non conventionnelle n’est pas gênante et au contraire car elle aide à ouvrir la réflexion à voir autrement et surtout à réfléchir tout simplement. Il est aussi plus théorique et va au fond de choses – dit autrement il y a des maths, tout ce qui l’avance est démontré et l’auteur s’efforce de faire passer deux messages: ...

Python for data analysis

Si vous souhaitez faire de l’analyse de données en Python, l’utilisation de pandas est indispensable. D’ailleurs le sous-titre est clair Data Wrangling with Pandas, NumPy, and IPython. Si vous souhaitez utiliser pandas, la lecture de ce livre est indispensable – Stack Overflow aussi. D’ailleurs il aurait dû porter le titre pandas for data analysis. Ce livre a été écrit par le créateur de pandas, Wes McKinney, lorsqu’il travaillait pour une société effectuant des analyses financières. ...