Notre site web sera en maintenance ce mardi 3 février après-midi. Les commandes enregistrées ne subirons pas de retard de traitement.
Modélisation prédictive et apprentissage statistique avec R. 2e édition revue et augmentée
Tufféry Stéphane
TECHNIP
45,00 €
Épuisé
EAN :9782710811787
Issu de formations devant des publics variés, cet ouvrage présente les principales méthodes de modélisation statistique et de machine learning, à travers le fil conducteur d'une étude de cas. Chaque méthode fait l'objet d'un rappel de cours et est accompagnée de références bibliographiques, puis est mise en oeuvre avec des explications détaillées sur les calculs effectués, les interprétations des résultats, et jusqu'aux astuces de programmation permettant d'optimiser les temps de calcul. A ce sujet, une annexe est consacrée au traitement des données massives. L'ouvrage commence par les méthodes de classement les plus classiques et les plus éprouvées, mais aborde rapidement les méthodes les plus récentes et les plus avancées : régression ridge, lasso, elastic net, boosting, forêts aléatoires, Extra-Trees, réseaux de neurones, séparateurs à vaste marge (SVM). A chaque fois, le lien est fait entre la théorie et les résultats obtenus, pour montrer qu'ils illustrent bien les principes sous-jacents à ces méthodes. L'aspect pratique est aussi privilégié, avec l'objectif de permettre au lecteur une mise en oeuvre rapide et efficace dans son travail concret. L'exploration et la préparation préliminaire des données sont d'ailleurs décrites, ainsi que le processus de sélection des variables. Une synthèse finale est faite de toutes les méthodes présentées et de leurs points forts. La mise en oeuvre s'appuie sur le logiciel libre R et sur un jeu de données public. Ce dernier peut être téléchargé sur Internet et présente l'intérêt d'être riche, complet et de permettre des comparaisons grâce aux nombreuses publications dans lesquelles il est cité. Quant au logiciel statistique R, non seulement il est devenu la lingua franca de la statistique et de la data science et le logiciel le plus répandu dans le monde universitaire, mais il a aussi conquis le monde de l'entreprise, à tel point que tous les logiciels commerciaux proposent désormais une interface avec R (ce point est abordé dans une annexe). Outre qu'il est disponible pour tous, dans tous les environnements, il est aussi le plus riche statistiquement, et c'est le seul logiciel permettant de mettre en oeuvre toutes les méthodes présentées dans cet ouvrage. Enfin, son langage de programmation particulièrement élégant et adapté au calcul mathématique permet de se concentrer dans le codage sur les aspects statistiques, sans les difficultés de programmation rencontrées avec d'autres logiciels. R permet d'arriver directement à l'essentiel et de mieux comprendre les méthodes exposées dans l'ouvrage.
Cet ouvrage public les Actes du colloque qui s'est tenu à Strasbourg le 5 février 2010 et dont l'objet est l'étude des manifestations et des réalités de " la responsabilité sociale de l'entreprise dans les régions d'Alsace et de Lorraine du XIXe au XXIe siècle". Le ressort territorial choisi présente une double originalité. la première est qu'il est l'un des plus industrialisés de France durant les XIXe et XXe siècles et qu'à ce titre les relations de travail dans l'usine sont déterminantes. La seconde est qu'il fut, de 1871 à 1918, en grande partie (I'Alsace-Moselle) territoire d'Empire, ce qui oblige à une approche comparative. La période retenue autorise une mise en perspective de la réalité juridique contemporaine. La confrontation de l'actualité normative aux illustrations historiques conduit à certaines relatives à la comparaison des démarches juridiques, économiques, sociales et politiques des XIXe, XXe et XXIe siècles, mais aussi aux motivations qui habitent le législateur contemporain dans la mise en place de ce concept qui trouve sa place dans le cadre d'une politique de développement durable.
Le data mining et la data science sont de plus en plus répandus dans les entreprises et les organisations soucieuses d'extraire l'information pertinente de leurs bases de données, qu'elles peuvent utiliser pour expliquer et prévoir les phénomènes qui les concernent (risques, production, consommation, fidélisation...). Cette cinquième édition, actualisée et augmentée de 90 pages, fait le point sur le data mining, ses méthodes, ses outils et ses applications, qui vont du scoring jusqu'au text mining, objet d'un chapitre complètement remanié. Nombre de ses outils appartiennent à l'analyse des données et à la statistique "classiques" (analyse factorielle, classification automatique, analyse discriminante, régression logistique, modèles linéaires généralisés, régression pénalisée, régression clusterwise...) mais certains sont plus spécifiques au data mining, comme les réseaux de neurones, les algorithmes génétiques, les SVM, les arbres de décision, les forêts aléatoires, le boosting et la détection des règles d'associations. Les avancées les plus récentes du machine learning et les applications les plus actuelles des Big Data sont présentées, qui vont des algorithmes de reconnaissance d'image aux méthodes de plongement de mots en text mining. Les chapitres sur les réseaux de neurones et les SVM sont illustrés par la reconnaissance de l'écriture manuscrite. Ces outils sont disponibles dans des logiciels de plus en plus puissants et complets, à commencer par le logiciel libre R, que nous comparons en détail aux logiciels SAS et IBM SPSS dans un chapitre spécifique. Ces logiciels sont utilisés pour illustrer par des exemples précis les explications théoriques données. Les aspects méthodologiques vont de la conduite des projets jusqu'aux facteurs de réussite et aux pièges à éviter, en passant par l'évaluation et la comparaison des modèles, leur intégration dans les processus opérationnels. Un chapitre est consacré à une étude de cas complète de credit scoring, de l'exploration des données jusqu'à l'élaboration de la grille de score.
Cet ouvrage présente les principales méthodes de modélisation statistique et de machine learning, à travers le fil conducteur d'une étude de cas bancaire. Chaque méthode fait l'objet d'un rappel de cours et est accompagnée de références bibliographiques, puis est mise en couvre avec des explications détaillées sur les calculs effectués, les interprétations des résultats, et jusqu'aux astuces de programmation permettant d'optimiser les temps de calcul. A ce sujet, une annexe est consacrée au traitement des données massives. L'ouvrage commence par les méthodes de classement les plus classiques et les plus éprouvées, pour ensuite aborder les méthodes les plus récentes et les plus avancées régression ridge, lasso, elastic net, boosting, forêts aléatoires, Extra-Trees, SVM et réseaux de neurones. Le lien est toujours fait entre la théorie et les résultats obtenus, pour montrer qu'ils illustrent bien les principes sous-jacents à ces méthodes. L'aspect pratique est aussi privilégié, avec l'objectif de permettre au lecteur une mise en oeuvre rapide et efficace dans son travail concret. L'exploration et la préparation des données sont d'ailleurs décrites, ainsi que le processus de sélection des variables. Une synthèse finale récapitule les méthodes présentées et leurs points forts. Entre autres nouveautés, cette troisième édition présente le gradient boosting ainsi que des techniques innovantes pour automatiser la recherche des meilleurs modèles (auto-machine learning) et expliquer leurs prédictions individuelles, souci d'explicabilité qui s'est développé avec l'avènement des modèles complexes "boites noires". La mise en couvre s'appuie sur le logiciel libre R et sur un jeu de données public. Ce dernier peut être téléchargé sur Internet et présente l'intérêt d'être représentatif et de permettre des comparaisons grâce aux nombreuses publications dans lesquelles il est cité. Quant au logiciel R, s'il est devenu la lingua franca de la statistique et un logiciel très répandu dans le monde universitaire, il a aussi conquis le monde de l'entreprise. Outre qu'il est disponible pour tous, dans tous les environnements, il est aussi le plus complet statistiquement et il permet de mettre en couvre toutes les méthodes présentées dans cet ouvrage. Enfin, son langage de programmation particulièrement élégant et adapté au calcul mathématique permet de se concentrer sur les aspects statistiques dans le codage. R permet d'arriver directement à l'essentiel et de mieux assimiler les méthodes exposées dans l'ouvrage.
Molecular simulation is an emerging technology for determining the properties of many systems that are of interest to the oil and gas industry, and more generally to the chemical industry. Based on a universally accepted theoretical background, molecular simulation accounts for the precise structure of molecules in evaluating their interactions. Taking advantage of the availability of powerful computers at moderate cost, molecular simulation is now providing reliable predictions in many cases where classical methods (such as equations of state or group contribution methods) have limited prediction capabilities. This is particularly useful for designing processes involving toxic components, extreme pressure conditions, or adsorption selectivity in microporous adsorbents. Molecular simulation moreover provides a detailed understanding of system behaviour.As illustrated by their award from the American Institute of Chemical Engineers for the best overall performance at the Fluid Simulation Challenge 2004, the authors are recognized experts in Monte Carlo simulation techniques, which they use to address equilibrium properties.This book presents these techniques in suficient detail for readers to understand how simulation works, and describes many applications for industrially relevant problems. The book is primarily dedicated to chemical engineers who are not yet conversant with molecular simulation techniques. In addition, specialists in molecular simulation will be interested in the large scope of applications presented (including fluid properties, fluid phase equilibria, adsorption in zeolites, etc.).
Résumé : Aux yeux de la plupart des Européens, le charbon minéral n'est plus une source d'énergie qui compte. Erreur ! Sa consommation croît si vite et ses réserves sont si abondantes qu'il pourrait passer un jour devant le pétrole. Le climat planétaire n'y gagnera rien, sauf si les technologies " charbon propre " font un bond. Quels sont les ressorts de cette croissance charbonnière ? Les embûches rencontrées par le nucléaire et la hausse des prix du gaz naturel la favorisent, mais elles ne doivent pas faire oublier la métamorphose de l'industrie du charbon dans le monde. De la Chine, leader mondial incontesté, aux États-Unis, en passant par l'Inde, la Russie et les grands pays exportateurs (Australie, Indonésie, Afrique du Sud, Colombie), une nouvelle carte se dessine. Dans tous ces pays, les firmes charbonnières se concentrent, s'internationalisent, ouvrent de nouvelles mines à ciel ouvert et tracent de nouveaux itinéraires commerciaux. La compréhension de cette métamorphose devient l'une des clés de la prospective énergétique et de la géopolitique du XXIe siècle.