Logo

ML with Matminer

Firstly, use pip install matminer pymatgen to install Matminer and dependencies.

The matminer_test2.py focuses on feature generation for materials science applications. Result is magpie_features.csv.******

What is

In data science, Magpie refers to a system developed by Microsoft Research that bridges the gap between Python's Pandas API and scalable cloud database engines. It aims to combine the ease of use and flexibility of Python-based data analysis tools (like Pandas) with the performance, security, and enterprise-grade capabilities of modern cloud databases. Key features include:

  1. Lazy Computation: Magpie lazily pushes large-scale computations to optimized database engines (e.g., SQL DW, Spark) instead of executing them locally in Python, significantly improving scalability for big data workloads.
  2. Pandas Compatibility: It maintains compatibility with the Pandas API, allowing data scientists to use familiar syntax while transparently leveraging backend database optimizations.
  3. Unified Data Layer: Magpie virtualizes data access across multiple cloud engines, eliminating redundant data transfers and enabling seamless interoperability between tools in a data lake environment.
  4. Enterprise Features: Unlike traditional Python workflows, Magpie inherits database advantages like fine-grained access control, encryption, and tamper-proof logging.

This contrasts with the unrelated LLM-focused Magpie method (mentioned in other contexts), which automates instruction dataset generation for language models. The data science Magpie specifically addresses performance and scalability challenges in Python-driven analytics.

Note:

原英文表头中文名称意义用途
formula化学式材料的化学组成表达式
composition成分对象pymatgen的Composition对象,用于存储元素组成信息
MagpieData minimum Number原子序数最小值组成元素原子序数的最小值
MagpieData maximum Number原子序数最大值组成元素原子序数的最大值
MagpieData range Number原子序数范围原子序数最大值与最小值的差值
MagpieData mean Number原子序数平均值组成元素原子序数的算术平均值
MagpieData avg_dev Number原子序数平均绝对偏差原子序数与均值的平均绝对偏差
MagpieData mode Number原子序数众数出现次数最多的原子序数值
MagpieData minimum MendeleevNumber门捷列夫数最小值元素周期表位置特征数的最小值
MagpieData maximum MendeleevNumber门捷列夫数最大值元素周期表位置特征数的最大值
MagpieData range MendeleevNumber门捷列夫数范围门捷列夫数最大值与最小值的差值
MagpieData mean MendeleevNumber门捷列夫数平均值门捷列夫数的算术平均值
MagpieData avg_dev MendeleevNumber门捷列夫数平均绝对偏差门捷列夫数与均值的平均绝对偏差
MagpieData mode MendeleevNumber门捷列夫数众数出现次数最多的门捷列夫数值
MagpieData minimum AtomicWeight原子量最小值组成元素原子量的最小值
MagpieData maximum AtomicWeight原子量最大值组成元素原子量的最大值
MagpieData range AtomicWeight原子量范围原子量最大值与最小值的差值
MagpieData mean AtomicWeight原子量平均值原子量的加权平均值
MagpieData avg_dev AtomicWeight原子量平均绝对偏差原子量与均值的平均绝对偏差
MagpieData mode AtomicWeight原子量众数出现次数最多的原子量值
MagpieData minimum MeltingT熔点最小值组成元素熔点(K)的最小值
MagpieData maximum MeltingT熔点最大值组成元素熔点(K)的最大值
MagpieData range MeltingT熔点范围熔点最大值与最小值的差值
MagpieData mean MeltingT熔点平均值熔点的加权平均值
MagpieData avg_dev MeltingT熔点平均绝对偏差熔点的平均绝对偏差
MagpieData mode MeltingT熔点众数出现次数最多的熔点值
MagpieData minimum Column周期表列号最小值元素在周期表中列号的最小值
MagpieData maximum Column周期表列号最大值元素在周期表中列号的最大值
MagpieData range Column周期表列号范围列号最大值与最小值的差值
MagpieData mean Column周期表列号平均值列号的算术平均值
MagpieData avg_dev Column周期表列号平均绝对偏差列号与均值的平均绝对偏差
MagpieData mode Column周期表列号众数出现次数最多的列号值
MagpieData minimum Row周期表行号最小值元素在周期表中行号的最小值
MagpieData maximum Row周期表行号最大值元素在周期表中行号的最大值
MagpieData range Row周期表行号范围行号最大值与最小值的差值
MagpieData mean Row周期表行号平均值行号的算术平均值
MagpieData avg_dev Row周期表行号平均绝对偏差行号与均值的平均绝对偏差
MagpieData mode Row周期表行号众数出现次数最多的行号值
MagpieData minimum CovalentRadius共价半径最小值元素共价半径的最小值
MagpieData maximum CovalentRadius共价半径最大值元素共价半径的最大值
MagpieData range CovalentRadius共价半径范围共价半径最大值与最小值的差值
MagpieData mean CovalentRadius共价半径平均值共价半径的加权平均值
MagpieData avg_dev CovalentRadius共价半径平均绝对偏差共价半径与均值的平均绝对偏差
MagpieData mode CovalentRadius共价半径众数出现次数最多的共价半径值
MagpieData minimum Electronegativity电负性最小值元素电负性的最小值
MagpieData maximum Electronegativity电负性最大值元素电负性的最大值
MagpieData range Electronegativity电负性范围电负性最大值与最小值的差值
MagpieData mean Electronegativity电负性平均值电负性的加权平均值
MagpieData avg_dev Electronegativity电负性平均绝对偏差电负性与均值的平均绝对偏差
MagpieData mode Electronegativity电负性众数出现次数最多的电负性值
MagpieData minimum NsValences轨道价电子数最小值元素s轨道价电子数的最小值
MagpieData maximum NsValences轨道价电子数最大值元素s轨道价电子数的最大值
MagpieData range NsValences轨道价电子数范围s轨道价电子数极差
MagpieData mean NsValences轨道价电子数平均值s轨道价电子数的算术平均值
MagpieData avg_dev NsValences轨道价电子数平均绝对偏差与均值的平均绝对偏差
MagpieData mode NsValences轨道价电子数众数出现次数最多的s价电子数值
MagpieData minimum NpValencep轨道价电子数最小值元素p轨道价电子数的最小值
MagpieData maximum NpValencep轨道价电子数最大值元素p轨道价电子数的最大值
MagpieData range NpValencep轨道价电子数范围p轨道价电子数极差
MagpieData mean NpValencep轨道价电子数平均值p轨道价电子数的算术平均值
MagpieData avg_dev NpValencep轨道价电子数平均绝对偏差与均值的平均绝对偏差
MagpieData mode NpValencep轨道价电子数众数出现次数最多的p价电子数值
MagpieData minimum NdValenced轨道价电子数最小值元素d轨道价电子数的最小值
MagpieData maximum NdValenced轨道价电子数最大值元素d轨道价电子数的最大值
MagpieData range NdValenced轨道价电子数范围d轨道价电子数极差
MagpieData mean NdValenced轨道价电子数平均值d轨道价电子数的算术平均值
MagpieData avg_dev NdValenced轨道价电子数平均绝对偏差与均值的平均绝对偏差
MagpieData mode NdValenced轨道价电子数众数出现次数最多的d价电子数值
MagpieData minimum NfValencef轨道价电子数最小值元素f轨道价电子数的最小值
MagpieData maximum NfValencef轨道价电子数最大值元素f轨道价电子数的最大值
MagpieData range NfValencef轨道价电子数范围f轨道价电子数极差
MagpieData mean NfValencef轨道价电子数平均值f轨道价电子数的算术平均值
MagpieData avg_dev NfValencef轨道价电子数平均绝对偏差与均值的平均绝对偏差
MagpieData mode NfValencef轨道价电子数众数出现次数最多的f价电子数值
MagpieData minimum NValence总价电子数最小值元素总价电子数的最小值
MagpieData maximum NValence总价电子数最大值元素总价电子数的最大值
MagpieData range NValence总价电子数范围总价电子数极差
MagpieData mean NValence总价电子数平均值总价电子数的算术平均值
MagpieData avg_dev NValence总价电子数平均绝对偏差与均值的平均绝对偏差
MagpieData mode NValence总价电子数众数出现次数最多的总价电子数值
MagpieData minimum NsUnfilleds轨道未填满数最小值s轨道未充满电子数的最小值
MagpieData maximum NsUnfilleds轨道未填满数最大值s轨道未充满电子数的最大值
MagpieData range NsUnfilleds轨道未填满数范围未填满数的极差
MagpieData mean NsUnfilleds轨道未填满数平均值未填满数的算术平均值
MagpieData avg_dev NsUnfilleds轨道未填满数平均绝对偏差与均值的平均绝对偏差
MagpieData mode NsUnfilleds轨道未填满数众数出现次数最多的未填满数值
MagpieData minimum NpUnfilledp轨道未填满数最小值p轨道未充满电子数的最小值
MagpieData maximum NpUnfilledp轨道未填满数最大值p轨道未充满电子数的最大值
MagpieData range NpUnfilledp轨道未填满数范围未填满数的极差
MagpieData mean NpUnfilledp轨道未填满数平均值未填满数的算术平均值
MagpieData avg_dev NpUnfilledp轨道未填满数平均绝对偏差与均值的平均绝对偏差
MagpieData mode NpUnfilledp轨道未填满数众数出现次数最多的未填满数值
MagpieData minimum NdUnfilledd轨道未填满数最小值d轨道未充满电子数的最小值
MagpieData maximum NdUnfilledd轨道未填满数最大值d轨道未充满电子数的最大值
MagpieData range NdUnfilledd轨道未填满数范围未填满数的极差
MagpieData mean NdUnfilledd轨道未填满数平均值未填满数的算术平均值
MagpieData avg_dev NdUnfilledd轨道未填满数平均绝对偏差与均值的平均绝对偏差
MagpieData mode NdUnfilledd轨道未填满数众数出现次数最多的未填满数值
MagpieData minimum NfUnfilledf轨道未填满数最小值f轨道未充满电子数的最小值
MagpieData maximum NfUnfilledf轨道未填满数最大值f轨道未充满电子数的最大值
MagpieData range NfUnfilledf轨道未填满数范围未填满数的极差
MagpieData mean NfUnfilledf轨道未填满数平均值未填满数的算术平均值
MagpieData avg_dev NfUnfilledf轨道未填满数平均绝对偏差与均值的平均绝对偏差
MagpieData mode NfUnfilledf轨道未填满数众数出现次数最多的未填满数值
MagpieData minimum NUnfilled总未填满数最小值所有轨道未充满电子总数的最小值
MagpieData maximum NUnfilled总未填满数最大值所有轨道未充满电子总数的最大值
MagpieData range NUnfilled总未填满数范围总未填满数的极差
MagpieData mean NUnfilled总未填满数平均值总未填满数的算术平均值
MagpieData avg_dev NUnfilled总未填满数平均绝对偏差与均值的平均绝对偏差
MagpieData mode NUnfilled总未填满数众数出现次数最多的总未填满数值
MagpieData minimum GSvolume_pa基态原子体积最小值元素单质基态原子体积的最小值
MagpieData maximum GSvolume_pa基态原子体积最大值元素单质基态原子体积的最大值
MagpieData range GSvolume_pa基态原子体积范围原子体积的极差
MagpieData mean GSvolume_pa基态原子体积平均值原子体积的加权平均值
MagpieData avg_dev GSvolume_pa基态原子体积平均绝对偏差与均值的平均绝对偏差
MagpieData mode GSvolume_pa基态原子体积众数出现次数最多的原子体积值
MagpieData minimum GSbandgap基态带隙最小值元素单质基态带隙的最小值
MagpieData maximum GSbandgap基态带隙最大值元素单质基态带隙的最大值
MagpieData range GSbandgap基态带隙范围带隙的极差
MagpieData mean GSbandgap基态带隙平均值带隙的加权平均值
MagpieData avg_dev GSbandgap基态带隙平均绝对偏差与均值的平均绝对偏差
MagpieData mode GSbandgap基态带隙众数出现次数最多的带隙值
MagpieData minimum GSmagmom基态磁矩最小值元素单质基态磁矩的最小值
MagpieData maximum GSmagmom基态磁矩最大值元素单质基态磁矩的最大值
MagpieData range GSmagmom基态磁矩范围磁矩的极差
MagpieData mean GSmagmom基态磁矩平均值磁矩的加权平均值
MagpieData avg_dev GSmagmom基态磁矩平均绝对偏差与均值的平均绝对偏差
MagpieData mode GSmagmom基态磁矩众数出现次数最多的磁矩值
MagpieData minimum SpaceGroupNumber空间群号最小值元素单质晶体空间群编号的最小值
MagpieData maximum SpaceGroupNumber空间群号最大值元素单质晶体空间群编号的最大值
MagpieData range SpaceGroupNumber空间群号范围空间群编号的极差
MagpieData mean SpaceGroupNumber空间群号平均值空间群编号的算术平均值
MagpieData avg_dev SpaceGroupNumber空间群号平均绝对偏差与均值的平均绝对偏差
MagpieData mode SpaceGroupNumber空间群号众数出现次数最多的空间群编号值

© 2025 All rights reservedBuilt with Flowershow Cloud

Built with LogoFlowershow Cloud