深度学习随机生成三维数字砂粒研究取得重要进展

砂土由细小的岩石或矿物碎屑所组成，它们广泛分布于地球表层。砂土地层是人类工程基础设施主要的地基持力层；含水层砂粒间孔隙网络是浅层地下水的赋存空间与运移通道；松散砂粒沉积、压实并胶结为砂岩的过程中，其粒间孔隙网络内可储集丰富的油、气资源。离散元等数值方法是深入理解砂土物理、力学性质的重要手段。在以往研究中，通常采用规则的球体或椭球体作为复杂砂粒形态的简化表征，这可能导致对砂土物理、力学行为理解的偏差。显微CT扫描与三维重建技术是获取砂粒形态的有效手段，但受限于扫描时间与成本，难以获得足够多数量的数字砂粒用于砂土地层重建。

砂粒的显微CT图像序列是一种典型的非结构化数据，将其结构化后可获得砂粒集合的大数据，据此可构建砂粒数据集。变分自编码器（Variational autoencoder, VAE）是一种生成式深度学习模型，通过训练，VAE可以学习到砂粒数据集形态信息的隐式概率分布特征，据此可随机生成任意多数量新的数字砂粒，其形态信息均服从砂粒训练数据集形态信息的概率分布。

基于以上原理，南京大学张巍副教授课题组以广泛分布于我国长江中下游的南京粉砂为例，采用显微CT扫描少量南京粉砂样品，通过分水岭算法分割出单个砂粒，并使用一个四维张量（即四维矩阵，深度学习与力学中对张量的定义不同）存储单个数字砂粒，其中前三维用于存储颗粒的三维灰度值信息，第四维用于存储图像的通道数信息。如图1所示，将表征数字砂粒的四维张量输入卷积神经网络，最终输出一个包含砂粒形态隐式分布特征的二维张量。使用砂粒集合所有这些二维张量即可构建训练数据集。

图1 数字砂粒的卷积神经网络模型

如图2所示，VAE模型由一个编码器与一个解码器所组成。其中，编码器将输入的真实砂粒编码成为一个隐变量，隐变量存在于高维的隐变量空间内，是砂粒三维形态的降维表征。解码器负责将隐变量解码，重建出所输入的砂粒。对于整个训练集，VAE通过重参数化操作，对所有隐变量进行高斯随机采样并计算损失函数，从而学习到砂粒集合形态信息的概率分布。同时，训练好的VAE模型可从隐变量空间随机采样，解码重建出新的数字砂粒，这些新生成的砂粒形态均服从砂粒训练集形态信息的概率分布。

南京粉砂样品取自南京河西沿江漫滩，富含石英、云母、绿泥石等矿物，颗粒多呈片状，具有强烈的各向异性特征。使用30,000颗真实砂粒训练好的VAE模型随机生成了2000颗数字砂粒，图3展示了其中的一小部分，这些数字砂粒的整体与表面形态特征与真实砂粒的形态特征相似，反映出岩石或矿物碎屑在百万年时间尺度的风化、剥蚀与搬运过程的地质历史记录。统计比较了30,000颗真实砂粒与2000颗数字砂粒的9个形态学特征参数，二者的概率分布与统计参数均高度吻合。本方法亦可应用于岩块或矿物颗粒等其他地质体的随机生成，在数字孪生地球与地质工程精细建模方面具有应用潜力。

图2 使用VAE模型生成数字砂粒的过程

图3 部分随机生成的数字砂粒

该研究成果以Randomly generating three-dimensional realistic schistous sand particles using deep learning: Variational autoencoder implementation为题，近期发表于工程地质领域顶级期刊Engineering Geology（2021, DOI: 10.1016/j.enggeo.2021.106235 ）。南京大学地球科学与工程学院硕士生施家杰为第一作者，张巍副教授为通讯作者，朱鸿鹄教授与计算机软件新技术国家重点实验室孙正兴教授共同参与研究。研究工作得到国家重点研发项目（2018YFC1505104）、国家自然科学基金面上项目（42077232）与江苏省自然科学基金面上项目（BK20181182）的资助和支持。

论文链接：https://www.sciencedirect.com/science/article/pii/S0013795221002465?dgcid=author.