Research Status and Development Trend of Drilling Digital Twin Technology
Abstract:Driven by the technological impetus of the Fourth Industrial Revolution, the oil and gas drilling industry is rapidly advancing towards informatization, digitization, and intelligentization, with drilling digital twin technology emerging as a frontier and hotspot in the field. Drilling digital twin technology aims to map real drilling operations into virtual space and establish integrated, multi-disciplinary, multi-physical, and multi-scale virtual simulation models throughout the entire lifecycle of drilling. This enables functions such as pre-drilling rehearsal, in-drilling optimization, and post-drilling analysis, ensuring safe, efficient, and cost-effective drilling while enhancing the drilling efficiency of complex oil and gas formation. The current application status of digital twin technology in drilling engineering was introduced, and drilling digital twins were categorized into rig digital twins and wellbore digital twins. A five-dimensional system architecture for drilling digital twins was proposed. Furthermore, future development trends in drilling digital twins were analyzed, including real-time and efficient transmission of drilling data, refinement and quantification of geological models, multi-domain integrated modeling and simulation, dynamic adaptive updating of simulation models, the integration of mechanistic and data-driven modeling, safe and efficient human-machine interaction, and cloud-edge collaborative software system architecture. Relevant suggestions for the development of drilling digital twin technology in China were also proposed. The research findings could serve as a reference for establishing a drilling digital twin technology system and provide guidance for promoting intelligent innovation in the drilling industry.
近年来,以大数据、机器学习、超强算力为基础的新一代人工智能技术蓬勃发展[3–4],基于海量压裂历史数据,通过人工智能算法从大数据中学习数据变化特征[5–7],形成了压裂工况智能诊断方法,达到实时诊断压裂工况的目的。前人已开展基于大数据分析的压裂起止时刻、暂堵、球座坐封等工况诊断研究。A. Ramirez等人[8]采用分类算法结合泵压曲线和专家经验,实现压裂作业起始与终止时刻的识别;M. M. Awad等人[9]利用小波变换方法将施工泵压蕴含的能量信息与裂缝扩展物理过程相关联,实现了单位时间内裂缝扩展事件数的定量表征;袁彬等人[10]结合长短期记忆神经网络、反向传播神经网络等多种模型,实现了泵球、前置酸降压、暂堵压裂、砂堵等事件的智能识别;盛茂等人[11]利用聚类算法、特征参数阈值法分析压裂施工数据,建立了暂堵有效性评价模型。Shen Yuchang等人[12]利用包含地面泵压以及排量的施工曲线图,基于识别图像的U-Net架构深度学习算法,建立了桥塞球座坐封起止时刻的识别模型,识别准确率达95%。该研究的判别特征是单一的排量下降,而复杂地层压裂作业过程中往往存在大量的排量下降现象,但这些并不都是由桥塞球座坐封造成的,因此仅以排量下降作为识别坐封工况的特征具有一定局限性。
为此,笔者融合专家经验定性判识和坐封数据特征挖掘定量标注,滑动窗口数据切片形成5 792组样本数据,优选井口压力–排量二维输入的长短期记忆神经网络,建立了压裂球座坐封有效性智能诊断模型;并采用欠采样平衡数据集方式提升模型判识精度,实现了每秒输出诊断结果,为桥塞球座坐封有效性实时自动诊断提供了方法。
1. 球座坐封特征参数提取
1.1 压裂球座坐封工况数据分割与标签标注
水平井桥塞分段压裂时,压裂投球坐封阶段,排量先降至0.5~1.0 m3/min,维持压裂球以较低速度坐入桥塞球座;当球座被完全密封,井筒内流体憋压,此时井口压力显著升高[13];压力达到地层破裂压力使地层破裂后,井口压力骤降;随后逐级提高排量至压裂设计值,井口压力缓慢上升,整个投球坐封阶段井口压力呈现陡升—陡降—平缓上升的显著特征(见图1)。根据该特征,采用滑动窗口方式,对球座坐封工况进行数据分割:在排量开始降低且累计排量小于井筒体积的时段寻找第一次压力突升的时刻,并标记为坐封开始时刻;在滑动时间窗口寻找压力降落结束时刻,向后继续寻找至排量开始增加的时刻,并标记为坐封结束时刻。
1.2 有效坐封数据特征分析
从图2可知,阶段一压力上升变化斜率区间[0.14,5.62];阶段二压力下降变化斜率区间 [−0.01,−7.39],分布范围较大;阶段三压力上升变化斜率区间[0.02,1.36],与前2个阶段相比,分布区间更为集中。尽管有效坐封数据均呈显著的井口压力陡升—陡降—平缓上升的三阶段特征,但是数据样本分布范围较大、且不一致,无法形成明确的诊断规则实现准确诊断。
1.3 无效坐封数据特征分析
2. 基于长短期记忆神经网络模型建立
2.1 神经网络结构设计
2.2 标签数据切片处理
统计每段数据中有效坐封的3个阶段特征的时长,得出坐封所需的时间最长为252 s。为保证特征被全部包含,将时间跨度增加,初步设定切片窗口为300 s。考虑到时间序列前后数据的相关性,设置移动步长为50 s,即窗口每次向后移动50 s,以保证对同样的一段坐封特征,其前后段的数据都能作为有效坐封的样本输入,同时也增加了样本数量。窗口从左到右,依次对每个时刻的标签进行扫描,当该窗口第一秒和最后一秒的标签均为0,且中间有且仅有一段连续为1的标签时,视为此窗口包含了一个完整的坐封段,并将整个窗口标记为标签1,作为一个有效坐封样本;当窗口内数据标签均为0,或者由1开始与结束,即无坐封段或坐封段不完整时,整个窗口标记为标签0,作为一个无效坐封样本。滑动窗口切片标注如图5所示。
198段坐封工况数据按照时间窗口300 s、移动步长50 s切片后形成5 792个样本,其中有效坐封383个,占比仅6.61%。当二分类模型中标签为1的数据量极少时,神经网络被重复传入大量的无效坐封样本,从而无法学习到有效坐封的特征。为此,采用欠采样平衡数据集方式[23],从切片后的样本中等比例地提取标签为1和0的样本,总计766个,再以8∶2的比例划分为训练集和测试集,最终形成610个样本的训练集,156个样本的测试集。
3. 模型训练与结果分析
为考察压力和排量变化对坐封有效性判识效果的影响,分别建立井口压力一维输入和井口压力–排量二维输入的长短期记忆神经网络模型进行对比训练。首先,调整数据切片时间窗口为300,400和500 s,随着时间窗口增长,准确率由88%降至70%,表明过长的时间窗口导致样本包含更多冗余的数据信息,从而输入的干扰特征增多,因此时间窗口选择300 s;然后,调整批量大小为64,128和256,学习率分别为0.001,0.01和0.1,进行组合训练,训练结果如图6(a)所示。训练结果表明,批量大小为256时,模型准确率整体偏低,仅为50%~70%;批量大小为64、学习率为0.001时,井口压力一维输入模型的准确率最高为91.7%;批量大小为128、学习率为0.01时,井口压力–排量二维输入模型的准确率最高为96.8%,相比井口压力一维输入模型提高5.1百分点。2种模型准确率最高时对应的损失函数变化曲线如图6(b)所示。由图6(b)可以看出,迭代至第25次时,井口压力一维输入模型的损失函数降至0.30,而井口压力–排量二维输入模型的损失函数降至0.15,收敛速度更快,最终趋近于0.10。
验证集选用长庆油田合水区块51段未参与训练的压裂数据。将井口压力和排量数据以时间窗口300 s、移动步长1 s滑动输入模型,模型调用训练准确率最高的权重参数进行判识,实时输出坐封工况判识标签。若井口压力从排量降至送球排量时开始运行到累计液量达到一个井筒体积时仍未呈现三阶段特征,则判识为无效坐封。对比专家经验标签,井口压力一维输入的模型准确率为73.7%,井口压力–排量二维输入的模型准确率为84.3%。将模型识别出的43段有效坐封段绘制成瀑布图(见图7(a)),可以看出,虽然井口压力数据跨度分布较大,但该模型均能正确判识,验证了模型的有效性;将实际有效坐封、但模型误判为无效坐封的8段数据绘制成瀑布图(见图7(b)),发现此类曲线在压力突升至峰值后有一段时间的缓慢爬升,未能被该模型识别,其原因是此类情况下输入样本不足,长短期记忆神经网络未能学习到该类曲线的特征。
4. 结 论
