Applications of Gene-expression programming algorithm in Geotechnical engineering
Phạm Văn Ngọc
Khoa Xây dựng Cầu đường, Trường đại học Bách khoa, Đại học Đà Nẵng.
Email: [email protected]
Giới thiệu chung
Trong bài viết này, tác giả xin giới thiệu về ứng dụng của một trong các kỹ thuật trí tuệ nhân tạo (AI) có thể ứng dụng trong lĩnh vực địa kỹ thuật.
Do đặc điểm quá trình hình thành tự nhiên phức tạp nên tính chất của nền đất có rất nhiều yếu tố ảnh hưởng. Việc hiểu được ứng xử của những vật liệu như vậy là khó khăn, và đôi khi vượt qua khả năng của hầu hết các phương pháp kỹ thuật dựa trên vật lý truyền thống. Trong khi đó, trí tuệ nhân tạo (AI) cho thấy khả năng dự đoán vượt trội, vì vậy nó có thể mô hình hóa bài toán phức tạp của hầu hết các vật liệu địa kỹ thuật.
Lập trình biểu hiện gen (GEP) là một kỹ thuật học máy có giám sát áp dụng nguyên tắc của lý thuyết tiến hóa của Darwin (Alaskar et al., 2023). GEP có khả năng học từ các dữ liệu được cung cấp và mô hình hóa mối quan hệ giữa các biến đầu vào và biến đầu ra (tương quan phi tuyến). Trong GEP, các quần thể cũng được lựa chọn dựa trên hàm mục tiêu (fitness function) và được trình bày theo hình thức di truyền cấu trúc gen thông qua nhiều toán tử. Kết quả của GEP gồm hai phần: nhiễm sắc thể và các cây biểu thức (expression trees) có kích thước và hình dạng khác nhau, các thành phần này được kết nối với nhau bởi một hàm liên kết (Pham et al., 2022).

Hình 1 trình bày một ví dụ minh họa về cấu trúc của một cây biểu thức trong kết quả của mô hình GEP. Kết quả dạng hình cây này có thể trình bày dưới dạng biểu thức toán học đơn giản là:

trong đó, Y là biến đầu ra (biến phụ thuộc), di là các biến đầu vào (biến độc lập), cij là các hằng số.
Mối quan hệ tương quan giữa biến phụ thuộc và biến độc lập được phát triển dựa vào thuật toán di truyền GEP qua các bước sau:
• Định nghĩa bộ hàm toán tử, các biến độc lập, các biến phụ thuộc, hàm mục tiêu, phân chia dữ liệu đầu vào và điều kiện kết thúc chương trình.
• GEP sau đó tạo ngẫu nhiên một quần thể ban đầu từ các toán tử và các biến.
• Các nhiễm sắc thể trong quần thể đó được chuyển đổi thành cây biểu thức bằng cách kết hợp bộ biến độc lập và các toán tử.
• Hàm mục tiêu sẽ được áp dụng để đánh giá mỗi mô hình tương quan được dự đoán.
• Nếu giá trị đó không đạt được mục tiêu mong muốn, các nhiễm sắc thể hoặc các gen được tiến hóa thông qua các toán tử di truyền (lựa chọn, lai ghép và đột biến) để tạo ra các thế hệ đột biến mới.
• Quá trình đó được dừng lại khi mô hình tương quan được dự đoán đạt được chỉ số mong muốn.
Một trong những ưu điểm của lập trình biểu hiện gen GEP là khả năng mô hình hóa các vấn đề địa kỹ thuật với độ chính xác cao. Đặc biệt, GEP biểu diễn kết quả dưới dạng phương trình trực quan và rõ ràng, trong khi đó các thuật toán AI khác như là mạng nơ ron nhân tạo (ANN) thường cho kết quả khá phức tạp và khó sử dụng kết quả một cách trực tiếp (Pham et al., 2022).
Thuật toán GEP đã được ứng dụng trong nhiều nghiên cứu về địa kỹ thuật và kỹ thuật xây dựng nói chung. Cụ thể, GEP được sử dụng để thiết lập mô hình dự đoán sức chịu tải dọc trục của cọc BTCT đúc sẵn trong đất dính (Alkroosh & Nikraz, 2012), sức chịu tải của cọc dựa trên dữ liệu kết quả thí nghiệm SPT (Alkroosh & Nikraz, 2014), và các nghiên cứu khác (Abdi et al., 2021; Abuhussain et al., 2024; Jalal et al., 2021; Johari et al., 2021; Li et al., 2023; Oulapour et al., 2021; Pham, 2024; Pham et al., 2022; Shahmansouri et al., 2020; Tenpe & Patel, 2020).
Phần mềm GeneXpro Tools 5.0 (GEPSOFT, 2014) được áp dụng để mô phỏng mô hình GEP. Đây là một công cụ mô hình hóa mạnh mẽ và linh hoạt với khả năng xử lý với một số lượng lớn các biến với độ chính xác cao. Hình 2 minh họa giao diện của phần mềm GeneXpro Tools.

Ứng dụng của GEP trong phân tích ảnh hưởng của loại chất kết dính và các biến độc lập đến cường độ của đất sét gia cố bằng chất kết dính vô cơ (Pham et al., 2022).
Trong nghiên cứu này, các tác giả đã áp dụng kỹ thuật lập trình biểu hiện gen (GEP) thông qua phần mềm GeneXpro Tools 5.0 để phân tích và phát triển một mô hình dự đoán cường độ nén không nở hông (UCS) của đất sét gia cố bằng các chất kết dính vô cơ như vôi, xi măng, tro bay và xỉ lò cao. Một bộ dữ liệu với 1183 dữ liệu đã được chọn lọc và tập hợp kỹ lưỡng từ 13 bài báo được xuất bản trên các tạp chí uy tín. Mười một biến độc lập bao gồm các chỉ số cơ lý của đất sét, phương pháp trộn và thời gian bảo dưỡng, hàm lượng và tính chất của các chất kết dính đã được xem xét trong mô hình.
Kết quả cho thấy rằng mô hình GEP dự đoán cường độ UCS của đất gia cố bằng chất kết dính vô cơ được đề xuất có độ chính xác cao với hệ số tương quan R = 0,951 và sai số thấp (RMSE = 228 kPa và MAE = 166 kPa). Phân tích so sánh cho thấy rằng mô hình dựa trên thuật toán GEP trong nghiên cứu này được phát triển dựa trên một lượng dữ liệu lớn với biên độ (range) rộng, trong khi các nghiên cứu khác chỉ sử dụng một tập dữ liệu nhỏ. Do đó, mô hình GEP được chọn có thể được sử dụng cho nhiều loại đất sét có tính chất khác nhau khi kết hợp với các chất kết dính vô cơ phổ biến. Kết quả nghiên cứu này cũng cho thấy độ chính xác và độ tin cậy vượt trội của mô hình được chọn trong nghiên cứu này so với các mô hình trước đây. Bên cạnh đó, mô hình dự đoán dựa trên thuật toán GEP có thể trình bày kết quả dưới dạng các phương trình toán học không quá phức tạp, rõ ràng và có thể dễ dàng sử dụng trong thực tế thông qua phần mềm Excel hay Python. Với những ưu điểm như vậy, mô hình được chọn dựa trên GEP có thể giúp các kỹ sư và các đơn vị tư vấn trong việc ước tính cường độ của sự đất sét gia cố với các chất kết dính khác nhau.
Ngoài ra, mô hình tương quan này có thể sử dụng để phân tích ảnh hưởng của các thông số (biến đầu vào) đối với cường độ của đất gia cố. Kết quả cho thấy rằng chỉ số dẻo IP, hàm lượng hạt sét và tổng lượng nước có ảnh hưởng nghịch biến đối với cường độ của đất sét gia cố. Ngược lại, hàm lượng bùn và cát, loại chất kết dính, hàm lượng chất kết dính và thời gian bảo dưỡng thể hiện ảnh hưởng thuận biến đối với cường độ của đất sét gia cố. Cường độ của đất sét gia cố có thể được cải thiện đáng kể bằng cách kết hợp xi măng với tro bay, hoặc vôi với tro bay với tỉ lệ hợp lý, hoặc bằng cách giảm lượng nước tự nhiên trong đất. Các kết quả nghiên cứu có thể giúp kỹ sư lựa chọn loại chất kết dính phù hợp và phương pháp trộn hiệu quả để tối ưu hóa cường độ của đất sét gia cố. Mô hình này có thể giúp các dự án xây dựng tiết kiệm đáng kể thời gian và chi phí cho việc chế tạo hàng nghìn mẫu thử nghiệm để lựa chọn tỷ lệ chất kết dính hợp lý.
Kết luận và kiến nghị
Từ các nghiên cứu gần đây về ứng dụng của thuật toán lập trình biểu hiện gen, tác giả nhận thấy phương pháp này có nhiều ưu điểm nổi bật như sau:
• GEP có thể xem xét ảnh hưởng của nhiều biến độc lập trong một mô hình;
• Phương pháp phân tích không quá phức tạp;
• Thời gian mô hình hóa và phân tích nhanh;
• Mối tương quan giữa các biến được thể hiện bằng các toán tử thông dụng;
• Kết quả có độ chính xác cao hơn so với các mô hình đã được đề xuất trước đây;
• Kết quả được biểu diễn trực quan và dễ áp dụng trong thực tế thông qua công thức hồi quy hoặc các dạng ngôn ngữ lập trình như Python, C++, v.v;
• Có thể dễ dàng sử dụng mô hình từ GEP để đánh giá ảnh hưởng của từng biến độc lập đến biến phụ thuộc; từ đó có thể điều chỉnh các chỉ số, hàm lượng, tỷ lệ, hoặc các yếu tố quan trọng khác để cải thiện tính chất hoặc khả năng chịu tải của vật liệu hoặc kết cấu.
Tuy nhiên, để phát triển được mô hình GEP có độ chính xác cao và có mức độ phức tạp thấp thì người dùng cần chú ý các vấn đề sau:
• Bộ dữ liệu đầu vào cần đủ lớn và biên độ biến thiên đủ rộng để tăng độ chính xác và tăng tính ứng dụng của mô hình. Thông thường số lượng dữ liệu đầu vào tối thiểu phải gấp 5-10 số lượng biến độc lập, tùy thuộc loại dữ liệu;
• Tất cả dữ liệu phải đưa về cùng định dạng là số học (number);
• Có thể chia tỷ lệ dữ liệu thành 3 phần: training, testing, validation theo tỷ lệ tương ứng 70%, 15% và 15%;
• Các thông số khai báo ban đầu như số lượng nhiễm sắc thể, số gen, kích cỡ của gen, hàm mục tiêu, hàm liên kết các gen cần tham khảo nhiều nghiên cứu và thực hiện phân tích thử nhiều lần để lựa chọn giá trị phù hợp;
• Kết quả phân tích được xem là hợp lý khi mô hình đó có hệ số tương quan cao và sai số thấp, đồng thời các giá trị này ở cả 3 tập dữ liệu training, testing, validation cần tương đồng (gần xấp xỉ bằng nhau).
Tài liệu tham khảo
Abdi, M. R., Nakhaei, P., & Gonbad, M. S. S. (2021). Prediction of enhanced soil–anchored geogrid interactions in direct shear mode using gene expression programming. Geotechnical and Geological Engineering, 39(2), 957-972. https://doi.org/https://doi.org/10.1007/s10706-020-01537-6
Abuhussain, M. A., Ahmad, A., Amin, M. N., Althoey, F., Gamil, Y., & Najeh, T. (2024). Data-driven approaches for strength prediction of alkali-activated composites. Case Studies in Construction Materials, e02920. https://doi.org/https://doi.org/10.1016/j.cscm.2024.e02920
Alaskar, A., Alfalah, G., Althoey, F., Abuhussain, M. A., Javed, M. F., Deifalla, A. F., & Ghamry, N. A. (2023). Comparative Study of Genetic Programming-Based Algorithms for Predicting the Compressive Strength of Concrete at Elevated Temperature. Case Studies in Construction Materials, e02199. https://doi.org/https://doi.org/10.1016/j.cscm.2023.e02199
Alkroosh, I., & Nikraz, H. (2012). Predicting the axial capacity of driven piles in cohesive soils using intelligent computing. Engineering Applications of Artificial Intelligence, 25(3), 618-627. https://doi.org/https://doi.org/10.1016/j.engappai.2011.08.009
Alkroosh, I., & Nikraz, H. (2014). Predicting pile dynamic capacity via application of an evolutionary algorithm. Soils and Foundations, 54(2), 233-242.
https://doi.org/https://doi.org/10.1016/j.sandf.2014.02.013
GEPSOFT. (2014). GeneXproTools Version 5.0. https://www.gepsoft.com/
Jalal, F. E., Xu, Y., Iqbal, M., Jamhiri, B., & Javed, M. F. (2021). Predicting the compaction characteristics of expansive soils using two genetic programming-based algorithms. Transp. Geotech., 30, 100608. https://doi.org/https://doi.org/10.1016/j.trgeo.2021.100608
Johari, A., Golkarfard, H., Davoudi, F., & Fazeli, A. (2021). Experimental investigation of collapsible soils treatment using nano-silica in the Sivand dam region, Iran. Iranian Journal of Science and Technology Transactions of Civil Engineering, 1-10. https://doi.org/https://doi.org/10.1007/s40996-021-00675-y
Li, Y., Shen, J., Lin, H., & Li, Y. (2023). Optimization design for alkali-activated slag-fly ash geopolymer concrete based on artificial intelligence considering compressive strength, cost, and carbon emission. Journal of Building Engineering, 75, 106929.
https://doi.org/https://doi.org/10.1016/j.jobe.2023.106929
Oulapour, M., Adib, A., & Gholamzadeh, S. (2021). GEP prediction of the cracking zones in earth-fill dams. Arabian Journal of Geosciences, 14(7), 1-11. https://doi.org/https://doi.org/10.1007/s12517-021-06933-7
Pham, V.-N. (2024). Optimization design of cement mixing columns supported height embankment using Plaxis remote scripting and Gene-expression programming technique. Advances in Engineering Software, 193, 103646. https://doi.org/https://doi.org/10.1016/j.advengsoft.2024.103646
Pham, V.-N., Oh, E., & Ong, D. E. (2022). Effects of binder types and other significant variables on the unconfined compressive strength of chemical-stabilized clayey soil using gene-expression programming. Neural Computing and Applications, 34(11), 9103-9121. https://doi.org/https://doi.org/10.1007/s00521-022-06931-0
Shahmansouri, A. A., Bengar, H. A., & Ghanbari, S. (2020). Compressive strength prediction of eco-efficient GGBS-based geopolymer concrete using GEP method. Journal of Building Engineering, 101326. https://doi.org/https://doi.org/10.1016/j.jobe.2020.101326
Tenpe, A. R., & Patel, A. (2020). Application of genetic expression programming and artificial neural network for prediction of CBR. Road Mater. Pavement Des., 21(5), 1183-1200. https://doi.org/https://doi.org/10.1080/14680629.2018.1544924



