การทำนายการอยู่รอดผู้ป่วยโรคมะเร็งเต้านมด้วยเทคนิคจีนเนติกอัลกอริทึม

การทำนายการอยู่รอดผู้ป่วยโรคมะเร็งเต้านมด้วยเทคนิคจีนเนติกอัลกอริทึม
Predicting Breast Cancer Survivability using Genetic Algorithm Technique
 

ผู้วิจัย นายกฤษฎา แก้ววัดปริง
ที่ปรึกษา ผู้ช่วยศาสตราจารย์สุรเดช บุญลือ
สาขาวิชาเทคโนโลยีสารสนเทศ บัณฑิตวิทยาลัย มหาวิทยาลัยนอร์ทกรุงเทพ

บทคัดย่อ
     งานวิจัยนี้นำเสนอตัวแบบจีนเนติกอัลกอริทึม เพื่อใช้ในการทำนายการอยู่รอดของผู้ป่วยโรคมะเร็งเต้านม ชุดข้อมูลที่ใช้ในการฝึกสอนและทดสอบจะเป็นชุดข้อมูลอาการของผู้ป่วยโรคมะเร็งเต้านมจากมหาวิทยาลัยวิสคอนซิล ประเทศสหรัฐอเมริกา จำนวน 198 ระเบียนประกอบด้วย 34 คุณลักษณะ โดยชุดข้อมูลที่ได้จะนำส่งเข้าตัวแบบทำนายโรคมะเร็งเต้านมที่มีประสิทธิภาพสูงซึ่งใช้เทคนิคการเรียนรู้ของเครื่องมาสร้างตัวแบบและมีการทดสอบประสิทธิภาพตัวแบบโดยใช้การทดสอบไขว้ทบ 10 ส่วน ผลการทดสอบพบว่าตัวแบบทำนายที่ใช้เทคนิคจีนเนติกอัลกอริทึมมีความแม่นยำร้อยละ 84.21 ขณะที่ตัวแบบทำนายที่ใช้โครงข่ายประสาทเทียม และต้นไม้ตัดสินใจมีความแม่นยำร้อยละ 71.06 และ 69.03 ตามลำดับ 

คำสำคัญ : การทำนายการอยู่รอด, จีนเนติกอัลกอริทึม

Abstract
     This paper presents a genetic algorithm to predict the survival of patients with breast cancer. The training data set based on the symptoms of breast cancer patients to predict from the University of Wisconsin in United States of America consists of 198 records and 34 attributes. The information will be transferred to the higher performance models that predict breast cancer and evaluation by using 10 fold cross-validations. As a result of comparison, it is general speaking that prediction by using genetic algorithm reaches 84.21 % accuracy, while neural networks and decision tree technique approaches 71.06 % and 69.03 % of measuring the accuracy of disease prediction, respectively. 

Key Word (s): Breast Cancer Survivability, Genetic Algorithm



     มะเร็งเป็นโรคที่พบมากในปัจจุบันและเป็นสาเหตุสำคัญของการเสียชีวิตของประชากรทั่วโลก มีการคาดการณ์ว่า ในปี พ.ศ. 2558 จะมีผู้ป่วยเป็นโรคมะเร็งเพิ่มขึ้นจาก 9 ล้านคนเป็น 15 ล้านคน สาเหตุมาจากจำนวนประชากร จำนวนผู้สูงอายุและจำนวนผู้สูบบุหรี่ที่เพิ่มขึ้นรวมถึงปัจจัยอื่น ๆ เช่น วิถีการดำเนินชีวิตของคนในปัจจุบัน และสภาวะสิ่งแวดล้อมที่เปลี่ยนแปลงไป ซึ่งเป็นปัจจัยที่ไม่สามารถป้องกันและควบคุมได้อย่างทั่วถึง สำหรับประเทศไทยโรคมะเร็งเป็นสาเหตุการตายอันดับที่สาม รองจากโรคหัวใจและอุบัติเหตุ และมีแนวโน้มว่าจะมีอัตราการตายที่สูงขึ้นทุกปี (สายพิณ โชติวิเชียร, 2554) จากรายงานของสถาบันมะเร็งแห่งชาติประจำปี พ.ศ.2553 (สถาบันมะเร็งแห่งชาติ, 2554) พบว่ามะเร็งเต้านมเป็นโรคที่พบมากที่สุดในประเทศไทย รองลงมาคือ มะเร็งปอด มะเร็งตับ
มะเร็งปากมดลูก มะเร็งลำไส้ใหญ่ และมะเร็งช่องปาก ตามลำดับ 

     สาเหตุของการเกิดมะเร็งที่ชัดเจน ในปัจจุบันยังไม่ทราบแน่ชัด แต่อย่างไรก็ตามมีการศึกษา ที่เชื่อได้ว่ามีปัจจัยที่เกี่ยวข้องกับการเกิดโรคอยู่หลายประการ (Cancer Research UK, 2012), (Cancer survival rate, 2012) เช่น สาเหตุจากสิ่งแวดล้อมภายนอกร่างกาย เช่น สารเคมีบางชนิด หรือเชื้อจุลินทรีย์ สาเหตุจากภายในร่างกาย เช่น กรรมพันธุ์ที่ผิดปกติ หรือความไม่สมดุลทางฮอร์โมน เป็นต้น การรักษาโรคมะเร็งในปัจจุบันมีหลายวิธี เช่น การผ่าตัดเอาก้อนเนื้อมะเร็งออก รังสีบำบัด เคมีบำบัด การใช้ฮอร์โมน หรือ การฝังแร่ หรืออาจใช้หลายวิธีร่วมกัน ทั้งนี้ขึ้นอยู่กับระยะของโรค พยาธิวิทยาของชิ้นเนื้อ และสภาวะความสมบูรณ์ของผู้ป่วย 

     ในทางการแพทย์ อัตราการอยู่รอด (Survival Rate) เป็นตัวชี้วัดที่สำคัญ (Cancer survival rate, 2012) ที่ทำให้ทราบถึงร้อยละของผู้ป่วย ซึ่งอยู่รอดภายหลังจากได้รับการวินิจฉัยโรคและรับการรักษาจนกระทั่งถึงช่วงเวลาหนึ่งที่สนใจพิจารณา เช่น การวัดอัตราการอยู่รอดของผู้ป่วยมะเร็งปากมดลูกที่ 5 ปี (5-year survival rate) ที่เข้ารับการรักษาด้วยการฉายรังสีอย่างเดียวหรือฉายรังสีร่วมกับเคมีบำบัด ทำให้สามารถพิจารณาเปรียบเทียบอัตราการอยู่รอดที่ 5 ปี จำแนกตามวิธีการรักษาได้ (Brenner H, Gefeller O, Hakulinen T, 2004) 

     ปัจจุบันนี้มีการนำศาสตร์ด้านปัญญาประดิษฐ์โดยเฉพาะเทคนิคการเรียนรู้ของเครื่อง (Machine Learning) มาประยุกต์ใช้กับการทำนายการอยู่รอดของผู้ป่วยมะเร็งเต้านมตามช่วงเวลา อาทิงานวิจัยของ (Endo Arihito, Takeo Shibata and Hiroshi Tanaka, 2008) ที่นำเทคนิคการเรียนรู้ทางปัญญาประดิษฐ์มาทำการเปรียบเทียบ 7 รูปแบบ เช่น โครงข่ายประสาทเทียม ต้นไม้ตัดสินใจ มาประยุกต์กับการทำนายการอยู่รอดของผู้ป่วยมะเร็งเต้านม พบว่าเทคนิคโครงข่ายประสาทเทียมมีประสิทธิภาพสูงกว่าต้นไม้ตัดสินใจ อีกทั้งงานวิจัยของ (Ming-Hseng Tseng, Hung-Chang Liao, 2009) ได้ศึกษาเกี่ยวกับการวินิจฉัยโรคมะเร็งเต้านมซึ่งทำการศึกษาขนาดของเนื้องอกโดยใช้เทคนิคจีนเนติกอัลกอริทึมพบว่าให้ความถูกต้องของข้อมูลร้อยละ 90 ดังนั้นงานวิจัยนี้จะนำเทคนิคจีนเนติกอัลกอริทึมมาใช้ในการสร้างตัวแบบทำนายการอยู่รอดของผู้ป่วยมะเร็งเต้านม รวมทั้งมีการเปรียบเทียบและคัดเลือกอัลกอริทึมการเรียนรู้ของเครื่องที่นำมาประยุกต์ใช้สร้างตัวแบบทำนายที่มีประสิทธิภาพสูง เพื่อให้ได้ตัวแบบที่มีประสิทธิผลและมีความเหมาะสมกับการนำไปใช้งานต่อไป