Data Science ก้าวที่ล้ำหน้ากว่า Big Data (จบ)

Data Science ก้าวที่ล้ำหน้ากว่า Big Data (จบ)

จากบทความครั้งที่แล้วได้กล่าวถึง Data Science ทั้งด้านที่มา ความสำคัญ และประโยชน์

เพื่อให้ผู้อ่านได้เห็นแนวทางและเกิดความเข้าใจในเบื้องต้น จะกล่าวถึงขั้นตอนการทำเหมืองข้อมูลและกระบวนวิธีในการทำเหมืองข้อมูล ตลอดจนองค์ประกอบอื่นๆ ที่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูล (Data Science) เช่น สถิติศาสตร์, Machine Learning ที่ว่าด้วยการสร้างแบบจำลองสำหรับการทำนาย (Predictive Model) จากการวิเคราะห์ข้อมูลที่รับมา โดยมีรายละเอียดดังนี้

ขั้นตอนการทำเหมืองข้อมูล

สำหรับขั้นตอนในการทำเหมืองข้อมูลหรือการทำ Data Mining มีองค์ประกอบดังต่อไปนี้1. การทำความเข้าใจเกี่ยวกับธุรกิจ (Business Understanding) เป็นขั้นตอนแรกที่สำคัญมาก เพราะต้องทำความเข้าใจว่าปัญหาคืออะไร ต้องการคำตอบของปัญหาในทิศทางหรือลักษณะใด หากไม่เข้าใจปัญหาอย่างถ่องแท้จะทำให้ขั้นตอนต่อไปดำเนินไปในทิศทางที่ไม่ถูกต้อง ซึ่งนอกจากจะไม่ได้คำตอบที่ต้องการแล้ว ยังสูญเสียเวลาและทรัพยากรไปโดยไร้ประโยชน์ด้วย

2. การทำความเข้าใจเกี่ยวกับข้อมูล (Data Understanding) เป็นการทำความเข้าใจว่าข้อมูลที่จะนำมาใช้ควรมีลักษณะอย่างไร แหล่งข้อมูลอยู่ที่ใดและที่สำคัญที่สุดคือ ค่าใช้จ่ายหรือต้นทุน (Costs of Data) ที่จะได้มาซึ่งข้อมูลเหล่านั้นมีค่าใช้จ่ายเท่าไร รวมทั้งควรต้องประเมินมูลค่าของประโยชน์ที่จะได้รับจากการนำเอาข้อมูลดังกล่าวมาใช้

 

3. การเตรียมข้อมูล (Data Preparation) โดยปกติระบบประมวลผลข้อมูล นำเข้าข้อมูล จะอยู่ในรูปแบบที่จำกัด (Fixed Known Format) แต่ในความเป็นจริงข้อมูลส่วนใหญ่ ไม่ได้จัดเก็บในลักษณะดังกล่าวจึงต้องการกระบวนการแปลงข้อมูล (Data Transformation) หรือเปลี่ยนชนิดข้อมูล (Data Conversion) เพื่อให้ข้อมูลอยู่ในลักษณะหรือรูปแบบที่ง่ายต่อการนำไปประมวลผลหรือวิเคราะห์ต่อไป

 

4. การสร้างแบบจำลอง (Modeling) คือ การสร้างรูปแบบความสัมพันธ์ (Relational Pattern) อาจจะอยู่ในรูปของแบบจำลองบนซอฟต์แวร์ (Computer Model) หรือสมการความสัมพันธ์ (Equation) ก็ได้

 

5. การประเมินผล (Evaluation) หลังจากที่ได้แบบจำลองแล้ว ต้องทำการประเมินผลว่าแบบจำลองนั้นมีความถูกต้องแม่นยำมากน้อยเพียงใด โดยอาจทดลองในระบบเสมือน (Simulation) หรือนำไปประมวลผลกับข้อมูลจริงที่มีอยู่เพื่อเปรียบเทียบผล ของการวิเคราะห์ว่าถูกต้องเป็นร้อยละเท่าใด

6. การนำไปใช้งาน (Deployment) หลังจากที่ได้แบบจำลองที่มีคุณภาพและความถูกต้องแม่นยำตามที่เราต้องการก็สามารถนำไปใช้งานจริง โดยอาจต้องมีการปรับแต่งเพื่อความเหมาะสมในสภาวะจริง อีกทั้งยังต้องติดตั้งร่วมกับระบบอื่นๆ เช่น ระบบช่วยการตัดสินใจ (Decision Support System) อย่างไรก็ตามหลังจากการติดตั้งแล้วควรมีการปรับปรุงแบบจำลองเป็นระยะๆ (Periodic Update) เพราะแท้จริงแล้วการทำเหมืองข้อมูลไม่มีที่สิ้นสุด

กระบวนวิธีในการทำ Data Mining (เหมืองข้อมูล)

1. Classification คือ การทำนาย (Prediction) ว่าข้อมูลแต่ละตัว (Individual) ในประชากร (Population) ควรจัดให้อยู่
(Classify) ในกลุ่มใดบ้าง โดยแต่ละกลุ่มมีการกำหนดชื่อไว้ล่วงหน้า (Pre-Defined) อาทิ หากมีข้อมูลของดอกกุหลาบ เช่น สี ขนาดกลีบดอก จำนวนกลีบ เราก็สามารถนำทายได้ว่ากุหลาบนั้นน่าจะเป็นสายพันธุ์ใด

2. Regression หมายถึง การประมาณ (Value Estimation) ว่าข้อมูลแต่ละตัวควรมีค่าเชิงตัวเลข (Numerical Value) เป็นเท่าใด
เช่น จากยอดขายของร้านค้าแห่งหนึ่งในระยะเวลา 5 ปีที่ผ่านมา มีอัตราการเติบโตอยู่ที่ 15 % ต่อปี ดังนั้นเราอาจทำนายการ
เติบโตของยอดขายในปีถัดไปว่าน่าจะเป็น 15% ด้วย

3. Similarity Matching หมายถึง การหาอัตลักษณ์ที่เหมือนกัน (Similar Identifying) บนพื้นฐานมิติต่างๆ ระหว่างข้อมูลแต่ละตัว
ในประชากรทั้งหมด เช่น Amazon, Lazada เมื่อลูกค้าสั่งซื้อสินค้า A ระบบจะแนะนำสินค้า B ให้ด้วย เพราะลูกค้าคนอื่นส่วนใหญ่
ที่ซื้อสินค้า A จะนิยมซื้อสินค้า B ด้วย ซึ่งนิยมเรียกว่า ระบบการแนะนำสินค้า (Recommendation Engine System)

4. Clustering การค้นหาการเกาะกลุ่มหรือกระจุกตัวของข้อมูล ซึ่งจะแตกต่างจาก Classification ในลักษณะที่ Clustering ไม่มี
การกำหนดจำนวนของกลุ่มล่วงหน้า จำนวนกลุ่มที่ได้เป็นผลลัพธ์ที่ได้จากการประมวลผลทั้งสิ้น เช่น การจำแนกกลุ่มลูกค้า (Customer Segmentation) จากฐานลูกค้าที่มีอยู่

5. Co-Occurrence Grouping (Association Rule Discovery / Market-Basket Analysis) การค้นหาความสัมพันธ์ระหว่างสินค้าตั้งแต่สองชนิดขึ้นไปจากบันทึกการซื้อขาย (Transaction Records) คือสินค้าใดบ้างที่ลูกค้านิยมซื้อพร้อมกัน และทำไมถึงเป็น
อย่างนั้น เช่น ร้านค้าพบว่าสินค้า A และ B นิยมซื้อพร้อมกัน ก็ทำการส่งเสริมการขาย โดยการลดสินค้า A หรือ B อย่างหนึ่ง
อย่างใดหรือทั้งสองอย่างพร้อมกันเพื่อกระตุ้นยอดขาย ข้อแตกต่างกับ Similarity Matching คือจะเป็นระบบ e-Commerce
ที่มีข้อมูลลูกค้าและประวัติการสั่งซื้อ ส่วน Co-Occurrence มักใช้ในธุรกิจค้าปลีกที่การเก็บประวัติการซื้อสินค้าที่เป็นไปได้ยาก

 

6. Profiling (Anomaly Detection) เป็นการวิเคราะห์คุณลักษณะ (Characteristics) ที่เกี่ยวข้องกับพฤติกรรม (Behavior) ในการทำกิจกรรมอย่างใดอย่างหนึ่ง อาทิ ระบบตรวจจับการใช้บัตรเครดิตปลอม (Fraud Detection) เช่น หากเกิดการใช้จ่ายบัตรเครดิตในสถานที่ที่ห่างไกลจากพื้นที่ที่มีการใช้จ่ายเป็นประจำ (Frequent Location) หรือการซื้อสินค้าบางชนิดที่มีราคาสูงผิดปกติจากธรรมดาเจ้าหน้าที่ก็จะโทรศัพท์สอบถามไปที่เจ้าของบัตรเพื่อสอบถามเกี่ยวกับการซื้อสินค้านั้นว่าเกิดขึ้นจริงหรือไม่

7. Link Prediction คือ การทำนายความสัมพันธ์เชื่อมโยง (Link) ระหว่างข้อมูลแต่ละตัวว่าควรมีความสัมพันธ์กันหรือไม่ และความแข็งแรง (Strength) ของความสัมพันธ์ควรเป็นเท่าไร เช่น Facebook มีการแนะนำคนที่เราน่าจะรู้จัก (May Know) เมื่อมีเพื่อนคนเดียวกันหลายคนให้เราสามารถขอเป็นเพื่อนด้วย
8. Data Reduction เป็นการลดขนาดของข้อมูลที่มีขนาดใหญ่มาก (Large Data) ให้มีขนาดเล็กลง (Smaller Set) แต่ยังคงสาระสำคัญของข้อมูลขนาดใหญ่ไว้มากที่สุด เช่น การกำจัดข้อมูลที่ไม่ครบถ้วน สูญหาย ออกไปจากฐานข้อมูลก่อนนำไปประมวลผล
นอกจากนี้ยังมีองค์ประกอบอื่นๆ ที่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูล (Data Science) จึงขอนำเสนอเสริมเพิ่มเติมมา ณ โอกาสนี้

สถิติศาสตร์ (Statistics)

ถือเป็นศาสตร์ที่มีความสำคัญอีกแขนงหนึ่ง เพราะทฤษฎีและระเบียบวิธีหลายอย่างของ Data Science มาจากการพัฒนาและดัดแปลงจากสถิติศาสตร์เป็นส่วนใหญ่ เช่น การหาค่าผลรวม (Summation) ค่าเฉลี่ย (Average) ค่าเบี่ยงเบน (Standard Deviation) การกระจายตัวของข้อมูล (Data Distribution) ศูนย์กลางข้อมูล (Data Centrality) เป็นต้น ล้วนแล้วแต่เป็นกิจกรรมที่ต้องทำใน Data Science เกือบทุกกรณี

การใช้งานฐานข้อมูล (Database Querying)

การใช้งานฐานข้อมูลเพื่อช่วยการวิเคราะห์ เป็นเครื่องมือสำคัญในงานด้าน Data Science เพราะมีรูปแบบภาษาและไวยากรณ์ (Language Syntax/Semantic) เป็นที่คุ้นเคย แต่จะมีประโยชน์ก็ต่อเมื่อผู้ใช้มีความเข้าใจในข้อมูลเหล่านั้นเป็นอย่างดีและรู้ว่าต้องการคำตอบในลักษณะใด แต่คงไม่เหมาะกับข้อมูลมหาศาลที่โครงสร้างหรือรูปแบบไม่เป็นที่แน่ชัด การทำคลังข้อมูล
(Data Warehousing) กระบวนการรวบรวม (Collect) และเชื่อมโยง (Coalesce) ข้อมูลจากหลายๆ แห่งภายในองค์กรหรือหน่วยงานนั้นๆ โดยปกติจะประกอบด้วยระบบคอมพิวเตอร์และซอฟต์แวร์พิเศษ ซึ่งนิยมใช้เป็นเครื่องมือสำคัญร่วมกับการทำเหมืองข้อมูล เพราะจะทำให้มีประสิทธิภาพในการวิเคราะห์เชิงครอบคลุมและเชิงลึก

การเรียนรู้ด้วยเครื่องจักรสมองกล (Machine Learning)

หมายถึง กลุ่มหรือระบบของวิธีการหลายชนิดที่มีการสร้างแบบจำลองสำหรับการทำนาย (Predictive Model) จากการวิเคราะห์ ข้อมูลที่รับมา โดยนิยมนำมาใช้ร่วมกับการทำเหมืองข้อมูล เพราะการทำนายแบบจำลองโดยใช้ระบบการเรียนรู้ด้วยเครื่องจักร
สมองกลจะทำให้เป็นไปอย่างรวดเร็วและมีประสิทธิภาพ เพราะใช้การประมวลด้วยระบบคอมพิวเตอร์และซอฟต์แวร์ที่พัฒนามาเป็น
พิเศษในการประมวลผลและวิเคราะห์ข้อมูลมหาศาลจำเป็นต้องอาศัยศาสตร์ กระบวนการ และเทคนิคหลากหลายแขนง จึงได้เกิด
การบูรณาการเป็นวิทยาศาสตร์ข้อมูล หรือ Data Science ผู้ที่จะนำไปใช้งานนอกจากจะต้องมีความรู้ด้านเทคโนโลยีสารสนเทศแล้ว
ยังต้องเข้าใจศาสตร์ด้านการวิเคราะห์ต่างๆ ตั้งแต่ สถิติศาสตร์ การใช้งานฐานข้อมูล การทำคลังข้อมูล และที่สำคัญที่สุดคือ การทำเหมืองข้อมูลที่มีวัฏจักรของขั้นตอน

โดยเริ่มตั้งแต่ทำความเข้าใจในปัญหาและคุณลักษณะของข้อมูล เพื่อที่จะสามารถแปรรูปให้อยู่ในรูปแบบที่สามารถนำไปวิเคราะห์ด้วยเครื่องมือได้ โดยแบบจำลองอันเป็นผลของการวิเคราะห์จะต้องผ่านการประเมินว่ามีคุณภาพตามที่ต้องการแล้วจึงจะสามารถนำไปใช้งานจริงได้ โดยควรมีการปรับปรุงแบบจำลองเป็นระยะๆ เพื่อคงไว้ซึ่งความถูกต้องและแม่นยำนั่นเอง

 

ขอบคุณรูปภาพประกอบจาก

  • https://www.youtube.com
  • http://phx.corporate-ir.net/phoenix.zhtml%3Fc%3D176060%26p%3Dirol-logos
  • https://www.slideshare.net/TechInAsiaVN/lazada-kinnevik-rocket-cmd-2014-35285360
  • https://siftscience.com/sift-edu/fraud-basics
  • http://torez24.ru/main/3233-itogi-raboty-za-2016-god-doklad-glavy-administracii-goroda-toreza-serikova-aleksandra-viktorovicha.html
  • http://www.radiosfax.tn
  • http://www.sweda.org.uk/events/thinkin-of-becoming-your-own-boss-hmrc-tax-nic/
  • http://romainvv.ddns.net/evaluation-ui/
  • http://www.softwebdatascience.com/experiments/market-basket-analysis-for-retailers.html
  • https://sqlbak.com/blog/backup-query-results/

G-ABLE พร้อมให้บริการและคำปรึกษาให้ทุกธุรกิจ เพื่อเตรียมความพร้อมขับเคลื่อนองค์กรสู่ยุคดิจิทัล

ติดต่อสอบถามข้อมูลเพิ่มเติมได้ที่

Contact G-Able

02-781-9333 หรือ

inquiry@g-able.com



Top