Pages

วันจันทร์, เมษายน 23

Big Data คืออะไร ? กันแน่

Big Data คืออะไร ? กันแน่ มันเป็นคำสวยๆ คำหนึ่ง ที่ใครพูดถึงแล้วดูดี “Big Data” แปลภาษาตรงๆ คือ ข้อมูลขนาดใหญ่ หากเปรียบได้ว่า Data ก็เสมือนกับอาหาร แล้ว Big Data คือคงไม่ต่างกับ แหล่งอาหาร เพื่อสร้างความเข้าใจของอาหาร และแหล่งอาหาร …. นี้แหละ ที่ผมต้องมาเขียนบทความนี้ขึ้น

Big Data เป็นคำนาม (N) ไม่มีสถานที่ ที่จับต้องได้เพราะถ้าพูดถึง Big Data มักจะอาศัยอยู่บนก้องเมฆของข้อมูล (Cloud) Big Data ไม่มีข้อจำกัดเนื้อที่ (Unlimited) Big Data คือข้อมูลขนาดใหญ่ โดยผมขอแบ่งดังนี้ 
1. การกำหนดขอบเขตของข้อมูล
แล้วข้อมูลที่ว่ามันคืออะไร ? ข้อมูล (Data) ประกอบด้วย ข้อมูลที่ปรากฎที่สาธารณะ (Public) ข้อมูลที่ไม่เปิดเผยแพร่ในที่สาธารณะ (Private)
ข้อมูลสาธารณะ บนอินเทอร์เน็ต คืออะไร ? คือข้อมูลที่มีการเผยแพร่บนอินเทอร์เน็ต โดยไม่มีมาตรการระบุสิทธิการเข้าถึงข้อมูล อันได้แก่ ข้อมูลเว็บไซต์ ข้อมูลบนสื่อสังคมออนไลน์ ที่ไม่ตั้งค่าความเป็นส่วนตัว
แสดงว่า Big Data มีทั้ง Public และ Private ข้อมูล
2. การได้มาของข้อมูล
การได้มาของข้อมูล จนเป็น Big Data นั้นสำคัญแก่การสร้างความเข้าใจเรื่องนี้ จึงขอให้อ่านอย่างตั้งใจ
การได้มาของข้อมูล (Data) ประกอบด้วย
2.1 การได้มาของข้อมูลสาธารณะ ผ่าน Crawler โปรแกรม Crawler นี้เป็นการทำระบบสืบค้น (Search engine) จนทำให้เกิดบริการ เช่น Google , Bing , Yahoo , Shodan , Baidu เป็นต้น
  • ขอเรียกข้อมูลส่วนนี้ว่า “Crawler Log” ซึ่งสามารถทำได้ทั้งข้อมูลที่เป็น Public และ Private
  • ข้อมูลเหล่านี้มักประกอบด้วย เนื้อหาที่มีการโพสข้อความ รูป คลิป หรือ ที่แสดงความคิดเห็นต่อสาธารณะ มักจะแสดงให้เห็นและรับรู้ได้บนโลกอินเทอร์เน็ต
  • ข้อพึ่งระวัง คือระดับการมองเห็นจาก Log คนทั่วไปจะมองเห็นได้ และ ระดับผู้ให้บริการจะมองเห็นลึกกว่า ละเอียดกว่าเสมอ
2.2 การได้มาของข้อมูลจากระบบเครือข่ายคอมพิวเตอร์ (Network Log) ส่วนนี้มีความสำคัญมาก และส่วนใหญ่ เป็นข้อมูลที่ไม่เผยแพร่แบบสาธารณะ เป็น ข้อมูลPrivate และเกิดขึ้น บนผู้ให้บริการอินเทอร์เน็ต (ISP) บริษัทที่ให้บริการ ที่มีข้อมูลผ่าน อันได้แก่ ข้อมูล IP Address , ลักษณะการติดต่อสื่อสาร ผ่าน Protocol ต่างๆ เช่น DNS , HTTP , SSL , SMTP , POP3 และอื่นๆ อีกส่วนคือ Application Protocol บางอย่างที่สำคัญ เช่น การระบุตัวตน จาก Protocol Radius , LDAP, Kerberos , จากการใช้โปรแกรม RDP , VNC เป็นต้น ซึ่ง Log พวกนี้มักจะเกิดขึ้นบนอุปกรณ์ ระบบเครือข่าย เช่น Router , Firewall , Proxy เป็นต้น
  • ขอเรียกข้อมูลส่วนนี้ว่า “Network Log” ส่วนใหญ่เป็นข้อมูล Private จะล่วงได้ก็ต่อเมื่อมีการดักรับข้อมูล จาก Sniffer, MITM เป็นต้น หรือแม้กะทั่งรับ syslog และต่อยอดเป็น SIEM เป็นต้น ไม่ขอขยายความในส่วนนี้
  • ข้อมูลเหล่านี้ประกอบด้วย Time , IP Address , Protocol , ลักษณะการติดต่อสื่อสาร , จำนวนข้อมูลในการรับส่งข้อมูล เป็นต้น
  • ข้อพึ่งระวัง การโจมตี และการแฮก (Cyber Attack) มักจะเริ่มต้นเกิดที่จุดนี้ บนเครือข่ายผู้ให้บริการอินเทอร์เน็ต (ISP) บนหน่วยงานองค์กรที่ให้บริการ Application และ บริษัทหน่วยงานที่ให้บริการ Content
2.3 การได้มาของข้อมูลบนโปรแกรม (Application program) ซึ่งประกอบด้วย โปรแกรมบนมือถือ โปรแกรมที่สร้างขึ้นแล้วมีฐานข้อมูล และ โปรแกรมที่เกิดจากสื่อสังคมออนไลน์ (Social Network) Facebook , Youtube , Line และผู้ให้บริการที่เป็น Platform ด้านบันเทิงและการทำ E-commerce ได้แก่ Google , Facebook , Cloud Flare , Amazon , Alibaba เป็นต้น
  • ขอเรียกข้อมูลส่วนนี้ว่า “Application Log” มีทั้งข้อมูลที่เป็น Public และ Private ขึ้นอยู่กับผู้ใช้งานในการตั้งค่า และ ทั้งหมดเป็นข้อมูลอยู่ภายใต้ผู้ให้บริการเนื้อหาของ Application นั้น ขอเรียกว่า “Content Provider” ซึ่งได้แก่ Google , Facebook , Line , Amazon , Ebay , Alibaba เป็นต้น
  • ข้อมูลเหล่านี้ประกอบด้วย ชื่อผู้ใช้บริการ (ID Application) ข้อมูลสถานที่ในการลงทะเบียน อายุ เพศ การศึกษา และประวัติการใช้งานในการติดต่อสื่อสารกับบุคคลหรือกลุ่ม เป็นต้น (ซึ่งอาจได้ข้อมูลที่มากกว่าที่กล่าวมา)
  • ข้อควรระวัง ที่เรียกว่าข้อมูลรั่ว (Data leak) เกิดจากส่วนนี้ จะรั่วจากตัวเองที่เกิดจากรู้เท่าไม่ถึงการณ์ การรั่วจากการถูกแฮก และ รั่วจากช่องโหว่ระบบ และมีผู้นำมาเผยแพร่ เป็นต้น
3. การต่อยอดจากข้อมูล
Big Data ที่สมบูรณ์ และมีประโยชน์ ต้องมีการต่อยอดจากการใช้ข้อมูล การต่อยอดนั้นประกอบด้วย
3.1 การเรียนรู้ข้อมูลที่เกิดขึ้นจากข้อ 2.1 , 2.2 และ 2.3 โดยใช้ Machine Learning algorithms
3.2 การวิเคราะห์ข้อมูลอย่างชาญฉลาด โดยใช้ปัญญาประดิษฐ์ (AI : Artificial Intelligence) ซึ่งส่วนนี้จะเกิดขึ้นภายหลังจากขั้นตอนข้อ 3.1
3.3 เพื่อการตัดสินใจและเพื่อการพยากรณ์อนาคต อันนี้แหละที่คิดว่าจะมาทดแทนคนได้ และทำงานได้อย่างแม่นยำ ลดปัญหาจาก Human Error ไปได้ หรือ ใช้วิเคราะห์พฤติกรรมผู้คน ก็ล้วนแล้วแต่เกิดขึ้นจากข้อ (2.3) อันได้แก่ พฤติกรรมการบริโภค บางทีล่วงรู้ถึงอารมณ์ความรู้สึก และ วิธีคิดของคนคนนั้นได้ ซึ่งนี้คือความทรงพลังของ Big Data ที่แท้จริง
ซึ่งลำดับเหตุการณ์ จะเกิดขึ้น จาก ข้อ 2 และ ลำดับมาถึงข้อ 3 และเรียงกันเป็น การเรียนรู้ข้อมูล (3.1) และต่อด้วย การวิเคราะห์ข้อมูล (3.2) และ ต่อด้วยการติดสินใจแทน (3.3) เป็นต้น
ซึ่งหากแสดงลำดับเช่นนี้ ระดับความเข้าใจคำว่า Big Data ของเราจะเข้าใจช่วงไหน ? หรือ ทั้งหมดแบบรวบยอด
ซึ่งคำว่า Big Data มีความลึกซึ้ง และมีเงือนไข อยู่เช่นกัน
เงือนไข Big Data ที่เป็นตัวแปร สำคัญ คืออะไร ?
คือสถานที่ ที่ตั้งของ Big Data จากสิ่งที่กล่าวข้างต้น ตั้งแต่ Crawler log(2.1) ทั้งที่เป็นข้อมูล Public ข้อมูล และ Private ข้อมูล ตามด้วย Network Log(2.2) และ Application Log (2.3) ทั้งที่เป็นข้อมูล Public และ Private
สถานที่ตั้ง Big Data กับความพร้อมของ Thailand 4.0 มีแค่ไหน ? เวลาเราพูดคำสวยๆ อย่าง Big Data เรารู้หรือไม่ว่า สถานที่ตั้งข้อมูลอันทรงพลังนี้ไม่ได้อยู่กับเราเลย เหตุผลมีอยู่ว่า ด้วยสถานที่ไม่ได้อยู่ๆ เกิดได้ ซึ่งต้องมีการออกแบบอย่างมืออาชีพ ดังนั้นคนที่เคยทำพวก Log files การเก็บบันทึก Log จะรู้ว่าการต่อสู้กับข้อมูลขนาดใหญ่ที่เกิดขึ้นตลอดเวลา นั้นมันหนักแค่ไหน มันต้องออกแบบโดยใช้งบประมาณที่สูงมากเพื่อที่ให้การบริการเสถียร (Availability) และการวิเคราะห์ข้อมูลได้ดังใจปรารถนา (Data Analytic)
หากเปรียบได้ว่าข้อมูลคือความมั่นคงของชาติอย่างหนึ่ง แหล่งที่สิงสถิตของ Big data ก็ควรนำมาพิจารณาด้วย
สถานที่ตั้งของ Big Data = แหล่งอาหาร
แหล่งอาหารของข้อมูล ที่สำคัญ อันเป็นประโยชน์ต่อการต่อยอด เป็นประโยชน์ต่อการวิเคราะห์พฤติกรรมผู้บริโภคขนาดใหญ่ การเข้าถึงความต้องการของผู้คน …
แล้ว แหล่งผลิตอาหาร ของ Big Data มีอันไหนอยู่ในประเทศไทย บ้าง ?
ปล. บทความนี้เขียนขึ้นจากประสบการณ์จากการทำงาน เกือบ 20 ปี ที่ทำงานด้านนี้ ไม่ได้อ้างอิงจากที่อื่นใด โปรดใช้วิจารณญาณในการอ่าน
นนทวัตต์ สาระมาน
สมาคมส่งเสริมนวัตกรรมเทคโนโลยีไซเบอร์ (CIPAT)
Nontawatt Saraman
22/04/61