สรุปใจความสำคัญ
แล้ว big data คืออะไร?
-Volume ปริมาณข้อมูลที่ใหญ่กว่าสมัยก่อนมาก อ้างอิงจาก
IBM เค้าบอกว่าข้อมูลที่เกิดขึ้นบนโลกใบนี้ทั้งหมดประมาณ
90% ถูกสร้างขึ้นในช่วง 2–3
ปีที่ผ่านมาเอง ต้องกราบขอบคุณวิวัฒนาการของคอมพิวเตอร์และกระบวนการ digitization
ที่เปลี่ยนข้อมูลต่างๆให้อยู่ในรูป digital format ที่คอมพิวเตอร์เข้าใจและวิเคราะห์ได้
-Variety ความหลากหลายของข้อมูลที่เก็บมา
ตอนนี้ข้อมูลส่วนใหญ่ไม่ได้เก็บใน table ง่ายๆเหมือนแต่ก่อนแล้ว แต่เป็น unstructured
data ที่มาในรูปแบบของ text, video, audio เป็นต้น
ตัวอย่างง่ายๆคือ facebook posts / comments / twitters / youtube videos ฯลฯ
-Velocity ความรวดเร็วของข้อมูลที่ถูก generated ขึ้นมา
โดยเฉพาะพวก sensor รูปแบบต่างๆ เช่น fitness tracker /
smart watch / mobile phone <GPS>
-Veracity เกี่ยวข้องกับเรื่องของ noise / bias ที่มาพร้อมกับข้อมูล
พอข้อมูลมีใหญ่มาก
การทำความสะอาดข้อมูลและเลือกใช้ข้อมูลที่ถูกต้องเป็นเรื่องสำคัญมาก และเป็น challenge
ของ big data analyst ทุกวันนี้เลย
การมีข้อมูลเยอะไม่ได้แปลว่าจะแก้ปัญหาทั้งหมดของเราได้เสมอไป
ทั้ง 4V’s รวมตัวกัน
เกิดเป็น V ตัวที่ห้าคือ ‘Value’ โคตรตัวอย่างที่ได้ยินกันเยอะมากคือ
Google Flu Trends ที่ Google ใช้
search terms ที่คนเสิชหาในเว็บของเค้าในการพยากรณ์ว่าพื้นที่ใดเกิดโรคไข้หวัดระบาดบ้าง
อยู่ดีๆข้อมูล search terms ที่ถูกเก็บอยู่เฉยๆใน data
warehouse ก็เกิดประโยชน์ซะงั้น <create
values>
#อัพเดท ตอนนี้ Google นางปิดให้บริการ
GFT ไปแล้ว
หลังจากโดนนักวิชาการโจมตีว่าโมเดลพยากรณ์ผิดพลาดไปเยอะเลย ._. แต่ต้องยอมรับจริงๆว่า
Google ได้สร้างแรงบันดาลใจ และเป็นผู้บุกเบิกการใช้ Big
Data ให้เกิดประโยชน์อย่างแท้จริง
Big Data
เทคโนโลยีสมัยใหม่เป็นแรงผลักดันสำคัญให้สังคมเข้าสู่ยุค
Big Data จริงๆ ปัจจัยหลักที่ช่วยให้ Big Data
Analytics เติบโตอย่างรวดเร็วคือ
1.Storage Cost การเก็บข้อมูลถูกลงกว่าเดิมมาก
ทุกวันนี้เรามี cloud storage ใช้กันแล้วจ้า
ผู้เล่นใหญ่ๆในตลาดมาครบเลยทั้ง Microsoft Azure, Google Cloud, Amazon Web
Services (AWS)
2.CPU Cost คอมพิวเตอร์แรงขึ้นทุกวัน
สมัยก่อนคอมเครื่องใหญ่เท่าบ้านประมวลผลเท่าไมโครเวฟ เด๋วนี้คอมขนาดเล็กลง
พร้อมพลังการประมวลผลที่เยอะขึ้น ใน consumer market เราก็เห็น
intel เปิดตัว core ใหม่ๆเต็มเลย
ตอนนี้ขึ้นไปถึง core i9 ต่อไปใครๆก็คงทำ Big Data ได้ไม่ยาก
3.Bandwidth Cost ราคาของการถ่ายโอนข้อมูลผ่านระบบ cloud
ลดลงเรื่อยๆ จากหลักร้อยเหลือหลักสตางค์ bandwidth ของ Azure ได้ที่ลิ้งนี้เลย
4.Network Access ต่อเนื่องมาจากข้อสาม การที่ราคา bandwidth
ถูกลงเป็นเพราะคนเข้าถึงอินเตอร์เน็ตได้มากขึ้น จำนวน server ที่มากขึ้น
เน็ตเร็วขึ้นทุกวัน ราคาก็ถูกลง ผลพลอยได้จากการแข่งขันของพวก network
operators ต่างๆ
“Without big data analytics, companies are blind and deaf.”
ที่เขียนมายืดยาว สรุปสั้นๆว่า Big Data
NOW !! เพราะว่า ต้นทุนการทำ Big Data มันถูกลงมาก
#เรื่องเงินนี่เอง และ disruptive
technology แบบใหม่ที่ช่วยให้การทำงานกับข้อมูลขนาดใหญ่เป็นเรื่องง่ายขึ้น
e.g. Hadoop, MapReduce, Spark, MongoDB และอีกมากมาย
ไม่มีความคิดเห็น:
แสดงความคิดเห็น