หลังจากที่ศึกษา Data Science อย่างจริงจังมาปีกว่า ๆ และสังเกตจากคนอื่น ๆ ที่เรียนมาพร้อม ๆ กัน ปัญหาใหญ่อย่างหนึ่งที่ผมพบว่าเราเสียเวลาไปมาก คือ “การติดตั้งระบบสำหรับทำ Data Science” ในคอมพิวเตอร์ส่วนตัว ครับ

ปัญหาของการติดตั้งระบบทำ Data Science ในเครื่อง

ระบบที่ว่านี้ คือ เครื่องมือพื้นฐานสำหรับเริ่มเรียน เช่น Jupyter Notebook ที่ปกติถ้าเราลง Python เวอร์ชั่นเดียวก็ง่าย ๆ ใช้ Anaconda ได้เลย แต่พอเราพยายามจะลง Python ทั้งเวอร์ชั่น 2 และ 3 จะเริ่มยากขึ้นมานิดนึง แล้วพอเราจะลง R ใน Notebook ด้วย ก็จะยากขึ้นมาอีก

แค่นั้นยังไม่พอ ไม่นานมานี้ผมพบว่าการจะลง Spark ใน Notebook ต้องโหลดไฟล์ขนาด 200+ MB มาในเครื่อง แล้วทำตามขั้นตอนในการติดตั้งอีกเป็นชั่วโมง

สาเหตุหลัก ๆ ที่ทำให้การติดตั้งมันยาก คือ:

  1. ระบบปฏิบัติการในคอม (Operating System) แต่ละคนไม่เหมือนกัน – วิธีการติดตั้งใน Windows, Mac OS, Linux ก็อาจจะต้องใช้คนละวิธีกัน (เคยไปพยายามลง R ใน Notebook ในเครื่อง Windows เพื่อน ก็ต้องใช้วิธีที่แตกต่างจาก Mac นิดหน่อย)
  2. สเปคคอมก็มีผล เพราะงานด้านข้อมูลใช้พลังประมวลผลหนักมาก – ครื่องมือบางตัวต้องใช้ RAM เยอะในการรัน (เช่น Hortonworks Sandbox ที่ไว้ทำ Hadoop ต้องใช้ RAM มากกว่า 8 GB ตอนที่ผมเรียน คนเรียนบางคนก็คอมแรงไม่พอ ถึงกับต้องไปซื้อใหม่เลยครับ)

ซึ่งไม่นานมานี้ แอดมินก็ไปเจอทางออกที่ดีมาก ๆ แถมฟรีด้วย เอาไปใช้ตอนเรียน Spark มาเวิร์คมาก เลยเอามาแนะนำกันครับ

Data Scientist Workbench คืออะไร

รวม Tool ทุกอย่างด้าน Data Science ให้เลือกใช้

Data Scientist Workbench คือ ระบบออนไลน์ของ IBM ที่รวมเครื่องมือต่าง ๆ ด้าน Data Science ให้เราเข้ามาใช้แบบออนไลน์ได้เลย เช่น Jupyter Notebook ที่พูดถึงเมื่อสักครู่ (เซ็ต Python & R ทุกเวอร์ชั่นเรียบร้อย), RStudio เครื่องมือชื่อดังของคนเขียน R, Zeppelin Notebook สำหรับทำ Interactive Visualization และเครื่องมืออื่น ๆ ที่เค้าบอกกำลังจะมาในอนาคต เช่น My Hadoop

ระบบนี้เกิดขึ้นมาจากสาเหตุว่า ทาง IBM สอนทำ Data Science ออนไลน์ฟรีในเว็บไซต์ชื่อ CognitiveClass.ai แล้วเค้าต้องการให้คนเรียนสามารถเรียนแล้วลองทำไปพร้อมกันได้ง่าย ๆ ก็เลยเปิดระบบนี้ขึ้นมาให้ใช้กันเลย

คอร์สที่ CognitiveClass.ai (ชื่อเก่าคือ Big Data University) เรียนฟรี แถมได้ Certificate ด้วยฮะ

ส่วนเรื่องสเปคของ Data Science Workbench ไม่ต้องกลัวว่าจะช้า เพราะเค้าให้แรมถึง 16GB ซึ่งเยอะกว่า RAM Laptop ทั่วไปเสียอีก

ฟีเจอร์เด็ด ๆ ของ Data Scientist Workbench

ถ้าอ่านคร่าว ๆ หลายคนอาจจะยังรู้สึกว่าธรรมดา ๆ ลงเองในเครื่องก็ได้ไม่ยาก (ถ้าคอมตัวเอง RAM 16GB+ อยู่แล้ว) เดี๋ยวเราลองมาดูฟีเจอร์อื่น ๆ ที่แอดมินรู้สึกว้าวมาก จนต้องมาเขียนบลอคแนะนำกันครับ

อัพโหลดไฟล์ Jupyter Notebook และไฟล์ข้อมูลได้

อัพโหลดง่ายมาก ๆ แบบ Drag and Drop

DSWB (Data Scientist Workbench) มีส่วนที่ชื่อว่า “My Data” ส่วนนี้เราสามารถอัพโหลดไฟล์ Jupyter Notebook ที่เราทำไว้แล้ว หรือโหลดมา เข้าไปในระบบเพื่อใช้งานต่อได้ ซึ่งดีมาก ๆ ในกรณีที่เครื่องเรารันไม่ไหว หรือไม่มี Component บางอย่างที่ต้องใช้ ก็โยนใส่ DSWB ไปรันบนนั้นได้เลย

ส่วนถ้าเรามีไฟล์ข้อมูล ไม่ว่าจะนามสกุล txt, csv หรืออื่น ๆ ก็สามารถอัพโหลดขึ้นไป แล้วเรียกจาก Jupyter Notebook ได้เลย ระบบเค้าเชื่อมกันหมด เหมือนกับรันอยู่ในเครื่องตัวเอง

อย่างไรก็ตาม ถ้าข้อมูลเราเป็นข้อมูลที่มีความลับทางธุรกิจก็ต้องระวังนิดนึงครับ เพราะอาจจะผิดกฏหมายได้ถ้าอัพขึ้นระบบออนไลน์ ระบบนี้จะเหมาะกับคนที่ศึกษา Data Science และใช้ข้อมูลที่เป็น Public มากกว่าครับ

ประหยัดเวลาติดตั้งเองไปได้หลายชั่วโมง และเปิดได้จากทุกที่

จากปกติติดตั้งเองต้องใช้เวลาหลายชั่วโมง (หาข้อมูลด้วยการ Google ไปเรื่อย ๆ + หาวิธีแก้ปัญหาจาก Stackoverflow) แถมถ้าพังเผลอ ๆ แก้ไม่ได้ ต้องลบแล้วลงใหม่ทั้งหมด (หลายคนอาจจะไม่เชื่อ แต่แอดมินผ่านมาแล้วตอน R ใน Notebook ไม่รัน T_T)

ระบบนี้ติดตั้งทุกอย่างมาให้หมดแล้ว เปิดแล้วใช้งานได้ทันที ชีวิตดีสุด ๆ แถมทุกอย่างอยู่บนออนไลน์ คอมเราไม่ต้องแรง ขอแค่มีอินเตอร์เน็ต และรัน Google Chrome ได้ก็พอ

เซิร์ฟเวอร์ตั้งอยู่ทั่วโลก

อยู่ใกล้ที่ไหนก็เลือกที่นั่นเลย

ตอนที่ผมใช้ DSWB แรก ๆ รู้สึกว่ามันช้าครับ พอไปคุยกับเพื่อนเค้าก็แนะนำมาว่าใช้ไปเลือก Data Center ให้ใกล้เราที่สุด (ตอนแรกจะเลือกที่ Canada มาให้ ซึ่งไกลโพ้นมาก) หลังจากเลือกเป็นของ Hong Kong แล้วก็พบว่ามันเร็วมาก ๆ

เพราะฉะนั้นใครสมัครไปใช้ DSWB อย่าลืมเข้าหน้า Profile ตัวเอง (อยู่มุมบนขวา) แล้วกดเลือก Data Center ให้เป็น Hong Kong ก่อนนะครับ

ตอนเราไม่ใช้ ระบบก็ปิดให้อัตโนมัติ

ตอนเปิดระบบขึ้นมาหลังจากไม่ได้ใช้นาน ๆ จะต้องรอประมาณ 2-3 นาที

อันนี้เป็นข้อเสียมากกว่าฟีเจอร์ แต่ก็เข้าใจได้เพราะว่าระบบเค้าให้บริการฟรีครับ จะมาเปิดให้ทุกคนมารันโค้ดตลอด 24 ชั่วโมงก็ล่มพอดี เพราะฉะนั้นถ้าช่วงไหนเราไม่ใช้ เค้าก็จะปิดระบบส่วนของเราไปโดยอัตโนมัติ พอเรากลับมาใช้ เค้าก็จะเปิดระบบส่วนของเราให้ใหม่อีกรอบ ขั้นตอนนี้ใช้เวลา 2-3 นาทีครับ

อันนี้น่าจะเป็นเรื่องเดียวที่ DSWB แพ้ระบบในเครื่อง ระบบในเครื่องนี่เราอยากเปิดตอนไหนก็เปิด อยากปิดตอนไหนก็ปิด

วิธีการสมัครใช้งาน Data Science Workbench

ท่านสามารถสมัครใช้งาน DSWB ได้ฟรี จากเว็บไซต์ DSWB เลยครับ

คลิกเมนู Sign Up เพื่อสมัครได้เลย

ตอนสมัครเราสามารถเลือก Preferred Data Center ได้เลยนะครับ อันนี้อย่าลืมเลือกเป็น “Hong Kong” ครับ

สรุปการใช้งาน Data Science Workbench

ส่วนตัวชอบมาก ๆ ครับ สำหรับคนเรียน Data Science แล้ว อันนี้เป็นเครื่องมือที่ Perfect มาก ๆ ส่วนท่านที่ยังตัดสินใจอยู่ว่าจะใช้ดีมั้ย ผมจะสรุปข้อดี ข้อเสียให้ดังนี้ครับ

ข้อดี:

  • ใช้งานฟรี
  • ประหยัดเวลาในการติดตั้งลงเครื่อง
  • สเปคเครื่องเราไม่ต้องแรง
  • เร็วดี เพราะ Data Center อยู่ในเอเชีย

ข้อเสีย:

  • เหมาะกับคนกำลังที่เรียนรู้เท่านั้น ไม่เหมาะกับการใช้ในโปรเจคจริง เพราะ Data ที่อัพโหลดขึ้นไปจะมีความเสี่ยงการโดนขโมย
  • จากข้อข้างบน แนะนำให้อ่าน License ก่อนใช้ ถ้าเราจะทำอะไรเสี่ยง ๆ
  • เป็นระบบฟรี ไม่มีโมเดลรายได้แน่นอน เพราะฉะนั้นอนาคตเค้าอาจจะเลิกทำตอนไหนก็ไม่มีใครรู้ ควร Backup ไฟล์ไว้ในเครื่องด้วย

หวังว่าบทความนี้จะทำให้ทุกท่านที่กำลังศึกษา Data Science สามารถเรียนกันได้ง่ายมากขึ้น สนุกมากขึ้นครับ 🙂

ถ้าบทความนี้มีประโยชน์ ฝากแชร์ให้ท่านอื่น ๆ ด้วยนะครับ 😀
Share on Facebook908Tweet about this on TwitterShare on Google+0Share on LinkedIn0Email this to someone

คุณอยากอ่านบทความแนวนี้อีกมั้ย ?

ลงทะเบียนรับ GrowthBee Newsletter เพื่ออ่านบทความใหม่ ๆ ด้าน Data Science ก่อนใคร !!

เราสัญญาว่าจะไม่มีการแสปมใด ๆ ทั้งสิ้น และคุณสามารถยกเลิกรับข่าวสารตอนไหนก็ได้