Data Science

ETL คืออะไร? มารู้จักกับภารกิจสำคัญของ Data Engineer

ETL คืออะไร ทำไม Data Engineer ต้องมาทำ

อันนี้เป็นภาคต่อสั้น ๆ ของบทความ ทำไมโลกนี้ไม่ได้ต้องการ Data Scientist แต่ต้องการ Data Engineer

เนื่องมาจากว่าแอดเพิ่งจบโปรเจค Consult กับลูกค้า 6 เดือน ตอนนี้กลับมาที่บริษัทเพื่อเทรนนิ่ง + เตรียมสอบ Google Cloud Cert ก็เลยมีโอกาสได้มานั่งเรียน Full-day Workshop สอนใช้เครื่องมือทำ ETL ชื่อ Talend

งาน ETL เป็นงานที่สำคัญอย่างมากในบริษัททุกแห่ง เลยอยากเอามาบอกต่อกันเผื่อใครสนใจหันมาทำงานสายนี้ครับ เงินดี งานท่วมแน่นอน

ETL คืออะไร? ทำไมต้องมี?

ETL ย่อมาจาก Extract-Transform-Load

ในบริษัททั่วไป ก็มักจะมีระบบที่เก็บข้อมูลแยกจากกันในแต่ละ Business Unit การทำ ETL ก็คือ:

  • เค้าจะทำการรวบรวมข้อมูลที่แยกจากกันนี้ (Extract)
  • มาปรับแต่งให้หน้าตามันเหมือนกัน (Transform)
  • แล้วเอาไปเก็บไว้ในสถานที่ที่เตรียมไว้ (Load)

ซึ่งจะทำให้ข้อมูลจากทุก BU มารวมกันในแหล่งเดียว เอาไปใช้งานต่อได้ง่าย

ประโยชน์ของการทำ ETL

การทำ ETL มีประโยชน์มาก เช่น เราสามารถเอาข้อมูลชุดไฟนอลนี้ไปให้ทีม Analytics ประมวลผลต่อ หรือเอาไปทำ Dashboard สรุปให้ผู้บริหาร หรือแม้แต่จะเอาข้อมูลระบบเก่า (Legacy System) มารวมกับระบบใหม่ก็ยังได้

ทำไมต้องให้ Data Engineer ทำ ETL แทนที่จะให้ Data Scientist ทำ

การทำ ETL ไม่ใช่เรื่องเล่น ๆ ครับ จำเป็นต้องใช้คนที่มีความรู้ และประสบการณ์ (โดยเฉพาะด้านระบบ Big Data ต่าง ๆ เช่น Hadoop, Airflow ฯลฯ)

ถามว่าจ้าง Data Scientist มาแล้วให้ทำ ETL ได้มั้ย? ได้ครับ คือมันเป็นงานที่เรียนรู้ได้ แต่เค้าอาจจะไม่ถนัด ทำให้ต้องใช้เวลาขุดความรู้เยอะ ความสามารถของ Data Scientist จะเน้นการวิเคราะห์ข้อมูล การสร้างโมเดล มากกว่าให้มาเขียนโค้ด ETL

เพราะฉะนั้น งานด้าน ETL จึงควรไว้วางใจให้ Software Engineer / Data Engineer ที่มีความรู้ความสามารถทำ จะทำให้งานเสร็จเร็ว ประหยัด Manhour ขององค์กรได้มากกว่านั่นเองครับ

สรุปคือ ถ้าใครสนใจอยากมาทำงานสาย Data แล้วมีสกิลเขียนโปรแกรม (ยิ่งจบ Com Eng หรือ Com Sci ยิ่งดี) ลองไปหัดพวก Big Data Technologies (NoSQL, Hadoop) หรือ Cloud แล้วหันมาสาย Data Engineer ก็น่าสนใจไม่น้อยเลยครับ

ป.ล. Data Engineer เผลอ ๆ เริ่มต้นเงินเดือนสูงกว่า Data Analyst / Scientist อีกครับ

ป.ล.2 เดี๋ยวจะมีบลอคสอน Google Cloud สำหรับ Big Data & Machine Learning ออกมาเร็ว ๆ นี้ ติดตามกันได้นะครัช

แอดเพิร์ธ

คุณอยากอ่านบทความแนวนี้อีกมั้ย ?

ลงทะเบียนรับ GrowthBee Newsletter เพื่ออ่านบทความใหม่ ๆ ด้าน Data Science ก่อนใคร !!

I agree to have my personal information transfered to MailChimp ( more information )

เราสัญญาว่าจะไม่มีการแสปมใด ๆ ทั้งสิ้น และคุณสามารถยกเลิกรับข่าวสารตอนไหนก็ได้

Leave a Reply