Bill Inmon กับ Ralph Kimball

posted on 09 Aug 2011 11:34 by roofimon

เรื่องมีอยู่ว่าต้องเตรียมการอะไรบางอย่างสำหรับงานสัมมนาเรื่อง Pentaho ก็เลยอยากจะเกริ่นนำไปเรื่อง Data Warehouse และแน่นอนเรื่องหนึ่งที่น่าสนใจเกียวกับ Data Warehouse คือการต่อสู้กันระหว่างสองขั้วความคิด (Two School Of Thought) นั่นคือเรื่องราวของ Raph Kimball (Star Schema with Share Dimentional) กับ Bill Inmon (Enterprise Data Warehouse, Cooperate Information Factory) สองศาสดาแห่ง Data Warehouse 

คำถามคือเราจะเลือกเริ่มทำงาน ด้วยแนวคิดไหนเป็นหลักระหว่างการทำ Enterprise Data Warehouse หรือการทำ Star schema database with fact tables sharing conformed dimensions? สิ่งแรกเลยเราควรเข้าใจก่อนว่า Enterprise Data Warehouse หรือ Cooperate Information Factory นั้นคือสถานที่เก็บข้อมูลทั้งหมดขององค์กรโดยที่โครงสร้างข้อมูลจะถูกออกแบบ ให้อยู่ในรูปของ Third Normal Form หลักจากนั้นเมื่อมีความต้องการใช้ข้อมูล สิ่งที่ต้องทำคือการทอนขนาดของ Warehouse ลงให้เหลือเท่ากับสิ่งที่ต้องการใช้และดึงข้อมูลออกไปเก็บไว้ ดังนั้นจะเห็นว่า Data Mart ของ EDW คือตัวย่อขนาดของ EDW นั่นเอง และการบวนการสร้าง EDW ที่ Inmon เสนอนั้นเรามักรู้จักกันในนามของ Top-Down Approach คือการสร้างของใหญ่ก่อนแล้วค่อยๆสร้าง Data Mart ในภายหลังวิธีการนี้ใช้เวลาการสร้างที่ยาวนานและลงทุนสูงแต่สิ่งที่ได้คืน กลับมาคือ ข้อมูลที่มีความถูกต้องเที่ยงตรงในเชิงเวลา(Time Variant) สูงมาก

ส่วน Star Schema Approach นั้นจะคิดอีกด้านหนึ่งนั่นคือโครงสร้างข้อมูลจะถูกเก็บในรูปแบบของ Fact Table  และข้อมูลใน Fact Table จะถูกโยงออกมาพบกับ Dimensional Table โดยวิธีการออกแบบจะไม่ใช้หลัการ Normalization แต่จะทำการ Denormailize แทนเพื่อลดความซับซ้อนของ Query ซึ่งจะส่งผลให้ Business User สามารถเข้ามาใช้ข้อมูลได้อย่างสะดวกมากขึ้นนอกจากนี้ จะมีไม่การทำสิ่งที่เรียกว่า Centralize Data เหมือน EDW แต่จะทำการสร้างชุดของ  Star Schema ขนาดเล็กที่สามารถตอบโจทย์ของแต่ละ Business Domain(โดยสิ่งนี้เรียกว่า Data Mart) ไว้เป็นจำนวนมาก นั่นคือที่มาของคำว่า Kimball Bus นั่นเอง ดังนั้นการสร้าง Data Warehouse Bus จะเป็นการทำแบบ Bottom Up นั่นเองคือสร้าง Data Mart จาก Business Process ที่ต้องการก่อนแล้วจากนั้นค่อยๆประกอบมันเข้าด้วยกันเป็น Warehouse ขนาดใหญ่ กระบวนการนี้ใช้เวลาน้อยกว่าเงินน้อยกว่าแต่มักจะจบลงด้วยการมี Silo เป็นจำนวนมากและอาจเกิดความไม่เที่ยงตรงได้ถ้าไม่มีการทำ Data Governance ที่ดี

เอาคร่าวๆเท่านี้ก่อนนะครับ ท่านใดมีข้อมูลที่ต้องการเสริมขอเชิญได้นะครับ -/\-

Comment

Comment:

Tweet

เพิ่งได้มาอ่านครับ ได้เบิกเนตรยุทธภพ DW เพิ่งรู้ว่าฉายาเราต้องต่อท้ายด้วย ศิษย์คิมบอล

#1 By mrtomyum (110.49.232.251) on 2012-03-04 15:14