知識庫Article

電業資料治理研究
文章日期 / 2006/06/30
作者 / 余素貞、陳明崇、林有成、李漢申、蘇漢邦、余筱薇
『資料』已是各產業新興經濟資產,然而資料治理成為賦予價值與發展大數據的基礎核心關鍵,建立完善的資料治理機制包含政策與程序,並透過相關權責機構協調可提高企業重要資料串連擴大加值利用與資料品質之正確性。就電力產業而言,上中下游發電、輸電、配電至售電,各環節設備繁多且需顧及能源安全與正常運作,電力系統多以封閉式為主來維持正常營運,傳統電業數據孤島情況普遍,營運過程無法創造大量數據的擴散加值應用。
壹、前言
資料治理是企業內部一系列處理資料的政策與程序,用以協調人員及處理流程,以確保企業的重要資料正確且值得信賴,並能提供整個企業內所有單位共同使用的一種作業活動。實行資料治理能將錯誤資料自資料流程和業務流程中篩選出來,以降低誤用錯誤資料、誤導後續分析的風險。
本研究將透過收集國內外各大型企業如電力、電信(用戶百萬人以上)、銀行等有關資料治理處理方式,並掌握我國政府對開放資料之作業規定,研擬符合台電公司資料治理處理方式與相關準則。後續透過利用風力機組及太陽光電各項發電資料、空氣品質監測資料等資料集協助建置資料共享驗證平台,寄望協助台電公司完善資料治理,提高資料品質及決策,以及民眾要求台電公司開放電業相關資料需求。
貳、研析資料治理、國內外企業之處理方式及配套機制
隨著資料量和複雜性的不斷地增長,組織持續從營運中獲取大量的數據資料,如果沒有強大的資料治理,這麼大量的數據資料將會壓倒原有的資訊系統。企業導入資料治理的契機,通常源自於以下幾個需求:做出更好的決策、減少作業摩擦、保護資料的利害關係人、訓練員工面臨資料議題時可採用一個共通作法、建構標準且可複用的流程、透過共同協作以降低成本並提高效率、確保流程的透明度。
而資料治理的重點領域則包含資料品質、資料生命週期、資料安全、資料標準、資料模型、主資料、資料架構和詮釋資料。
一、資料品質:管控資料的即時性、正確性、一致性、完整性。
二、資料生命週期:管理資料的產出、分類、收集、使用、歸檔、保留、銷毀等存放方式。
三、資料安全:資料的存取權限管控、資料機敏性分級管理等。
四、資料標準:建立標準化的資料表示方式,包括格式、代碼、命名標準等。
五、資料模型:用以描述資料以及資料之間的關係。
六、主資料:定義企業的核心資料,提供跨單位共享並可取得一致的資料。
七、資料架構:考量上述因素,建立的資料儲存、處理、交換的架構
八、詮釋資料:描述資料的資料,涵蓋資料內容意義和相關業務規則。
從上述資料治理在企業中的需求緣起以及資料治理的各項重點領域,資料治理工作不僅是跨系統進行資料管理外,更是跨組織人與人互相溝通協調之議題。
本研究蒐研過內外案例,依據台電公司資料議題面臨困境聚焦以下三個各案,借鏡大型企業推動資料治理過程進行分析,各企業主要透過組織、策略、技術構面來達成資料治理之目的,並依據公司需求針對不同構面進行調整。
一、中華電信
由於中華電信歷經民營化的過程,發展各項業務與多角化經營經常需要透過跨系統資料進行分析。面對高階主管和決策單位需求,卻遇到業務單位對資料來源或使用方法不清楚等問題。因此產生「單一視圖資料整合」的需求,將客戶、帳務、產品、銷售…等各項業務的「核心資料」加以整併歸戶,並統一收納於大數據資料倉儲,讓資料使用單位可取得唯一並正確的資料,也就是所謂的單一視圖。然而,資料整合的過程需要數個業務單位與資訊單位的協力合作,因此產生了跨單位的合作議題,誇單位之大數據專案編組由此應運產生,負責跨單位之溝通協調,並且需由董事長或總經理等決策高層領導方能具有足夠的力度。
當基礎的資料倉儲與巨量資料平台建立完成後,專案編組轉型為實體組織大數據辦公室,負責規劃、推動和維運與巨量資料平台相關的業務,集中大數據分析應用量能,並將資料治理納入大數據業務重點。資料治理的範圍鎖定在總公司大數辦的資料倉儲平台(客戶單一視圖資料庫),公司內部各資訊系統則依循資訊內控文件(通則) 。
在中華電信的大數據資料治理策略中,在組織面:大數據治理小組成員包含大數據辦公室、業務主管單位(行銷、客服、網路、資訊)與大數據作業單位,討論定義業務問題、職責分配模型、訂定大數據治理架構與準則和制定資料資產使用管理規範與作業流程。
資料面的管理則包括盤點大數據治理資料(結構資料與非結構資料)、建立資料分級及價值指標,依據資料對營運的影響力進行分級管理、建立資料資產與資料字典,以利跨業務使用、建立資料品質稽核制度、建立資料品質指標作為衡量基準。
流程面的管理則包括ETL/資料導入流程、資料整備流程、資料處理流程、資料攜出流程、作業異常處理流程、資料品質改善流程、維運維護作業流程等。
組織集中成立大數據辦公室後,解決了資料管控、資料業務價值挖掘問題,未來仍須持續進行資料資產辨識、風險評估、使用管理、法規遵循等工作。大數據治理小組須定期開會審查,依據資料對營運的影響評定資料重要等級及價值,以及資料擁有者、資料保存期限、分配資源,資料整備原則、標籤生成等原則、預定資料開放時間等事項。從資料治理開始,逐步將系統化的資料納入單一視圖資料庫,透過總公司資料統一集中存儲、管理及分析,整合各分公司業務限資料,以有效提供360度層面視角的分析和洞察。
二、雪佛龍
雪佛龍股份有限公司(Chevron Corporation)是世界知名的全球能源公司之一,總部位於美國加州,並在全球部署超過180個國家海外業務,由於公司組織龐大,又有合併與併購等商業行為,面臨了業務資料的不一致、相同資料過多不同來源、歷史紀錄遺失等問題。
雪佛龍希望從根本解決資料品質的問題,因此自2013年推行資料治理,鎖定「人、流程、技術」三者之間的適當平衡是資料治理的成功關鍵因素(KSF)。
三、財政資訊中心
國稅系統由1968年中心設立後開始陸續建置,由各項稅務依照其需求,分別建置與管理。然而隨著時間推移,資訊作業日益繁複,分散並複雜的架構導致各業務之資訊難以介接整合,因此在1999年「稅務資訊作業平台移轉計畫-國稅部份」,整合各業務資訊平台,財政資訊中心在賦稅在造的過程中,是以資訊系統整合的角度,尋找出可共用的功能和流程,規劃相對應的模組讓流程能夠自動化並易於管控。在整合再造的建置過程中,配合平台發展的腳步而逐步落實資料治理,將資料標準、資料品質、主資料與資料模型、資料架構、資料生命週期、資料安全、詮釋資料等資料治理的各個面向,融入相對應的管理系統或流程規範當中。
在資料標準方面,建立共用開發標準與發展流程,涵蓋資料庫、資料表、欄位名稱、代碼的命名標準,讓團隊在系統發展有一致遵循的方式,節省開發與維護成本,並由資料字典建立各元件和代碼的命名標準並加以查核。
主資料方面,則建立以自然人與法人為核心的主資料管理系統,整合多個來源系統資料達到單一化及一致性,使跨地區、跨系統的使用者,都能得到同樣的結果。
資料生命週期則依據稅務法令需求,設定7-10年之資料保存年限,超過週期之歷史資料則轉入磁帶。
資料品質則透過品質檢核和資料釐正流程,透過各業務系統持續修正的程序以確保資料的正確性和一致性,並定期追蹤資料之及時性。
資料安全則設計權限管控機制和內外網實體隔離以達到防護效果,並紀錄資料之使用軌跡定期稽核。
財政資訊中心在系統整合再造的過程中,配合著平台發展自然產生出資料治理的需求,從而逐步落實各項治理措施,使平台與制度共同發展,達到相輔相成的效果。
本研究從國內外個案分析與團隊實務經驗綜整以下資料治理成功關鍵:
一、企業資料現況診斷與業務需求回饋
二、鎖定資料治理的推動目標和範圍
三、企業內部推動資料治理組織團隊
四、企業資料政策擬定與頒布落實
五、以驗證平台和資訊技術輔助資料治理
參、研擬台電公司資料治理模式與開放資料作業規定
本研究將透過實際資料搜集、事業單位問卷、現場訪談等方式,診斷評估台電公司的資訊系統與資料治理現狀,依據上述資料的收集以歸納出未來適合台電的資料治理模式。
資料盤點的主要目的在於從開放資料和揭露資料了解各單位的資料流脈絡─即資料如何產生與提供,包括資料的原始出處、資料產出邏輯、資料清理或彙整的方式、資料上架與更新的流程、既有規範、與其他單位之間的資料介接情況等基礎資訊。而透過現場訪談則能進一步了解其開放資料與資訊揭露資料的產製流程與資訊系統之現狀與面臨的主要問題。
本研究透過訪談10個重點業務單位、盤點114項開放資料與126項資訊揭露資料,歸納出台電在資料面、管理面、執行面所面臨的問題,並針對問題擬定改善策略,進而建構「資料治理」框架。
本研究透過訪談事業單位與協助資訊處確認需求方向,如下圖3所示,逐步釐清資料治理目標,台電公司短期內需協助各處室解決問題,如今年度國發會公開開放資料品質評比、台電黑客松資料品質提升、『開放台電』資料開放事宜公開前花費大量人力進行應公民團體要求之資料蒐集調閱,整理。中期則規劃建置資料湖泊與資料共享平台、資料標準規範與資料共享機制,利於中長期台電公司跨系統資訊勾稽及提升企業內部資料價值與利用。
此次台電公司資料治理前期評估研究,建議以經營決策數據共享作為資料治理核心目標,並可透過既有報表(如:簡明月報、發電月報等)追溯資料源,評估共享平台系統自動化之可能,以減少大量人工介入為原則,透過實作案例驗證規劃流程之可行性,利於台電公司後續建置之參考。
本研究倡議台電公司的資料治理政策目標如下:「將資料視為公司資產(Asset)的一部分,非業務營運的副產品,一旦資料視為資產後,相關業務單位須主動進行資產管理(Asset management),同時並承擔管理之義務。」本計畫建議台電公司可審視重要業務與決策需求,辨別重要資料(如核心資料)優先納入資產管理,無論是否結構化、分結構化以集詮釋資料。為完善資料治理原則如:正確性、一致性、有效性、透明度、問責與提高參與,本研究建議台電公司建置資料共享平台來達成資料治理目標。
資料共享平台可透過規範資料建置的流程,確保從源頭開始資料的正確性;訂定檢視資料分享與取用的規範,確保跨系統間資料的一致性;資料集的建置與維運更新機制與規範,確保資料的有效性能滿足業務決策需求;並確保資料透明度,資料要能易於被存取、使用,且要能確實被揭露,能允許多元存取機制的建立;爾後建立資料的問責制度,有清晰明確的權與責的關係,合理地配置和劃分管理權力,以及合理的進退制度,即責任歸屬明確、管理監督落實;並提高需要有業務單位與資訊單位的共同參與,以落實資料治理的目標。
釐清建置資料共享平台目標與資料治理政策後,本研究協助規劃資料共享平台運作架構,如下圖4。主要需資料提供者、資訊系統管理者及資料使用單位三大角色共同參與。其資訊系統單位主要需協助訂定資料規範與建立資料進入共享平台之機制,而相關資料需求還是由使用方提出,如開放資料、月報表、季報表等。
本研究擬以資料共享平台為技術核心,整合跨業務的經營決策重要資料,並發展相關組織、標準、技術流程等配套機制。
一、治理組織
台電公司各事業單位及跨處室重要系統項目繁多,推動資料治理過程中將需面對跨部門協調與部門協作,邀集事業單位高階主管參與資料治理委員會臨時編組有利於加快公司資料治理腳步。資料治理工作將涉及業務、技術和管理部門,需要明確的目標與關鍵流程,得以識別治理過程之利害關係人,而企業各級主管支持則為資料治理的推動成功關鍵。向國內外經驗借鏡,建議成立三層式組織資料治理工作團隊,由各單位主管領導與監督推展進度,並協助橫向溝通協調。
二、統一資料標準
資料標準主要為促進各單位所擁有的業務資料共享、整合及應用,暢通資料交流管道並提升資料品質,訂定資料共享時需共同遵循之基本準則,使各項資料可在一致的標準架構中互相串連,規範制定之目的包括:
1. 規範共享資料之資料標準格式、命名、度量單位及流通介面。
2.提供資料使用者對資料之了解與可操作性。
3.規範資料共享流程,加強跨單位資料流通及整合運作。
由台電公司資訊主管單位協助引導公司訂定共享資料標準,針對資料檔案格式、資料內容進行統一規範,若資料不符合標準,資料提供單位須調整或修改資料。並為維護資料品質與資料正確性,透過詮釋資料可促使資料提供者有足夠的詮釋資料描述資料集特性;亦方便資料使用者可便利、有效、快速地找到所需的共享資料集,以達成跨單位各類資訊資源交換作業及資料加值應用。
三、技術平台
為了精進作業流程效率,減少資料清理之重工和人工作業,並協助內部跨單位資料交換,提供共同協作之溝通管道,本研究建議建立資料共享平台,透過資訊技術協助資料清理,精進作業流程效率,使跨單位資料得以整合,並輔助資料治理工作。
本研究依照上述資料共享平台之主要功能,建置資料共享驗證平台,以概念性驗證(POC)的方式驗證資料共享與管理機制之可行性,請參考第肆章之建置成果說明。
肆、以開放資料與資訊揭露等資料驗證資料共享平台運行機制
在本研究中,以台電開放資料、台電官網資訊揭露資料、風光發電資料和空品監測資料等作為驗證資料,研究相關之資料品質、資料標準、資料架構和詮釋資料等相關建議內容和清理機制。並以POC的方式進行實作,將資料清理的結果載入資料共享平台,共完成78項開放資料集和30項資訊揭露項目作為優先清理對象,完成資料清理程序並轉入資料庫當中。
資料共享驗證平台架構依照功能屬性分為四個主要區塊:資料收集、資料儲存、資料管理、資料應用,如下圖5。
「資料收集」主要將資料載入資料共享平台,可利用ETL、檔案傳輸等方式進行,本研究使用「外收資料服務」收集外部開放資料,包括環保署空品測站每小時資料、氣象局氣象監測資料等,以及「ETL資料處理架構」,透過SQL Server Integration Services(SSIS),執行ETL工作將資料經過清理和轉換後載入主資料庫,包括發電資料和空品監測資料。
「資料儲存」則分為檔案和資料庫,資料載入資料共享驗證平台後,依照資料特性和需求使用不同方式儲存。在本研究中,外部開放資料透過外收資料服務載入後,經由解析會將資料載入資料庫存放;而發電月報和每小時發電資料則透過ETL載入資料共享平台的主資料庫存放,主資料庫依照業務類別,可規劃多個資料模型和資料超市,本研究於主資料庫中規劃「機組發電資料模型」;而依據資料生命週期,超過資料保存年限的資料則可移轉至歷史資料區封存。
「資料管理」管控資料共享平台的各階段流程,目的在於提升資料品質、強化資料安全、提供管理者易於掌握平台狀況。本研究設計「資料素材管理」功能,提供詮釋資料管理和資料檢核,平台使用者可透過詮釋資料了解目前平台之資料集,而資料提供者在上傳資料時會被檢核資料內容是否符合其欄位schema。另外配合資料生命週期 管理策略,定時進行資料清檔,將超出保存年限之資料進行刪除或搬移至歷史資料區封存。
「資料應用」則是資料使用者從資料共享平台取用資料後,依其分析應用需求,將資料加以整併、計算、繪製視覺化圖表。資料共享驗證平台提供資料取用介面給資料使用者,例如檔案下載或是應用程式介面等方式。在本研究中,資料可透過檔案下載的方式提供使用者取用,而在資料呈現面上,則提供資料服務策展和Tableau視覺化儀錶板兩種方式。
透過平台機制的建立,預期可建立一致性的可靠資料來源,以資料集中匯流取代點對點資料交換,降低重複資源浪費,如下圖6;以資訊技術協助資料清理轉換流程之自動化,減少人力彙整之重工耗時情形;並透過檢核為資料品質把關,確保對外開放資料及資料分析加值應用的正確性;資料管理者也易於掌握資料交換狀況與使用績效。
伍、結論與建議
一、結論
(一)企業目標宣示各單位響應,凝聚資料治理工作推動量能
(二)訂定資料治理策略利於各單位落實之依循
(三)集中式數據中心與資料共享平台導入,資料治理工作事半功倍
二、建議
(一)加速資料治理虛擬組織成立,有利於台電公司橫向溝通並統籌公司內部資料政策,待工作職能明確化後朝實體組織發展,提高執行效率。
(二)落實台電公司資料治理策略,制定資料標準與規範,以資訊技術輔助資料管理,以提升企業內部整體資料品質為目標。
(三)作業流程訂定與共享平台資訊技術導入,制定跨單位協作流程,透過資訊平台簡化人為作業,導入自動化資料清理與管理機制,提高資料品質可靠度。
 
文章歡迎轉載,但請先與中心連絡,並註明出處,謝謝。
回知識庫索引

會議資訊