第342期 / April 7, 2026

分享到臉書!分享到維特!分享到噗浪!分享到Google+!分享到微博!轉寄友人友善列印

資料工程:AI 模型背後的「技術供應鏈」

作者/陳冠豪

[發表日期:2026/4/7]

作者簡介

作者目前擔任凌群電腦資通技術處經理,現專職AI解決方案規劃與領導AI專案開發,並規劃凌群AI開發團隊之研究方向。

從「速成幻想」到務實落地:研究團隊的真正日常

在上一篇專欄中,我們打破了「速成主義」的迷思,確立了企業需要一支具備實驗精神的「研究團隊」;如果已經組建好了這樣的團隊,各位想想這群聰明的軟體工程師與資料工程師上工的第一天,他們會花最多時間在做什麼?

很多老闆以為是「訓練模型」或是「寫演算法」,但現實是,他們可能花80%的時間在做一件聽起來無趣又令人匪夷所思的事:「資料清洗」。

這就是AI開發中著名的「冰山理論」,我們看到的模型只是浮在水面上的那一小角,而支撐它運作的巨大冰山基座,是深埋在水面下的資料工程。

Garbage In, Garbage Out:AI的飲食哲學

資訊科學界有一句古老的格言:「垃圾進,垃圾出(Garbage In, Garbage Out, GIGO)」,這句話在AI時代不僅適用,甚至被放大了無數倍。

傳統軟體對資料的容錯率相對較高,即便資料庫裡某一欄位的格式跑掉了,程式可能只是報個錯,或者該筆交易失敗,但在AI的世界裡,模型是透過資料來「學習」邏輯的,如果你提供給它錯誤的資訊和充滿偏見的資料,還是格式混亂的文件,它並不會報錯,它會變成是一本正經地學會錯誤的知識,然後自信滿滿地對你胡說八道。

因此,模型的強大與否,往往不取決於你用了多先進的模型架構,而取決於你餵給它什麼樣的「飼料」。

企業資料的「髒」與「亂」

很多企業主會說:「我們公司資料很多啊!都在Storage裡,有幾萬個PDF和Excel檔,全部餵給AI去讀去學習不就好了?」,這話聽起來好像很理所當然?但其實這句話就是對AI應用開發的最大誤解!

對於我們人類來說,「閱讀」一份排版精美的PDF、Word或是PTT是很順眼且又便於解讀的;但對於模型來說,可就不是這麼一回事了。
  • 非結構化資料的陷阱: 企業累積最多的PDF、Word、PPT,充滿了雙欄排版、頁首頁尾、浮水印和複雜的表格。當我們直接把這些檔案轉成文字餵給模型時,表格的行列可能會錯位,頁尾的頁碼會插入正文中打斷句子,結果就是模型其實只讀到了一堆破碎的語意。

  • 知識孤島與歧義:如同在單一對象中,在業務部門的CRM寫「客戶A」,財務部門的ERP寫「甲公司」,研發部門的文檔寫「合作夥伴 001」;這些指的都是同一個對象,但若沒有經過資料工程的「實體對齊」,模型會以為這是三個不同的公司,進而給出錯亂般的分析結果。


《圖說》圖片來源:AI示意圖-Nano Banana Pro


資料工程師:AI時代的「大廚」

如果說AI的模型是負責品嚐與消化的「美食家」,那麼資料工程師就是負責採購、清洗、切菜與烹飪的「大廚」。

在一個成熟的AI專案中,「技術供應鏈」是這樣運作的:
  • 資料採集:從四面八方的系統中抓取原始資料。
  • 資料清洗:去除亂碼、修正錯字、剔除重複與過時的無效資訊。
  • 結構化與分塊:這是每個做AI應用開發團隊中最關鍵的一步,將長篇大論的文檔切分成模型能接受的小段落,並保留上下文的關聯性;這就像是把一整頭牛,精細分解成菲力、紐約客與牛小排,方便後續料理。
  • 向量化:將文字轉化為數學上的向量座標,存入向量資料庫,讓 AI 能透過語意搜尋快速找到答案。

這整個過程,我們稱之為Extract, Transform, Load (ETL)流程的AI進化版,沒有這條穩定的供應鏈,我們所建立的 RAG就會像是一台加了劣質汽油的跑車,空有馬力卻跑不動,甚至還會縮缸。


《圖說》圖片來源:AI示意圖-Nano Banana Pro


資料品質就是你的護城河

在這個模型日趨同質化的時代,使用OpenAI或Google的模型並沒有太高的門檻,但真正分勝負的地方則在於誰擁有更乾淨、更獨特、更結構化的私有資料。

所以,當下次你的開發團隊告訴你:「我們需要花兩個禮拜整理資料,還沒開始開發。」請不要覺得他們在偷懶,也許他們正在為我們所需求的AI應用「料理」最關鍵的資料結構(非傳統資料庫的資料結構)。

既然資料準備好了,模型也選好了,那麼這個神奇的黑盒子到底是如何理解我們人類的語言?它是真的「讀懂」了,還是在玩機率遊戲?下一期,我們將討論:演算法到模型的解密:它是如何「懂」人話的?