凌群電子報

資料工程：AI 模型背後的「技術供應鏈」

作者/陳冠豪

[發表日期：2026/4/7]

作者簡介

作者目前擔任凌群電腦資通技術處經理，現專職AI解決方案規劃與領導AI專案開發，並規劃凌群AI開發團隊之研究方向。

從「速成幻想」到務實落地：研究團隊的真正日常

在上一篇專欄中，我們打破了「速成主義」的迷思，確立了企業需要一支具備實驗精神的「研究團隊」；如果已經組建好了這樣的團隊，各位想想這群聰明的軟體工程師與資料工程師上工的第一天，他們會花最多時間在做什麼？

很多老闆以為是「訓練模型」或是「寫演算法」，但現實是，他們可能花80%的時間在做一件聽起來無趣又令人匪夷所思的事：「資料清洗」。

這就是AI開發中著名的「冰山理論」，我們看到的模型只是浮在水面上的那一小角，而支撐它運作的巨大冰山基座，是深埋在水面下的資料工程。

Garbage In, Garbage Out：AI的飲食哲學

資訊科學界有一句古老的格言：「垃圾進，垃圾出（Garbage In, Garbage Out, GIGO）」，這句話在AI時代不僅適用，甚至被放大了無數倍。

傳統軟體對資料的容錯率相對較高，即便資料庫裡某一欄位的格式跑掉了，程式可能只是報個錯，或者該筆交易失敗，但在AI的世界裡，模型是透過資料來「學習」邏輯的，如果你提供給它錯誤的資訊和充滿偏見的資料，還是格式混亂的文件，它並不會報錯，它會變成是一本正經地學會錯誤的知識，然後自信滿滿地對你胡說八道。

因此，模型的強大與否，往往不取決於你用了多先進的模型架構，而取決於你餵給它什麼樣的「飼料」。

企業資料的「髒」與「亂」

很多企業主會說：「我們公司資料很多啊！都在Storage裡，有幾萬個PDF和Excel檔，全部餵給AI去讀去學習不就好了？」，這話聽起來好像很理所當然？但其實這句話就是對AI應用開發的最大誤解！

對於我們人類來說，「閱讀」一份排版精美的PDF、Word或是PTT是很順眼且又便於解讀的；但對於模型來說，可就不是這麼一回事了。

非結構化資料的陷阱：企業累積最多的PDF、Word、PPT，充滿了雙欄排版、頁首頁尾、浮水印和複雜的表格。當我們直接把這些檔案轉成文字餵給模型時，表格的行列可能會錯位，頁尾的頁碼會插入正文中打斷句子，結果就是模型其實只讀到了一堆破碎的語意。
知識孤島與歧義：如同在單一對象中，在業務部門的CRM寫「客戶A」，財務部門的ERP寫「甲公司」，研發部門的文檔寫「合作夥伴 001」；這些指的都是同一個對象，但若沒有經過資料工程的「實體對齊」，模型會以為這是三個不同的公司，進而給出錯亂般的分析結果。

《圖說》圖片來源：AI示意圖-Nano Banana Pro

資料工程師：AI時代的「大廚」

如果說AI的模型是負責品嚐與消化的「美食家」，那麼資料工程師就是負責採購、清洗、切菜與烹飪的「大廚」。

在一個成熟的AI專案中，「技術供應鏈」是這樣運作的：

資料採集：從四面八方的系統中抓取原始資料。
資料清洗：去除亂碼、修正錯字、剔除重複與過時的無效資訊。
結構化與分塊：這是每個做AI應用開發團隊中最關鍵的一步，將長篇大論的文檔切分成模型能接受的小段落，並保留上下文的關聯性；這就像是把一整頭牛，精細分解成菲力、紐約客與牛小排，方便後續料理。
向量化：將文字轉化為數學上的向量座標，存入向量資料庫，讓 AI 能透過語意搜尋快速找到答案。

這整個過程，我們稱之為Extract, Transform, Load (ETL)流程的AI進化版，沒有這條穩定的供應鏈，我們所建立的 RAG就會像是一台加了劣質汽油的跑車，空有馬力卻跑不動，甚至還會縮缸。

《圖說》圖片來源：AI示意圖-Nano Banana Pro

資料品質就是你的護城河

在這個模型日趨同質化的時代，使用OpenAI或Google的模型並沒有太高的門檻，但真正分勝負的地方則在於誰擁有更乾淨、更獨特、更結構化的私有資料。

所以，當下次你的開發團隊告訴你：「我們需要花兩個禮拜整理資料，還沒開始開發。」請不要覺得他們在偷懶，也許他們正在為我們所需求的AI應用「料理」最關鍵的資料結構(非傳統資料庫的資料結構)。

既然資料準備好了，模型也選好了，那麼這個神奇的黑盒子到底是如何理解我們人類的語言？它是真的「讀懂」了，還是在玩機率遊戲？下一期，我們將討論：演算法到模型的解密：它是如何「懂」人話的？