AI 週報：機器學習工程師必知的關鍵進展與實務經驗整理

最近 AI 的新聞真的有夠多，多到看不完，每天都有新東西冒出來。但我自己是覺得啦，光看新聞標題其實沒啥用，重點是這些酷東西、新漏洞，跟我們這些每天在寫 code、調模型的人到底有什麼關係？

所以今天不報新聞，來聊聊最近幾個我覺得蠻值得注意的發展，還有...嗯...我個人的一些碎碎念，就當作是幫大家畫一下重點吧。🤔

先講壞消息：AI 的安全漏洞越來越有創意了

對，又是安全問題。感覺現在 AI 的發展就像一邊蓋超高大樓，一邊發現地基有好幾個洞。最近有兩個洞特別有趣。

第一個是針對大型語言模型的，聽說連還沒正式發布的 GPT-5 都遭殃了。研究人員發現一種新的「越獄」手法，叫 GPT-5 Jailbreak。這招蠻聰明的，它不是單純下個「請你忘記你是 AI」之類的蠢指令，而是透過一連串的對話，慢慢把 AI 引導到一個它自己設定好的「故事場景」裡，然後在那個場景下，讓 AI 講出一些原本不該講的話。整個過程 AI 根本沒意識到自己被騙了。

這件事給我的感覺是... 以前那種靠關鍵字黑名單來擋的防護機制，基本上已經廢了啦。AI 太會繞路了。所以我們在設計系統的時候，真的不能只看單一的 prompt，而是要去看整個對話的上下文，不然遲早被這種手法玩壞。

另一個洞是在電腦視覺（CV）領域，叫做 RisingAttacK。這個也超扯。它可以在一張圖片上做一些人眼根本看不出來的微小修改，結果 AI 看到的就完全是另一回事了。想像一下，自駕車把路邊的停止標誌看成「速限 80」，這...真的不敢想耶。😱

所以說真的，以後做那種性命攸關的應用，像是醫療影像判讀或自駕車，只靠單一個超強模型可能不太夠。搞不好要用好幾個不同架構的模型一起「投票」，一個被騙了，還有其他的可以把它拉回來。這就是一種最基本的 AI 安全測試 思維吧。

再來是好消息：一堆超實用的新玩具

當然啦，除了漏洞，還是有很多讓人興奮的新工具跟技術的。

最近討論度最高的大概就是 Mistral AI 推出的 Devstral。它是一個專門用來寫程式、處理軟體工程任務的 LLM。最重要的是，它是開源的！用的是 Apache 2.0 license 授權。

老實說，它的性能數據真的很亮眼，在 SWE-Bench 那個評測上，分數比之前的 SOTA 開源模型高了快 7%。這點跟我們在台灣很多公司或研究單位的需求很合，因為很多地方超在意資料隱私，不喜歡把所有東西都丟到國外的 API 去。有了這種高效能的開源模型，就可以考慮在自己的伺服器上部署，完全掌控資料流。這跟美國那種什麼都用雲端 SaaS 的文化，思考路徑上還是有點差別的。台灣的「國科會」之類的單位，其實也一直在推動類似的自主 AI 技術發展。

還有一個我覺得超實用的，是伊利諾大學搞出來的一個叫 ESGAN 的東西。簡單講，就是讓兩個 AI 互相 PK。一個 AI 負責「生成」假的訓練資料，另一個 AI 負責「對抗」，去抓這些假資料的破綻。兩個 AI 就這樣一直互打，打到最後，兩個都變超強。這樣最大的好處是，我們工程師不用再苦哈哈地去手動標註幾萬張圖片了。需要的人工標註資料量，據說可以減少一到兩個數量級，也就是說...從一萬張變一百張？太爽了吧。

最後一個...嗯...這個有點科幻，但我覺得超酷。東京大學的科學家開發了一種「會自己發電的人造突觸」。它可以模擬人眼視網膜的運作方式，用超低的功耗來辨識顏色，精準度還很高。這種東西如果成熟了，對所謂的邊緣 AI 應用（Edge AI）來說簡直是聖杯。以後那些智慧手錶、物聯網感測器，可能不用一直充電，就能跑很複雜的視覺 AI 模型了。

那...還有一些怪怪但很有趣的發現

除了好壞分明的消息，還有個研究我覺得特別有意思。有科學家把一群 LLM Agent 放在一起，但不給它們完整的「上帝視角」，每個 Agent 只記得自己最近跟誰互動過。結果...它們竟然自己發展出了一套「社會規範」和類似「黑話」的溝通方式！

這整個過程，超像人類社會早期文化的形成。這給我們的啟示是，當我們開始建構那種由很多 AI Agent 協同工作的多代理系統（multi-agent systems）時，千萬要小心。它們可能會在我們沒注意到的情況下，自己搞出小團體、奇怪的集體偏見，或是一些我們完全沒預料到的 emergent behaviors（湧現行為）。聽起來是不是又酷又有點毛毛的？

所以，我們該怎麼看這些新東西？

我自己整理了一個簡單的比較表，用比較白話的方式來看看這幾個新技術到底適合誰、門檻在哪。這純粹是我個人的看法啦。

新技術 / 模型	這是啥？	誰最該關注？	導入門檻？	我的碎碎念
Devstral	專門寫 Code 的開源 LLM	重視資料隱私、想自己搞 code-gen 的團隊	硬體要夠力！本地部署跟微調需要技術跟 GPU。	開源就是香！但不要低估維護成本。
ESGAN	讓 AI 互打來學習的訓練法	數據量少、標註成本高的團隊，尤其是 CV 領域。	概念不難，但要實作得好需要對 GAN 有一定理解。	缺資料的救星，但小心 AI 聯手騙你 XD
自發電人造突觸	模仿人眼、超省電的視覺晶片	搞 Edge AI、穿戴式裝置、IoT 的硬體/韌體工程師。	非常高。目前還是實驗室階段，離商品化還很遠。	先存著當科幻片看，但五年後可能就是標配了。