隨著 ChatGPT 驚艷的用戶體驗,繼2016 年的圖像式應用又帶來另一波浪潮,連帶帶起整個相產業股票,Nvidia 的股價又來到新的高峰。
過去自己的技術專業多半在圖像式的深度學習應用,從影像偵測、識別一路到 GAN 的圖像生成技術。這些基本上都是處理單張影像的方式達到偵測、判讀與分類任務。這幾年的AI發展趨勢更靠向序列化的資料處理,最簡單的就是文字、聲音與影片資料等。就拿文字來舉例,一個有意義的文字是透過多個字詞組合而成。在英文的世界中,一個句子會出現主詞、動詞、形容詞、名詞甚至是受詞等,我們可以把每一個句子中的當前單詞視為一個獨立個體,那麼他則會受到前一個字與下一個字影響。試著用更淺顯易懂的實際案例來說明:假設已經有一個句子內容是- > This is an 「」,那麼這框框的字有很高的機率會是一個名詞。這時看到機率應該就更有感覺,畢竟深度學習背後就是仰賴機率/ 或然率等數學支持。
看到這些技術演進趨勢,自己也想試著動手讓幾個熱門典型應用在自己的本地機器跑起來,因此興起這個新系列的撰寫念頭。基本上前面幾個篇幅會落在如何跑起別人的專案並記錄自己的採坑歷程。隨著專案累積的經驗越來越多後,可以從需求面談系統整合甚至到自己的模型數據優化經驗等。