「加三嘻行動哇 Yipee! 成為好友」
【Facebook、Youtube、Twitter、Instagram、Telegram、Line】
每日晚間晚間六點十二分左右以及午夜新聞播報國際氣象的民視主播「敏熙」原來是 AI 科技打造,由微軟 Azure AI 語音服務結合光禾感知的 AIGC(AI Generated Content,人工智慧生成內容)技術製作,是台灣首位 AI 生成的虛擬電視新聞主播,同時也是生成式 AI 技術在媒體產業的創新應用。
「敏熙」主播是集結影像、聲音與新聞製播等三方專業技術,由光禾感知生成 AI 虛擬主播影像後,搭配微軟 Azure AI 的語音合成技術產出發音自然、流暢的播報人聲,再借助民視新聞多年新聞製播經驗,以及豐富的新聞播報、訪談節目等高畫質新聞影像資料庫進行形象優化,才打造出專屬的 AI 主播模型。
光禾感知自 2022 年底開始投入 AI 主播製作,透過大量蒐集照片作為訓練原料,以擴散模型(Diffusion model)為技術基礎,訓練出能夠生成動態圖像的模型,完成主播臉孔塑造。
聲音部分則是有賴於微軟 Azure AI 語音服務的 TTS(文字轉語音)及 Viseme 技術。不同於傳統如機械音般的文字轉語音服務,Azure AI 語音服務擁有 140 種語系以上、超過 400 個近似真人發音的預建神經語音模型可以選擇,而且還支援自訂模型,可根據需求調整語音的風格、速度、音調等參數,進而生成貼近真人主播具備情緒及抑揚頓挫的語音。
此外,透過 Viseme 技術能提升虛擬主播嘴型與播報文字精準度。Viseme 技術能夠在說話過程定義臉部及嘴唇、下顎及舌頭等位置,使虛擬主播臉部嘴型與語音的結合呈現更為自然。兩者技術相輔相成不僅能生成嘴型與聲音吻合的 AI 臉部影像,也能進一步實現多國語系主播的可能,敏熙現在已可以進行綜合中文及英文的播報內容。
為了讓播報精準度更加提升,聲音方面微軟藉由結合最新 AI 技術而更加擬真的 TTS 及 Viseme 技術不斷優化,光禾感知則網羅中文、英文、台語、客語等語言的 4K 高畫質新聞影像資料庫,持續訓練全新影像模型,呈現細緻的臉部肌肉紋路,確保整體脣形、聲音及肢體語言更加擬真與自然。
延伸閱讀:
研究機構:生成式 AI 過度炒作,預測相關產業於 2024 年將遇寒冬
AI 提升工作效率!Google 雲端外掛「ChatGPT 資料輸入小幫手」上架
IBM 專訪:AI 人工智慧可以信任嗎?監管 AI 核心原則公開
圖片及資料來源:Microsoft 台灣微軟