「加三嘻行動哇 Yipee! 成為好友」
【Facebook、Youtube、Twitter、Instagram、Telegram、Line】
Google 推出 Gemini 1.0,Google 聲稱這是目前為止最強大、最通用的模型,而且經過許多基準測試都展現先進的性能,而且依照不同模型的大小進行最佳化分為 Ultra、Pro 和 Nano。
Gemini 是 Google 跨部門大型合作的成果,包括 Google Research 團隊的成員也參與其中。從一開始,Google 就把 Gemini 設計為多模態的模式,不僅能夠通用化並流暢地理解、操作和結合包括文字、圖像、音訊、視訊和程式碼在內的不同類型資訊,而且可以應用在資料中心、行動裝置等各種平台,並針對不同規模進行最佳化:
- Gemini Ultra:規模最大、功能最強大的模型,專為高度複雜的任務而設計。
- Gemini Pro:最適合擴展、橫跨各種類型的任務。
- Gemini Nano:處理裝置上的任務最有效率的模型。
Google 不斷對 Gemini 模型進行嚴格的測試,評估 Gemini 在處理各種任務上的表現。從理解自然圖像、音訊和視訊,到數學推理;我們發現 Gemini Ultra 在大型語言模型(LLM) 研究和開發中廣泛採用的 32 個學術基準測試中,有 30 個取得了超越了當前的最先進基準的效能。
Google 透過 32 個在研究和開發大型語言模型(LLM)的時候會採用的學術基準,去測試 Gemini Ultra 從理解自然圖像、音訊和視訊到數學推理的表現,而從其中 30 個測試基準得到的結果,都超越目前最先進的模型。
在 MMLU(大規模多任務語言理解;massive multitask language understanding)的測試裡,結合了包括數學、物理、歷史、法律、醫學和倫理學等 57 個主題,去測試模型對世界的理解還有解決問題的能力;而 Gemini Ultra 以 90.04% 的高得分,成為第一個在 MMLU 測試裡超越人類專家的模型。
Google 以新的 MMLU 衡量方法,讓 Gemini 能夠利用它的推理能力在回答難題前更仔細地思考,相比僅使用第一印象的評估方式有顯著進化。
此外,基礎測試還具有多模態的任務,跨越不同的領域,要完成的話需要刻意的去推理,而 Gemini Ultra 也在 MMMU 的基準測試裡得到 59.4% 的領先分數。
光學字元識別(object character recognition, OCR)系統,會協助模型從影像擷取出文字訊息,再近一步處理;但是在我們的圖像基準測試裡,Gemini Ultra 在沒有使用 OCR 的情況下,還超越了先前的最先進模型。這些基準測試,突顯出 Gemini 原生多模態的特性,也初步展現了 Gemini 具備更複雜的推理能力。
Gemini 設計成原生就是多模態的模型,一開始就在不同的模態上進行預先的訓練。接著,我們透過額外的多模態資料進行微調,進一步提升效能。這樣可以幫助 Gemini 從一開始就能順暢地理解和推理各種輸入的資訊,效能遠比現有的多模態模型來得好,並幾乎在所有的領域都展現出最先進的能力。
成熟的推理能力
Gemini 1.0 成熟的多模態推理能力,有助於理解複雜的書面和視覺訊息,也因此使得 Gemini 具備了獨特的技能,可以從大量資料中整理出難以理解的知識。
Gemini 在閱讀、篩選和理解資訊方面的能力相當令人驚豔,能夠從數十萬份文件中擷取出觀點,能夠更快速地幫助許多領域帶來新的突破,從科學到金融都是。
理解文字、圖像、音訊等更多資訊
Gemini 1.0 所受的訓練,是同時識別和理解文字、圖像和音訊等資訊,所以能進一步的理解更細微的資訊,並回答涉及複雜主題的問題。這也讓 Gemini 在解釋、推理像是數學和物理這樣複雜的問題上,表現特別出色。
進階的程式設計能力
第一個版本的 Gemini 能夠理解、解釋世界上最常用的程式語言,像是 Python、Java、C++ 和 Go,並且生成高品質的程式碼。能夠跨語言工作、解讀複雜資訊的能力,更讓 Gemini 成為世界數一數二的程式設計基礎模型。
Gemini Ultra 在幾個程式設計的基準測試中表現出色,包括程式設計業界衡量成效標準的 HumanEval 測試,以及截留(held-out)驗證資料集,用的是程式設計者自己生成的來源,而不是來自網路的資訊。
Gemini 也可以當作引擎,來驅動更進階的程式生成系統。兩年前,Google 推出了 AlphaCode,是第一個在程式設計競賽當中能夠達到有競爭實力的 AI 程式碼生成系統。
透過一個專門版本的 Gemini,Gooogle 建立了更進階的程式碼生成系統 AlphaCode 2。這個系統除了擅長程式設計,還能處理和數學與理論電腦科學相關、複雜的競技程式設計的問題。
當與 AlphaCode 在相同的平台上進行評估時,AlphaCode 2 展現出大幅度的進步,解決的問題數量幾乎是兩倍。我們評估 AlphaCode 2 的表現超過 85% 的參賽者,相較於 AlphaCode 只贏過 50% 左右的參賽者,有所提升。而且,如果程式設計師和 AlphaCode 2 協作,協助定義程式碼需要遵循的特定屬性時,表現甚至更好。
延伸閱讀:
Google 旗下 AI 聊天機器人 Bard 升級,可以直接回答 YouTube 影片內容
調查報告顯示 AI 提升釣魚郵件辨識難度,微軟、Google、亞馬遜名列前十大最常遭冒充品牌
Google 推出全新 AI 生成工具,能為廣告主打造個性化廣告
Apple 蘋果考慮讓 DuckDuckGo 取代 Google ,成為 Safari 私密瀏覽的預設搜尋引擎
圖片及資料來源:Google