Google 最近發布了一款名為「Gemini」的新型多模態 AI 模型,這是一款「原生」多模態 AI,能夠同時無縫理解和操作包括文字、程式碼、聲音、圖片、影片等多元形式的內容。Gemini 被設計成三個版本:Ultra、Pro 和 Nano,以適應從資料中心到行動裝置的不同使用環境。其中,Nano 版本足夠小,可以直接安裝在手機上。
未來版主將會往這一系列多模態整合應用開系列課程,若有興趣記得隨時來我們的愛課堂逛逛喔
更多AI知識的學習,可到104學習精靈-AI 人工智慧基金知識庫:一讀就懂的入門 免費加入公開課學習
以下正文開始
Google 如外界所預期,全力推出了 Gemini,一款「原生」的多模態人工智慧(AI)模型。Gemini 能夠無縫地理解和操作包括文字、程式碼、聲音、圖片和影片等多種形式的內容。

Gemini 這款多模態 AI 模型能夠同時處理和理解文字、程式碼、聲音、圖片和影片等不同類型的內容。在 32 項 AI 測試中,其在 30 項中的表現超越了 GPT-4V。Gemini 分為三個版本:Ultra、Pro 和 Nano,分別適用於大型、中型和小型設備,其中 Nano 版本小到可以直接安裝在手機上。Gemini 不僅支援英語,還能夠支援多種語言,並在不同語言間保持一致的執行效能。此外,它廣泛使用 Google 自家設計的 TPU 進行訓練。
原本預計延期到明年才發表的 Google 大型語言模型「Gemini」,已經如期在 12 月初面世。Google 宣稱,Gemini 特別強大的版本 Ultra,能夠直接理解圖片內容,無需透過 OCR 來識別圖片中的文字。為了展示其理解能力,Google 使用了一個簡單的實例:拿出兩張簡單的手繪汽車圖片,詢問 Gemini 哪一台車更快。Gemini 的回答是「右邊的車更快,因為它的設計更符合空氣動力學原理」。
在 32 項 AI 測試中,Gemini 的旗艦版 Ultra 在其中 30 項的表現超越了 OpenAI 的 GPT-4V。它也是第一個在大規模多任務語言理解(MMLU)測試中達到 90% 水平並超越人類專家的大型自然語言模型。MMLU 測試涵蓋 57 項科目,包括數學、物理、歷史、法律、醫學和倫理學等。
Google 也展示了 Gemini 如何理解和產生廣泛使用的程式語言,如 Python、Java、C++ 和 Go。基於 Gemini,Google 推出了新一代的 AI 程式碼生成系統 AlphaCode 2,解決問題的能力幾乎是前一代的兩倍。

為了滿足從資料中心到行動裝置等不同使用環境的需求,Gemini 推出了 Ultra、Pro 和 Nano 三個版本。其中最大的 Ultra 版本正在進行一系列的安全測試,計劃將少量試用版釋出給企業客戶和開發者,預計明年推出正式版。
Pro 版本已經提供給英文版的聊天機器人 Bard 使用,並計劃於 12 月 13 日在 Google Cloud 的 Vertex AI 和 AI Studio 上提供 API。而最小的 Nano 版本準備直接應用於 Pixel 8 Pro 手機上。
Bard 計劃在 170 多個國家和地區推出英語版本,並將逐步擴展至不同地區和語言。Google 預告將會有使用 Ultra 版本的 Bard Advanced。此外,像 Google 廣告、Chrome 和 Duet AI 等產品也將陸續整合 Gemini。最重要的是,Google 的搜索引擎已經開始使用 Gemini,導入的搜索生成體驗(SGE)使延遲減少了 40%。
Google 指出,Gemini 是用公司自行設計的 TPU v4 和 v5e 芯片進行訓練的,並且在這些 TPU 上的表現優於以往的 AI 模型。Google 還發表了新的雲端用 TPU v5p 芯片。
而根據部份用戶的實際測試,仍存在需要進步的地方,例如以下
Google 的新人工智慧(AI)模型 Gemini 在推出後似乎未能達到用戶和專家的預期。儘管 Google 強調 Gemini 在多項測試中超越了 ChatGPT,但用戶反饋和專家評論卻指出了數個問題。
首先用戶在社交平台 X 上對 Gemini Pro 表示不滿,他們發現這個模型在實際運用中經常出錯,並且在某些方面甚至不如 GPT 3.5。例如,Gemini Pro 曾錯誤地宣稱去年最佳男主角得主是 Brendan Gleeson,實際上應該是 Brendan Fraser。此外,Gemini Pro 在外語翻譯方面的能力也受到質疑,有用戶發現它無法用法語正確給出一個六個字母的單詞。
對於新聞資訊的處理能力也不盡人意。當用戶請求 Gemini Pro 使用 Google 搜尋和 Google 新聞來回顧一些熱門話題時,這個 AI 模型卻建議用戶「自己搜尋」。此外,當被要求提供有關烏克蘭戰爭的最新情況時,Gemini Pro 提供的信息已經過時了一個多月。
在程式設計能力方面,儘管 Google 宣稱 Gemini 在某些領域有所提升,但似乎無法處理基本的程式設計問題。一位社交平台 X 的用戶指出,Gemini Pro 無法修復貪吃蛇遊戲的程式碼,而 ChatGPT 3.5 的免費版本則能夠輕易提供正確的修正方案。
同時艾倫人工智慧研究所的研究科學家 Jesse Dodge 指出,儘管 Google 在其長達 60 頁的發布報告中強調訓練資料的重要性,公司卻幾乎沒有提供有關其製造方法、過濾方式或內容的詳細信息。這種資訊的缺乏讓人懷疑 Gemini 的真實性能和可靠性。
總體來說,Google 的 Gemini AI 模型在首次公開亮相後,似乎未能滿足用戶期待,尤其在準確性、多語言處理和程式設計技能方面存在缺陷。同時Google 對於其訓練方法和數據的不透明也引起了業界專家的關注和批評。
以上是優缺分析,而實際上Google 的 Gemini AI 的感受如何,那就要讓大家去玩過後,才能體會囉
未來版主將會往這一系列多模態整合應用開系列課程,若有興趣記得隨時來我們的愛課堂逛逛喔
更多ChatGPT咒語指令交流學習搜尋FB社團:中文最大ChatGPT-AI詠唱研究院 好收集最新訊息
非公開社團手機開啟會被擋,請直接複制搜尋社團名稱
中文最大ChatGPT-AI詠唱研究
AI繪圖相關討論社團微軟AI繪圖Bing DALL-E 3教學分享Microsoft Bing Image Creator prompt study 詠唱咒語研究社
非公開社團手機開啟會被擋,請直接複制搜尋社團名稱
微軟AI繪圖Bing DALL-E 3教學分享Microsoft Bing Image Creator prompt study 詠唱咒語研究社
Stable Diffusion愛好者也可直接加入AI繪圖分享Stable Diffusion研究社/Stable Diffusion prompt
As expected by the outside world, Google has vigorously launched Gemini, an “inherent” multimodal artificial intelligence (AI) model. Gemini seamlessly understands and manipulates a variety of content, including text, code, sound, images, and videos.
Comments
Gemini, the multimodal AI model, can simultaneously process and understand different types of content such as text, code, sound, images, and videos. In 32 AI tests, it outperformed GPT-4V in 30. Gemini comes in three versions: Ultra, Pro, and Nano, suitable for large, medium, and small devices, respectively, with the Nano version small enough to be directly installed on a mobile phone. Gemini supports not only English but also various languages, maintaining consistent performance across languages. Additionally, it extensively uses Google’s own TPU for training.
Originally expected to be delayed until next year, Google’s large language model “Gemini” has been launched as scheduled in early December. Google claims that the powerful version, Ultra, can directly understand the content of images, without needing OCR to recognize text in the images. To demonstrate its understanding capabilities, Google used a simple example: presenting two simple hand-drawn car pictures and asking Gemini which car is faster. Gemini responded, “The right car is faster because its design is more aerodynamically efficient.”
In 32 AI tests, the flagship version of Gemini, Ultra, outperformed OpenAI’s GPT-4V in 30. It is also the first large natural language model to reach a 90% level in Multitask Unified Model (MMLU) tests, surpassing human experts. MMLU tests cover 57 subjects, including mathematics, physics, history, law, medicine, and ethics.
Google also showcased how Gemini understands and generates widely used programming languages like Python, Java, C++, and Go. With Gemini, Google has launched a new generation AI code generation system, AlphaCode 2, nearly doubling the problem-solving capability of its predecessor.
To meet the needs of different usage environments, from data centers to mobile devices, Gemini is available in three versions: Ultra, Pro, and Nano. The largest version, Ultra, is undergoing a series of security tests and plans to release a limited trial version to corporate customers and developers, with the official version expected next year.
The Pro version is already available for the English version of the chatbot Bard and plans to offer APIs on Google Cloud’s Vertex AI and AI Studio on December 13. The smallest version, Nano, is prepared for direct use in the Pixel 8 Pro phone.
Bard plans to launch an English version in more than 170 countries and regions, gradually expanding to different regions and languages. Google anticipates the release of Bard Advanced using the Ultra version. Additionally, products like Google Ads, Chrome, and Duet AI will gradually integrate Gemini. Most importantly, Google’s search engine has started using Gemini, with the Search Generation Experience (SGE) reducing latency by 40%.
Google noted that Gemini was trained using the company’s own TPU v4 and v5e chips, performing better on these TPUs than previous AI models. Google also introduced a new cloud-based TPU v5p chip.