ChatGPT更新的愈發像人類，看圖、聽聲音、說話二週內實現

OpenAI週一9/25日在官網宣布，OpenAI朝向通用人工智慧的戰略重要技術，現在除可看圖、聽聲音，還可輸出語音，愈來愈厲害，之後在Android和iOS陸續實現。

更多AI知識的學習，可到104學習精靈-AI 人工智慧基金知識庫：一讀就懂的入門免費加入公開課學習

或參加一堂課讓你「趕上」ChatGPT/Midjourney運用，領取證書快速為自己的專業加分!!

以下正文開始

ChatGPT自推出以來，人們只能透過文字與它互動，類似古早的通訊軟體。而這種模式即將成為過去，因為OpenAI即將推出一系列更新，使用戶可以透過語音與ChatGPT對話，並且讓ChatGPT能識別用戶上傳的圖片。

這項重大更新包括兩大功能：圖像辨識和語音功能。圖像辨識功能使得ChatGPT能夠根據用戶提供的圖像識別物品，從楓樹到細微的餐具品牌，都能精確識別。值得一提的是，ChatGPT在辨識物品時，似乎會參考用戶在App中設置的職業和地理位置等資訊。

而語音功能則賦予ChatGPT更接近語音助理的特性。用戶可以通過點擊發話鍵，口述他們的問題，然後ChatGPT會將答案轉換成語音回應，這種體驗類似於Google助理或Siri。ChatGPT使用的大型語言模型使其具備更靈活的回應能力。

ChatGPT的語音功能是由兩個獨立的模型實現的。一個是Whisper，這是一個既有的語音轉文字模型，用於將用戶的語音轉換為文字，供ChatGPT進行理解。另一個是新開發的文字轉語音模型，它負責將ChatGPT生成的文字轉換為語音。

根據OpenAI的介紹，ChatGPT將提供多達5種合成語音選擇，從明亮的女聲到低沉的男聲，用戶可以根據自己的喜好選擇。然而，OpenAI也提醒，這些模型在非英文文本的語音轉換方面表現較差，不建議非羅馬文字語言的使用者使用ChatGPT的語音功能。

除了這些功能更新，OpenAI還宣布與Spotify合作，利用AI技術將Podcast轉換成其他語言，並保留與原始創作者相似的聲音和風格。這項技術也基於Whisper模型。

OpenAI積極致力於將技術實現落地，這些新功能將首先提供給付費用戶，包括ChatGPT Plus和ChatGPT Enterprise。語音功能將在Android和iOS上首先使用，然後將逐步開放給免費用戶。

當然ChatGPT也面臨著激烈的競爭，包括Google的Gemini模型，該模型被稱為”多模型”，具備文字、語音、圖像和影片等多種輸入方式。亞馬遜和蘋果也在利用大型語言模型技術重新塑造語音助理。

儘管新增圖像和語音功能為ChatGPT帶來了更多可能性，但也帶來了一些潛在的濫用風險。OpenAI已經考慮到這些情況並設置了一些限制，例如用戶不能詢問涉及私人照片的問題。

整體來說這次的ChatGPT更新使其更加多功能化，讓用戶可以進行語音對話，並能夠理解圖像。OpenAI強調了安全性和監管的重要性，並表示將逐步推出這些功能，以確保風險的控制。在全球對人工智慧的關注中，OpenAI也強調了監管的必要性，同時強調不應該因擔憂而感到恐懼。

更多ChatGPT咒語指令交流學習搜尋FB社團:中文最大ChatGPT-AI詠唱研究院

非公開社團手機開啟會被擋，請直接複制搜尋社團名稱
中文最大ChatGPT-AI詠唱研究

ChatGPT更新的愈發像人類，看圖、聽聲音、說話二週內實現

請按讚：

相關

發表迴響取消回覆

分享此文：

請按讚：

相關

相關文章

ChatGPT Plus vs Gemini pro 比較魚油產品的分析與比較真實呈現

Gemini 3 vs ChatGPT 5.2：製作 LINE 貼圖的實戰比較

ChatGPT 全新「圖像功能」正式登場!從看圖、改圖到生圖，一次搞懂ChatGPT 圖像能力如何進化

發表迴響 取消回覆

發表迴響取消回覆