ChatGPT更新的愈發像人類,看圖、聽聲音、說話二週內實現

ChatGPT更新的愈發像人類,看圖、聽聲音、說話二週內實現

OpenAI週一9/25日在官網宣布,OpenAI朝向通用人工智慧的戰略重要技術,現在除可看圖、聽聲音,還可輸出語音,愈來愈厲害,之後在Android和iOS陸續實現。

更多AI知識的學習,可到104學習精靈-AI 人工智慧基金知識庫:一讀就懂的入門 免費加入公開課學習

或參加 一堂課讓你「趕上」ChatGPT/Midjourney運用,領取證書快速為自己的專業加分!!

以下正文開始

ChatGPT自推出以來,人們只能透過文字與它互動,類似古早的通訊軟體。而這種模式即將成為過去,因為OpenAI即將推出一系列更新,使用戶可以透過語音與ChatGPT對話,並且讓ChatGPT能識別用戶上傳的圖片。

這項重大更新包括兩大功能:圖像辨識和語音功能。圖像辨識功能使得ChatGPT能夠根據用戶提供的圖像識別物品,從楓樹到細微的餐具品牌,都能精確識別。值得一提的是,ChatGPT在辨識物品時,似乎會參考用戶在App中設置的職業和地理位置等資訊。

而語音功能則賦予ChatGPT更接近語音助理的特性。用戶可以通過點擊發話鍵,口述他們的問題,然後ChatGPT會將答案轉換成語音回應,這種體驗類似於Google助理或Siri。ChatGPT使用的大型語言模型使其具備更靈活的回應能力。

ChatGPT的語音功能是由兩個獨立的模型實現的。一個是Whisper,這是一個既有的語音轉文字模型,用於將用戶的語音轉換為文字,供ChatGPT進行理解。另一個是新開發的文字轉語音模型,它負責將ChatGPT生成的文字轉換為語音。

根據OpenAI的介紹,ChatGPT將提供多達5種合成語音選擇,從明亮的女聲到低沉的男聲,用戶可以根據自己的喜好選擇。然而,OpenAI也提醒,這些模型在非英文文本的語音轉換方面表現較差,不建議非羅馬文字語言的使用者使用ChatGPT的語音功能。

除了這些功能更新,OpenAI還宣布與Spotify合作,利用AI技術將Podcast轉換成其他語言,並保留與原始創作者相似的聲音和風格。這項技術也基於Whisper模型。

OpenAI積極致力於將技術實現落地,這些新功能將首先提供給付費用戶,包括ChatGPT Plus和ChatGPT Enterprise。語音功能將在Android和iOS上首先使用,然後將逐步開放給免費用戶。

當然ChatGPT也面臨著激烈的競爭,包括Google的Gemini模型,該模型被稱為”多模型”,具備文字、語音、圖像和影片等多種輸入方式。亞馬遜和蘋果也在利用大型語言模型技術重新塑造語音助理。

儘管新增圖像和語音功能為ChatGPT帶來了更多可能性,但也帶來了一些潛在的濫用風險。OpenAI已經考慮到這些情況並設置了一些限制,例如用戶不能詢問涉及私人照片的問題。

整體來說這次的ChatGPT更新使其更加多功能化,讓用戶可以進行語音對話,並能夠理解圖像。OpenAI強調了安全性和監管的重要性,並表示將逐步推出這些功能,以確保風險的控制。在全球對人工智慧的關注中,OpenAI也強調了監管的必要性,同時強調不應該因擔憂而感到恐懼。

更多ChatGPT咒語指令交流學習搜尋FB社團:中文最大ChatGPT-AI詠唱研究院

非公開社團手機開啟會被擋,請直接複制搜尋社團名稱
中文最大ChatGPT-AI詠唱研究

發表迴響

%d 位部落客按了讚: