【2023年12月08日訊】(記者殷瑞娜綜合報導)週三(12月6日),谷歌(Google)推出了新的生成式人工智能模型Gemini,該模型是谷歌對微軟支持的OpenAI GPT-4的回應。谷歌的這一行動,可能會加劇人工智能的新一輪競爭。
據Gemini背後的人工智能部門,DeepMind首席執行官黛米斯·哈薩比斯(Demis Hassabis)稱,這是該公司迄今為止「最有能力、最通用的模型」。
Gemini是所謂的原生多模態模型,這意味著它可以分析文字、音訊、視訊、圖像和程式碼。雖然有其它多模式產品。但谷歌表示,Gemini與眾不同,因為模型的設計,從一開始就考慮了所有這些媒介。
谷歌表示,其它平臺訓練單獨的模型,來分別處理文字、視頻和照片等內容,然後將它們組合成一個模型。
哈薩比斯表示,這種差異意味著Gemini可以更好地理解多模式數據,並為從手寫內容到圖像和視頻等各種內容,生成更好的結果。
作為發布的一部分,谷歌還發布了一系列影片來展示Gemini的功能。在一段影片中,演示者展示了一個運行Gemini的程式,以及一張藍色鴨子圖畫和一隻藍色橡膠鴨子 ,人工智能能夠識別這兩種鴨子。
在另一個演示中,演示者向人工智能展示了,一張手繪的、沒有環路的過山車圖片,和另一張有環路的過山車圖片。
當主持人問哪一個可能更有趣時,人工智能說,有環路的那個,這是正確的答案,除非你討厭繞環或坐過山車。
另一個例子,展示了父母如何利用Gemini來幫助孩子做作業。人工智能,不僅能夠閱讀學生對數學問題的書面答案,還能夠判斷答案是否正確,並解釋學生錯在哪裡以及原因。
在編碼方面,谷歌表示,Gemini是領先的編碼模型之一;並聲稱,該人工智能可以理解Python、Java、C++和Go等程式語言。
谷歌正在推出三個不同版本的Gemini:Gemini Ultra、Gemini Pro和Gemini Nano。
Gemini Ultra是該人工智能模型的頂級數據中心版本,適用於谷歌所說的高度複雜的任務。Gemini Pro是中階版本,而Nano則是設計用於在谷歌Pixel 8 Pro等設備上運行的版本。
谷歌表示,這款智能型手機將使用Gemini Nano,為其「錄音」應用程式中的摘要功能,提供支持,這將使其能夠理解錄音中的內容,並提供一個條目式摘要。從WhatsApp開始,該模型還將為Gboard中的智能回應,提供支持,並最終在明年晚些時候,應用於其它應用程式。
同時,從今天開始,Gemini Pro將成為Google Bard聊天機器人英文版的一部分。谷歌表示,該功能將使Google Bard更好地「理解、總結、推理編碼和規劃」。
該公司表示,明年將推出由Gemini Ultra驅動的Bard版本,稱為Bard Advanced。
Gemini最終也將被納入Google占主導地位的搜尋引擎,儘管這一轉變的時間尚未明確。
「這是人工智能發展的一個重要里程碑,也是我們谷歌新時代的開始。」DeepMind首席執行官Hassabis宣稱。
近十年前,谷歌擊敗了包括Facebook母公司Meta在內的其它競購者,收購了總部位於倫敦的DeepMind,並自此將其與其「大腦」部門合併,專注於Gemini的開發。
谷歌宣稱,該技術解決問題的能力,特別擅長數學和物理,這讓人工智能樂觀主義者燃起了希望,認為它可能帶來科學突破,改善人類的生活。
但人工智能辯論的反對方,擔心該技術最終會超越人類智能,導致數以百萬計的工作流失,甚至可能產生更具破壞性的行為,例如放大錯誤訊息,或觸發核武的部署。
谷歌首席執行官桑達爾·皮查伊(Sundar Pichai),在一篇博客文章中寫道:「我們正在大膽而負責任地進行這項工作。」「這意味著,我們會雄心勃勃地開展研究,追求為人類和社會帶來巨大利益的能力,同時建立保障措施,並與政府和專家合作,應對人工智能變得更加強大所帶來的風險。」
Gemini的推出,可能會加劇過去一年中,與新創公司OpenAI和業內老對手微軟之間,不斷升級的人工智能競爭。◇