Gemini
Gemini是谷歌開發(fā)的人工智能AI模型。2023年12月6日,該機型推出Gemini1.0版本,包括GeminiUltra、GeminiPro、GeminiNano三種不同規(guī)格。谷歌在2023年4月啟動了OpenAI的研究計劃,并合并了兩個大型人工智能團隊。2023年8月,谷歌將生成式人工智能引入其面向印度和日本用戶的搜索工具,并于同年9月向少數(shù)公司開放了其交互式人工智能軟件Gemini的早期版本。2023年12月6日,谷歌正式推出Gemini1.0,包括GeminiUltar、GeminiPro、GeminiNano三種不同規(guī)格。
Gemini內(nèi)置了Google自主研發(fā)的AI超級計算機芯片Cloud TPU V5P,這是首款在MMLU基準(zhǔn)測試上優(yōu)于人類專家的模型?;趶臒o到有構(gòu)建的多模型,可同時識別文本、圖像、音頻、視頻、代碼等五類信息,理解并生成流行編程語言(如Python、Java、C++)的高質(zhì)量代碼,具有全面的安全評估。
2023年12月13日開始,開發(fā)者和企業(yè)用戶可以通過Google AI Studio或Google Cloud Vertex AI中的Gemini API獲取Gemini Pro。Gemini還會應(yīng)用到谷歌更多產(chǎn)品和服務(wù)中,如搜索、廣告、Chrome和Duet AI。
2024年2月15日,谷歌發(fā)布Gemini1.5版本。
發(fā)展歷史
2023年4月,Alphabet(谷歌母公司)首席執(zhí)行官桑達爾·皮查(Sandahl Pichat)合并了兩個大型人工智能團隊,啟動了OpenAI項目。2023年5月,谷歌在開發(fā)者大會上透露,正在開發(fā)大AI模型Gemini。2023年8月,谷歌將生成式人工智能引入其面向印度和日本用戶的搜索工具,該工具將以暗示性語言和摘要的形式顯示文本或視覺結(jié)果。同時,它還以每個用戶每月30美元的價格向企業(yè)客戶提供其人工智能工具。2023年9月15日,The Information報道稱,谷歌已經(jīng)向少數(shù)公司開放了其交互式人工智能軟件Gemini的早期版本。2023年11月16日,谷歌表示將推遲發(fā)布AI模型Gemini。
2023年12月6日,Gemini的初始版本在谷歌的聊天機器人Bard推出。同時優(yōu)化推出了Gemini1.0版本,包含Gemini Ultar、Gemini Pro、Gemini Nano三個不同規(guī)格的套件。Gemini是一種新的AI模型,可以處理文本、圖像和視頻,它內(nèi)置了谷歌自研的AI超級計算機芯片CloudTPU V5 P. Demis Hassabls說:“Gemini是谷歌團隊大規(guī)模協(xié)作的結(jié)果。它是從零開始構(gòu)建的多模型,這意味著它可以總結(jié)并無縫理解、操縱和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻?!贝送?,Pixel引入了Gemini,搭載了Gemini Nano的Pixel 8 Pro,在“記錄器”應(yīng)用中支持“摘要”等新功能,在Gboard中引入了“智能回復(fù)”功能。Gemini是第一個在MMLU(大規(guī)模多任務(wù)語言理解)方面優(yōu)于人類專家的模型。
2024年2月15日,谷歌發(fā)布Gemini1.5。Gemini 1.5中的第一個多模態(tài)通用模型Gemini 1.5 Pro,可以將穩(wěn)定處理上下文的上限擴展到100萬個tokens,在Kalamang到英語的翻譯測試中是最好的模型。
功能服務(wù)
復(fù)雜推理能力:Gemini1.0具有復(fù)雜多模態(tài)推理能力,可以幫助理解復(fù)雜的書面和視覺信息,可以在海量數(shù)據(jù)中發(fā)現(xiàn)難以分辨的知識。在學(xué)習(xí)上,它能更好地理解微妙的信息,回答與復(fù)雜話題相關(guān)的內(nèi)容,從而能夠?qū)?shù)學(xué)、物理等復(fù)雜學(xué)科進行推理。Gemini1.0具備通過閱讀、過濾、理解信息,從數(shù)十萬文檔中提取知識的能力,有助于在科學(xué)、金融等諸多領(lǐng)域取得新突破。
認識和理解:Gemini1.0采用Transformer架構(gòu)和高效的注意力機制,可以識別和理解文本、圖像、音頻等。同時。它能充分理解輸入中的信息細節(jié)并生成任務(wù)。在圖像參考方面,Gemini Ultra可以在不借助對象字符識別(OCR)系統(tǒng)的情況下從圖像中提取文本。在視頻理解方面,Gemini模型是通過將視頻編碼成大上下文窗口中的一系列幀來完成的。視頻幀或圖形可以自然地與文本或音頻交織在一起,并且可以處理可變的輸入分辨率。作為Gemini中最強大的規(guī)范,Gemini Ultra在MMLU(大規(guī)模多任務(wù)語言理解數(shù)據(jù)集)中的評分高達90.0%,首次超過人類專家。MMLU數(shù)據(jù)集包含數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)、倫理學(xué)等57個學(xué)科。Gemini Ultra結(jié)合考慮模型不確定性的思維鏈提示方法,生成包含k個樣本的思維鏈。如果有高于預(yù)設(shè)閾值的共識,則選擇這個答案,否則將返回到基于無思維鏈的最大似然選擇的樣本。
高級編碼能力:Gemini可以理解、解釋和生成流行編程語言(如Python、Java、C++和Go)的高質(zhì)量代碼,可以跨語言工作和推理復(fù)雜信息,也可以作為高級編碼系統(tǒng)的引擎。比如AlphaCode團隊打造的AlphaCode2,將Gemini座的推理能力與搜索、工具使用相結(jié)合,解決競爭性編程問題。在Codeforces的競技編程平臺上,AlphaCode 2排名進入者前15%。
安全功能:Gemini有全面的安全評估,包括偏差和病毒。Google應(yīng)用Google Research的對抗性測試技術(shù),根據(jù)Google AI原理和嚴(yán)格的產(chǎn)品安全政策添加新的保護措施,綜合考慮潛在風(fēng)險,在開發(fā)的每個階段都進行測試和風(fēng)險降低。此外,谷歌還與外部專家合作進行壓力測試,以確保內(nèi)容的安全性,并建立了專門的安全分類器來識別和過濾有害內(nèi)容,以確保Gemini更加安全和包容。此外,Gemini Nano可以在使用特殊芯片的終端設(shè)備上運行,這種模式也可以在沒有網(wǎng)絡(luò)連接的情況下使用,不會造成個人數(shù)據(jù)的丟失。例如,Pixel 8 Pro在錄音機應(yīng)用中使用Gemini Nano來總結(jié)會議音頻,即使沒有網(wǎng)絡(luò)連接。
關(guān)鍵技術(shù)
Gemini最大的亮點之一是獨創(chuàng)的多模態(tài)大模型,從一開始就對不同的模態(tài)進行預(yù)訓(xùn)練,并使用額外的多模態(tài)數(shù)據(jù)進行微調(diào),以提高其有效性。Gemini1.0系列內(nèi)置自研AI超級計算機芯片云TPU v5p,這是谷歌為神經(jīng)網(wǎng)絡(luò)設(shè)計的專用芯片。優(yōu)化后可以加快機器學(xué)習(xí)模型的訓(xùn)練和推理。與TPU v4相比,TPU v5p的浮點運算性能提高了2倍,高帶寬內(nèi)存提高了3倍。TPU v5p可提供459萬億次浮點運算(每秒執(zhí)行459萬億次浮點運算)的bfloat16(16位浮點數(shù)格式)性能或918萬億次浮點運算(每秒執(zhí)行918萬億次整數(shù)運算)的Int8(執(zhí)行8位整數(shù)運算)性能,支持95GB高帶寬內(nèi)存,可以2.76 TB/s的速度傳輸數(shù)據(jù)
模特培訓(xùn):Gemini模型建立在Transfomer解碼器上,這些解碼器通過架構(gòu)的改進和模型優(yōu)化得到增強,從而在Google的張量處理單元上實現(xiàn)大規(guī)模穩(wěn)定訓(xùn)練和優(yōu)化推理。它們被訓(xùn)練成支持32k的上下文長度并采用有效的注意機制。R&D團隊使用TPUv5e和TPUv4來訓(xùn)練Gemini模型。TPU是谷歌為神經(jīng)網(wǎng)絡(luò)設(shè)計的專用芯片,經(jīng)過優(yōu)化后可以加快機器學(xué)習(xí)模型的訓(xùn)練和推理速度。TPUv4加速器部署在4096芯片“SuperPods”中,每個芯片都連接到一個專用的光開關(guān),4×4×4芯片立方體可以在大約10秒內(nèi)動態(tài)重新配置為任何3D環(huán)形拓撲。
Gemini接受了多模態(tài)和多語言數(shù)據(jù)集的訓(xùn)練。預(yù)訓(xùn)練數(shù)據(jù)集使用來自網(wǎng)絡(luò)文檔、書籍和代碼的數(shù)據(jù),包括圖像、音頻和視頻數(shù)據(jù)。使用句子標(biāo)記來提高推理詞匯。R&D團隊使用啟發(fā)式規(guī)則和基于模型的分類器對所有數(shù)據(jù)集應(yīng)用質(zhì)量過濾器,并執(zhí)行安全過濾以消除有害內(nèi)容。為了實現(xiàn)高效的模型訓(xùn)練,Gemini使用了冗余內(nèi)存復(fù)制和快速故障恢復(fù)機制。這提高了總吞吐量并縮短了訓(xùn)練時間。在開發(fā)過程中遵循負責(zé)任的部署原則,通過影響評估、模型策略制定、評估和風(fēng)險緩解來降低潛在的負面影響。
模型評估
文本:在文本方面,R&D團隊將Gemini Pro和Gemini Ultra與一組外部大規(guī)模語言模型和谷歌推出的多模態(tài)模型PaLM2在一系列基于文本的學(xué)術(shù)基準(zhǔn)上進行比較,涵蓋推理、閱讀理解、Stem和編碼,并做出了報告。報告分別展示了Gemini Pro和Gemini Ultra在MMLU、編碼和數(shù)學(xué)運算方面的數(shù)據(jù)。得出結(jié)論,GeminiPro的性能優(yōu)于GPT-3.5等推理優(yōu)化模型,而GeminiUltra優(yōu)于目前所有模型。
多路模式:在圖像理解方面,研究小組在四個不同的功能中評估了Gemini模型:使用字幕或問答任務(wù)的高級對象識別(如vqa v2);使用TextVQA和DocVQA等任務(wù)進行細粒度轉(zhuǎn)錄;圖表理解需要使用ChartQA和InfographicVQA任務(wù)在空間上理解輸入布局;并使用Ai2D、MathVista、MMMU等任務(wù)進行多模態(tài)推理。在視頻理解中,研究團隊從每個視頻片段中采樣了16個等距幀,用于理解和推理。在音頻理解方面,研究小組在各種基準(zhǔn)上評估了Gemini Nano-1和Gemini Pro模型,并與通用語言模型(USM)、Whisper和large-v3進行了比較,并將不同的語言翻譯成英語。評測結(jié)果顯示,在所有ASR(自動語言識別)和AST(自動語音翻譯)任務(wù)中,Gemini Pro模型明顯優(yōu)于USM和Whisper模型。
相關(guān)影響
作為谷歌和全球發(fā)布的第一款多模態(tài)模型,Gemini模型是第一款在MMLU上性能超越人類專家的模型。與此同時,谷歌同步發(fā)布了最新版本的計算芯片TPU v5p,其性價比是上一代TPU v4的2.3倍。多模態(tài)Gemini模型的正式發(fā)布,不僅可以拓寬應(yīng)用場景,還可以帶來計算能力需求的不斷升級。皮查伊表示,人工智能將增強創(chuàng)造力,擴展知識,促進科學(xué)發(fā)展,改變?nèi)驍?shù)十億人的生活和工作方式。
隨著AI創(chuàng)作工具相關(guān)技術(shù)迭代的不斷升級,生產(chǎn)力將迎來更新迭代,AI技術(shù)與內(nèi)容創(chuàng)作的結(jié)合將進入實質(zhì)性階段,因此內(nèi)容市場將進入長期繁榮趨勢,產(chǎn)業(yè)鏈可能全面受益。同時,Gemini的推出也對人工智能領(lǐng)域產(chǎn)生了影響。a股市場,人工智能板塊早盤明顯獲得主力資金流入,凈流入超過11億元。
Gemini的發(fā)布也對芯片廠商造成了一定的影響。2023年12月7日凌晨,AMD CEO宣布推出Instinct MI300X AI加速芯片,并量產(chǎn)MI300A芯片。到12月6日美股收盤時,AMD的股價已經(jīng)下跌了1.32%,英偉達的股價也下跌了2.28%。
相關(guān)爭議
濫用風(fēng)險:2023年7月,Anthropic首席執(zhí)行官阿莫迪和人工智能先驅(qū)Yoshua Bengio等人工智能專家表示,不受控制的人工智能發(fā)展將帶來嚴(yán)重的社會風(fēng)險。阿迪莫說:“我特別擔(dān)心人工智能系統(tǒng)可能在網(wǎng)絡(luò)安全、核技術(shù)、化學(xué)尤其是生物領(lǐng)域被大規(guī)模濫用?!睂<覍emini功能的評價并不全面和穩(wěn)定。新墨西哥圣達菲研究所的人工智能研究員梅拉妮·米切爾(Melanie Mitchell)說:Gemini是一個復(fù)雜的人工智能系統(tǒng),但它的能力實際上并沒有明顯高于GPT-4,它在不同基準(zhǔn)上的表現(xiàn)也沒有那么穩(wěn)定。在語言和代碼上的表現(xiàn)遠好于圖像和視頻,不符合多模態(tài)基本模型在很多任務(wù)中發(fā)揮普遍而強大作用的標(biāo)準(zhǔn)。斯坦福大學(xué)基本模型研究中心主任珀西·梁(Percy Liang)和華盛頓大學(xué)計算語言學(xué)教授艾米麗·本德(Emily Bender)表示:谷歌用來評估其預(yù)計用于這些不同目的的模型的基準(zhǔn)無法得到徹底評估。
造假糾紛:2023年12月8日,有外媒公開質(zhì)疑Gemini“業(yè)績”造假。谷歌在線展示的Gemini可以像人一樣快速判斷圖片中的實物并進行語音反饋,突出了令人驚嘆的多模態(tài)功能,但從實際情況來看,很難達到這樣的效果。Gemini負責(zé)人對此回應(yīng),否認故意造假,稱只是為了簡潔而縮短反應(yīng)時間,并承認這段視頻并非實時,而是使用了原鏡頭中的靜止圖像幀,然后寫了文字提示。
2023年12月18日,微博大V@蘭和艾研究局自媒體爆發(fā)。在測試Google Gemini的時候,如果你用中文問它的身份,它會堅持說是“百度”。如果輸入“小杜”或“蕭艾同學(xué)”等提示詞,可以直接喚醒Gemini,不僅承認自己是小杜或蕭艾,還可以詢問用戶需要什么幫助。12月20日,科技媒體Quantum Bit對Gemini進行了測試。它在Google Vertex AI平臺上使用Gemini進行中文對話,發(fā)現(xiàn)Gemini-Pro完全帶入了百度文心一言模型的身份,Gemini直接表明是百度語言模型。12月18日下午,界面新聞也對Gemini-Pro進行類似身份測試時,發(fā)現(xiàn)其已經(jīng)優(yōu)化了型號,不再承認與百度有關(guān)。
人工智能圖像生成器引發(fā)爭議:AI模型Gemini有根據(jù)人物生成圖像的功能,但是有用戶發(fā)現(xiàn)這個功能生成的人物大部分不是白人,而是有色人種。這一功能被批評淡化了白人的代表性,并產(chǎn)生了歷史上不準(zhǔn)確的形象。2024年2月23日,谷歌高級副總裁普拉巴卡爾·拉加萬(Prabhakar Raghavan)就用戶反饋在Gemini生成人物圖像時出現(xiàn)的問題道歉。Raghavan說,“顯然,這個功能沒能達到預(yù)期的效果。一些生成的圖像不準(zhǔn)確,甚至令人不愉快。我們感謝用戶的反饋,并對該功能未能很好地發(fā)揮作用感到抱歉?!睂Υ?,谷歌表示,正在采取讓Gemini暫時停止運行生成人物形象功能的做法。