Gemini
Gemini是谷歌開(kāi)發(fā)的人工智能AI模型。2023年12月6日,該機(jī)型推出Gemini1.0版本,包括GeminiUltra、GeminiPro、GeminiNano三種不同規(guī)格。谷歌在2023年4月啟動(dòng)了OpenAI的研究計(jì)劃,并合并了兩個(gè)大型人工智能團(tuán)隊(duì)。2023年8月,谷歌將生成式人工智能引入其面向印度和日本用戶的搜索工具,并于同年9月向少數(shù)公司開(kāi)放了其交互式人工智能軟件Gemini的早期版本。2023年12月6日,谷歌正式推出Gemini1.0,包括GeminiUltar、GeminiPro、GeminiNano三種不同規(guī)格。
Gemini內(nèi)置了Google自主研發(fā)的AI超級(jí)計(jì)算機(jī)芯片Cloud TPU V5P,這是首款在MMLU基準(zhǔn)測(cè)試上優(yōu)于人類(lèi)專家的模型?;趶臒o(wú)到有構(gòu)建的多模型,可同時(shí)識(shí)別文本、圖像、音頻、視頻、代碼等五類(lèi)信息,理解并生成流行編程語(yǔ)言(如Python、Java、C++)的高質(zhì)量代碼,具有全面的安全評(píng)估。
2023年12月13日開(kāi)始,開(kāi)發(fā)者和企業(yè)用戶可以通過(guò)Google AI Studio或Google Cloud Vertex AI中的Gemini API獲取Gemini Pro。Gemini還會(huì)應(yīng)用到谷歌更多產(chǎn)品和服務(wù)中,如搜索、廣告、Chrome和Duet AI。
2024年2月15日,谷歌發(fā)布Gemini1.5版本。
發(fā)展歷史 編輯本段
2023年4月,Alphabet(谷歌母公司)首席執(zhí)行官桑達(dá)爾·皮查(Sandahl Pichat)合并了兩個(gè)大型人工智能團(tuán)隊(duì),啟動(dòng)了OpenAI項(xiàng)目。2023年5月,谷歌在開(kāi)發(fā)者大會(huì)上透露,正在開(kāi)發(fā)大AI模型Gemini。2023年8月,谷歌將生成式人工智能引入其面向印度和日本用戶的搜索工具,該工具將以暗示性語(yǔ)言和摘要的形式顯示文本或視覺(jué)結(jié)果。同時(shí),它還以每個(gè)用戶每月30美元的價(jià)格向企業(yè)客戶提供其人工智能工具。2023年9月15日,The Information報(bào)道稱,谷歌已經(jīng)向少數(shù)公司開(kāi)放了其交互式人工智能軟件Gemini的早期版本。2023年11月16日,谷歌表示將推遲發(fā)布AI模型Gemini。
2023年12月6日,Gemini的初始版本在谷歌的聊天機(jī)器人Bard推出。同時(shí)優(yōu)化推出了Gemini1.0版本,包含Gemini Ultar、Gemini Pro、Gemini Nano三個(gè)不同規(guī)格的套件。Gemini是一種新的AI模型,可以處理文本、圖像和視頻,它內(nèi)置了谷歌自研的AI超級(jí)計(jì)算機(jī)芯片CloudTPU V5 P. Demis Hassabls說(shuō):“Gemini是谷歌團(tuán)隊(duì)大規(guī)模協(xié)作的結(jié)果。它是從零開(kāi)始構(gòu)建的多模型,這意味著它可以總結(jié)并無(wú)縫理解、操縱和組合不同類(lèi)型的信息,包括文本、代碼、音頻、圖像和視頻?!贝送?,Pixel引入了Gemini,搭載了Gemini Nano的Pixel 8 Pro,在“記錄器”應(yīng)用中支持“摘要”等新功能,在Gboard中引入了“智能回復(fù)”功能。Gemini是第一個(gè)在MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)方面優(yōu)于人類(lèi)專家的模型。
2024年2月15日,谷歌發(fā)布Gemini1.5。Gemini 1.5中的第一個(gè)多模態(tài)通用模型Gemini 1.5 Pro,可以將穩(wěn)定處理上下文的上限擴(kuò)展到100萬(wàn)個(gè)tokens,在Kalamang到英語(yǔ)的翻譯測(cè)試中是最好的模型。
功能服務(wù) 編輯本段
復(fù)雜推理能力:Gemini1.0具有復(fù)雜多模態(tài)推理能力,可以幫助理解復(fù)雜的書(shū)面和視覺(jué)信息,可以在海量數(shù)據(jù)中發(fā)現(xiàn)難以分辨的知識(shí)。在學(xué)習(xí)上,它能更好地理解微妙的信息,回答與復(fù)雜話題相關(guān)的內(nèi)容,從而能夠?qū)?shù)學(xué)、物理等復(fù)雜學(xué)科進(jìn)行推理。Gemini1.0具備通過(guò)閱讀、過(guò)濾、理解信息,從數(shù)十萬(wàn)文檔中提取知識(shí)的能力,有助于在科學(xué)、金融等諸多領(lǐng)域取得新突破。
認(rèn)識(shí)和理解:Gemini1.0采用Transformer架構(gòu)和高效的注意力機(jī)制,可以識(shí)別和理解文本、圖像、音頻等。同時(shí)。它能充分理解輸入中的信息細(xì)節(jié)并生成任務(wù)。在圖像參考方面,Gemini Ultra可以在不借助對(duì)象字符識(shí)別(OCR)系統(tǒng)的情況下從圖像中提取文本。在視頻理解方面,Gemini模型是通過(guò)將視頻編碼成大上下文窗口中的一系列幀來(lái)完成的。視頻幀或圖形可以自然地與文本或音頻交織在一起,并且可以處理可變的輸入分辨率。作為Gemini中最強(qiáng)大的規(guī)范,Gemini Ultra在MMLU(大規(guī)模多任務(wù)語(yǔ)言理解數(shù)據(jù)集)中的評(píng)分高達(dá)90.0%,首次超過(guò)人類(lèi)專家。MMLU數(shù)據(jù)集包含數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)、倫理學(xué)等57個(gè)學(xué)科。Gemini Ultra結(jié)合考慮模型不確定性的思維鏈提示方法,生成包含k個(gè)樣本的思維鏈。如果有高于預(yù)設(shè)閾值的共識(shí),則選擇這個(gè)答案,否則將返回到基于無(wú)思維鏈的最大似然選擇的樣本。
高級(jí)編碼能力:Gemini可以理解、解釋和生成流行編程語(yǔ)言(如Python、Java、C++和Go)的高質(zhì)量代碼,可以跨語(yǔ)言工作和推理復(fù)雜信息,也可以作為高級(jí)編碼系統(tǒng)的引擎。比如AlphaCode團(tuán)隊(duì)打造的AlphaCode2,將Gemini座的推理能力與搜索、工具使用相結(jié)合,解決競(jìng)爭(zhēng)性編程問(wèn)題。在Codeforces的競(jìng)技編程平臺(tái)上,AlphaCode 2排名進(jìn)入者前15%。
安全功能:Gemini有全面的安全評(píng)估,包括偏差和病毒。Google應(yīng)用Google Research的對(duì)抗性測(cè)試技術(shù),根據(jù)Google AI原理和嚴(yán)格的產(chǎn)品安全政策添加新的保護(hù)措施,綜合考慮潛在風(fēng)險(xiǎn),在開(kāi)發(fā)的每個(gè)階段都進(jìn)行測(cè)試和風(fēng)險(xiǎn)降低。此外,谷歌還與外部專家合作進(jìn)行壓力測(cè)試,以確保內(nèi)容的安全性,并建立了專門(mén)的安全分類(lèi)器來(lái)識(shí)別和過(guò)濾有害內(nèi)容,以確保Gemini更加安全和包容。此外,Gemini Nano可以在使用特殊芯片的終端設(shè)備上運(yùn)行,這種模式也可以在沒(méi)有網(wǎng)絡(luò)連接的情況下使用,不會(huì)造成個(gè)人數(shù)據(jù)的丟失。例如,Pixel 8 Pro在錄音機(jī)應(yīng)用中使用Gemini Nano來(lái)總結(jié)會(huì)議音頻,即使沒(méi)有網(wǎng)絡(luò)連接。
關(guān)鍵技術(shù) 編輯本段
Gemini最大的亮點(diǎn)之一是獨(dú)創(chuàng)的多模態(tài)大模型,從一開(kāi)始就對(duì)不同的模態(tài)進(jìn)行預(yù)訓(xùn)練,并使用額外的多模態(tài)數(shù)據(jù)進(jìn)行微調(diào),以提高其有效性。Gemini1.0系列內(nèi)置自研AI超級(jí)計(jì)算機(jī)芯片云TPU v5p,這是谷歌為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的專用芯片。優(yōu)化后可以加快機(jī)器學(xué)習(xí)模型的訓(xùn)練和推理。與TPU v4相比,TPU v5p的浮點(diǎn)運(yùn)算性能提高了2倍,高帶寬內(nèi)存提高了3倍。TPU v5p可提供459萬(wàn)億次浮點(diǎn)運(yùn)算(每秒執(zhí)行459萬(wàn)億次浮點(diǎn)運(yùn)算)的bfloat16(16位浮點(diǎn)數(shù)格式)性能或918萬(wàn)億次浮點(diǎn)運(yùn)算(每秒執(zhí)行918萬(wàn)億次整數(shù)運(yùn)算)的Int8(執(zhí)行8位整數(shù)運(yùn)算)性能,支持95GB高帶寬內(nèi)存,可以2.76 TB/s的速度傳輸數(shù)據(jù)
模特培訓(xùn):Gemini模型建立在Transfomer解碼器上,這些解碼器通過(guò)架構(gòu)的改進(jìn)和模型優(yōu)化得到增強(qiáng),從而在Google的張量處理單元上實(shí)現(xiàn)大規(guī)模穩(wěn)定訓(xùn)練和優(yōu)化推理。它們被訓(xùn)練成支持32k的上下文長(zhǎng)度并采用有效的注意機(jī)制。R&D團(tuán)隊(duì)使用TPUv5e和TPUv4來(lái)訓(xùn)練Gemini模型。TPU是谷歌為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的專用芯片,經(jīng)過(guò)優(yōu)化后可以加快機(jī)器學(xué)習(xí)模型的訓(xùn)練和推理速度。TPUv4加速器部署在4096芯片“SuperPods”中,每個(gè)芯片都連接到一個(gè)專用的光開(kāi)關(guān),4×4×4芯片立方體可以在大約10秒內(nèi)動(dòng)態(tài)重新配置為任何3D環(huán)形拓?fù)洹?/p>
Gemini接受了多模態(tài)和多語(yǔ)言數(shù)據(jù)集的訓(xùn)練。預(yù)訓(xùn)練數(shù)據(jù)集使用來(lái)自網(wǎng)絡(luò)文檔、書(shū)籍和代碼的數(shù)據(jù),包括圖像、音頻和視頻數(shù)據(jù)。使用句子標(biāo)記來(lái)提高推理詞匯。R&D團(tuán)隊(duì)使用啟發(fā)式規(guī)則和基于模型的分類(lèi)器對(duì)所有數(shù)據(jù)集應(yīng)用質(zhì)量過(guò)濾器,并執(zhí)行安全過(guò)濾以消除有害內(nèi)容。為了實(shí)現(xiàn)高效的模型訓(xùn)練,Gemini使用了冗余內(nèi)存復(fù)制和快速故障恢復(fù)機(jī)制。這提高了總吞吐量并縮短了訓(xùn)練時(shí)間。在開(kāi)發(fā)過(guò)程中遵循負(fù)責(zé)任的部署原則,通過(guò)影響評(píng)估、模型策略制定、評(píng)估和風(fēng)險(xiǎn)緩解來(lái)降低潛在的負(fù)面影響。
模型評(píng)估
文本:在文本方面,R&D團(tuán)隊(duì)將Gemini Pro和Gemini Ultra與一組外部大規(guī)模語(yǔ)言模型和谷歌推出的多模態(tài)模型PaLM2在一系列基于文本的學(xué)術(shù)基準(zhǔn)上進(jìn)行比較,涵蓋推理、閱讀理解、Stem和編碼,并做出了報(bào)告。報(bào)告分別展示了Gemini Pro和Gemini Ultra在MMLU、編碼和數(shù)學(xué)運(yùn)算方面的數(shù)據(jù)。得出結(jié)論,GeminiPro的性能優(yōu)于GPT-3.5等推理優(yōu)化模型,而GeminiUltra優(yōu)于目前所有模型。
多路模式:在圖像理解方面,研究小組在四個(gè)不同的功能中評(píng)估了Gemini模型:使用字幕或問(wèn)答任務(wù)的高級(jí)對(duì)象識(shí)別(如vqa v2);使用TextVQA和DocVQA等任務(wù)進(jìn)行細(xì)粒度轉(zhuǎn)錄;圖表理解需要使用ChartQA和InfographicVQA任務(wù)在空間上理解輸入布局;并使用Ai2D、MathVista、MMMU等任務(wù)進(jìn)行多模態(tài)推理。在視頻理解中,研究團(tuán)隊(duì)從每個(gè)視頻片段中采樣了16個(gè)等距幀,用于理解和推理。在音頻理解方面,研究小組在各種基準(zhǔn)上評(píng)估了Gemini Nano-1和Gemini Pro模型,并與通用語(yǔ)言模型(USM)、Whisper和large-v3進(jìn)行了比較,并將不同的語(yǔ)言翻譯成英語(yǔ)。評(píng)測(cè)結(jié)果顯示,在所有ASR(自動(dòng)語(yǔ)言識(shí)別)和AST(自動(dòng)語(yǔ)音翻譯)任務(wù)中,Gemini Pro模型明顯優(yōu)于USM和Whisper模型。
相關(guān)影響 編輯本段
作為谷歌和全球發(fā)布的第一款多模態(tài)模型,Gemini模型是第一款在MMLU上性能超越人類(lèi)專家的模型。與此同時(shí),谷歌同步發(fā)布了最新版本的計(jì)算芯片TPU v5p,其性價(jià)比是上一代TPU v4的2.3倍。多模態(tài)Gemini模型的正式發(fā)布,不僅可以拓寬應(yīng)用場(chǎng)景,還可以帶來(lái)計(jì)算能力需求的不斷升級(jí)。皮查伊表示,人工智能將增強(qiáng)創(chuàng)造力,擴(kuò)展知識(shí),促進(jìn)科學(xué)發(fā)展,改變?nèi)驍?shù)十億人的生活和工作方式。
隨著AI創(chuàng)作工具相關(guān)技術(shù)迭代的不斷升級(jí),生產(chǎn)力將迎來(lái)更新迭代,AI技術(shù)與內(nèi)容創(chuàng)作的結(jié)合將進(jìn)入實(shí)質(zhì)性階段,因此內(nèi)容市場(chǎng)將進(jìn)入長(zhǎng)期繁榮趨勢(shì),產(chǎn)業(yè)鏈可能全面受益。同時(shí),Gemini的推出也對(duì)人工智能領(lǐng)域產(chǎn)生了影響。a股市場(chǎng),人工智能板塊早盤(pán)明顯獲得主力資金流入,凈流入超過(guò)11億元。
Gemini的發(fā)布也對(duì)芯片廠商造成了一定的影響。2023年12月7日凌晨,AMD CEO宣布推出Instinct MI300X AI加速芯片,并量產(chǎn)MI300A芯片。到12月6日美股收盤(pán)時(shí),AMD的股價(jià)已經(jīng)下跌了1.32%,英偉達(dá)的股價(jià)也下跌了2.28%。
相關(guān)爭(zhēng)議 編輯本段
濫用風(fēng)險(xiǎn):2023年7月,Anthropic首席執(zhí)行官阿莫迪和人工智能先驅(qū)Yoshua Bengio等人工智能專家表示,不受控制的人工智能發(fā)展將帶來(lái)嚴(yán)重的社會(huì)風(fēng)險(xiǎn)。阿迪莫說(shuō):“我特別擔(dān)心人工智能系統(tǒng)可能在網(wǎng)絡(luò)安全、核技術(shù)、化學(xué)尤其是生物領(lǐng)域被大規(guī)模濫用?!睂<覍?duì)Gemini功能的評(píng)價(jià)并不全面和穩(wěn)定。新墨西哥圣達(dá)菲研究所的人工智能研究員梅拉妮·米切爾(Melanie Mitchell)說(shuō):Gemini是一個(gè)復(fù)雜的人工智能系統(tǒng),但它的能力實(shí)際上并沒(méi)有明顯高于GPT-4,它在不同基準(zhǔn)上的表現(xiàn)也沒(méi)有那么穩(wěn)定。在語(yǔ)言和代碼上的表現(xiàn)遠(yuǎn)好于圖像和視頻,不符合多模態(tài)基本模型在很多任務(wù)中發(fā)揮普遍而強(qiáng)大作用的標(biāo)準(zhǔn)。斯坦福大學(xué)基本模型研究中心主任珀西·梁(Percy Liang)和華盛頓大學(xué)計(jì)算語(yǔ)言學(xué)教授艾米麗·本德(Emily Bender)表示:谷歌用來(lái)評(píng)估其預(yù)計(jì)用于這些不同目的的模型的基準(zhǔn)無(wú)法得到徹底評(píng)估。
造假糾紛:2023年12月8日,有外媒公開(kāi)質(zhì)疑Gemini“業(yè)績(jī)”造假。谷歌在線展示的Gemini可以像人一樣快速判斷圖片中的實(shí)物并進(jìn)行語(yǔ)音反饋,突出了令人驚嘆的多模態(tài)功能,但從實(shí)際情況來(lái)看,很難達(dá)到這樣的效果。Gemini負(fù)責(zé)人對(duì)此回應(yīng),否認(rèn)故意造假,稱只是為了簡(jiǎn)潔而縮短反應(yīng)時(shí)間,并承認(rèn)這段視頻并非實(shí)時(shí),而是使用了原鏡頭中的靜止圖像幀,然后寫(xiě)了文字提示。
2023年12月18日,微博大V@蘭和艾研究局自媒體爆發(fā)。在測(cè)試Google Gemini的時(shí)候,如果你用中文問(wèn)它的身份,它會(huì)堅(jiān)持說(shuō)是“百度”。如果輸入“小杜”或“蕭艾同學(xué)”等提示詞,可以直接喚醒Gemini,不僅承認(rèn)自己是小杜或蕭艾,還可以詢問(wèn)用戶需要什么幫助。12月20日,科技媒體Quantum Bit對(duì)Gemini進(jìn)行了測(cè)試。它在Google Vertex AI平臺(tái)上使用Gemini進(jìn)行中文對(duì)話,發(fā)現(xiàn)Gemini-Pro完全帶入了百度文心一言模型的身份,Gemini直接表明是百度語(yǔ)言模型。12月18日下午,界面新聞也對(duì)Gemini-Pro進(jìn)行類(lèi)似身份測(cè)試時(shí),發(fā)現(xiàn)其已經(jīng)優(yōu)化了型號(hào),不再承認(rèn)與百度有關(guān)。
人工智能圖像生成器引發(fā)爭(zhēng)議:AI模型Gemini有根據(jù)人物生成圖像的功能,但是有用戶發(fā)現(xiàn)這個(gè)功能生成的人物大部分不是白人,而是有色人種。這一功能被批評(píng)淡化了白人的代表性,并產(chǎn)生了歷史上不準(zhǔn)確的形象。2024年2月23日,谷歌高級(jí)副總裁普拉巴卡爾·拉加萬(wàn)(Prabhakar Raghavan)就用戶反饋在Gemini生成人物圖像時(shí)出現(xiàn)的問(wèn)題道歉。Raghavan說(shuō),“顯然,這個(gè)功能沒(méi)能達(dá)到預(yù)期的效果。一些生成的圖像不準(zhǔn)確,甚至令人不愉快。我們感謝用戶的反饋,并對(duì)該功能未能很好地發(fā)揮作用感到抱歉?!睂?duì)此,谷歌表示,正在采取讓Gemini暫時(shí)停止運(yùn)行生成人物形象功能的做法。
附件列表
詞條內(nèi)容僅供參考,如果您需要解決具體問(wèn)題
(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域?qū)I(yè)人士。