編輯時間	歷史版本	內(nèi)容長度	圖片數(shù)	目錄數(shù)	修改原因
2024-05-06 10:16	最新歷史版本	9190	1	5

返回詞條

Gemini

Gemini是谷歌開發(fā)的人工智能AI模型。2023年12月6日，該機型推出Gemini1.0版本，包括GeminiUltra、GeminiPro、GeminiNano三種不同規(guī)格。谷歌在2023年4月啟動了OpenAI的研究計劃，并合并了兩個大型人工智能團隊。2023年8月，谷歌將生成式人工智能引入其面向印度和日本用戶的搜索工具，并于同年9月向少數(shù)公司開放了其交互式人工智能軟件Gemini的早期版本。2023年12月6日，谷歌正式推出Gemini1.0，包括GeminiUltar、GeminiPro、GeminiNano三種不同規(guī)格。

Gemini內(nèi)置了Google自主研發(fā)的AI超級計算機芯片Cloud TPU V5P，這是首款在MMLU基準(zhǔn)測試上優(yōu)于人類專家的模型?；趶臒o到有構(gòu)建的多模型，可同時識別文本、圖像、音頻、視頻、代碼等五類信息，理解并生成流行編程語言(如Python、Java、C++)的高質(zhì)量代碼，具有全面的安全評估。

2023年12月13日開始，開發(fā)者和企業(yè)用戶可以通過Google AI Studio或Google Cloud Vertex AI中的Gemini API獲取Gemini Pro。Gemini還會應(yīng)用到谷歌更多產(chǎn)品和服務(wù)中，如搜索、廣告、Chrome和Duet AI。

2024年2月15日，谷歌發(fā)布Gemini1.5版本。

發(fā)展歷史

2023年4月，Alphabet(谷歌母公司)首席執(zhí)行官桑達爾·皮查(Sandahl Pichat)合并了兩個大型人工智能團隊，啟動了OpenAI項目。2023年5月，谷歌在開發(fā)者大會上透露，正在開發(fā)大AI模型Gemini。2023年8月，谷歌將生成式人工智能引入其面向印度和日本用戶的搜索工具，該工具將以暗示性語言和摘要的形式顯示文本或視覺結(jié)果。同時，它還以每個用戶每月30美元的價格向企業(yè)客戶提供其人工智能工具。2023年9月15日，The Information報道稱，谷歌已經(jīng)向少數(shù)公司開放了其交互式人工智能軟件Gemini的早期版本。2023年11月16日，谷歌表示將推遲發(fā)布AI模型Gemini。

2023年12月6日，Gemini的初始版本在谷歌的聊天機器人Bard推出。同時優(yōu)化推出了Gemini1.0版本，包含Gemini Ultar、Gemini Pro、Gemini Nano三個不同規(guī)格的套件。Gemini是一種新的AI模型，可以處理文本、圖像和視頻，它內(nèi)置了谷歌自研的AI超級計算機芯片CloudTPU V5 P. Demis Hassabls說:“Gemini是谷歌團隊大規(guī)模協(xié)作的結(jié)果。它是從零開始構(gòu)建的多模型，這意味著它可以總結(jié)并無縫理解、操縱和組合不同類型的信息，包括文本、代碼、音頻、圖像和視頻?！贝送?，Pixel引入了Gemini，搭載了Gemini Nano的Pixel 8 Pro，在“記錄器”應(yīng)用中支持“摘要”等新功能，在Gboard中引入了“智能回復(fù)”功能。Gemini是第一個在MMLU(大規(guī)模多任務(wù)語言理解)方面優(yōu)于人類專家的模型。

2024年2月15日，谷歌發(fā)布Gemini1.5。Gemini 1.5中的第一個多模態(tài)通用模型Gemini 1.5 Pro，可以將穩(wěn)定處理上下文的上限擴展到100萬個tokens，在Kalamang到英語的翻譯測試中是最好的模型。

功能服務(wù)

復(fù)雜推理能力：Gemini1.0具有復(fù)雜多模態(tài)推理能力，可以幫助理解復(fù)雜的書面和視覺信息，可以在海量數(shù)據(jù)中發(fā)現(xiàn)難以分辨的知識。在學(xué)習(xí)上，它能更好地理解微妙的信息，回答與復(fù)雜話題相關(guān)的內(nèi)容，從而能夠?qū)?shù)學(xué)、物理等復(fù)雜學(xué)科進行推理。Gemini1.0具備通過閱讀、過濾、理解信息，從數(shù)十萬文檔中提取知識的能力，有助于在科學(xué)、金融等諸多領(lǐng)域取得新突破。

認識和理解：Gemini1.0采用Transformer架構(gòu)和高效的注意力機制，可以識別和理解文本、圖像、音頻等。同時。它能充分理解輸入中的信息細節(jié)并生成任務(wù)。在圖像參考方面，Gemini Ultra可以在不借助對象字符識別(OCR)系統(tǒng)的情況下從圖像中提取文本。在視頻理解方面，Gemini模型是通過將視頻編碼成大上下文窗口中的一系列幀來完成的。視頻幀或圖形可以自然地與文本或音頻交織在一起，并且可以處理可變的輸入分辨率。作為Gemini中最強大的規(guī)范，Gemini Ultra在MMLU(大規(guī)模多任務(wù)語言理解數(shù)據(jù)集)中的評分高達90.0%，首次超過人類專家。MMLU數(shù)據(jù)集包含數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)、倫理學(xué)等57個學(xué)科。Gemini Ultra結(jié)合考慮模型不確定性的思維鏈提示方法，生成包含k個樣本的思維鏈。如果有高于預(yù)設(shè)閾值的共識，則選擇這個答案，否則將返回到基于無思維鏈的最大似然選擇的樣本。

高級編碼能力：Gemini可以理解、解釋和生成流行編程語言(如Python、Java、C++和Go)的高質(zhì)量代碼，可以跨語言工作和推理復(fù)雜信息，也可以作為高級編碼系統(tǒng)的引擎。比如AlphaCode團隊打造的AlphaCode2，將Gemini座的推理能力與搜索、工具使用相結(jié)合，解決競爭性編程問題。在Codeforces的競技編程平臺上，AlphaCode 2排名進入者前15%。

安全功能：Gemini有全面的安全評估，包括偏差和病毒。Google應(yīng)用Google Research的對抗性測試技術(shù)，根據(jù)Google AI原理和嚴(yán)格的產(chǎn)品安全政策添加新的保護措施，綜合考慮潛在風(fēng)險，在開發(fā)的每個階段都進行測試和風(fēng)險降低。此外，谷歌還與外部專家合作進行壓力測試，以確保內(nèi)容的安全性，并建立了專門的安全分類器來識別和過濾有害內(nèi)容，以確保Gemini更加安全和包容。此外，Gemini Nano可以在使用特殊芯片的終端設(shè)備上運行，這種模式也可以在沒有網(wǎng)絡(luò)連接的情況下使用，不會造成個人數(shù)據(jù)的丟失。例如，Pixel 8 Pro在錄音機應(yīng)用中使用Gemini Nano來總結(jié)會議音頻，即使沒有網(wǎng)絡(luò)連接。

關(guān)鍵技術(shù)

Gemini最大的亮點之一是獨創(chuàng)的多模態(tài)大模型，從一開始就對不同的模態(tài)進行預(yù)訓(xùn)練，并使用額外的多模態(tài)數(shù)據(jù)進行微調(diào)，以提高其有效性。Gemini1.0系列內(nèi)置自研AI超級計算機芯片云TPU v5p，這是谷歌為神經(jīng)網(wǎng)絡(luò)設(shè)計的專用芯片。優(yōu)化后可以加快機器學(xué)習(xí)模型的訓(xùn)練和推理。與TPU v4相比，TPU v5p的浮點運算性能提高了2倍，高帶寬內(nèi)存提高了3倍。TPU v5p可提供459萬億次浮點運算(每秒執(zhí)行459萬億次浮點運算)的bfloat16(16位浮點數(shù)格式)性能或918萬億次浮點運算(每秒執(zhí)行918萬億次整數(shù)運算)的Int8(執(zhí)行8位整數(shù)運算)性能，支持95GB高帶寬內(nèi)存，可以2.76 TB/s的速度傳輸數(shù)據(jù)

模特培訓(xùn)：Gemini模型建立在Transfomer解碼器上，這些解碼器通過架構(gòu)的改進和模型優(yōu)化得到增強，從而在Google的張量處理單元上實現(xiàn)大規(guī)模穩(wěn)定訓(xùn)練和優(yōu)化推理。它們被訓(xùn)練成支持32k的上下文長度并采用有效的注意機制。R&D團隊使用TPUv5e和TPUv4來訓(xùn)練Gemini模型。TPU是谷歌為神經(jīng)網(wǎng)絡(luò)設(shè)計的專用芯片，經(jīng)過優(yōu)化后可以加快機器學(xué)習(xí)模型的訓(xùn)練和推理速度。TPUv4加速器部署在4096芯片“SuperPods”中，每個芯片都連接到一個專用的光開關(guān)，4×4×4芯片立方體可以在大約10秒內(nèi)動態(tài)重新配置為任何3D環(huán)形拓撲。

Gemini接受了多模態(tài)和多語言數(shù)據(jù)集的訓(xùn)練。預(yù)訓(xùn)練數(shù)據(jù)集使用來自網(wǎng)絡(luò)文檔、書籍和代碼的數(shù)據(jù)，包括圖像、音頻和視頻數(shù)據(jù)。使用句子標(biāo)記來提高推理詞匯。R&D團隊使用啟發(fā)式規(guī)則和基于模型的分類器對所有數(shù)據(jù)集應(yīng)用質(zhì)量過濾器，并執(zhí)行安全過濾以消除有害內(nèi)容。為了實現(xiàn)高效的模型訓(xùn)練，Gemini使用了冗余內(nèi)存復(fù)制和快速故障恢復(fù)機制。這提高了總吞吐量并縮短了訓(xùn)練時間。在開發(fā)過程中遵循負責(zé)任的部署原則，通過影響評估、模型策略制定、評估和風(fēng)險緩解來降低潛在的負面影響。

模型評估

文本：在文本方面，R&D團隊將Gemini Pro和Gemini Ultra與一組外部大規(guī)模語言模型和谷歌推出的多模態(tài)模型PaLM2在一系列基于文本的學(xué)術(shù)基準(zhǔn)上進行比較，涵蓋推理、閱讀理解、Stem和編碼，并做出了報告。報告分別展示了Gemini Pro和Gemini Ultra在MMLU、編碼和數(shù)學(xué)運算方面的數(shù)據(jù)。得出結(jié)論，GeminiPro的性能優(yōu)于GPT-3.5等推理優(yōu)化模型，而GeminiUltra優(yōu)于目前所有模型。

多路模式：在圖像理解方面，研究小組在四個不同的功能中評估了Gemini模型:使用字幕或問答任務(wù)的高級對象識別(如vqa v2)；使用TextVQA和DocVQA等任務(wù)進行細粒度轉(zhuǎn)錄；圖表理解需要使用ChartQA和InfographicVQA任務(wù)在空間上理解輸入布局；并使用Ai2D、MathVista、MMMU等任務(wù)進行多模態(tài)推理。在視頻理解中，研究團隊從每個視頻片段中采樣了16個等距幀，用于理解和推理。在音頻理解方面，研究小組在各種基準(zhǔn)上評估了Gemini Nano-1和Gemini Pro模型，并與通用語言模型(USM)、Whisper和large-v3進行了比較，并將不同的語言翻譯成英語。評測結(jié)果顯示，在所有ASR(自動語言識別)和AST(自動語音翻譯)任務(wù)中，Gemini Pro模型明顯優(yōu)于USM和Whisper模型。

相關(guān)爭議

濫用風(fēng)險：2023年7月，Anthropic首席執(zhí)行官阿莫迪和人工智能先驅(qū)Yoshua Bengio等人工智能專家表示，不受控制的人工智能發(fā)展將帶來嚴(yán)重的社會風(fēng)險。阿迪莫說:“我特別擔(dān)心人工智能系統(tǒng)可能在網(wǎng)絡(luò)安全、核技術(shù)、化學(xué)尤其是生物領(lǐng)域被大規(guī)模濫用?！睂＜覍emini功能的評價并不全面和穩(wěn)定。新墨西哥圣達菲研究所的人工智能研究員梅拉妮·米切爾(Melanie Mitchell)說:Gemini是一個復(fù)雜的人工智能系統(tǒng)，但它的能力實際上并沒有明顯高于GPT-4，它在不同基準(zhǔn)上的表現(xiàn)也沒有那么穩(wěn)定。在語言和代碼上的表現(xiàn)遠好于圖像和視頻，不符合多模態(tài)基本模型在很多任務(wù)中發(fā)揮普遍而強大作用的標(biāo)準(zhǔn)。斯坦福大學(xué)基本模型研究中心主任珀西·梁(Percy Liang)和華盛頓大學(xué)計算語言學(xué)教授艾米麗·本德(Emily Bender)表示:谷歌用來評估其預(yù)計用于這些不同目的的模型的基準(zhǔn)無法得到徹底評估。

造假糾紛：2023年12月8日，有外媒公開質(zhì)疑Gemini“業(yè)績”造假。谷歌在線展示的Gemini可以像人一樣快速判斷圖片中的實物并進行語音反饋，突出了令人驚嘆的多模態(tài)功能，但從實際情況來看，很難達到這樣的效果。Gemini負責(zé)人對此回應(yīng)，否認故意造假，稱只是為了簡潔而縮短反應(yīng)時間，并承認這段視頻并非實時，而是使用了原鏡頭中的靜止圖像幀，然后寫了文字提示。

Gemini

2023年12月18日，微博大V@蘭和艾研究局自媒體爆發(fā)。在測試Google Gemini的時候，如果你用中文問它的身份，它會堅持說是“百度”。如果輸入“小杜”或“蕭艾同學(xué)”等提示詞，可以直接喚醒Gemini，不僅承認自己是小杜或蕭艾，還可以詢問用戶需要什么幫助。12月20日，科技媒體Quantum Bit對Gemini進行了測試。它在Google Vertex AI平臺上使用Gemini進行中文對話，發(fā)現(xiàn)Gemini-Pro完全帶入了百度文心一言模型的身份，Gemini直接表明是百度語言模型。12月18日下午，界面新聞也對Gemini-Pro進行類似身份測試時，發(fā)現(xiàn)其已經(jīng)優(yōu)化了型號，不再承認與百度有關(guān)。

人工智能圖像生成器引發(fā)爭議：AI模型Gemini有根據(jù)人物生成圖像的功能，但是有用戶發(fā)現(xiàn)這個功能生成的人物大部分不是白人，而是有色人種。這一功能被批評淡化了白人的代表性，并產(chǎn)生了歷史上不準(zhǔn)確的形象。2024年2月23日，谷歌高級副總裁普拉巴卡爾·拉加萬(Prabhakar Raghavan)就用戶反饋在Gemini生成人物圖像時出現(xiàn)的問題道歉。Raghavan說，“顯然，這個功能沒能達到預(yù)期的效果。一些生成的圖像不準(zhǔn)確，甚至令人不愉快。我們感謝用戶的反饋，并對該功能未能很好地發(fā)揮作用感到抱歉?！睂Υ?，谷歌表示，正在采取讓Gemini暫時停止運行生成人物形象功能的做法。

国产内射大片99,欧美丰满熟妇xxxx,bt天堂在线www中文,男人扒开女人的腿做爽爽视频,亚洲av影院一区二区三区