作者:Sundar Pichai
Google 和 Alphabet CEO
編者按:以下是 Sundar Pichai 在 2024 年 I/O 大會上講話編輯稿,經(jīng)過調(diào)整以包含更多在舞臺上宣布的內(nèi)容。
Google 已全面進(jìn)入 Gemini 時代。
在深入探討之前,我想先回顧一下我們所處的時刻。十多年來,我們一直在 AI 領(lǐng)域進(jìn)行投入,并在各個層面進(jìn)行創(chuàng)新:研究、產(chǎn)品、基礎(chǔ)設(shè)施,今天我們將對此進(jìn)行全面討論。
盡管如此,我們?nèi)蕴幱?AI 平臺轉(zhuǎn)型的初期。我們看到了為創(chuàng)作者、開發(fā)者、初創(chuàng)公司以及每一個人所帶來的巨大機(jī)遇。幫助推動這些機(jī)遇正是我們 Gemini 時代的意義所在。讓我們開始吧。
Gemini 時代
一年前,在 I/O 大會上,我們首次分享了 Gemini 的計(jì)劃:一個從一開始就構(gòu)建為原生多模態(tài)的前沿模型,能夠跨文本、圖像、視頻、代碼等多種數(shù)據(jù)類型進(jìn)行推理。它標(biāo)志著將任意輸入轉(zhuǎn)換成任意輸出的重要一步——新一代的“I/O”。
自那以來,我們推出了首批 Gemini 模型,這是我們迄今為止功能最強(qiáng)大的模型。它們在每個多模態(tài)基準(zhǔn)測試中都擁有卓越的表現(xiàn)。兩個月后,我們又推出了 Gemini 1.5 Pro,它在處理長上下文方面取得了重大突破,能夠穩(wěn)定地在生產(chǎn)環(huán)境中運(yùn)行 100 萬個令牌(Token),比目前任何其他大規(guī)模基礎(chǔ)模型都要多。
我們希望每個人都能從 Gemini 的功能中受益。因此,我們立即行動起來,與大家分享這些進(jìn)展。目前,超過 150 萬的開發(fā)者在使用我們各種工具中的 Gemini 模型。你們使用它來調(diào)試代碼、獲得新的見解并打造下一代的 AI 應(yīng)用。
我們也在不斷將 Gemini 的突破性功能以強(qiáng)大的方式整合到我們的產(chǎn)品中。今天,我們將展示搜索、Photos、Workspace 和 Android 等產(chǎn)品中的實(shí)例。
產(chǎn)品進(jìn)展
今天,我們所有擁有 20 億用戶的產(chǎn)品都在使用 Gemini。
我們還推出了全新的體驗(yàn),包括在移動設(shè)備上,人們現(xiàn)在可以通過 Android 和 iOS 上的應(yīng)用程序直接與 Gemini 互動, Gemini Advanced讓用戶還可以使用我們功能最強(qiáng)的模型。僅在三個月的時間里,已有超過一百萬人注冊試用,并且勢頭依然強(qiáng)勁。
在搜索中擴(kuò)展 AI Overviews
Gemini 帶來的最令人興奮的變革之一是在 Google 搜索中。
在過去的一年中,作為我們生成式搜索體驗(yàn)(Search Generative Experience)的一部分,我們已經(jīng)回答了數(shù)十億個搜索查詢。人們正在以全新的方式使用搜索,提出全新類型的問題,作出更長、更復(fù)雜的查詢,甚至是通過照片進(jìn)行搜索,并獲得網(wǎng)絡(luò)上的最佳信息。
我們一直在 Labs 之外對這種體驗(yàn)進(jìn)行測試。我們倍受鼓舞地看到,不僅搜索的使用量有所增加,用戶滿意度也得到了提升。
我很高興宣布,我們將于本周在美國向所有用戶推出這一全新改版的 AI Overviews 體驗(yàn)。我們很快也將把這項(xiàng)體驗(yàn)推廣到更多國家。
在搜索領(lǐng)域正發(fā)生著諸多創(chuàng)新。得益于 Gemini,我們能夠打造更為強(qiáng)大的搜索體驗(yàn),包括在我們的產(chǎn)品之中。
介紹 Ask Photos
Google Photos 就是一個例子,在大約九年前,我們發(fā)布了這款產(chǎn)品,自那以來,人們一直用它來整理最珍貴的回憶。如今,每天上傳的照片和視頻數(shù)量超過 60 億。
人們喜歡使用 Photos 來搜索他們生活中的點(diǎn)滴。借助 Gemini,我們讓這一切變得更加簡單。
假設(shè)你在停車場繳費(fèi)時,卻想不起自己的車牌號。以往,你需要在 Photos 中搜索關(guān)鍵詞,然后翻找多年積累的照片來尋找車牌。但現(xiàn)在,你只需直接詢問 Photos 即可。它能夠識別出經(jīng)常出現(xiàn)的車輛,通過多方信息交叉驗(yàn)證判斷出哪一輛是你的,并提供車牌號碼。
Ask Photos 還能夠幫助你以更深入的方式重溫回憶。例如,你可能正在回味女兒 Lucia 成長的早期重要時刻?,F(xiàn)在,你可以直接問 Photos:“Lucia 是什么時候?qū)W會游泳的?”
你甚至可以跟進(jìn)提出更復(fù)雜的問題:“向我展示 Lucia 的游泳技能是怎么進(jìn)步的?!?/p>
在這里,Gemini 不再只是進(jìn)行簡單的搜索,它會識別不同的上下文——從在游泳池中撲騰,到在海洋中浮潛,再到她游泳證書上的文字和日期。Photos 會將所有這些信息整合在一起形成一個總結(jié),讓你能夠全面了解,并再次重溫那些美妙的回憶。我們將在今年夏天推出 Ask Photos,并將持續(xù)增加更多功能。
通過多模態(tài)和長上下文解鎖更多知識
為了理解跨越不同格式的各種知識,我們從一開始就將Gemini 打造成多模態(tài)的。它是一個內(nèi)置了所有模態(tài)的模型。因此,它可以理解不同類型的輸入,并找到它們之間的聯(lián)系。
多模態(tài)從根本上擴(kuò)展了我們可以提出的問題以及我們將得到的答案。而長文本能力則使其更進(jìn)一步,讓我們能夠引入更多信息:數(shù)百頁文本、數(shù)小時音頻或一小時視頻、整個代碼存儲庫……或者,如果你愿意,大約 96 份芝士蛋糕工廠餐廳的菜單。
處理這么大量的菜單,你可能需要 100 萬令牌的上下文窗口,而現(xiàn)在通過 Gemini 1.5 Pro 就可以實(shí)現(xiàn)。開發(fā)者們就一直在以各種非常有趣的方式使用它。
在過去的幾個月里,我們已經(jīng)推出了具有長上下文能力的 Gemini 1.5 Pro的預(yù)覽版,我們還對翻譯、編碼和推理的質(zhì)量進(jìn)行了一系列改進(jìn)。從今天開始,你也將在模型中看到這些更新。
現(xiàn)在我很高興地宣布,我們將向全球所有開發(fā)者推出改進(jìn)版的 Gemini 1.5 Pro。此外,從今天開始,具有100 萬令牌上下文能力的 Gemini 1.5 Pro 也可供 Gemini Advanced 的消費(fèi)者直接使用,包含 35 種語言。
在非公開預(yù)覽版中擴(kuò)展到 200 萬令牌
100 萬令牌正在開辟全新的可能性。這已經(jīng)很振奮人心,但我認(rèn)為我們還可以更進(jìn)一步。
今天,我們將上下文窗口擴(kuò)展到 200 萬個令牌,并將其以非公開預(yù)覽版的方式提供給開發(fā)者們。
過去幾個月來我們所取得的進(jìn)展讓我非常激動,這代表著我們朝無限上下文的最終目標(biāo)又邁出了一步。
將 Gemini 1.5 Pro 應(yīng)用于 Workspace
到目前為止,我們已經(jīng)分享了兩項(xiàng)技術(shù)進(jìn)步:多模態(tài)和長上下文。他們各自已經(jīng)非常強(qiáng)大,但二者結(jié)合能夠釋放更深層次的能力和更多的智能。
這在 Google Workspace 中體現(xiàn)得更加淋漓盡致。
長期以來,人們總在 Gmail 中搜索他們的電子郵件。而現(xiàn)在我們正通過 Gemini 使其變得更加強(qiáng)大。例如,作為家長,你希望隨時了解孩子在學(xué)校發(fā)生的一切,Gemini 就可以幫助你!
現(xiàn)在,我們可以讓 Gemini 總結(jié)學(xué)校最近發(fā)來的所有電子郵件。在后臺,它可以識別相關(guān)電子郵件,甚至分析 PDF 等附件,你可以獲得一份包含關(guān)鍵要點(diǎn)和待辦事項(xiàng)的摘要。也許你本周正在旅途中,無法參加家長會議,而會議錄音長達(dá)一個小時。如果這份錄音來自于 Google Meet,你就可以讓 Gemini 為你提供重點(diǎn)內(nèi)容。倘若有個家長小組正在尋找志愿者,而你那天正好有空,那么當(dāng)然,Gemini 還可以幫助你起草回復(fù)郵件。
還有無數(shù)其他例子可以說明 Gemini 如何讓生活更輕松。今天起 Gemini 1.5 Pro 已經(jīng)應(yīng)用在 Workspace Labs 中。
NotebookLM 中的音頻輸出
我們剛剛看了一個文本輸出的例子,但通過多模態(tài)模型,我們可以做得更多。
我們在這方面已經(jīng)取得了進(jìn)展,未來還會有更多。NotebookLM 中的音頻概述(Audio Overview)就顯示了在這方面的進(jìn)展:它通過 Gemini 1.5 Pro,可以基于你的源文件生成個性化和交互式音頻對話。
這就是多模態(tài)帶來的可能性,很快你就能夠?qū)⑤斎牒洼敵鲞M(jìn)行混合和匹配,這就是我們所說的新一代 I/O的意思。但如果我們還能再進(jìn)一步呢?
使用 AI 智能體更進(jìn)一步
在這一方面更進(jìn)一步就是我們在 AI 智能體(AI Agents)上看到的機(jī)遇之一。我認(rèn)為它們是可以推理、規(guī)劃和記憶的智能系統(tǒng)。它們能夠提前多步”思考”,跨軟件和系統(tǒng)工作,所有這些都是為了幫助你完成任務(wù),而最重要的是要在你的監(jiān)督之下。
我們?nèi)蕴幱谠缙陔A段,但讓我向你展示一些我們正在努力解決的應(yīng)用案例的類型。
讓我們以購物為例。買鞋很有意思,但當(dāng)鞋子不合適需要退貨時就不那么有趣了。
想象一下,如果 Gemini 可以為你完成所有步驟:
在你的收件箱中搜索收據(jù)……
從你的電子郵件中找到訂單號……
填寫退貨表格……
甚至安排 UPS 取件。
那是不是容易多了?
讓我們再舉一個更復(fù)雜一些的例子。
假設(shè)你剛搬到芝加哥。想象一下 Gemini 和 Chrome 能夠共同協(xié)作幫助你做很多準(zhǔn)備工作——代替你組織、推理、綜合分析等。
比如,你想要探索這座城市并找到附近的服務(wù)——從干洗店到遛狗服務(wù),你還必須在數(shù)十個網(wǎng)站上更新你的新地址。
現(xiàn)在 Gemini 可以勝任這些工作,并在需要時提示你提供更多信息。這樣事情始終在你的掌控之中。
這部分非常重要——當(dāng)我們做這些體驗(yàn)的原型設(shè)計(jì)時,我們深思熟慮如何以一種私密、安全且對每個人都適用的方式來進(jìn)行。
這些都是簡單的應(yīng)用案例,但它們可以讓你很好地了解到,通過構(gòu)建能夠代表你去提前思考、推理和計(jì)劃的智能系統(tǒng),我們希望能夠解決的問題類型。
這對我們的使命意味著什么
Gemini 憑借其多模態(tài)、長上下文和智能體,使我們更接近我們的最終目標(biāo):讓 AI 助力每個人。
我們認(rèn)為,這是我們在達(dá)成使命方面取得最大進(jìn)展的方式:整合以各種方式輸入的全球信息,使其可以通過任何輸出方式被獲取,并將全球信息與你的世界中的信息結(jié)合起來,以一種真正對你有用的方式進(jìn)行呈現(xiàn)。
新的突破
為了充分發(fā)揮 AI 的潛力,我們需要開創(chuàng)新領(lǐng)域,谷歌 DeepMind 團(tuán)隊(duì)一直致力于此。
我們已經(jīng)收到了大家對 1.5 Pro 及其長上下文窗口的熱情反饋,但我們也從開發(fā)人員那里了解到,他們想要更快、更具成本效益。因此,明天,我們將推出 Gemini 1.5 Flash,一個為規(guī)?;瘶?gòu)建的更輕量級的模型,它針對以低延遲和成本為重的任務(wù)進(jìn)行了優(yōu)化。1.5 Flash 將于周二在 AI Studio 和 Vertex AI 中提供。
展望未來,我們始終希望構(gòu)建一個在日常生活中有用的通用智能體。Astra 項(xiàng)目展示了多模態(tài)理解和實(shí)時對話能力。
我們還在視頻和圖像生成方面取得了進(jìn)展,推出了 Veo 和 Imagen 3,并推出了 Gemma 2.0——我們?yōu)樨?fù)責(zé)任的 AI 創(chuàng)新打造的下一代開放模型。
AI 時代的基礎(chǔ)設(shè)施:介紹 Trillium
訓(xùn)練最先進(jìn)的模型需要大量的計(jì)算能力。過去六年中,行業(yè)對機(jī)器學(xué)習(xí)計(jì)算能力的需求增長了 100 萬倍。而且,每年都會以十倍的速度增長。
Google 在這方面具有優(yōu)勢。25 年來,我們一直在投資世界一流的技術(shù)基礎(chǔ)設(shè)施,從支持搜索的尖端硬件,到為我們的 AI 進(jìn)步提供支持的定制張量處理單元(tensor processing units)。
Gemini 完全在我們的第四代和第五代 TPU 上進(jìn)行訓(xùn)練和服務(wù)。包括 Anthropic 在內(nèi)的其他領(lǐng)先的 AI 公司也已經(jīng)在 TPU 上訓(xùn)練了他們的模型。
除了我們的 TPU,我們還推出 CPU 和 GPU 來支持任何工作負(fù)載。這包括我們上個月宣布的新型 Axion 處理器,我們的首款基于 Arm 定制的 CPU,可提供業(yè)界領(lǐng)先的性能和能效。
我們也很自豪成為首批提供 Nvidia 尖端 Blackwell GPU 的 Cloud 提供商之一,該 GPU 將于 2025 年初上市。我們很幸運(yùn)能與 NVIDIA 建立長期合作伙伴關(guān)系,并很高興能將 Blackwell 的突破性功能帶給我們的客戶。
芯片是我們集成端到端系統(tǒng)的基礎(chǔ)部分,從性能優(yōu)化的硬件和開放軟件到靈活的消費(fèi)模式。所有這些都匯集在我們的 AI 超級計(jì)算機(jī)( AI Hypercomputer)中,這是一種開創(chuàng)性的超級計(jì)算機(jī)架構(gòu)。
企業(yè)和開發(fā)者正在使用它來應(yīng)對更復(fù)雜的挑戰(zhàn),其效率是僅購買原始硬件和芯片的兩倍多。我們的 AI 超級計(jì)算機(jī)的進(jìn)步之所以成為可能,是因?yàn)槲覀冊跀?shù)據(jù)中心采用了液體冷卻的方法。
我們已經(jīng)這樣做近10年了,遠(yuǎn)早于它成為行業(yè)的先進(jìn)技術(shù)。如今,我們部署的液體冷卻系統(tǒng)總?cè)萘恳呀咏?1 吉瓦,并且還在不斷增長——這幾乎是任何其他團(tuán)隊(duì)的 70 倍。
這背后的基礎(chǔ)是我們龐大的網(wǎng)絡(luò)規(guī)模,它連接了我們?nèi)虻幕A(chǔ)設(shè)施。我們的網(wǎng)絡(luò)覆蓋了超過 200 萬英里的陸地和海底光纖:是緊隨之后的云服務(wù)提供商的 10 倍(?。┮陨?。
我們將繼續(xù)進(jìn)行必要的投資,以推進(jìn) AI 創(chuàng)新并提供最先進(jìn)的功能。
搜索最激動人心的篇章
我們最大的投資和創(chuàng)新領(lǐng)域之一是我們的創(chuàng)始產(chǎn)品——搜索。25 年前,我們創(chuàng)建了搜索,以幫助人們理解互聯(lián)網(wǎng)上洶涌的信息浪潮。
隨著每一次平臺的轉(zhuǎn)變,我們都在幫助更好地回答你的問題上取得了突破。在移動設(shè)備上,我們利用更好的上下文、位置感知和實(shí)時信息,解鎖了新型的問題和答案。隨著自然語言理解和計(jì)算機(jī)視覺技術(shù)的進(jìn)步,我們實(shí)現(xiàn)了新的搜索方式,可以用語音或哼唱來找到你最喜歡的新歌;或者用你在散步時看到的那朵花的圖像來進(jìn)行搜索?,F(xiàn)在,你甚至可以使用 Circle to Search 來搜索你可能想要購買的那些很酷的新鞋。去試試吧,反正你總能退貨!
當(dāng)然,Gemini 時代的搜索將把這一切提升到一個全新的水平,它將把我們的基礎(chǔ)設(shè)施優(yōu)勢、最新的 AI 功能、對信息質(zhì)量的高標(biāo)準(zhǔn)以及數(shù)十年來把你與豐富的網(wǎng)絡(luò)連接起來的經(jīng)驗(yàn)相結(jié)合。其結(jié)果將是一款為你工作的產(chǎn)品。
Google 搜索是生成式 AI,其規(guī)模足以滿足人類好奇心。這是我們迄今為止最激動人心的搜索篇章。
更智能的 Gemini 體驗(yàn)
Gemini 不僅僅是一個聊天機(jī)器人;它旨在成為你得力的私人助手,可以幫助你處理復(fù)雜的任務(wù)并代表你采取行動。
與 Gemini 的互動應(yīng)該是對話式的、直觀的。因此,我們宣布推出稱為 Live 的全新 Gemini 體驗(yàn),讓你可以使用語音與 Gemini 進(jìn)行深入對話。我們還會在今年晚些時候?qū)?Gemini Advanced 提升為 200 萬個令牌,以便能夠上傳和分析視頻和長代碼等超密集文件。
Android 上 的 Gemini
全球有數(shù)十億 Android 用戶,因此我們很高興能將 Gemini 更深入地融入用戶體驗(yàn)。作為你的全新 AI 助手,Gemini 可隨時隨地為你提供幫助。我們已將 Gemini 模型整合到 Android 中,包括我們最新的設(shè)備端模型:Gemini Nano 多模態(tài)模型 (Gemini Nano with Multimodality),它可以處理文本、圖像、音頻和語音,在保證存儲在設(shè)備上的信息私密性的同時解鎖新的體驗(yàn)。
我們負(fù)責(zé)任的 AI 方法
我們繼續(xù)大膽而振奮地把握住 AI 所帶來的機(jī)遇。同時,我們也在確保以負(fù)責(zé)任的方法行事。我們正在開發(fā)一種叫做 AI 輔助紅隊(duì)測試 (AI-assisted red teaming) 的尖端技術(shù),該技術(shù)利用了 Google DeepMind 在 AlphaGo 等游戲方面的突破以改進(jìn)我們的模型。此外,我們也已將 SynthID 水印工具擴(kuò)展到文本和視頻兩種新的模態(tài),因此更容易識別 AI 生成的內(nèi)容。
共同創(chuàng)造未來
所有這些都表明了我們在以大膽而負(fù)責(zé)任的方法,讓 AI 助力每個人方面取得的重要進(jìn)展。
很長一段時間以來,我們一直采用 AI 為先的方法。我們數(shù)十年的研究領(lǐng)導(dǎo)者地位開創(chuàng)了許多現(xiàn)代突破,為我們和整個行業(yè)的 AI 進(jìn)步提供了動力。最重要的是,我們擁有:
專為 AI 時代打造的世界領(lǐng)先基礎(chǔ)設(shè)施
現(xiàn)在由 Gemini 提供支持的搜索領(lǐng)域的尖端創(chuàng)新
在極大規(guī)模上提供幫助的產(chǎn)品——包括 15 款擁有 5 億用戶的產(chǎn)品
讓每個人——合作伙伴、客戶、創(chuàng)作者以及所有人——都能創(chuàng)造未來的平臺。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )