3月25日消息,OpenAI創(chuàng)始人兼CEO薩姆·阿爾特曼直播發(fā)布了GPT-4o圖像生成功能,作為多模態(tài)模型的GPT-4o補(bǔ)齊了圖片生成這一重要拼圖。
GPT-4o圖像生成可以遵循指令生成更準(zhǔn)確的圖像,OpenAI還為其掛載了固有知識(shí)庫,可以根據(jù)知識(shí)庫或上下文幫用戶生成、編輯圖像。
今天起,GPT-4o圖像生成已經(jīng)作為ChatGPT中的默認(rèn)圖像生成器向Plus、Pro、Team和免費(fèi)用戶陸續(xù)推出。
現(xiàn)在,打開ChatGPT,即可嘗試這些能力,但普通用戶每天僅有3次體驗(yàn)機(jī)會(huì)。
開發(fā)者通過API使用GPT-4o生成圖像的權(quán)限,將在未來幾周內(nèi)推出。
從OpenAI官方展示和演示的示例來看:
GPT-4o圖片生成對(duì)文字的處理能力很高,可以100%還原文字內(nèi)容,且指定文字?jǐn)[放位置,還能像連續(xù)劇一樣,一邊準(zhǔn)確生成文字,一邊變換人物動(dòng)作。
GPT-4o的圖像可以遵循詳細(xì)的提示,如處理多達(dá)10-20個(gè)不同的對(duì)象。
另外,GPT-4o在生成真實(shí)圖像方面也表現(xiàn)出色。
同時(shí),官方也主動(dòng)表示:“我們的模型并不完美。我們意識(shí)到目前存在多種局限性,我們將在首次發(fā)布后通過模型改進(jìn)來解決這些局限性。”
目前GPT-4o圖像生成還存在幻覺;裁剪不當(dāng);難以呈現(xiàn)非拉丁語言、字符可能不準(zhǔn)確;編輯圖像生成的特定部分(如拼寫錯(cuò)誤)的請(qǐng)求并不總是有效的,也可能以未請(qǐng)求的方式更改圖像的其他部分或引入更多錯(cuò)誤;
另外,GPT-4o模型難以保持用戶上傳的人臉編輯的一致性,但預(yù)計(jì)這將在一周內(nèi)得到修復(fù)。
如果把同樣的需求指令輸入給目前國(guó)內(nèi)的文生圖APP們,它們的表現(xiàn)相比GPT-4o又如何呢?
先看看幾個(gè)GPT-4o圖像生成展示示例:
示例1:圖片中對(duì)文字的處理能力
在ChatGPT 輸入以下文字(中文內(nèi)容為TechWeb翻譯補(bǔ)充內(nèi)容):
A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer’s reflection.
(在俯瞰海灣大橋的房間里,用手機(jī)拍攝了一張玻璃白板的大幅照片。視野中,一位女性正在寫字,她穿著一件印有大型OpenAI標(biāo)志的T恤。筆跡看起來很自然,有點(diǎn)凌亂,我們看到了攝影師的倒影。)
The text reads:
(Left)(左邊白板顯示以下內(nèi)容)
“Transfer between Modalities:
Suppose we directly model
p(text, pixels, sound) [equation]
with one big autoregressive transformer.
Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack
Cons:
* varying bit-rate across modalities
* compute not adaptive”
(Right)(右邊白板顯示一下內(nèi)容))
“Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder”
On the bottom right of the board, she draws a diagram:(在白板的右下角,她畫了一張圖:)
“tokens -> [transformer] -> [diffusion] -> pixels”
最終,如下圖,GPT-4o生成的圖片中,白板上展示的文字內(nèi)容完全準(zhǔn)確!
還能像連續(xù)劇一樣,一邊準(zhǔn)確生成文字,一邊變換人物動(dòng)作。
在ChatGPT 輸入以下指令:selfie view of the photographer, as she turns around to high five him(攝影師轉(zhuǎn)過身來向他擊掌時(shí)的自拍照)
GPT-4o生成的圖片中,第一張白板中的男人倒影和第二張圖也對(duì)應(yīng)上了。
示例2、讓GPT-4o生成菜單,提示詞中除了需要包含的菜品、價(jià)格及簡(jiǎn)介外,還需要生成的圖像中包含這家餐廳的名稱、主要亮點(diǎn)以及菜單風(fēng)格。
在ChatGPT 輸入以下指令:
I'm opening a traditional concept restaurant in Marin called Haein. It focuses on Korean food cooked with organic, farm-fresh ingredients, with a rotating menu based on what's seasonal. I want you to design an image - a menu incorporating the following menu items - lean into the traditional/rustic style while keeping it feeling upscale and sleek. Please also include illustrations of each dish in an elegant, peter rabbit style. Make sure all the text is rendered correctly, with a white background.
(Top)
Doenjang Jjigae (Fermented Soybean Stew) – $18 House-made doenjang with local mushrooms, tofu, and seasonal vegetables served with rice.
Galbi Jjim (Braised Short Ribs) – $34 Slow-braised local grass-fed beef ribs with pear and black garlic glaze, seasonal root vegetables, and jujube.
Grilled Seasonal Fish – Market Price ($22-$30) Whole or fillet of local, sustainable fish grilled over charcoal, served with perilla leaf ssam and house-made sauces.
Bibimbap – $19 Heirloom rice with a rotating selection of farm-fresh vegetables, house-fermented gochujang, and pasture-raised egg.
Bossam (Heritage Pork Wraps) – $28 Slow-cooked pork belly with napa cabbage wraps, oyster kimchi, perilla, and seasonal condiments.
(Bottom) Dessert & Drinks Seasonal Makgeolli (Rice Wine) – $12/glass
Rotating flavors based on seasonal fruits and flowers (persimmon, citrus, elderflower, etc.).
Hoddeok (Korean Sweet Pancake) – $9 Pan-fried cinnamon-stuffed pancake with black sesame ice cream.
(我要在馬林開一家名為Haein的傳統(tǒng)概念餐廳。它專注于用有機(jī)農(nóng)場(chǎng)新鮮食材烹制的韓國(guó)食物,并根據(jù)季節(jié)輪換菜單。我希望你設(shè)計(jì)一個(gè)形象——一個(gè)包含以下菜單項(xiàng)的菜單——融入傳統(tǒng)/鄉(xiāng)村風(fēng)格,同時(shí)保持高檔和時(shí)尚的感覺。請(qǐng)以優(yōu)雅的彼得兔風(fēng)格附上每道菜的插圖。確保所有文本都以白色背景正確呈現(xiàn)。
(頂部)
Doenjang Jjigae(發(fā)酵大豆燉菜)-18美元自制的Doenjiang,配以當(dāng)?shù)啬⒐?、豆腐和時(shí)令蔬菜,配以米飯。
Galbi Jjim(紅燒排骨)——34美元慢燉當(dāng)?shù)夭蒿暸@吖?,配梨和黑蒜醬、時(shí)令根菜和紅棗。
烤時(shí)令魚——市場(chǎng)價(jià)格(22-30美元)整條魚或魚片,用木炭烤,配紫蘇葉和自制醬汁。
Bibimbap——19美元的傳家寶米,搭配農(nóng)場(chǎng)新鮮蔬菜、家庭發(fā)酵的gochujang和牧場(chǎng)飼養(yǎng)的雞蛋。
Bossam(傳統(tǒng)豬肉卷)——28美元慢燉五花肉,配納帕卷心菜卷、牡蠣泡菜、紫蘇和時(shí)令調(diào)味品。
(底部)時(shí)令Makgeolli(米酒)甜點(diǎn)和飲料–12美元/杯
以時(shí)令水果和花卉(柿子、柑橘、接骨木花等)為基礎(chǔ)的旋轉(zhuǎn)口味。
Hoddeok(韓國(guó)甜煎餅)-9美元的煎肉桂餡煎餅配黑芝麻冰淇淋。)
GPT-4o生成的菜單如下:
示例3、看看GPT-4o的圖像可遵循詳細(xì)的提示,處理多達(dá)10-20個(gè)不同的對(duì)象的實(shí)力。
在ChatGPT 輸入以下指令:
A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here’s the list:
1. a blue star
2. red triangle
3. green square
4. pink circle
5. orange hourglass
6. purple infinity sign
7. black and white polka dot bowtie
8. tiedye “42”
9. an orange cat wearing a black baseball cap
10. a map with a treasure chest
11. a pair of googly eyes
12. a thumbs up emoji
13. a pair of scissors
14. a blue and white giraffe
15. the word “OpenAI” written in cursive
16. a rainbow-colored lightning bolt
(一個(gè)正方形圖像,包含一個(gè)4行乘4列的網(wǎng)格,在白色背景上包含16個(gè)對(duì)象。從左到右,從上到下。以下是列表:
1.一顆藍(lán)色的星星
2.紅色三角形
3.綠色廣場(chǎng)
4.粉紅色圓圈
5.橙色沙漏
6.紫色無限標(biāo)志
7.黑白圓點(diǎn)領(lǐng)結(jié)
8.扎染“42”
9.一只戴著黑色棒球帽的橙色貓
10.帶寶箱的地圖
11.一雙黏糊糊的眼睛
12.豎起大拇指的表情符號(hào)
13.一把剪刀
14.一只藍(lán)白相間的長(zhǎng)頸鹿
15.用草書書寫的單詞“OpenAI”
16.彩虹色的閃電)
GPT-4o生成的圖片如下:
最后,如果把上面這些指令輸入給目前國(guó)內(nèi)的文生圖APP們,它們的表現(xiàn)又如何呢?
這里,我們用示例3的指令,分別測(cè)試了文心一言(文心大模型4.5)、豆包APP。
文心一言(文心大模型4.5)生成的4張圖片之一
豆包生成的4張圖片之一
目前看來,還是有些差距。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )