首個(gè)AI程序員,演示視頻大幅度造假???
不久之前震撼硅谷的Devin,再度震撼硅谷——但這次是被打假。
事情是這樣的:油管程序員博主Internet of Bugs(以下簡(jiǎn)稱光頭哥)對(duì)Devin的視頻進(jìn)行了逐幀分析,逐一舉證說(shuō)明了Devin并不如演示中那般神奇。
甚至有“自己現(xiàn)寫bug然后當(dāng)場(chǎng)修復(fù)”的騷操作。
其它“罪證”,包括但不限于:
- 號(hào)稱能解決任何Upwork任務(wù),但演示中解決的問(wèn)題并不是prompt要解決的那一個(gè),做無(wú)用功;
- 看起來(lái)在修復(fù)bug,實(shí)際上修復(fù)的bug人類程序員根本就不會(huì)犯;
- 沒(méi)有意識(shí)到簡(jiǎn)單兩步就能解決問(wèn)題,花里胡哨一頓操作,其實(shí)是自己把任務(wù)搞復(fù)雜了;
- 修改代碼的水平一言難盡。
此外,光頭哥花了半個(gè)多小時(shí),把Devin演示視頻中的upwork任務(wù)完成了一遍——而Devin完成任務(wù)可能用時(shí)6個(gè)多小時(shí)。
啊這這這,真是好、大、一、口、瓜!
要知道,其背后公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當(dāng)月宣布成功融資2100萬(wàn)美金。
推特和YC上已經(jīng)吵翻天了,讓這件事的討論度高居不下。
我請(qǐng)問(wèn)呢?真的很討厭演示造假,讓demo看起來(lái)輕松達(dá)到意料之外的技術(shù)進(jìn)步。
還有人表示自己很受傷,再也不會(huì)相信各種冒出來(lái)的創(chuàng)業(yè)公司的東西了。
emmmm……我還是把期待值全部留給OpenAI、Anthropic、DeepMind、FAIR這些公司和機(jī)構(gòu)吧。
完整詳情,一起接著往下看。
35年從業(yè)者逐幀驗(yàn)證
此次出來(lái)聲張正義的光頭哥,從事軟件行業(yè)已經(jīng)35年。他首先聲明自己的立場(chǎng):我并不反對(duì)高科技,但我確實(shí)反對(duì)過(guò)度炒作。
他自己也經(jīng)常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。
事實(shí)上,在Devin剛推出時(shí)候,他就反對(duì)過(guò)“世界上第一個(gè)AI軟件工程師”這一說(shuō)法。
此次則主要針對(duì)的是一些更為具體的說(shuō)法。
比如之前Devin號(hào)稱能夠靠處理upwork任務(wù)來(lái)賺錢的。但在真正的演示中Devin并沒(méi)有做到這一點(diǎn)。
不信?沒(méi)關(guān)系,光頭哥帶著逐幀的證據(jù)來(lái)了。
總結(jié)如下:
- Devin所處理的任務(wù)并非隨機(jī),而是精心挑選;
- 與客戶實(shí)際需求有很大的出入;
- 實(shí)際操作過(guò)程,數(shù)次自己創(chuàng)造bug然后再修復(fù);
- 很多毫無(wú)意義的操作,相當(dāng)于幾十年前在C語(yǔ)言中才用的方法;
- ???
首先,來(lái)到了演示視頻的2.936秒處,在屏幕左上角有顯示他們搜索過(guò)這個(gè)內(nèi)容。因此,這不是所謂“隨機(jī)”選擇的任務(wù)。
