ChatGPT最新測評發佈,超半數美國人無法區分人類寫作與機器寫作

ChatGPT最新測評發佈,超半數美國人無法區分人類寫作與機器寫作
人工智能的進化,會在未來取代人嗎?

近日,國外一家統計網站Tooltester(工具測評者)發佈了針對ChatGPT使用情況的最新調查報告。該調查分兩次進行,首次測評於2023年2月下旬開展,面向1920名ChatGPT的美國使用者,羅列了75段分別由真人寫作、機器寫作,以及機器寫作結合真人編輯的內容,以問卷形式請受試者識別。在GPT-4推出後,補充徵集了1394人進行二輪調查。結果表明,聊天機器人的迭代速度明顯超出了普通大眾的預估,多數使用者對機器寫作內容的複雜程度瞭解有限,難以區分哪些網絡內容是由真人編寫。

在內容識別方面,超過53.1%的受試者無法準確從文本中挑出機器寫作段落。而當GPT-4發佈後,這一比例甚至升至63.5%。即便是對AI類工具更熟悉的受試者,能夠作出正確判斷的人也僅佔48%。而就年齡段而言,介於18-24歲之間的年輕人更容易被機器寫作“欺騙”,他們中有59.8%的人無法作出正確判斷,儘管他們可能在日常生活中更頻繁地接觸到這類內容。有趣的是,在所有年齡段中,65歲以上老年人能夠正確識別機器寫作的比例是最高的(52%)


圖源:Tooltester官網。

在內容領域上,機器寫作是否更擅長編寫特定主題內容?結果顯示,AI聊天機器人更善於撰寫健康類和旅行類內容,或者說人們更容易錯將機器寫作的這類文章誤認為是真人所寫。當不少受試者面對諸如撲熱息痛的副作用、健身計劃的制定、租車技巧,以及酒店省錢攻略這些AI生成文本時,他們傾向於認為這是真人寫的。報告稱,這意味著AI生成的健康、旅行類“小貼士”似乎要比真人寫的還更加人性化。

值得注意的是,反而是技術類文章更容易識別。51%的受試者能夠區分哪些“技術貼”是AI生成的,且這方面,女性受試者表現略優於男性(52.4%對49.9%)。綜合上述內容領域數據顯示,調查團隊提示稱,這可能也透露出一個危險難料的趨勢,我們正在走向一個人工智能深度融入生活世界的未來,包括醫療保健。

此外,該調查還詢問了受試者對機器內容的看法和信任程度。80%以上的受試者支持制定機器寫作的相關規範條例。71.3%的受試者稱,如果內容提供方,如商家、出版社等在未作說明的情況下發布AI生成內容,這會大大降低他們對品牌本身的信任度。總體而言,人們還是傾向於內容提供方能夠主動標識內容生產方式,這是否會成為未來互聯網世界的常態仍有待觀察。

自2022年11月30日,知名人工智能研究實驗室OpenAI發佈ChatGPT以來,人工智能話題多次引發廣泛討論。這項能夠理解上下文語境、學習人類語言進行對話,並完成郵件撰寫、主題創作等任務的聊天機器人在短短几天便吸引上百萬用戶註冊。今年3月,GPT-4的發佈持續衝擊著公眾的既有認知。這份調查報告再度印證了一個基本現狀,目前我們的確難以區分人類寫作與機器寫作。

參考鏈接:

1. Survey: ChatGPT and AI Content. Can people tell the difference?

https://www.tooltester.com/en/blog/chatgpt-survey-can-people-tell-the-difference/#Younger_people_struggle_more_with_identifying_AI_content

2. Half of Americans can’t pick phony AI writing from human writing.

https://lithub.com/half-of-americans-cant-pick-phony-ai-writing-from-human-writing/

Scroll to Top