ChatGPT最新測評發佈，超半數美國人無法區分人類寫作與機器寫作

人工智能的進化，會在未來取代人嗎？

近日，國外一家統計網站Tooltester（工具測評者）發佈了針對ChatGPT使用情況的最新調查報告。該調查分兩次進行，首次測評於2023年2月下旬開展，面向1920名ChatGPT的美國使用者，羅列了75段分別由真人寫作、機器寫作，以及機器寫作結合真人編輯的內容，以問卷形式請受試者識別。在GPT-4推出後，補充徵集了1394人進行二輪調查。結果表明，聊天機器人的迭代速度明顯超出了普通大眾的預估，多數使用者對機器寫作內容的複雜程度瞭解有限，難以區分哪些網絡內容是由真人編寫。

在內容識別方面，超過53.1%的受試者無法準確從文本中挑出機器寫作段落。而當GPT-4發佈後，這一比例甚至升至63.5%。即便是對AI類工具更熟悉的受試者，能夠作出正確判斷的人也僅佔48%。而就年齡段而言，介於18-24歲之間的年輕人更容易被機器寫作“欺騙”，他們中有59.8%的人無法作出正確判斷，儘管他們可能在日常生活中更頻繁地接觸到這類內容。有趣的是，在所有年齡段中，65歲以上老年人能夠正確識別機器寫作的比例是最高的（52%）。

圖源：Tooltester官網。

在內容領域上，機器寫作是否更擅長編寫特定主題內容？結果顯示，AI聊天機器人更善於撰寫健康類和旅行類內容，或者說人們更容易錯將機器寫作的這類文章誤認為是真人所寫。當不少受試者面對諸如撲熱息痛的副作用、健身計劃的制定、租車技巧，以及酒店省錢攻略這些AI生成文本時，他們傾向於認為這是真人寫的。報告稱，這意味著AI生成的健康、旅行類“小貼士”似乎要比真人寫的還更加人性化。

值得注意的是，反而是技術類文章更容易識別。51%的受試者能夠區分哪些“技術貼”是AI生成的，且這方面，女性受試者表現略優於男性（52.4%對49.9%）。綜合上述內容領域數據顯示，調查團隊提示稱，這可能也透露出一個危險難料的趨勢，我們正在走向一個人工智能深度融入生活世界的未來，包括醫療保健。

此外，該調查還詢問了受試者對機器內容的看法和信任程度。80%以上的受試者支持制定機器寫作的相關規範條例。71.3%的受試者稱，如果內容提供方，如商家、出版社等在未作說明的情況下發布AI生成內容，這會大大降低他們對品牌本身的信任度。總體而言，人們還是傾向於內容提供方能夠主動標識內容生產方式，這是否會成為未來互聯網世界的常態仍有待觀察。

自2022年11月30日，知名人工智能研究實驗室OpenAI發佈ChatGPT以來，人工智能話題多次引發廣泛討論。這項能夠理解上下文語境、學習人類語言進行對話，並完成郵件撰寫、主題創作等任務的聊天機器人在短短几天便吸引上百萬用戶註冊。今年3月，GPT-4的發佈持續衝擊著公眾的既有認知。這份調查報告再度印證了一個基本現狀，目前我們的確難以區分人類寫作與機器寫作。

參考鏈接：

1. Survey: ChatGPT and AI Content. Can people tell the difference?

https://www.tooltester.com/en/blog/chatgpt-survey-can-people-tell-the-difference/#Younger_people_struggle_more_with_identifying_AI_content

2. Half of Americans can’t pick phony AI writing from human writing.

https://lithub.com/half-of-americans-cant-pick-phony-ai-writing-from-human-writing/

相關文章