【2025年12月04日訊】(記者陳俊村報導)現在網路上充斥著人工智能(AI)產出的圖像或影片,幾乎到了以假亂真的地步,讓人防不勝防,甚至受騙。但有專家說,有一個可靠的方法可以辨識出AI影片,那就是聽人的聲音。
大紀元此前報導,有一段介紹馬來西亞霹靂州(Perak)某景點的AI短片在網上走紅。該國一對老夫婦看了之後深受吸引,特地跑了三百多公里的路程前去探訪,但到了當地才知道,該短片介紹的景點是虛構的,就連片中的眾多遊客與沿路介紹和訪問遊客的女記者也是不存在的。
針對如何避免像這對老夫婦一樣被AI影片欺騙,有多名專家分享了為何AI影片中的聲音和音效經常能暴露AI生成的明顯跡象。
AI合成的聲音急促且不自然
據《赫芬頓郵報》報導,真人說話有自然的節奏,有些字會說得慢一些。但AI合成的聲音聽起來往往都很急促,非常不自然。
專門拆穿社交媒體上的AI影片的專家卡拉斯科(Jeremy Carrasco)表示,他注意到OpenAI旗下的AI影片應用程式Sora所發布的影片通常「過於活躍」。他說:「他們說了很多,但實際上什麼都沒說,只是在塞進文字。」
就連OpenAI也意識到了這個蛛絲馬跡。針對Sora的AI影片中出現破折號的意思,Sora的負責人皮普爾斯(Bill Peeples)先前在接受直播節目TBPN訪問時的回答很能說明問題。
他回答說:「我認為目前的『破折號』是Sora的一種略顯怪異的語音模式,它喜歡快速地說出很多詞。」

留意含糊不清的聲音
在語言學家看來,人們說話的節奏就是「協同發音」(coarticulation)。這是指人們在說話時,氣流通過鼻腔和口腔,聲音從一個音節自然過渡到另一個音節的過程。
但很多AI產生的語音在這方面做得仍不夠好,會發出含糊不清的聲音,聽起來像是把自然音調壓平了。
美國芝加哥大學(University of Chicago)語言學教授貝斯-伯克(Melissa Baese-Berk)說:「沒有人能發出像AI生成的聲音那樣含糊不清的語音,因為我們根本做不到。」
語音轉文字服務公司Rev的AI副總傑特(Migüel Jetté)說,文字轉語音的模型經過訓練,可以預測一系列文字中最可能的發音,但它們通常難以流暢地銜接單字之間的音節。
他舉例說,人們會很自然地把did you說成didja,而AI則傾向於過度地強調每個單字的發音,或是生硬地將它們銜接起來。
注意發音錯誤的單字
傑特指出,如果影片中出現明顯發音錯誤的單字,這可能也是一個訊號,因為AI語音可能難以識別訓練資料庫中未出現過的不常見或獨特的單字。
卡拉斯科說,他觀察到,谷歌的文字轉影片模型Veo「可能不會塞入太多單字,但它們會打亂單字順序,或讓人說出某些錯誤的內容。」

觀察情緒反應與影片內容是否相符
德國馬克斯‧普朗克實證美學研究所(Max Planck Institute for Empirical Aesthetics)的研究員布魯德(Camila Bruder)說,AI語音的情緒往往過於強烈,與場景所需不符。
她提到,如果AI語音過於刻板地表達快樂,比如「哇!」,或者過於刻板地表達憤怒,就像一個蹩腳的演員,這些特徵都可能表明影片內容是AI生成的。
卡拉斯科補充說,你也應該注意那些表達方式是否帶有奇怪的情緒反應。例如,在一段爆紅的AI影片中,有魚從天而降,片中一個女人驚呼:「牠們是魚,牠們真的是魚!」但在現實生活中,人們不會這麼說。
傑特說,你也可以直接觀察影片中人們的嘴型來尋找線索。「如果說話者的嘴唇和聲音不完全同步……這是一個強而有力的指標。」
儘管上述線索無法保證能辨識出AI產生的聲音,但就整體而言,它們有力地表明,你正在觀看的影片很可能是由機器生成的。這無疑是一個有益的開始。隨著AI不斷發展,人們需要盡可能多的協助來辨別真假。
傑特說:「如果感覺不對勁,那很可能就是不對勁。保持健康的懷疑態度,並擁有敏銳的觀察力和聽覺,對識別細節很有幫助。」





