谷歌研究博客在4月11日發布文章表示,該公司的一個內部團隊試圖讓人工智能(AI)像人類的大腦一樣,可以主動關注一個聲源,同時過濾其他聲源,就像人們在聚會上跟朋友對話時的做法。

谷歌的方法使用了一個視聽模型,使之可以集中精力區分一段視頻中的聲音。該公司還發布了多段YouTube視頻,演示這項技術的實際效果。

谷歌表示,視覺元素是關鍵,因為這項技術會關注一個人的嘴唇運動,從而更好地判斷某個時點應該關注哪段聲音,並為一段較長的視頻創造更精確的獨立音軌。但這項技術可能也會引發隱私擔憂。

雖然該技術的實際效果遠沒有視頻演示得那麼好,但經過一些細微調整,的確有可能成為強大的監聽和監視工具。