只需 15 分鐘,iPhone 就能「復(fù)制」你的聲音_世界最資訊
最近,蘋果公布了全新無障礙功能PersonalVoice(暫未上線),不僅讓用
史蒂芬·霍金的「機械電音」,也許是世界上其中一個最有辨識度的聲音。
但那并不是霍金自己的聲音。
在霍金因漸凍癥(ALS)失去說話能力的年代,技術(shù)還不足以讓他能生成自己聲音。事實上,能用上語音合成器的人都屈指可數(shù)。
(資料圖片僅供參考)
到了今天,ALS 患者雖然有了更多語音合成的選擇,但總體費用和時間門檻仍然不低,普及度也有限。
最近,蘋果公布了全新無障礙功能 Personal Voice(暫未上線),不僅讓用戶能免費「備份」自己的聲音,同時還在安全地應(yīng)用 AI 技術(shù)上,作出了一次有意思的嘗試。
只需 15 分鐘「調(diào)教」,就能生成你的聲音
▲ 圖自 Fastcompany
在生成式 AI 可以模仿一切的時代里,用 AI 模仿一個人的聲音聽起來已經(jīng)不算新奇,只是感覺有點安全隱患。
我好奇的,更多是蘋果要怎樣安全和高效地實現(xiàn) Personal Voice 這一功能。
據(jù)介紹,iPhone、iPad 和 Mac 用戶只需要根據(jù)提示錄制 15 分鐘的音頻,蘋果就會基于設(shè)備端的機器學(xué)習(xí)技術(shù)來生成和用戶一樣的聲音。
相比之下,為失語群體提供專業(yè)語音合成服務(wù)的公司,可能需要采用專業(yè)設(shè)備,錄制幾小時的語音素材,價格最低都要數(shù)百美元。
另一項新無障礙功能 Live Speech,則支持用戶打電話、FaceTime 或者是和他人面對面對話的時候,輸入文字即可生成語音內(nèi)容,為失語或不方便說話的用戶提供另一種「發(fā)聲」方式。
結(jié)合 Personal Voice 和 Live Speech 兩項功能,失語用戶就能用接近自己原本聲音的生成聲音和他人溝通。
用起來是方便了,但怎樣避免有人用網(wǎng)上扒的語音素材來生成他人的聲音?
素材隨機化。在錄制 15 分鐘語音素材的過程中,蘋果將隨機生成需要用戶朗讀的內(nèi)容,減少他人猜中素材的可能性。
物理距離屏障。在錄制過程中,用戶需要在距離設(shè)備 6-10 英寸(約 15- 25 厘米)的特定空間里完成錄制。
在生成過程中,所有數(shù)據(jù)都將通過蘋果的 Neural Engine(神經(jīng)引擎)在設(shè)備本地完成,不必要上傳到云處理。
語音合成后,第三方應(yīng)用如果想使用 Personal Voice,都要獲得用戶明確授權(quán)。
即便第三方應(yīng)用獲得授權(quán)使用時,蘋果也會采用額外的背景保護(hù),確保第三方應(yīng)用無法獲取 Personal Voice 以及用戶之前所錄制的語音素材。
如果是蘋果「全家桶」用戶,生成自己的 Personal Voice 后還能通過 iCloud 同步到不同設(shè)備上,并以端對端的方式加密。
自己的聲音,失去了才懂多重要
人是感性的生物,而聲音是很強烈的情感觸發(fā)器。
有研究指出,當(dāng)人在聽到母親的聲音時,身體釋放出催產(chǎn)素水平和跟媽媽擁抱時產(chǎn)生的程度很相似。另一個研究則指出,聽到自己的聲音,會增強一個人的自我能動性。
這聽起來有點抽象。
但當(dāng)我們失去它時,重要性就變得顯而易見了。
2021 年 3 月,Ruth Brunton 被確診 ALS。那年圣誕,她就已經(jīng)失語了。
ALS 患者中,約有 25% 的人患的是「延髓起病型」肌萎縮側(cè)索硬化癥,主要表現(xiàn)是說話障礙或吞咽困難。這類病人說話會逐漸變得含糊、帶有鼻音,甚至失語。
Brunton 的行動很果斷,確診后馬上找公司去做語音生成。
來回花了一個月時間,錄了 3000 多個句子的語料,但最后出來的結(jié)果并不理想。
那家公司用的是一種名為「單元選擇(unit selection)」技術(shù)。
簡單粗暴來說,它就是通過「拼接」來實現(xiàn)語音生成,把語料拆分為大量小的語音單元,然后按需把元素拼起來。
▲單元選擇技術(shù)下,「Bob」這一詞語能被拆分成不同語音元素,圖自《華盛頓郵報》
這種技術(shù)生成的語音能聽清,但會有點電音,聽起來不太自然。
結(jié)果就是,Brunton 錄制的語料結(jié)合了微軟一個名為「Heather」的聲音,不但聲音和自己毫不相似,甚至逼著這英國人「講」起了美語口音。
https://s3.ifanr.com/wp-content/uploads/2023/06/real-ruth.m4a
▲ Brunton 自己真實的聲音
https://s3.ifanr.com/wp-content/uploads/2023/06/heather.m4a
▲ 合成版 Brunton 的聲音
困在這個聲音里,Brunton「只會在必要的時候說話,不再是因為想說話而說話」。
從前和丈夫打鬧聊天的心情消失了,Brunton 也不怎么愿意參加多人對話。
即便是說「我愛你」,用一個不像自己的聲音來說,意義也似乎被削弱了。
六個月后, Brunton 和丈夫爭取回了最初錄制的語音素材,找了另一家公司,用 AI 技術(shù)合成了一個更像她自己的聲音:
這聽起來也許有點傻,但重新獲得自己的聲音讓我更有自信了。
在波士頓兒童醫(yī)院負(fù)責(zé)「增強溝通」項目的 John M. Costello 留意到,那些采用了更真實生成語音的病人,似乎更能夠和親近的人建立深厚的聯(lián)結(jié)。
2022 年圣誕節(jié),「重獲新聲」的 Brunton 還用語音錄制的一段節(jié)日祝語。
https://s3.ifanr.com/wp-content/uploads/2023/06/ruth.m4a
▲ Ruth 覺得新的合成聲音更像自己
然而,圣誕剛過,Brunton 就染上了新冠,最后在今年 2 月離世了。
她離開的那晚,丈夫 David 一整夜都握著她的手:
我們有兩年時間來告別。
我們說好了,我們要說盡一切我們想說的。
難以想象,如果 Brunton 后來沒換上更像自己的聲音,她又是否能自在地說出想說的一切。
無障礙思維點亮靈感,AI 燃起生產(chǎn)力
我一直認(rèn)為,無障礙設(shè)計所挖掘的,其實就是人類多樣性創(chuàng)造的想象力資源。
我們?nèi)サ胶妥约河兄厝徊煌铙w驗的人面前,聆聽更少被訴說的故事和體驗,創(chuàng)造出我們之前沒想象過,但卻能對更多人友好的的新生活方式。
Personal Voice 能讓失語的 ALS 患者重新獲得自己的聲音;也可以幫助在經(jīng)歷「刀片嗓」的我用自己的聲音去和其他人對話;甚至,我也很難避免會去想象,是否應(yīng)該用這為自己「備份」聲音留給親近的人,以免哪天自己會突然離世。
而 AI 技術(shù),就是實現(xiàn)這些想象力生產(chǎn)力。
正如杜編輯之前說的,雖然不趕生成式 AI 的熱鬧,但蘋果一直都把 AI 用來提升用戶體驗 —— 提升效率,保護(hù)隱私。
提升效率,在于提升本地執(zhí)行的機器學(xué)習(xí)算法和模型。
除了 Personal Voice 以外,蘋果這次預(yù)覽的另一個無障礙功能 Point and Speak 也采用了本地設(shè)備端的機器學(xué)習(xí)技術(shù)。
未來,視障用戶在 iPhone 自帶的放大器里,結(jié)合 Point and Speak 和旁白功能,就能憑自己手指把 iPhone 變成「點讀機」—— 點到哪兒,讓 iPhone 給你把文字讀到哪兒。
去年的「門檢測」功能道理也類似,讓設(shè)備端的機器學(xué)習(xí)幫視障用戶識別出門,并朗讀出門上面的信息和周圍的標(biāo)識。
至于隱私,按喬布斯說的,就是 「如果你需要他們(用戶)的數(shù)據(jù),那就向他們(用戶)請求。每一次都如此?!?/p>
這在無障礙設(shè)計方面也尤其重要 —— 因為這些功能設(shè)計起源就是服務(wù)被所謂「常規(guī)設(shè)計」忽略的人,常常都是更弱勢的群體,因此更有必要確保這些用戶的隱私不受侵害。
在這個語境下,我們也可開啟更多關(guān)于數(shù)據(jù)應(yīng)用權(quán)和透明度的討論。
蘋果這次做 Personal Voice 時,和幫助 ALS 患者的非盈利機構(gòu) Team Gleason Foundation 合作。
▲ Team Gleason Foundation CEO Blair Casey(右)
該機構(gòu)的 CEO Blair Casey 一直也在推動語音生成公司設(shè)定一套標(biāo)準(zhǔn)錄制素材設(shè)定,讓用戶能直接錄這部分素材,并體驗不同公司生成出來的語音效果,而不是像現(xiàn)在一樣「盲賭」。
同時,Casey 也主張語音生成公司把用戶錄制的語音素材數(shù)據(jù)提供給用戶(因為很多用戶可能錄制后就失語了),以免他們未來想把這些數(shù)據(jù)用在其他技術(shù)上:
如果更好的技術(shù)出來了,你會不想試一試嗎?
如果你沒法拿回自己的語音素材,你就沒法去試。
AI 也許是我們時代最強的生產(chǎn)力。
但是,這力該怎么使,也許以人為本的無障礙設(shè)計能給它不少指引。
#歡迎關(guān)注愛范兒官方微信公眾號:愛范兒(微信號:ifanr),更多精彩內(nèi)容第一時間為您奉上。
| · ·
關(guān)鍵詞:
[ 相關(guān)文章 ]
最近,蘋果公布了全新無障礙功能PersonalVoice(暫未上線),不僅讓用
高考失利并不意味著大學(xué)沒有機會。雖然高考成績是進(jìn)入大學(xué)的主要標(biāo)準(zhǔn),
想必現(xiàn)在有很多小伙伴對于求魯豫有約與康熙來了相同之處和不同之處方面
1、找一根繩子,對折,編個雙聯(lián)結(jié),不要拉緊。2、2、另外取一根繩子,
1、一部能正常使用的WPS2、操作方法3、014、首先,我們先打開AppStore,
據(jù)三六零(601360 SH,下稱“360”)集團(tuán)消息,360智腦大模型應(yīng)用發(fā)布會
1、造成腿腳抽筋的主要原因有:(1)局部循環(huán)不良,周邊血管病變或腳部靜
1、那個瀏覽器的工具欄里把緩存垃圾瀏覽記錄什么的清除一下估計你很久
歡迎觀看本篇文章,小升來為大家解答以上問題。冶煉爐怎么做我的世界,
中新網(wǎng)烏魯木齊6月4日電(華巖明)5月底6月初,位于新疆伊犁河谷的察布查
人工智能技術(shù)的擴散速度已經(jīng)超出了此前的任何一種劃時代技術(shù),這意味著
1、提升等級到青銅星,然后讓艾伯特完成你的任務(wù)。2、接下來的任務(wù)是收
諸多的對于被霸凌了怎么辦初中,被霸凌了怎么辦這個問題都頗為感興趣的
1、您好!小提琴協(xié)奏曲《梁?!吩臼菦]有歌詞的,后經(jīng)著名詞人閻肅填
你們好,最近小信發(fā)現(xiàn)有諸多的小伙伴們對于心形照片拼圖模板,心型照片
日本的總和生育率已連續(xù)7年下降。日本的少子化危機警報再度拉響。日本
黑城建于公元九世紀(jì),為西夏王朝“黑山威福軍司”所在地。1286年,元世
寧德海悅酒店是由霞浦企業(yè)家陳先生投資興建的超豪華酒店,總投資逾2 6
1、致百米運動員起跑線上你們一字排開健美的肌肉蘊含著爆發(fā)力量堅定的
今天來聊聊個人的名字霸氣,四個人的群名字霸氣的文章,現(xiàn)在就為大家來
[ 相關(guān)新聞 ]
Copyright 2015-2022 太平洋醫(yī)院網(wǎng) 版權(quán)所有 備案號:豫ICP備2022016495號-17 聯(lián)系郵箱:93 96 74 66 9@qq.com