爱范儿只需15分钟，iPhone就能「复制」你的声音#爱范儿#科技

只需15分钟 iPhone 就能“复制”你的声音

只需15分钟iPhone就能“复制”你的声音到了今天，ALS患者虽然有了更多语音合成的选择，但总体费用和时间门槛仍然不低，普及度也有限。最近，苹果公布了全新无障碍功能PersonalVoice(暂未上线)，不仅让用户能免费“备份”自己的声音，同时还在安全地应用AI技术上，作出了一次有意思的尝试。只需15分钟“调教”，就能生成你的声音在生成式AI可以模仿一切的时代里，用AI模仿一个人的声音听起来已经不算新奇，只是感觉有点安全隐患。我好奇的，更多是苹果要怎样安全和高效地实现PersonalVoice这一功能。据介绍，iPhone、iPad和Mac用户只需要根据提示录制15分钟的音频，苹果就会基于设备端的机器学习技术来生成和用户一样的声音。相比之下，为失语群体提供专业语音合成服务的公司，可能需要采用专业设备，录制几小时的语音素材，价格最低都要数百美元。另一项新无障碍功能LiveSpeech，则支持用户打电话、FaceTime或者是和他人面对面对话的时候，输入文字即可生成语音内容，为失语或不方便说话的用户提供另一种“发声”方式。结合PersonalVoice和LiveSpeech两项功能，失语用户就能用接近自己原本声音的生成声音和他人沟通。用起来是方便了，但怎样避免有人用网上扒的语音素材来生成他人的声音?素材随机化。在录制15分钟语音素材的过程中，苹果将随机生成需要用户朗读的内容，减少他人猜中素材的可能性。物理距离屏障。在录制过程中，用户需要在距离设备6-10英寸(约15-25厘米)的特定空间里完成录制。在生成过程中，所有数据都将通过苹果的NeuralEngine(神经引擎)在设备本地完成，不必要上传到云处理。语音合成后，第三方应用如果想使用PersonalVoice，都要获得用户明确授权。即便第三方应用获得授权使用时，苹果也会采用额外的背景保护，确保第三方应用无法获取PersonalVoice以及用户之前所录制的语音素材。如果是苹果“全家桶”用户，生成自己的PersonalVoice后还能通过iCloud同步到不同设备上，并以端对端的方式加密。自己的声音，失去了才懂多重要人是感性的生物，而声音是很强烈的情感触发器。有研究指出，当人在听到母亲的声音时，身体释放出催产素水平和跟妈妈拥抱时产生的程度很相似。另一个研究则指出，听到自己的声音，会增强一个人的自我能动性。这听起来有点抽象。但当我们失去它时，重要性就变得显而易见了。2021年3月，RuthBrunton被确诊ALS。那年圣诞，她就已经失语了。ALS患者中，约有25%的人患的是“延髓起病型”肌萎缩侧索硬化症，主要表现是说话障碍或吞咽困难。这类病人说话会逐渐变得含糊、带有鼻音，甚至失语。Brunton的行动很果断，确诊后马上找公司去做语音生成。来回花了一个月时间，录了3000多个句子的语料，但最后出来的结果并不理想。那家公司用的是一种名为“单元选择(unitselection)”技术。简单粗暴来说，它就是通过“拼接”来实现语音生成，把语料拆分为大量小的语音单元，然后按需把元素拼起来。▲单元选择技术下，“Bob”这一词语能被拆分成不同语音元素，图自《华盛顿邮报》这种技术生成的语音能听清，但会有点电音，听起来不太自然。结果就是，Brunton录制的语料结合了微软一个名为“Heather”的声音，不但声音和自己毫不相似，甚至逼着这英国人“讲”起了美语口音。困在这个声音里，Brunton“只会在必要的时候说话，不再是因为想说话而说话”。从前和丈夫打闹聊天的心情消失了，Brunton也不怎么愿意参加多人对话。即便是说“我爱你”，用一个不像自己的声音来说，意义也似乎被削弱了。六个月后，Brunton和丈夫争取回了最初录制的语音素材，找了另一家公司，用AI技术合成了一个更像她自己的声音：这听起来也许有点傻，但重新获得自己的声音让我更有自信了。在波士顿儿童医院负责“增强沟通”项目的JohnM.Costello留意到，那些采用了更真实生成语音的病人，似乎更能够和亲近的人建立深厚的联结。2022年圣诞节，“重获新声”的Brunton还用语音录制的一段节日祝语。然而，圣诞刚过，Brunton就染上了新冠，最后在今年2月离世了。她离开的那晚，丈夫David一整夜都握着她的手：我们有两年时间来告别。我们说好了，我们要说尽一切我们想说的。难以想象，如果Brunton后来没换上更像自己的声音，她又是否能自在地说出想说的一切。无障碍思维点亮灵感，AI燃起生产力我一直认为，无障碍设计所挖掘的，其实就是人类多样性创造的想象力资源。我们去到和自己有着截然不同生活体验的人面前，聆听更少被诉说的故事和体验，创造出我们之前没想象过，但却能对更多人友好的的新生活方式。PersonalVoice能让失语的ALS患者重新获得自己的声音;也可以帮助在经历“刀片嗓”的我用自己的声音去和其他人对话;甚至，我也很难避免会去想象，是否应该用这为自己“备份”声音留给亲近的人，以免哪天自己会突然离世。而AI技术，就是实现这些想象力生产力。正如杜编辑之前说的，虽然不赶生成式AI的热闹，但苹果一直都把AI用来提升用户体验——提升效率，保护隐私。提升效率，在于提升本地执行的机器学习算法和模型。除了PersonalVoice以外，苹果这次预览的另一个无障碍功能PointandSpeak也采用了本地设备端的机器学习技术。未来，视障用户在iPhone自带的放大器里，结合PointandSpeak和旁白功能，就能凭自己手指把iPhone变成“点读机”——点到哪儿，让iPhone给你把文字读到哪儿。去年的“门检测”功能道理也类似，让设备端的机器学习帮视障用户识别出门，并朗读出门上面的信息和周围的标识。至于隐私，按乔布斯说的，就是“如果你需要他们(用户)的数据，那就向他们(用户)请求。每一次都如此。”这在无障碍设计方面也尤其重要——因为这些功能设计起源就是服务被所谓“常规设计”忽略的人，常常都是更弱势的群体，因此更有必要确保这些用户的隐私不受侵害。在这个语境下，我们也可开启更多关于数据应用权和透明度的讨论。苹果这次做PersonalVoice时，和帮助ALS患者的非盈利机构TeamGleasonFoundation合作。▲TeamGleasonFoundationCEOBlairCasey(右)该机构的CEOBlairCasey一直也在推动语音生成公司设定一套标准录制素材设定，让用户能直接录这部分素材，并体验不同公司生成出来的语音效果，而不是像现在一样“盲赌”。同时，Casey也主张语音生成公司把用户录制的语音素材数据提供给用户(因为很多用户可能录制后就失语了)，以免他们未来想把这些数据用在其他技术上：如果更好的技术出来了，你会不想试一试吗?如果你没法拿回自己的语音素材，你就没法去试。AI也许是我们时代最强的生产力。但是，这力该怎么使，也许以人为本的无障碍设计能给它不少指引。...PC版：https://www.cnbeta.com.tw/articles/soft/1364089.htm手机版：https://m.cnbeta.com.tw/view/1364089.htm

爱范儿只需15分钟，iPhone就能「复制」你的声音#爱范儿#科技

相关推荐

只需15分钟 iPhone 就能“复制”你的声音

爱范儿视频版MidJourney登陆iOS！3分钟就能拍出魔性大片，全网玩疯了#爱范儿#科技

爱范儿特斯拉你复制不了，理想你也别想复制#爱范儿#科技

爱范儿#爱范儿#科技

#爱范儿#科技via(author:陈钟和)

爱范儿早报iPhone15全系或采用USB-C接口/迪士尼酒店回应五一价格暴涨/《黑镜》将回归#爱范儿#科技