基于AI的语音分析技术可以为预防自杀热线的工作人员提供情绪指标

基于AI的语音分析技术可以为预防自杀热线的工作人员提供情绪指标然而，对于人类听众来说，从某人的言语中识别自杀风险是一项挑战，因为拨打这些热线电话的人情绪都很不稳定，而且他们的言语特征也会迅速变化。也许实时情绪"仪表盘"会有所帮助。加拿大蒙特利尔康考迪亚大学（Concordia University）的博士生阿拉-恩菲西（Alaa Nfissi）在语音情感识别（SER）方面训练了一个人工智能模型，以帮助预防自杀。他在今年于加利福尼亚举行的电气和电子工程师学会语义计算国际会议上发表了一篇论文，并获得了最佳学生论文奖。"传统上，SER 是由训练有素的心理学家手动完成的，他们会对语音信号进行注释，这需要大量的时间和专业知识，"Nfissi 说。"我们的深度学习模型可以自动提取与情感识别相关的语音特征。"为了训练该模型，恩菲西使用了一个数据库，其中包含了拨打自杀热线的真实电话录音以及演员表达特定情绪的录音。这些录音被分成若干段，并标注了特定的心理状态：愤怒、悲伤、中立、恐惧/担心/忧虑。由于愤怒和恐惧/担心/忧虑等情绪的代表性不足，因此将演员的录音与原始的真实录音合并。Nfissi 的模型可以准确识别四种情绪。在合并的数据集中，该模型正确识别恐惧/担心/忧虑的比例为 82%，悲伤的比例为 77%，愤怒的比例为 72%，中性的比例为 78%。该模型尤其擅长识别真实通话中的片段，悲伤的识别成功率为 78%，愤怒的识别成功率为 100%。Nfissi 希望看到他的模型被用于开发实时仪表板，帮助危机热线接线员为来电者选择适当的干预策略。"这些人中有很多都在受苦受难，有时辅导员的简单干预就能帮上大忙，"恩菲西说。"这种（人工智能模型）将有望确保干预措施能够帮助他们，并最终防止自杀事件的发生"。最终，这类感同身受的人工智能很可能会接管整个自杀热线。休谟（Hume）被誉为首个语音对语音人工智能，可以解读情绪并产生情感反应。你可以访问 Hume 网站对其进行测试，人工智能会告诉你它能从你的声音中察觉到哪些情绪，并尝试相应地调整回应的语气。即使没有这种情感响应技术，对话式人工智能也已开始在呼叫中心行业的其他地方占据一席之地；《金融时报》最近刊登了一篇文章，印度 IT 公司塔塔咨询服务公司的首席执行官兼董事总经理 K. Krithivasan 在文章中说，人工智能最终可能会消除菲律宾和印度等国对雇佣大量员工的呼叫中心的需求。因此，失业显然是一个令人担忧的问题，但响应情感的人工智能会引发更多问题。例如，当向 OpenAI 的 GPT-4 提供一个人的性别、年龄、种族、教育程度和政治倾向，并要求它利用这些信息提出一个针对这个人的论点时，它的说服力比人类高出了惊人的 81.7%。人工智能已经证明，它能够通过眼球追踪技术收集大量信息，如种族、体重、性格特征、吸毒习惯、恐惧和性偏好等。追踪眼睛需要一些特殊的设备，但如果你的声音能透露出这么多关于你的情绪，那么你口袋里的设备就可能在倾听你的声音。想象一下，在这样一个世界里，配备人工智能的智能手机通过声音和表情追踪我们的情绪，然后利用你当前的状态以及它们对你的其他了解，向你推荐与你的情绪相匹配的物品、美食、电影或歌曲。或者操纵你购买人寿保险、新车、裙子或出国旅行。当然，响应情感的人工智能可用于医疗保健领域，与病人，尤其是那些没有亲人或患有痴呆症的病人进行互动。我们可能很快就会看到这种东西。2024 年 3 月，科技巨头英伟达（NVIDIA）宣布与希波克拉底人工智能公司（Hippocratic AI）合作，生产人工智能驱动的"医疗保健代理"，其性能优于人类护士，而且成本更低。与快速发展的人工智能相关的大多数事情一样，时间会告诉我们最终的结果。Nfissi 的论文在2024 年电气和电子工程师学会第 18 届语义计算国际会议（ICSC）上发表。 ... PC版：手机版：

在Telegram中查看

相关推荐

唱片协会(RIAA)建议美国政府将人工智能语音克隆网站列入政府盗版监视名单

唱片协会(RIAA)建议美国政府将人工智能语音克隆网站列入政府盗版监视名单美国唱片工业协会 (RIAA) 现在认为人工智能语音克隆是一种潜在的版权侵权威胁，并希望美国政府将其纳入盗版监管名单。在提交给美国贸易代表 (USTR) 的一份文件中，RIAA 要求美国政府将人工智能语音克隆类别纳入其据称宣扬盗版或假冒行为的年度实体名单中。美国唱片工业协会(RIAA)只点名了该领域的一家公司：。该公司提供例如 Ariana Grande、Taylor Swift 和 Kanye West 等著名音乐艺术家的语音模型。该组织认为，该网站允许用户翻录 YouTube 视频并复制无伴奏合唱曲目，然后使用人工智能语音模型对其进行修改，侵犯了版权，也侵犯了录音艺术家的公开权。

Network Rail使用基于亚马逊AI的摄像头分析英国火车旅客的情绪

Network Rail使用基于亚马逊AI的摄像头分析英国火车旅客的情绪人工智能监控试验在英国的八个火车站进行，包括伦敦尤斯顿和滑铁卢等大型终点站，以及曼彻斯特皮卡迪利火车站。测试由英国铁路基础设施运营商网络铁路公司（Network Rail）负责监督，目的是通过迅速向工作人员发出安全事故警报来减少犯罪。这些系统经过训练，能够自动检测到闯入轨道的人、站台上的拥挤情况、潜在的罪犯（如偷自行车的人），甚至是"反社会行为"，包括跑步、大喊大叫、玩滑板或吸烟等。另外的传感器试验还可以检测地面是否湿滑、垃圾桶是否溢出、下水道是否堵塞等可能造成混乱的情况。为了实现这一切，Network Rail 将能够在视频画面中发现物体和运动的智能摄像机与连接到亚马逊 Rekognition 软件云计算机视觉的老式 CCTV 相结合。Rekognition 是一个基于云的计算机视觉平台，利用深度学习来分析图像和视频，具有物体、文本和面部识别等高级功能。这些细节来自公民自由倡导组织"老大哥观察"（Big Brother Watch）通过信息自由申请获得的文件。文件指出，截至 2023 年 4 月，每个审判站安装了 5 到 7 个人工智能摄像头或传感器。不幸的是，监控的目的不仅仅是确保安全。文件显示，人工智能可以利用人的图像生成"年龄范围和男女人口统计学分析"。它还能通过扫描面部表情来分析喜怒哀乐等情绪。一份电子表格甚至列出了人工智能监控系统的 50 个潜在用例，但并不一定对所有用例都进行了测试。当人们越过检票口的"虚拟绊马索"时，系统会捕捉图像，然后发送到亚马逊的 Rekognition 系统进行分析。文件中提到的一个想法是利用这些数据来优化广告，并在衡量乘客满意度的基础上增加零售收入。网络铁路公司发言人告诉《连线》，该机构极其重视铁路安全，并使用人工智能等先进技术"保护乘客、我们的同事和铁路基础设施免受犯罪和其他威胁"。然而，隐私权倡导者认为，在公交枢纽等公共场所应用人工智能监控系统缺乏透明度。当涉及大公司时，滥用个人数据的可能性比如为广告定位而进行人口和情感分析就变得尤为真实。 ... PC版：手机版：

OpenAI展示语音克隆人工智能模型只需15秒样本即可工作

OpenAI展示语音克隆人工智能模型只需15秒样本即可工作可以访问的公司包括教育技术公司 Age of Learning、视觉故事平台 HeyGen、前线健康软件制造商 Dimagi、人工智能通信应用开发商 Livox 和健康系统 Lifespan。在 OpenAI 发布的这些样本中，你可以听到Age of Learning利用该技术生成预制画外音内容，以及向学生朗读由 GPT-4 撰写的 "实时、个性化回复"。首先是英文参考音频：下面是人工智能根据该样本生成的三个音频片段：OpenAI 表示，它于 2022 年底开始开发语音引擎，该技术已经为文本到语音 API 和ChatGPT 的朗读功能提供了预设语音。OpenAI 语音引擎产品团队成员杰夫-哈里斯（Jeff Harris）在接受TechCrunch 采访时表示，该模型是在 "授权数据和公开数据的混合 "基础上训练出来的。OpenAI 告诉该刊物，该模型将只向大约 10 名开发者开放。人工智能文本到音频生成是生成式人工智能的一个不断发展的领域。虽然大多数人都专注于乐器或自然声音，但专注于语音生成的人较少，部分原因是 OpenAI 提出的问题。该领域的一些知名公司包括 Podcastle 和 ElevenLabs，它们提供人工智能语音克隆技术和工具。与此同时，美国政府也在努力遏制不道德地使用人工智能语音技术。上个月，美国联邦通信委员会禁止了使用人工智能语音的自动拨叫电话，因为人们收到了由人工智能克隆的乔-拜登总统的声音打来的垃圾电话。据 OpenAI 称，其合作伙伴同意遵守其使用政策，即未经同意不得使用语音生成技术冒充他人或组织。该政策还要求合作伙伴获得原始发言人的 "明确和知情同意"，不建立个人用户创建自己声音的方法，并向听众披露声音是人工智能生成的。OpenAI 还为音频片段添加了水印，以追踪其来源，并积极监控音频的使用情况。OpenAI 提出了几项措施，认为这些措施可以限制类似工具的风险，包括逐步淘汰访问银行账户的语音认证，制定政策保护人工智能中对人声的使用，加强人工智能深度伪造方面的教育，以及开发人工智能内容跟踪系统。了解更多： ... PC版：手机版：

中国电信发布星辰超多方言语音识别大模型能同时识别30多种方言

中国电信发布星辰超多方言语音识别大模型能同时识别30多种方言据介绍，研发团队构建了一个超过30种方言、30万小时以上的高质量方言数据库。该系统不仅大大降低了推理时的语音传输比特率，而且让沟通更自然流畅，解决了老年人及“老少边穷”地区信息服务无法触达的问题。值得一提的是，中电信人工智能科技有限公司总经理何忠江表示，语音大模型的算法代码和训练代码将面向社会全部开源开放据报道，目前，星辰语音大模型已在福建、江西、广西、北京、内蒙古等地的中国电信10000智能客服试点应用。接入星辰大模型以后，智能客服秒懂30种方言，实现日均处理约200万通电话。另外，星辰语音大模型还落地多地市的12345平台。 ... PC版：手机版：

三星今年将推出搭载其自有人工智能技术的升级版语音助手Bixby

三星今年将推出搭载其自有人工智能技术的升级版语音助手Bixby 三星移动业务负责人向 CNBC 透露，三星今年将推出基于自有人工智能模型的升级版语音助手 Bixby。由于 ChatGPT 大受欢迎，数字助理再次成为人们关注的焦点。三星移动部门负责人 TM Roh 向 CNBC 表示，该公司今年将推出进一步升级的 Bixby，该版本将使用这家韩国科技巨头自己的大型语言模型。“我们将通过应用生成式人工智能技术来改进 Bixby，”Roh 说。不过，Roh 表示，三星将维持允许在其设备上使用多个语音助手的策略。例如，三星的最新设备上就配备了谷歌的人工智能助手。“我们正在强化我们的产品，并为其注入更多的人工智能功能。”

英伟达 ChatRTX 聊天机器人现在支持 Google Gemma 模型、语音查询等功能

英伟达 ChatRTX 聊天机器人现在支持 Google Gemma 模型、语音查询等功能英伟达公司正在更新其实验性 ChatRTX 聊天机器人，为 RTX GPU 用户提供更多人工智能模型。该聊天机器人在 Windows PC 上本地运行，已经可以使用 Mistral 或 Llama 2 来查询你输入的个人文档，但现在支持的人工智能模型列表正在不断扩大，包括 Google 的 Gemma、ChatGLM3 ，甚至还有 OpenAI 的 CLIP 模型以便更轻松地搜索您的照片。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人