今天阿里云的通义大模型上线了AI新品:“通义听悟”,能够很高效的完成对音频、视频内容的转写、检索、摘要和整理。

今天阿里云的通义大模型上线了AI新品:“通义听悟”,能够很高效的完成对音频、视频内容的转写、检索、摘要和整理。 我试了下,上传2小时视频的话,5分钟就生成了笔记,还可以设置成一个插件,在线看啥视频都能够扒下来逐字稿,深度学习一位up主的文案撰写能力。 当然了,我还是劝学习达人省点用,每个人可以领100小时以上的免费转写时长(目前每天上线能领俩小时)。 听悟链接: 很适合深度学习者、自媒体达人、音频存证(撕逼or维权)使用,普通人也可以去玩一下,体验还是挺新潮的,转需咯~

相关推荐

封面图片

网站通义听悟网站功能:AI语音转写

网站通义听悟 网站功能:AI语音转写 网站简介:阿里云推出的一款聚焦音视频内容的工作学习AI助手。 ◉ 支持实时录音和音视频转文字 ◉ 支持多种语言的同步翻译 ◉ 在转写过程中,能够智能识别并区分不同的发言人 ◉ 能够自动生成会议纪要,包括章节速览、待办事项等 目前只有网页端与浏览器插件。公测期(截止7月31日)可体验所有AI功能,每天签到可获得2小时转写时长,绑定阿里云盘账号可获取200G云盘存储空间。 网站网址:点击打开

封面图片

刚刚又想到@通义听悟 可以把在web播放的视频转写成文字,可以把这些文字整理以后导出,然后丢给克劳德2分析,这样就算你注意力不集

刚刚又想到@通义听悟 可以把在web播放的视频转写成文字,可以把这些文字整理以后导出,然后丢给克劳德2分析,这样就算你注意力不集中也能在ai加持下快速提炼要点,提高学习效率。 但是,通过昨天的测试,我发现可能听悟依赖于视频播放转写,会受网络波动影响比较大,导致转写的录音完整性和文字准确度会有较大程度损失,另外安装听悟chrome插件以后,我的chrome无征兆黑屏过两次,这是之前从来没有遇到过的,不知是否插件的原因导致。 受版权和其它限制,目前应该没有可以直接在线分析一些平台自家视频的产品吧?

封面图片

【分享】通义阿里自研满血版Qwen3上线顶尖AI技术打造

【分享】通义阿里自研满血版Qwen3上线顶尖AI技术打造 【软件名称】通义最新满血无限制版完全免费 【软件版本】3.38.1 【软件大小】59.5mb 【适用平台】安卓 【软件简介】 软件定义及功能 通义,由阿里云推出的一款超大规模预训练模型,旨在为用户提供全方位的协助,覆盖日常办公、学习提效、生活娱乐等多个方面。其主要功能包括: •日常办公 文档撰写与实时记录:帮助用户高效完成文档撰写和实时记录任务。 音视频速读与代码生成解释:具备强大的音视频速读能力,能一键速读大量资料,并实现跨文档的摘要、分析和内容创作。同时,提供代码生成及解释服务,提升编程效率。 •学习提效 图像与视频理解:在线解析网页、论文与图书,实现多文本摘要和结构化总结。 实时翻译能力:支持中文与多种语言的互译,助力用户快速获取知识和信息。 •生活娱乐 趣味玩法:提供全民舞台、万相AI生视频、照相馆等趣味玩法,让用户在AI的帮助下创作有趣的图片和视频,记录生活美好时刻。 •智能体创建 简单易上手的智能体配置创建:用户可以根据需求创建所需的工具或聊天角色,满足个性化需求。 最主要的AI生图和AI视频等!!可玩性太高 【下载地址】 链接: 高速下载不限速 备用链接:  提取码:fx9c 拿走吱一声禁止白嫖怪 拿走吱一声禁止白嫖怪

封面图片

国外爆火emo模型国内上线了,阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了,体验了一下非常强。

国外爆火emo模型国内上线了,阿里可以让人像照片变成唱歌视频的项目 EMO 终于发布了,体验了一下非常强。 一张简单的照片加上克隆的语音模型,就可以定制自己的数字人出镜。 Heygen 之类的产品都需要录制一段相当长的视频,并且算力成本也很高,这个直接是免费的。明天开放公测,想要提前体验的同学可以找我要一个内测邀请码。 而且不局限于写实的人像,3D 模型、 二次元漫画都可以生成视频,生成一张自己喜欢的二次元图片然后加上自己的克隆语音就可以当Vtuber了。 EMO效果为什么这么自然: 通过阅读EMO的论文发现,他们在talking head领域首次提出了weak condition(弱控制)的设计,即剔除掉了任何针对人脸的显示表征建模,转而采用一些相对较弱的控制条件来引导diffusion去噪过程,这一点其实灵感来源于文生图模型中,采用粗粒度的prompt描述来生成图片。 他们在算法pipeline中加入了face locator和speed layers,分别用来控制人脸的生成区域(人头摆动幅度)与人头的动作频率。通过这些操作,可以最大化地保留diffusion模型强大的生成创造能力,由于没有针对表情的显示表征的限制,所生成的人脸表情都会有较高的丰富度,从而表现力有较大的提升 EMO没有针对人脸生成做过多的控制,人物会做什么表情,头部会如何运动,都是由模型从数据中学习到相关的知识决定。 表情、口型的一致如何保证: 模型会在训练中找到音频特征与图像中像素的对应关系,从而放大音频特征对于这些相关像素的影响,比如嘴部,眉眼等位置的像素,让图像中的人物表情口型与音频特征保持一致。 EMO在250小时的人物讲话视频上训练,不仅仅找到了audio中具体发音与人像口型的匹配关系,更重要是发现了音频中的语气特征与人物表情的关联性,从而将音频中的语气特征,甚至暗含的情绪色彩反映到了人物微表情上,它模型在训练中慢慢学习并编码了人类表达情绪的能力。

封面图片

免费GPT-4o来袭 音频视觉文本实现“大一统”

免费GPT-4o来袭 音频视觉文本实现“大一统” 此前,有传言称 OpenAI 将推出 AI 搜索引擎,旨在与Google明天举办的 I/O 开发者大会一较高下,一度引发了公众的热烈讨论。不过 Sam Altman 随后在 X(原Twitter)上表示,要展示的并非 GPT-5 或搜索引擎,而是一些令人期待的创新成果,他本人对此充满期待,认为其像魔法一样神奇。那么,GPT-4o 是否真的如 Sam Altman 所说,是 OpenAI 带来的“新魔法”呢?1多模态实时语音助手更快更全更有情感登台后,Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI,紧接着就介绍了本场发布会的主角GPT-4o 。在发布会上,Mira Murati 与团队成员 Mark Chen、Barret Zoph一起,重点展示了基于 GPT-4o 的 ChatGPT 在不同任务中的实际表现,尤其展现了其语音能力。若用关键词加以总结,搭载 GPT-4o 的 ChatGPT 可谓是又快、又全、又有情感。与 ChatGPT 对话时,用户不必等 ChatGPT 说完,可以随时插话;模型能够实时响应,不存在尴尬的几秒延迟。在 Mark 表示自己很紧张且捕捉到他急促的呼吸后,ChatGPT 还会提醒需要冷静情绪,识别其呼吸节奏并引导他做深呼吸。模型能够以各种不同的风格生成声音。无论对话时让 ChatGPT 用唱歌的方式、机器人机械音还是戏剧化的语气讲故事,它都能迅速反应并输出。基于 GPT-4o 强大的视觉能力,用户还可以语音让 ChatGPT 分析页面上的数据图表。更强大的是,打开摄像头后写下一道数学题,ChatGPT 还会一步步引导该如何解下一步,其讲解的清晰度与耐心堪比幼教。ChatGPT的“同传能力”也不容小觑,OpenAI 团队还在现场展示了一波英语和意大利语的实时互译,中间实现零延迟。更有意思的是,ChatGPT 在对话中还会使用语气词,甚至是向 OpenAI 团队开玩笑和表达感谢。在“看到”他们写下“我爱 ChatGPT”的文字后,ChatGPT 甚至会在发出撒娇的声音后,再表扬其贴心。ChatGPT 甚至还能和用户“视频聊天”。在演示中,Barret 让 ChatGPT 猜测自己的情绪,在他开始露出笑脸后,ChatGPT 直接语音回复“你看起来很开心,笑容灿烂,还有点激动。”英伟达首席 AI 科学家 Jim Fan 曾讲述过当前实时语音助手(如 Siri )的困境,即很难创造出沉浸式的使用体验。用户在和 AI 语音助手对话时要经历三个阶段:语音识别(ASR),将音频转换为文本,例如 Whisper;大语言模型(LLM)规划接下来的话语,将第一阶段的文本转换为新的文本; 语音合成(TTS),将新文本转换回音频,如 ElevenLabs 或 VALL-E 。如果简单地按顺序执行,就会产生巨大的延迟,特别是当每一步都需要等待几秒时,用户体验就会急剧下降,哪怕合成的音频听起来非常真实,也会让用户格外“出戏”,就更别提沉浸式的使用体验了。以往的 ChatGPT 语音模式也是如此,依赖三个独立模型工作,平均延迟时间为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4),语音助手也总会出现信息丢失,既不能判断语调、多个说话者或背景噪音,也不能输出笑声、唱歌或表达情感。而现在,GPT-4o 的音频输入响应时间最短为232毫秒,平均响应时间为320毫秒,与人类在对话中的反应时间极为相似。作为一个全新的单一模型,GPT-4o 能端到端地跨文本、视觉和音频,所有输入和输出都由同一个神经网络处理,直接一步到位,在用户输入后(文本、语音、图像、视频均可)直接生成音频回答。2GPT-4o一款免费的全能 GPT-4Mira Murati 在发布会上表示,GPT-4o 最棒的地方在于,它将 GPT-4 的智能提供给每个人,包括免费用户,将在未来几周内迭代式地在公司产品中推出。GPT-4o 中的字母 o 指 omni,在拉丁语词根中是“全”的意思,是涵盖了文字、语音、图片、视频的多模态模型,接受任何模态的组合作为输入,并能生成任何模态的组合输出。据 OpenAI 官网,GPT-4o 不仅在文本和代码处理的性能上与GPT-4 Turbo持平,而且在 API 调用上速度更快,价格更是降低了50%。文本能力测试。与GPT-4对比多语言考试能力。更重要的是,GPT-4o 的视觉理解能力在相关基准上取得了压倒性的胜利。在音频方面,GPT-4o 的语音识别(ASR)也比 OpenAI 的语音识别模型 Whisper 性能更佳(越低越好)。与 Meta、Google的语音转写模型相比,GPT-4o 同样领先(越高越好)。若落实到实际生活的使用中,GPT-4o 究竟能给普罗大众带来什么变化呢?OpenAI的官网展示了 GPT-4o 在海报创作、三维重建、字体设计、会议总结等等一系列充满可能性的应用。比如,在输入人物图片、海报元素以及想要的风格后,GPT-4o 就能给用户生成一张电影海报。或者,根据输入的诗歌文本,GPT-4o 能生成用手写体写着诗歌、画着画的单行本图片。在输入6张 OpenAI 的 logo图后,GPT-4o 能三维重建出其立体动图。甚至还可以让 GPT-4o 帮忙把 logo 印在杯垫上。“今天,有 1 亿人使用 ChatGPT 来创作、工作、学习,以前这些高级工具只对付费用户可用,但现在,有了 GPT-4o 的效率,我们可以将这些工具带给每个人。”Mira Murati 如是说道。3写在后面发布会之外,OpenAI 研究员 William Fedus 透露,此前在大模型竞技场参与A/B测试并碾压全场的模型“im-also-a-good-gpt2-chatbot”,就是本次登场的 GPT-4o 。截至2024年3月,OpenAI 在不到十年的运营时间内,已经完成了10轮的融资,累计筹集资金超过了140亿美元,其估值在2月的融资交易中已经飙升至800亿美元。伴随着狂飙的市值,OpenAI 的技术版图已经横跨了多个 AI 的关键领域,形成了一个全面而深入的产品矩阵。API 产品线提供了包括 GPT 模型、DALL·E 模型、Whisper 语音识别模型在内的多样化服务,并通过对话、量化、分析、微调等高级功能,为开发者提供技术支持;ChatGPT 为核心的产品线分别推出了个人版和企业版。在音乐生成领域,OpenAI 也有一定的技术积累,比如经过训练的深度神经网络 MuseNet,可预测并生成 MIDI 音乐文件中的后续音符,以及能生成带人声音乐的开源算法 Jukebox。再加上年初春节假期期间毫无征兆推出的 AI 视频生成大模型 Sora,更是让网友们感叹“现实,不存在了。”毋庸置疑,OpenAI 是大模型这场擂台赛中当之无愧的擂主,其技术与产品的迭代更是整个行业的风向标,不少大模型创业者都遇过“OpenAI 不做,没人投;OpenAI 一做,人人投”的融资奇观。但随着 Claude 3 和 Llama 3 的紧追与 GPT Store 上线2个月惨遭“滑铁卢”,不少 AI 行业从业者开始对 OpenAI 祛魅,认为“大模型护城河很浅,一年就赶上了。”现在看来,OpenAI 果然还是 OpenAI。 ... PC版: 手机版:

封面图片

199元的AI课卖了5000万 起底清华博士李一舟

199元的AI课卖了5000万 起底清华博士李一舟  不过,《科创板日报》记者了解发现,李一舟其实出自清华美院,与AI、深度学习等专业毫不相关。2013年的一篇清华大学官网报道显示,李一舟是美院学生,当年是其在清华美院的第五年博士生涯。2月21日,《科创板日报》通过李一舟的抖音视频号发出采访请求,但截至发稿,未获回复。一位FA人士对《科创板日报》记者表示,由于李一舟目前不融资,因此很少联系。记者获得了一份李一舟的联系方式,拨打电话后,却一直无人接听。清华博士卖AI课ChatGPT火了之后,看来又是“卖水人”先赚到第一桶金。飞瓜数据显示,李一舟售卖的AI课《每个人的人工智能课》一年内卖出约25万套,销售额约5000万。该课程原价为999元,现价为199元。而在抖音上,李一舟早已收获一众粉丝。作为财经自媒体,李一舟的个性签名为:清华大学博士、三家科技公司创始人、融资数千万、职业经理人、擅长解决AI人工智能、商业模式、知识IP和流量问题。从清华大学博士到三家科技公司创始人,再到融资数千万,及职业经理人等,无论哪个“title”,都让李一舟的AI课看起来颇有吸引力。创道投资咨询总经理步日欣在接受记者采访认为,卖课之所以可以赚到大钱,源于知识付费的脱实向虚。“每次toC销售的成功,其实都源于抓住了客户的恐惧心理或者渴望心理,或者是二者的结合体。”不过,在步日欣看来,想卖出课也并非想象中那么容易。如果不是有众多粉丝积累的普通博主,即使各种渠道宣发大半个月,真正能吸引上来付费的用户也不会太多,从投入产出比看,不如去第三方平台讲一两个小时划算。在第三方视频号上,记者也看到,李一舟的每篇视频内容,都能收获上千、甚至上万个点赞。在“人工智能商业机会”这一内容上,点赞数达到6093个。普通人如何通过AI赚钱?李一舟认为有三大路径:一是AI图文带货。博主们可以通过AI大规模制作视频,达到出爆款的可能,但红利期只有3个月;二是TO B业务。学会调模型和提示词之后,与企业合作,微调出一条适合TO B公司的大模型,替客户做销售;三是用AI在多平台上开设账号,通过AI绘图和高级视频,以及精美物料,通过3-6个月的流量红利期,实现精准收获。总之,在李一舟看来,所有人都需要学习AI,因为在工作效率上AI具有无法比拟的优势。卖课前三次创业卖课之前,李一舟经常用创业、投资、打工人作为标签,谈及自己的感受。确实,李一舟有过三次创业。清华大学官网显示,李一舟的创业项目包括“魔镜”APP、“微蜜”APP和12sleep匙悟科技。其中,“魔镜”APP能够对镜子发出声波指令,让镜子成为“照相机”;“微蜜”是把人本身当成导体,通过手机屏幕上测算出皮肤角质层的饱和度,推荐今天该使用哪一类护肤品。12sleep匙悟科技,则应该是李一舟真正意义上的创业。数据显示,匙悟科技完成过3轮融资:2016年启迪之星创投、知卓资本、夏鼎资本参与A轮融资。2014年-2015年,匙悟科技完成过数百万美元的Pre-A轮,以及数百万人民币的天使轮融资。启迪之星创投的前身,本来就是清华创业园孵化器平台,专为清华大学科技园企业提供服务。有了启迪之星等投资机构的加持,又是清华系创业者,12sleep匙悟科技吸引了雷军的关注。《科创板日报》记者注意到,12sleep匙悟科技进入过小米生态链。2016年,米家上线的一款众筹产品智能睡眠传感器Lunar,即为匙悟科技的新产品。 按李一舟的话说,匙悟科技的目标是年轻人,这类人群的家庭入口应该是卧室,匙悟科技将开放蓝牙协议给智能和非智能设备,成为“卧室媒体入口”。截至目前,12sleep匙悟科技依然存续,李一舟为实控人,而萁出任总经理的另一家公司北京一舸科技有限公司,则被北京悦米科技有限公司持股,尚势资本也在其中,持股比例为9.9992%。值得一提的是,尚势资本投资过睡趣科技。李一舟称,“创业公司被收购后,作为副总裁,负责产品和供应链,帮助过另一家小米生态链拟上市公司,1年半销售额过10亿元”。AI课程群疑被解散从清华博士到“创业的公司被收购”,李一舟的早期经历亦算是顺利。此次,引起公众好奇的“199元的AI课程卖了5000万元”事件,将李一舟推至聚光灯下。不过,李一舟的AI课程群却疑被解散。一张网络截图显示,一舟AI人工智能实战训练营B已“无法在已解散的群聊中发送消息”。有网友甚至说,李一舟的AI课程是诈骗。记者通过B站看到了李一舟的部分AI课程内容,发现课程其实是对大模型、AI、ChatGPT概念、入门知识的梳理和讲解。严格意义上说,清华美院毕业的李一舟对AI专业知识也是门外汉。但李一舟的核心词是:设计和用户体验、AIoT、创业干货、副业落地。创道投资咨询总经理步日欣认为,AI课程其实是收消费者的智商税,抓住了部分消费者焦虑未来、渴望新知的心理。“从卖课经验看,一部分讲的是‘创业艰辛和融资逻辑’,另一部分就宣传‘上完课半个月搞定融资’,知识与情绪的差别可能就造成了课程的大卖。本来,从用户体验上讲,学知识本来就很累人,谁愿意付费受累,但’上一次AI课就能跟上时代、不被淘汰‘的宣传,则抓住了现代人的焦虑心理。”步日欣说。李一舟也在视频号上表示,普通人无论是否通过AI赚钱,但都必须跟上时代,否则饭碗可能不保。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人