这是最近开的一个新坑,借由搜索引擎和杂志报刊等残存资料探究一下国内互联网这些网盘的历程,由于需要介绍的大部分服务我都没有使用过,

这是最近开的一个新坑,借由搜索引擎和杂志报刊等残存资料探究一下国内互联网这些网盘的历程,由于需要介绍的大部分服务我都没有使用过,只是通过资料来判断,因此会有一些内容存在不准确的问题,还希望订阅者们见谅。

相关推荐

封面图片

关于ChatGPT 做 Search 会杀死大部分 Wrapper 型 AI 搜索引擎的讨论,我有一些不一样的看法

关于ChatGPT 做 Search 会杀死大部分 Wrapper 型 AI 搜索引擎的讨论,我有一些不一样的看法 1. AI 搜索引擎的第一要义是准确度。 准确度的决定性因素主要是两个:问答底座模型的智能程度 + 挂载上下文的信息密度。 做好 AI 搜索引擎的关键,选用最智能的问答底座模型,再对 RAG 的检索结果进行排序去重,保证信息密度。 第一个步骤容易,第二个步骤很难。所以现在市面上大部分的 AI 搜索引擎,包括 Perplexity,准确度也就 60% 左右。 2. ChatGPT自己做搜索,首先保证了问答底座模型的智能程度。 其次在检索联网信息层面会做黑盒优化,包括 Query Rewrite / Intent Detection / Reranking 这些措施。 最终依赖自身模型的 Long Context 特性,效果就能做到比其他纯 Wrapper 类型的 AI Search Engine 要好一点。 3. 我并不觉得大模型厂商自己做 AI 搜索 就一定会比第三方做的好。 比如我做 ThinkAny, 首先接入 claude-3-opus,在模型底座智能程度方面,就不会输 gpt-4,第三方甚至能有更多的选择,针对不同的场景切换不同的模型。 其次,Long Context 也有很多模型能够保证。 再者,工程层面对 RAG 挂载上下文内容的优化,ChatGPT 能做,第三方也可以做。 4. 做好 AI 搜索引擎,最重要的三点是准 / 快 / 稳,即回复结果要准,响应速度要快,服务稳定性要高。 其次要做差异化创新,错位竞争。比如对问答结果以 outline / timeline 等形式输出,支持多模态搜索问答,允许挂载自定义信息源等策略。 5. AI 搜索引擎是一个持续雕花的过程。 特别是在提升准确度这个问题上,就有很多事情可以做,比如 Prompt Engineering / Query Rewrite/ Intent Detection / Reranking 等等,每个步骤都有不少坑。 其中用 function calling 去做 Intent Detection 就会遇到识别准确度很低的问题。 用 llamaindex + embedding + Vector DB 做 Reranking 也会遇到排序效率低下的问题。 6. AI Search + Agents + Workflows 是趋势。 AI Search 做通用场景,通过 Agents 做垂直场景,支持个性化搜索需求。 通过 Workflows 实现更加复杂的流程编排,有机会把某类需求解决的更好。 使用 GPTs 做出的提示词应用或知识库挂载型应用,价值点还是太薄。 7. 我个人不是太看好垂直搜索引擎。 一定程度上,垂直搜索引擎可以在某个场景做深做透,但是用户的搜索需求是非常多样的,我不太可能为了搜代码问题给 A 产品付费,再为了搜旅游攻略给 B 产品付费。 垂直搜索引擎自建 index 索引,工程投入比较大,效果不一定比接 Google API 要好,而且接入的信息源太有限。 8. AI 搜索是一个巨大的市场,短时间内很难形成垄断。 海外 Perplexity 一家独大,国内 Kimi/秘塔小范围出圈。各家的产品体验,市场占有率还没有达到绝对的领先,后来者依然有机会。 9. AI 搜索引擎需要尽早考虑成本优化。 主要支出在于大模型的 token 成本和搜索引擎的 API 请求费用。 成本优化是个持续的过程,比如可以自行部署 SearXNG 来降低搜索的成本,部署开源模型来降低大模型的 API 调用成本。 day one payment,趁早向用户收费也许是一种 cover 成本的好办法,但是也要考虑用户流失的问题。 以上是我个人做一个多月以来的一些经验和思考。欢迎交流探讨。

封面图片

据报道,从谷歌内部泄露的 2500 页文件揭示了搜索引擎这一互联网最有影响力的裁决者是如何运作的

据报道,从谷歌内部泄露的 2500 页文件揭示了搜索引擎这一互联网最有影响力的裁决者是如何运作的 Rand Fishkin 在SEO优化领域工作了十多年,他声称有人向他分享了 2500 页的文件,希望通过报道这次泄露事件来反驳谷歌员工关于搜索算法运作方式的“谎言”。Fishkin表示,这些文件详细说明了谷歌的搜索 API,并分析了员工可以获取哪些信息。 长文,有兴趣的自行了解一下。 标签: #Google #SEO 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

互联网已死?我们现在看到的大部分内容都是由机器人生产的

互联网已死?我们现在看到的大部分内容都是由机器人生产的 该理论有两个主要组成部分:一部分是机器人取代了人类在互联网上的活动;另外一部分是行为者正在利用这些机器人来操纵网民。当机器人在互联网的活动超过人类的时候,一些人认为这就意味着互联网“已死”,而在这个理论中互联网的“死亡”日期2016年到2017年之间。这个日期的主要依据是,2016年的时候,安全公司Imperva(网络安全领导者之一)发布了一份关于机器人访问流量的报告,揭示机器人占据了互联网52%的网络流量。已死的互联网理论最早是在哪里被人提出的,已经很难进行考证了,它经常被认为只是阴谋论而已,但也许没那么简单。互联网的机器人内容其实,现在的机器人不仅使用了超过50%的网络流量,超过50%的内容也是由机器人生产的,特别是在社交平台上,机器人不仅在生产文章、视频和图片等内容形式,甚至连评论区的大部分内容也都是由机器人生产的。你会发现,中文互联网中,现有的社交平台很多都引入了官方的评论机器人,有些会直接告诉你那是AI评论,有些则不会告知。图:这个就是微博的评论机器人由于我个人一直在做自媒体,在各个平台上发表我的作品,所以我比较清楚这一点,那些牛头不对马嘴的评论基本是由机器人贡献的。至于什么时候开始,互联网内容超过一半都是由机器人生产的,一些报告显示,是从2022 年开始的。2022年是生成式AI诞生的年份,这一年 OpenAI 推出了首款生成式AI大模型ChatGPT,它能够直接模仿人类创作内容,而且它对所有普通用户开放,甚至一些服务现在是免费的。以前所谓的机器人创作内容,其实只是一种“伪原创”,通过一些工具将原有文章进行一些简单的修改比如把一些词语用同义词替换一下,以此来欺骗搜索引擎或者社交平台,来得到更好的搜索排名。但是,有了生成式AI大模型之后,一切都变了,人工智能可以直接根据你的简单指令几秒内生成相应的内容,文章,图片,视频都可以通过指令直接生成。所以,没什么好意外的,我们看到的大部分内容如果不是机器人生产的那才奇怪。不过不仅如此,你在社交平台上关注的很多所谓大V,背后可能也只是机器人而已。社交平台不会对外公布它们有多少内容是由机器人生产的,也不会对外公布哪些账户是由机器人在输出内容的。不过,在马斯克收购推特平台(现在的X平台,类似国内的微博)的时候,推特上机器人运行的账户比例被搬上了台面来讨论。推特原有的老板告诉马斯克大约每日活跃用户 (mDAU) 的5%是机器人,但是马斯克请了专业机构 Cybra 公司进行了重新评估,该公司回馈给马斯克两个报告,一份报告显示13.7%的推特日活用户是机器人,而另一份则显示11%。更搞笑的是,这10%多点的机器人日活用户创造了大部分的推特内容。你可能会好奇,为什么人们要让机器人不遗余力的去生产内容呢,而社交平台也不进行筛选。其实,答案很简单,平台根本管不过来,机器人会专门不停针对算法来调整自己的内容,以此来躲避搜索引擎或者社交平台的审查。马斯克博文的AI翻译但由于机器人生产的内容确实影响了真实用户的体验,所以马斯克现在正在探索让推特用户支付会员费以阻止机器人内容(估计在他眼里机器人内容就像广告一样烦人)。至于生产这些内容的目的是什么,据我了解主要就是三点:第一点就是挣取这些社交平台的广告分成。很多没有接触过自媒体的人可能并不清楚,你在平台上发表作品是有广告分成的,这部分收益现在也是我们怪罗这个ip的主要收入来源。在行情好的时候,一篇百万播放的视频有几千块的收益,而即便是现在行情不好的时候,这个收益依然还算能维持。由于热门内容很容易继续出爆款,所以你会发现,一个稍微热门一点的事件或者话题,你会刷到不同用户制作的完全雷同的内容。第二点就是账户买卖。做自媒体的应该都知道,从最早微博兴趣开始,互联网上就出现了一个专门买卖社交媒体账户的产业链,这个产业算是互联网的灰色地带,但是它从诞生到现在就没有停止过。而且从最初的微博账户买卖,演变成今天我们可以用极低的成本去购买任何一个社交媒体平台的账户,而且拥有上百万粉丝的账户都可以轻松买到。很多人可能想要知道,这些账号的粉丝都是怎么来的,以前我一直以为就是一些僵尸粉(不活跃的账户)而已,但其实即便僵尸粉也是有成本的,而且质量还差。很多这类账号其实就是靠内容吸引来的,只是它们的内容并不是像我们这样一个字一个字地打出来,而是直接由机器人批量抓起,批量修改,然后24小时不停发布。因为完全由机器人制作和发布,效率非常高,一个运营人员可以同时运营数十个账户,每天大量的发布热门内容,以此来吸引用户关注。等粉丝基数达到一定程度,直接将账号出售,以此盈利。第三点,也是最让人讨厌的一点,行为人通过发布一些内容来引导舆论。评论区是一个引导评论的方向的好地方,但其实机器人创作内容可不是仅通过评论来引导,而是直接制作和发布相应的内容。由于大多时候我们很难了解到事件的全部,所以很容易被这些断章取义的内容误导。一些别有用心的人,就会通过海量机器人发布“断章取义”的内容把舆论引向有利自己的那一边。所以,任何互联网的瓜都要理性地吃,不然一不小心可能就站错队了最后如果行为人的目的只是赚取广告分成和吸粉卖号的话,那么他们不会对自己发布的内容负责,他们只会在乎内容能够拿到多少流量。而目前机器人创作的内容,没有人工审核的话,它只会创造虚假内容,加上我们前面提到的断章取义引导舆论的。可以说现在的互联网存在大量的虚假信息,因此说互联网已死真的不为过。参考链接: ... PC版: 手机版:

封面图片

数据:中文互联网内容逐年消失 十年间下降了70%

数据:中文互联网内容逐年消失 十年间下降了70% 文章的作者举例,如果在百度上搜索“马云”这两个字,把时间设定在1998年到2005年,能搜出来的信息,大概有多少条呢?结果是1条。那么,事实到底是不是这样呢?下面,我们通过各种具体数据来分析一下。有个名为“Web Techmology Surveys”的网站,根据全球网站使用的语言,统计了从2013年到2024年这些年来,主要网站页面内容语言使用的历史趋势,从这个表格可以看出,中文网页的数量从2013年的4.3%降低到2024年的1.3%,十年间下降了70%,目前,全球的中文网页数量仅仅略高于印尼语和越南语,而低于波兰语和波斯语。从CNNIC发布的《中国互联网络发展状况统计报告》的数据上看,从2018年12月到2023年12月,中国的网站数量从544万个下降到388万个,五年时间内下降近30%,这一数据反映了中文网站数量减少的严峻形势。中国网民规模达10.92亿人,互联网普及率达76.4%,网民数占全球的19%,而中文网页的数量却在10年间下降了70%,中文网站数量在5年间下降了30%,这的确说明,中文内容网站正在迅速减少,并逐步消亡。中文网站内容为什么会减少为什么会出现这种情况,我觉得主要原因有:平台垄断中文互联网市场被少数几家大型科技公司所垄断,这些巨头公司通过资本和技术优势,控制了大量的流量和用户资源。平台垄断不仅限制了内容的多样性,还进行内容控制,使得通过常规手段难以访问这些平台的内容,只能通过这些平台专有的软件才能访问,搜素引擎等外部系统无法获取到这些内容,这也使得互联网上的可以直接访问的中文网页数量逐渐减少。与此同时,小型网站和独立博客在这种竞争中难以为继,许多网站因为流量不足、广告收入减少而被迫关闭。用户习惯变化与内容生产转型随着短视频、直播等新兴媒体形式的兴起,用户的内容消费习惯发生了显著变化。越来越多的人选择在抖音、快手等平台上消费内容,而传统的文字和图文形式的网页逐渐被冷落。内容生产者为了适应这一趋势,也纷纷转向短视频等新媒体平台,减少了传统网页内容的创作和发布。广告收益下降近年来,互联网广告市场竞争激烈,广告收益普遍下降。许多中文网站依靠广告收入维持运营,但随着广告市场的萎缩,许多网站面临巨大的经济压力。特别是中小型网站,无法承受运营成本,最终选择关闭或减少内容更新。此外,广告主更倾向于投放在大平台和热门应用上,进一步加剧了中小网站的生存困境。监管加强与内容审查监管部门对互联网内容的监管和审查力度不断加强,例如网站的备案制度实施等,让许多网站由于无法符合监管要求而被迫关闭或减少内容发布。带来的影响互联网上的中文网页数量逐渐减少,虽然这种变化有其复杂的原因,但其影响已经显现,并将在多个方面产生深远的后果。以下是中文网页减少带来的主要影响:信息获取的难度增加中文网页数量的减少直接导致了信息来源的减少。用户在寻找特定信息时,可能面临可供参考的网页数量不足的困境,尤其是在一些小众或专业领域。信息的可得性降低,使得用户需要花费更多时间和精力来获取所需资料。这种状况不利于知识的传播和积累,可能影响到教育、科研等领域的效率和效果。内容多样性的下降随着中文网页的减少,互联网内容的多样性也在下降。许多小型网站和独立博客因为无法维持运营而关闭,导致一些独特的、非主流的内容逐渐消失。内容的同质化问题进一步加剧,用户能够接触到的信息类型和观点变得更加单一,互联网的开放性和包容性受到削弱。小型企业和创作者的生存压力中文网页的减少对小型企业和独立内容创作者带来了生存压力。许多依靠互联网进行业务推广和内容创作的小型企业和个人,由于流量和曝光率的下降,面临收入减少的困境。大平台和热门应用的垄断地位,使得中小型网站难以获得足够的用户和广告支持,生存空间被进一步压缩。文化多样性的丧失中文互联网曾是文化交流和多样性展示的重要平台,然而,随着网页数量的减少,许多地方文化、民间艺术、传统知识等内容面临消失的风险。互联网不再是多元文化展示和传承的乐园,文化的单一化倾向可能导致传统文化和少数民族文化的边缘化和遗忘。学术研究的挑战学术研究依赖于丰富的资料来源和多样的信息渠道。中文网页的减少对学术研究产生了不利影响,研究人员在进行资料收集和文献综述时,可能面临信息不足的问题。特别是在社会科学和人文研究领域,缺乏多元化的信息来源,会影响研究的深度和广度。搜索引擎结果的单一化随着中文网页数量的减少,搜索引擎提供的结果也变得单一化。用户在搜索特定信息时,可能频繁遇到相同或相似的内容,搜索体验下降。这不仅影响用户的使用体验,也可能导致信息茧房效应,使用户接触到的信息更加片面和有限。结语总的来说,互联网上中文网页数量的迅速减少是多种因素共同作用的结果,目前来看,这一趋势在短期内无法改变,互联网上中文网页数量的减少带来了诸多影响,从信息获取的难度增加到文化多样性的丧失,到搜索引擎结果的单一化,再到学术研究的挑战,这些影响可能对中文互联网的未来发展产生深远的后果。相关文章:中文互联网正在加速崩塌 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人