近邻词汇检索新增了“英文”近邻词查询。

近邻词汇检索新增了“英文”近邻词查询。 对英语学习、写作、翻译有帮助,可以寻找英语的近似表达、发现概念拓展思路。 注意:中文和英文是两个独立集合。在英文中查找中文近邻词、或者反过来,都很可能没有结果 | #工具 #英语

相关推荐

封面图片

语言的基本单位是词,不是字。对学中文的外国人来说,只识字不学词,依然没用。学的主要障碍恰恰在于字太多,既要识字也要掌握词汇,而学

语言的基本单位是词,不是字。对学中文的外国人来说,只识字不学词,依然没用。学中文的主要障碍恰恰在于字太多,既要识字也要掌握词汇,而学英文只要掌握词汇。认为中文比英文容易的人,完全是无知,从来没接触过学中文的外国人就在那里意淫。

封面图片

日本研究发现改进英文写作能力的关键不是掌握复杂语法

日本研究发现改进英文写作能力的关键不是掌握复杂语法 根据发表在《Assessing Writing》期刊上的一项研究,日本神户大学语言学教授 Sachiko Yasuda 发现,英语学习者如果专注于提出好的论点,而不是精通复杂语法和词汇,他们有望改进其英语写作能力。Yasuda 在 2023 年进行了一项实验,让一所公立学校的 102 名学生就指定主题写一篇英文议论文,然后让两位不知实验目的的写作专家根据 GTEC 评分标准给议论文评分。结果表明,决定议论文分数的最重要因素不是其形式复杂性即语法和词汇等的复杂性而是代表论证质量的意义复杂性。 via Solidot

封面图片

由于 Telegram 的检索功能太烂,特别是中文,故专门为频道搭建了一个信息引索 bot,支持中英文检索。

由于 Telegram 的检索功能太烂,特别是中文,故专门为频道搭建了一个信息引索 bot,支持中英文检索。 使用方法: 私聊 @yummy_search_bot,发送内容,点击检索结果即可跳转频道对应消息 下面几条命令任何用户都可以使用: 1./search [keyword]: 搜索消息,同去掉 /search 的情形等价。 2./chats [keyword]: 列出所有被索引的,标题中包含 keyword 的会话列表。如果没有指定 keyword,则返回所有的会话。bot 会返回一列按钮,点击一个按钮之后这条消息就对应了一个会话。有一些指令包含 chat_id 作为参数,对于这些指令,如果没有指定 chat_id 参数,那么可以通过回复这条消息来把会话的 ID 当作参数。如果回复搜索的关键词,则只搜索这个会话中的消息。 3./random:返回一条随机的消息(暂不支持指定会话) 标签: #bot #中文搜索 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

《小时刷完考研核心母词990 》

《小时刷完考研核心母词990 》 简介:针对考研英语高频词汇的速记手册,帮助备考学生在有限时间内快速掌握核心词义与用法。通过科学筛选近十年真题词频数据,提炼出990个决定阅读、写作得分的关键单词,结合抗遗忘复习曲线设计每日任务,兼顾效率与巩固效果。 亮点:①直击考点:覆盖考研大纲90%高频词汇及真题衍生释义;②多维记忆法:融合词根词缀、真题语境、形近词对比;③便携刷词:模块化分册适配碎片化学习场景,每单元配备自测题。 标签:#考研英语 #高频词汇 #速记手册 #抗遗忘记忆法 #应试提分 #小时刷完考研核心母词990 链接:https://pan.quark.cn/s/553bade6fe19

封面图片

:拓词 #英语 记忆算法和学习心理应用是一个专注记忆算法和学习心理研究,坚持“极简”设计思路,协助大家快速拓展词汇量,让背单词高

:拓词 #英语 记忆算法和学习心理应用是一个专注记忆算法和学习心理研究,坚持“极简”设计思路,协助大家快速拓展词汇量,让背单词高效、不痛苦,更容易坚持,为提高外语水平奠定基础。结合计算算法和记忆算法来帮助学子们更好的记住单词,并且推出iOS和Android应用。 ToWords:拓词英语记忆算法和学习心理应用其最大的两个主要特点: 1、基本上覆盖了四、六级、硕士入学考试、雅思、托福、GRE等单词面,用户可以根据需求选择其中的任何单词书进行背诵。 2、多种方式保证单词的记忆的效果。该应用会根据你的反应速度评估你对某个单词的记忆程度,然后不断的再次呈现该单词以巩固记忆。另外其还通过语音、词形、词义等来考察单词的记忆。 因此,通过“拓词”,你只需要选择好单词书然后每天坚持记忆就行了,其他的一切包括记忆进度、巩固程度等数据都可以在拓词里面看到。

封面图片

咬文嚼字:词元是当今生成式人工智能失败的一个重要原因

咬文嚼字:词元是当今生成式人工智能失败的一个重要原因 因此,出于实用性和技术性的考虑,今天的转换器模型使用的文本已经被分解成更小、更小的片段,这些片段被称为标记这一过程被称为标记化。词元可以是单词,如"fantastic"。也可以是音节,如"fan"、"tas"和"tic"。根据标记化器(标记化模型)的不同,它们甚至可以是单词中的单个字符(例如,"f"、"a"、"n"、"t"、"a"、"s"、"t"、"i"、"c")。使用这种方法,转换器可以在达到称为上下文窗口的上限之前接收更多信息(语义意义上的)。但标记化也会带来偏差。有些标记符有奇特的间距,这会使转换器出错。例如,词元转换器可能会将"once upon a time"编码为"once"、"on"、"a"、"time",而将"once upon a"(有尾部空白)编码为"once"、"on"、"a"、"."。根据对模型的提示方式"once upon a"还是"once upon a ,"结果可能完全不同,因为模型并不能理解(就像人一样)意思是一样的。标记符号化器处理大小写的方式也不同。对模型来说,"Hello"并不一定等同于"HELLO";"hello"通常是一个标记(取决于标记化器),而"HELLO"可能有三个标记("HE"、"El"和"O")。这就是许多转换器无法通过大写字母测试的原因。东北大学研究大型语言模型可解释性的博士生 Sheridan Feucht 对此表示:"对于语言模型来说,'词'到底应该是什么,这个问题有点难以解决,即使我们让人类专家就完美的标记词汇达成一致,模型可能仍然会认为进一步'分块'是有用的。"我的猜测是,由于这种模糊性,不存在完美的标记符号生成器。"这种"模糊性"给英语以外的语言带来了更多问题。许多标记化方法都认为句子中的空格表示一个新词。这是因为它们是针对英语设计的。但并非所有语言都使用空格来分隔单词。汉语和日语不使用空格,韩语、泰语和高棉语也不使用。2023 年牛津大学的一项研究发现,由于非英语语言的标记化方式不同,转换器完成一项非英语语言任务所需的时间可能是英语任务的两倍。同一项研究和另一项研究发现,"标记效率"较低的语言的用户很可能会看到更差的模型性能,但却要支付更高的使用费用,因为许多人工智能供应商是按标记收费的。标记化器通常将逻各斯书写系统中的每个字符(在这种系统中,印刷符号代表单词,而与发音无关,如中文)视为一个独立的标记,从而导致标记数较高。同样,标记化器在处理凝集语(单词由称为词素的有意义的小词元组成,如土耳其语)时,往往会将每个词素变成一个标记,从而增加总体标记数。(在泰语中,"hello"的对应词สวัสดี有六个标记)。2023 年,Google DeepMind 人工智能研究员 Yennie Jun进行了一项分析,比较了不同语言的标记化及其下游效果。通过使用一个翻译成 52 种语言的平行文本数据集,Jun 发现有些语言需要多达 10 倍的标记才能表达英语中的相同含义。除了语言上的不平等,标记化也可以解释为什么今天的模型数学不好。数字标记化很少能保持一致。因为它们并不真正了解数字是什么,标记符号化器可能会将"380"视为一个标记符号,而将"381"表示为一对("38"和"1")这实际上破坏了数字之间的关系以及方程和公式中的结果。结果就是转换器混乱;最近的一篇论文表明,模型很难理解重复的数字模式和上下文,尤其是时间数据。(参见:GPT-4认为7735 大于 7926)。这也是模型不擅长解决变位问题或颠倒单词的原因。标记化显然给生成式人工智能带来了挑战。它们能被解决吗?也许吧。Feucht 指出,像MambaByte 这样的"字节级"状态空间模型,通过完全取消标记化,可以摄取比转换器多得多的数据,而不会影响性能。MambaByte 可直接处理代表文本和其他数据的原始字节,在语言分析任务方面可与某些转换器模型媲美,同时还能更好地处理"噪音",如带有交换字符、间距和大写字母的单词。不过,像 MambaByte 这样的模式还处于早期研究阶段。"最好的办法可能是让模型直接查看字符,而不强加标记化,但现在这对变换器来说在计算上是不可行的,"Feucht 说。"特别是对于变换器模型来说,计算量与序列长度成二次方关系,因此我们真的希望使用简短的文本表示"。如果不能在词元化方面取得突破,新的模型架构似乎将成为关键。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人