DDIA是一本分布式系统、数据库、大数据处理的经典必读书籍。

DDIA是一本分布式系统、数据库、大数据处理的经典必读书籍。 本书在理解英文原文的基础上,结合作者的一些工作经验,进行一些相应扩展,并参考github上Vonng的中文翻译版,对每一章用中文重新组织,作为每次分享的文字稿,在此集结为一本开源小册 || #电子书

相关推荐

封面图片

具有协作模型的分布式 #数据库 - 用于数据的 Git

具有协作模型的分布式 #数据库 - 用于数据的 Git TerminusDB 是一个强大的内存图形数据库,让你能够最大限度地提高生产力和数据的价值。 它具有众多功能和多个接口,能创建具有内置版本控制和其他类似 Git 操作的数据密集型、不可变和同步的数据库。

封面图片

6大数据库,挖掘7种Java业务下的分布式存储更优解

6大数据库,挖掘7种Java业务下的分布式存储更优解 描述:详解MySQL、Redis、Elasticsearch、Neo4j、HBASE、MongoDB的选型与开发。 链接:https://www.aliyundrive.com/s/b9HmdgpPwGN 大小:未知 标签:#学习 #知识 来自:雷锋 版权:版权反馈/DMCA 频道:@shareAliyun 群组:@aliyundriveShare 投稿:@aliyun_share_bot

封面图片

离线中英文词典数据库 || #数据库 #词典

离线中英文词典数据库 || #数据库 #词典 这是一份英文->中文字典的双解词典数据库,根据各类考试大纲和语料库词频收录数十万条各类单词的英文和中文释义,并按照各类考试大纲和词频进行标注。 ​​​ “最初开发看书软件时需要给软件添加一个内嵌字典,在网上找到了一份别人提供的 EDictAZ.txt 的文本文件,里面有差不多两万英文单词的释义,于是开始用这个文件来提供字典查询,用着用着不够用了,又找到一份四六级到 GRE 包含释义的词汇表,但是缺少音标,于是写了个爬虫从各种资料里面把音标给爬下来,外加自己补充了一些组成了一份三万基本词汇的数据库。 其后数年根据各种资料和网友贡献词库增长到 10 万左右,又找到 Linux 下面的 cdict-1.0-1.rpm 这个开源字典数据(mdict 的主词库也是根据 cdict 转换得到),并按照英国国家语料库的前 16 万单词进行校对,补全很多语料库里词频较高但是却没有收录的词条。”

封面图片

#电子书 《趣味数据分析》,上免费阅读

#电子书 《趣味数据分析》,上免费阅读 讲专业数据分析的书籍已经很多了,这本小册子尝试侧重趣味性,比如数据分析师日常工作中的一些争论,比如用图还是表,是阈值还是阀值;也涉及一些「诗与远方」的内容,比如如何配色、数据向善等内容

封面图片

OceanBase Database 是一个于 2021 年正式开源的分布式关系型数据库,完全由蚂蚁集团自主研发,已连续10年稳

OceanBase Database 是一个于 2021 年正式开源的分布式关系型数据库,完全由蚂蚁集团自主研发,已连续10年稳定支撑「双 11」。此外该社区还提供了丰富的数据库相关的中文资料和教程 OceanBase 基于 Paxos 协议以及分布式架构,实现了高可用和线性扩展。OceanBase 数据库运行在常见的服务器集群上,不依赖特殊的硬件架构。 OceanBase拥有金融级高可用、水平扩展、分布式事务、省钱(存储成本低)、易迁移等特性,具备机房和城市级别的高可用和容灾的功能,支持混合事务和分析(处理线上和离线大数据分析),还可以单机部署使用(单机分布式一体化架构)。 |

封面图片

持续更新的中文指令微调数据集,支持双语微调和数据修正。

持续更新的中文指令微调数据集,支持双语微调和数据修正。 本数据集包括中文和英文的混合数据集,方便双语微调,以及后续做持续的数据修正。 原始的Alpaca英文数据集也存在不少的问题,个别的数学类的sample是错的,有少部分output字段需要修正,一些的标签没有对齐等。本数据集会对原始的数据集进行修改和修正。再此基础上,翻译出对应的中文版本,中文版基本是原始sample的翻译,但是对于一些比如押韵类、时态类的一些instruction,直接翻译导致韵脚丢失,时态不一致等。需要对应的进行人工改写。主要分为以下几个方面: 修改原始英文数据集的一些问题 翻译为中文数据集 调整直译导致的一些sample code等一些特殊的输出不进行翻译 对齐一些特殊的标签 或者拒绝生成等输出 | #数据集

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人