楼主: 1473718720
1831 1

[数据业务] 大数据 [推广有奖]

  • 0关注
  • 0粉丝

初中生

52%

还不是VIP/贵宾

-

威望
0
论坛币
9 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
3793 点
帖子
3
精华
0
在线时间
26 小时
注册时间
2016-3-5
最后登录
2016-8-2

楼主
1473718720 发表于 2016-3-5 10:47:35 来自手机 |只看作者 |坛友微信交流群|倒序 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
人大经济论坛经管爱问微信好号“jgasker”好文共享与推荐,实时答疑服务,欢迎关注!

我在六年前加入到 LinkedIn公司,那是一个令人兴奋的时刻:我们刚开始面临单一庞大的集中式数据库的限制问题,需要过渡到一套专门的分布式系统。这是一个令人兴奋的经历:我们构建、部署和运行分布式图数据库、分布式搜索后端、Hadoop以及第一代和第二代键值数据存储,而且这套系统一直运行至今。

这个过程中,我学到的最有益的事情是我们所构建这套系统的许多组件其核心都包含了一个很简单的概念:日志。日志有时会叫成预先写入日志、提交日志或者事务日志,几乎和计算机本身形影不离,是许多分布式数据系统和实时应用架构的核心。
不懂得日志,你就不可能真正理解数据库、 NoSQL存储、键值存储、数据复制、 paxos、 Hadoop、版本控制,甚至几乎任何一个软件系统;然而大多数软件工程师对日志并不熟悉。我有意于改变这个现状。

本文我将带你浏览有关日志需要了解的一切,包括日志是什么,如何在数据集成、实时处理和系统构建中使用日志。
日志可能是一种最简单的不能再简单的存储抽象,只能追加、按照时间完全有序的记录序列。日志看起来的样子:

在日志的末尾添加记录,读取日志记录则从左到右。每一条记录都指定了一个唯一的顺序的日志记录编号。
日志记录的次序定义了『时间』概念,因为位于左边的日志记录表示比右边的要早。日志记录编号可以看作是这条日志记录的『时间戳』。把次序直接看成是时间概念,刚开始你会觉得有点怪异,但是这样的做法有个便利的性质:解耦了 时间 和 任一特定的物理时钟。引入分布式系统后,这会成为一个必不可少的性质。

【译注】 分布式系统的时间、次序、时钟是个最基础根本的问题,详见被引用最多的 Leslie Lamport的论文 Time Clocks and the Ordering of Events in a Distributed System( 中文翻译),现在先 不要 去看,除非读完本文后你还是有很兴趣要探个明白!
日志记录的内容和格式是什么对于本文讨论并不重要。另外,不可能一直给日志添加记录,因为总会耗尽存储空间。稍后我们会再回来讨论这个问题。

所以,日志和文件或数据表并没有什么大的不同。文件是一系列字节,表是由一系列记录组成,而日志实际上只是一种按照时间顺序存储记录的数据表或文件。
讨论到现在,你可能奇怪为什么要讨论这么简单的概念?只能追加的有序的日志记录究竟又是怎样与数据系统生产关系的?答案是日志有其特定的目标:它记录了什么时间发生了什么事情。而对分布式数据系统,在许多方面,这是要解决的问题的真正核心。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大数据 distributed Ordering LinkedIn tribute LinkedIn 数据库 而且

沙发
1473718720 发表于 2016-3-5 10:49:18 来自手机 |只看作者 |坛友微信交流群
大数据。大数据

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-24 17:27