PCTA学习笔记练习

TiDBer-lucy · 2024 年5 月 16 日 09:36

概述

1.数据技术发展的驱动力有哪些？

a.业务发展导致的数据容量增长

b.场景创新催生的"数据交互效率与数据模型多样性"需求

c.硬件与云计算的发展

2.2006 google三驾马车GFS, BigTable, Mapreduce分别解决什么问题？

GFS解决分布式文件系统问题

BigTable解决分布式Key-values存储问题

Mapreduce解决在分布式文件系统和KV存储上如何做计算和分析

3.数据技术栈方向和数据产品的本质是：

应对不同业务场景，结合相对固定的基础技术要素，进行各种数据技术与架构Trade Off(选择与平衡)

4.分布式技术的主要挑战有哪些?

01.如何最大程度的实现分治

02.如何实现全局的一致性

03.如何进行故障与部分失效的容错

04.如何应对不可靠的网络与网络分区

5.TiKV相关的理论包括哪些？

Google Spanner设计的multi raft-group副本机制

Google F1论文算法实现DDL

6.分布式事务模型特点

去中心化的两阶段提交

Google Percolator事务模型

TiKV支持完整事务KV API

默认乐观事务模型(3.0+版本也支持悲观事务模型)

默认隔离级别：Snapshot Isolation

7.Coprocessor是什么？

即协调计算器。

是TiKV中读取数据并计算的模块，每个TiKV存储节点都有一个协调计算器

8.如何构建一个Online DDL算法？

a.在TiDB里没有分表的概念，所以整个DDL完成过程非常快递

b.把DDL过程分成Public,Delete-only,Write-only等几个状态，每个状态在多个节点之间同步和一致，最终完成完整的DDL。

9.TiFlash行列数据同步？

以Raft Leaner方式接入Muti-Raft 组，使用异步方式传输数据，不参与Raft选举，对TiKV产生非常小的负担，同时还规避了复制组脑裂问题

10.解决AP算力问题，引入的MPP特点有？

TiDB-Server作为入口节点，通过代价决定是否经由MPP模式计算

TiFlash作为MPP计算节点

后续将引入MPP读取行存能力

11.HTAP已经实现的功能有？

TiDB引入实时更新的列式引擎，即解决了资源隔离，又提升了AP效率

在列存上引入MPP模型，实现了SQL join的下推与并行处理

通过Raft-base replication实现了时效性

融合大数据生态，比如TiSpark

TiDB的CBO可以采集行列Cost模型进行配置，并同步收集不同引擎的统计信息，统一进行最佳执行路径的选择

12.分布式关系型数据库设计的六大目标：

横向扩展，强一致及高可用，标准SQL与事务模型，云原生，HTAP，生态兼容性

13.推动计算与存储分离架构的主要原因是？

硬件，尤其是网络

存储引擎

14.TiKV存储引擎的特点？

a.更细粒度的弹性扩缩容

b.高并发读写

c.数据不丢不错

d.多副本保障一致性及高可用

e.支持分布式事务

LSM-tree结构本质是一个用空间置换写入延迟，用顺序写入替换随机写入的数据结构

RockDB是一个非常成熟的LSM-tree存储引擎，支持批量写入，无锁快照读

range分片可以更高效的扫描数据记录

range分片可以简单实现自动完成分裂与合并

弹性优先，分片需要可以自由调度

15.TiKV存储引擎从下到上的架构为？

RocksDB–>Raft–>Transaction–>TiKV API–>Coprocessor API

16.Multi-Raft将复制组更离散

角色包括leader、follower、learner

强主模式，读写在leader上

4.0版本开启follower read

Region base Multi-Raft实现了一个表可以同时多个写入点，TiKV的调度机制，可以识别单个节点的物理信息(IDC,RACK,HOST),并进程约束与绑定。

计算引擎

16.TiDB-server前台功能有哪些？

a.管理连接和账号权限管理

b.MySQL协议编码解码

c.独立的SQL执行

d.库表元信息，以及系统变量

17.TiDB-Server后台功能有哪些？

a.垃圾回收(GC)

b.执行DDL

c.统计信息管理

d.SQL优化器与执行器

18.TiDB-Server架构从上到下分别为？

MySQL 协议层(MySQL Protocol)–>核心SQL层(TiDB SQL Layer)–>存储接口层(KV API,DistSQL API)

调度

19.自动分片技术是更新维度弹性的基础

a.全局有序的KV map

b.按照等长大小策略自动分片(96M)

c.每个分片是连续的KV，通过Start/End key来寻址

d.每个分片seek成本固定

e.Region是复制、调度的最小单位

自动merge

默认96M分片

144M分裂分片

20MB合并分片

集群管理

21.TiDB Cluster集群启动顺序

PD–>TiKV–>TiDB–>TiFlash

22.下列关于TiUP的说法正确的是？(B,D)

A.TiUP是从TiDB 5.0引入的包管理器

B.TiDB,PD和TiKV等组件都可以由TiUP管理

C.TiUP在执行时，命令和组件不可以同时出现

D.TiUP不但可以负责TiDB的部署还可以负责TiDB Cluster的管理

23.连接TiDB 数据库的客户端\GUI包括哪些？

MySQL客户端，Mycli, MySQL Workbench, Navicat, phpMyAdmin

系统参数/集群参数

24.下面关于TiDB系统参数的说法，正确的有哪些?(ACE)

A.系统参数有作用域之分

B.系统参数指持久化在KV中关于TiDB,TiKV和PD的参数

C.系统参数可以通过MySQL客户端进行修改

D.SESSION级别的系统参数修改后需要重新连接才会生效

E.GLOBAL级别的系统参数，修改后对于当前会话无效

F.GLOBAL级别的系统参数，修改后对于当前会话生效

25.关于TiDB集群配置参数说法正确的是？(A)

A.TiKV节点集群配置参数修改后，需要重启节点才会生效

B.集群配置参数有作用域范围

C.可以用MySQL客户端修改集群配置参数

D.集群配置参数持久化在TiDB,TiKV和PD的配置文件中，还有一部分持久化在KV存储中

E.以上都不对

用户管理

26.角色与用户的差异包括？

a.角色是被锁住(locked)的

b.角色没有密码

c.被存储在mysql.user表中

d.当用户登录后，必须使用set role all命令开启用户被赋予的角色

27.下面关于角色和用户账户的说法正确的是？(D)

A.角色和用户账户都是由名称和主机名组成，并都可以登录数据库

B.创建角色时如果不指定主机名，则默认是localhost

C.创建用户时，如果主机名为%,则没有任何意义

D.角色没有密码

文件管理

28.关于TiDB数据库的文件，下面表述正确的是？(C)

A.只有TiDB,TiKV节点有数据信息，PD节点不存储数据信息

B.TiKV,TIDB的配置文件存放在PD节点的/tidb-deploy文件夹下

C.PD节点的KV元数据存放在/tidb-data目录下

D.以上都不对

监控

29.关于TiDB的监控，正确的是?(C)

A.Promethues+Grafana+Dashboard内置于PD组件中，提供监控与报警服务

B.TiDB的报警处理，需要额外安装第三方插件

C.TiDB的报警项分为：紧急、严重和警告三个级别

D.以上都不对

扩缩容/升级

30.对于扩容和缩容TiDB/TiKV/PD/TiFlash的操作基本一致？(B)

A.正确

B.错误

31.命令tiup cluster clean ${cluster-name} --log用于清理集群数据，保留日志信息？(B)

A.正确

B.错误

32.下列关于升级TiDB集群错误的是？(C)

A.升级TiDB集群如果evict leader等待时间过长，可以通过–force参数来解决

B.升级TiDB集群，可以停止集群，升级集群，最后启动集群

C.升级TiDB集群，必须停机

D.升级TiDB集群不支持回退

备份还原

33.下列关于热备份的说法正确的是?(BD)

A.热备份要求数据库处于只读状态

B.热备份不会锁定任何用户的读写操作

C.相对于冷备份，热备份的速度会更快

D.TiDB生态工具中，BR的备份属于热备份

34.关于逻辑备份与物理备份，下列说法正确的是？(C)

A.逻辑备份和物理备份都可以应用于异构数据库间的数据迁移

B.逻辑备份相对于物理备份适合大量数据的备份

C.BR工具和操作系统拷贝都属于物理备份

D.逻辑备份的效率往往高于物理备份

35.下列关于BR的说法不正确的是？(ABC)

A.BR工具属于逻辑备份

B.BR工具在恢复时，需要数据库设置为只读状态，否则可能会出现数据不一致的情况

C.BR工具的备份在恢复时，可以同时使用TiCDC同步到下游TiDB或者MySQL数据库

D.当备份数据量较大，不可停库同时又要求备份效率的时候，BR工具比Dumpling和操作系统拷贝更有优势

36.下列哪种备份方式是BR工具支持的？(A)

A.热备份，物理备份

B.冷备份，物理备份

C.热备份，逻辑备份

D.冷备份，物理备份

37.Dumpling适用于以下场景：

1.导出数据量较小

2.需要导出SQL语句或者CSV的场景，可以在异构数据库或者系统中进行迁移

3.对于导出效率要求不高，由于读取数据和转换，所以比起物理导出效率低下

38.Dumpling不适用以下场景:

1.需要直接导出TiDB数据库中的原始SST(键值对)

2.增量备份，目前只有全量导出，无法做到增量

3.数据量较大的场景

39.Dumpling所需权限

最小权限要求

SELECT

RELOAD

LOCK TABLES

REPLICATION CLIENT

40.下列哪些场景不适用Dumpling工具导出?(AC)

A.增量备份

B.将数据导出到MySQL数据库

C.数据量较大场景，要求热备

D.只导出2张百万级别的表

shigp_TIDBER · 2024 年5 月 16 日 09:42

总结的很详细，费了一番功夫