这一章共78页,我看了两周。
很少有技术类书籍一开篇就讨论SELECT语句的,这是此书给我的第一个印象,本章把这个语句讲解得十分详细。我觉得第一章主要是讨论两个问题:1,通过两个样板数据库讲解对数据库理论的理解;2,基本命令的使用。比较高深的东西好像不多。
一,对数据库的理解
为什么要使用数据库呢,我们都看过许多说法,不外于其提供了强大的数据处理能力,如果仅仅是简单的数据列表,电子表格就完全胜任了。在数据的世界里,MySQL被划分为关系数据库管理系统的范畴内,我们可以把这个短语划分为以下几个部分:
数据库:存放信息的的资料库,其构造既简单又遵守一定的规律
数据库内的数据都存放在数据表(table)里
数据表是由数据行(row)和数据列(colume)构成的
一个数据行就是数据表内的一条记录(record)
一个记录一般包含多个信息,数据表中的每一个数据列都对应着一个信息
关系:把存放在某个数据表内的信息和存放在另一个数据表内的信息通过某种方式关联起来,而这种关联就是通过查找两个数据表有无共同的元素来实现的。
先看一个简单的例子:
你的站点上有大量的广告,每当客户浏览你的网页时,一旦点击你的广告,你就需要做记录来计算自己得到了多少广告费。从数据库的角度来说,你应该建立三个数据表。
1,各个广告的来源company表
Company Company_num Address phone
SONY 13 马家沟 0451-21
CANON 14 新阳路 0451-22
2,各个广告的数据ad表
Company_num Ad_num Hit_fee
12 48 001
13 49 003
14 50 004
3,每个广告的点击率hit表
Ad_num Date
48 3.12
49 3.14
48 3.12
50 3.14
看看我们能通过这三个数据表查询到什么信息?
1,你为多少家公司做广告?
查一查company表有多少行就知道了
2,你一共有多少个广告?
查一查ad表有多少行就知道了
3,在3.12这一天,你一共显示了多少个广告?
查一查hit表里面Date数据列的值是3.12的数据行共有多少?
4,在3.14这一天,CANON的广告被点击了几次?
首先在company表中找到CANON公司的公司代码(14),根据这个代码在ad数据表中找到CANON公司的广告代码(50实际上可能是很多个),然后分别在hit表中找到3.12日这个代码的点击率。
看到这里我们就能明白,为什么要费力气地把数据“分散”到多个表里面,而不是放到一个大表格中,数据库的非凡能力就表现在这里,把分散在多个数据表中的数据用一种相互匹配的方式迅速地搜集到一起得出结果,这就是数据库式的思维方式。我们必须慢慢习惯,然后自觉运用。是不是很简单?
如何让读者更好地理解这种“关系”的概念,书中给了两个样板数据库,听我慢慢道来:
1,你现在是美国历史研究会的秘书,这个协会是由一些对美国历史感兴趣的人自发地组织起来的,由于各人的爱好,他们将定期地交纳一定的会费来维持其会员资格,交上来的会费主要用于支付研究会的各种开支,如印刷会员刊物等。这个研究会目前建有一个小型的互联网站点,但这个站点还没有得到充分的开发利用,如果你的主要工作是用字处理来打印会员名录的话,数据库就没有必要的,但是许多的工作要求很复杂的操作:如,你希望能够根据不同的情况把会员名录输出为其它格式的资料;根据特定的条件来查询会员;能够根据某种限制得到统计数字,等等,如果把研究会的会员资料放到网站上,那么对会员自己来说,以在线方式修改自己的资料,查询其他人的资料就会容易得多。甚至会员们可以互相发布消息,写电子邮件,等等。
2,你是一名教师,在每学期中,你负责考试和测验,记录各种分数,期末时,你要对学生们的成绩进行总评。并把学生们的总评成绩和出勤情况上报给校方,如果不使用数据库,你就必须每学期都手工完成这些工作。
如果用传统方法,手工来统计考试积分表,你的表格可能就会是这样:
学生
ID 姓名 分数
Q Q T Q Q T
9/3 9/6 9/9 9/16 9/23 10/1 …
1
2
3
4
… 李寻欢
荆无命
吕奉先
王怜花
… 14
17
15
14
… 10
10
10
13
… 73
68
78
85
… 14
17
12
13
… 15
14
17
19
… 67
73
82
79
… …
…
…
…
…
毫无疑问,从关系的角度来说,这样的表格是无法直接放到数据库里面的。我们必须对其进行分解。当然,分数表(score表 )是最先必须建立的。最简单的模型可能是这样:
Name Date Score
李寻欢 9.3 14
荆无命 9.3 17
吕奉先 9.3 15
王怜花 9.3 14
李寻欢 9.6 10
荆无命 9.6 10
吕奉先 9.6 10
王怜花 9.6 10
我们很快就能发现这个表的问题:它丢失了一些数据,我们不能知道当天进行的是考试还是测验。看来需要加入一个数据列:
Name Date Score Type
李寻欢 9.3 14 Q
荆无命 9.3 17 Q
吕奉先 9.3 15 Q
王怜花 9.3 14 Q
李寻欢 9.6 10 T
荆无命 9.6 10 T
吕奉先 9.6 10 T
王怜花 9.6 10 T
我们又发现了一个问题,那就是本表的多余数据太多了,同一天里面的Type数据列的值是相同的,这种数据冗余是完全没有必要的。把表拆分一下如何:
score表
Name Date Score
李寻欢 9.3 14
荆无命 9.3 17
吕奉先 9.3 15
王怜花 9.3 14
李寻欢 9.6 10
荆无命 9.6 10
吕奉先 9.6 10
王怜花 9.6 10
event表
date Type
9.3 Q
9/6 Q
9/9 Q
9/16 T
9/23 T
10/1 T
看起来好多了,虽然数据表的数据多了一个,但对数据库来说完全不是问题,我们可以继续考虑我们的成绩表:如果一天内有两场考试怎么办?我们需要在同一天内记录两组分数!既然如此,可以为每一次考试或者测验分配一个独一无二的编号,用这个编号来关联两个表,这样就避开了日期重复的问题了。
score表
Name Event_id Score
李寻欢 1 14
荆无命 1 17
吕奉先 1 15
王怜花 1 14
李寻欢 2 10
荆无命 2 10
吕奉先 2 10
王怜花 2 10
event表
Event_id date Type
1 9.3 Q
2 9/6 Q
3 9/9 Q
4 9/16 T
5 9/23 T
6 10/1 T
这样就完成了数据表的规划吗?好像还不行,考虑一下,如果有重名的学生如何处理呢?看来,用学号来解决这个问题就行了。
1,student表
Name Sex Student_id
李寻欢 F 1
荆无命 F 2
吕奉先 F 3
王怜花 F 4
2,score表
Student_id Event_id Score
1 1 14
2 1 17
3 1 15
4 1 14
1 2 10
2 2 10
3 2 10
4 2 10
3,event表
Event_id Date
9.3 Q
9/6 Q
9/9 Q
9/16 T
9/23 T
10/1 T
终于完成了考试积分表的规划!我们学到了什么呢?数据库应该是什么样子,它应该包含哪些数据表,各个数据表应该有什么内容以及数据应该如何表示?我们看到的许多