Go语言超全详解(入门级)
# Go 语言超全详解(入门级)
# 文章目录
- 1. Go 语言的出现
- 2. go 版本的 hello world
- 3. 数据类型
- 4. 常用语句及关键字
# 1. Go 语言的出现
在具体学习 go 语言的基础语法之前,我们来了解一下 go 语言出现的时机及其特点。
Go 语言最初由 Google 公司的 Robert Griesemer、Ken Thompson 和 Rob Pike 三个大牛于 2007 年开始设计发明,他们最终的目标是设计一种适应网络和多核时代的 C 语言。所以 Go 语言很多时候被描述为 “类 C 语言”,或者是 “21 世纪的 C 语言”,当然从各种角度看,Go 语言确实是从 C 语言继承了相似的表达式语法、控制流结构、基础数据类型、调用参数传值、指针等诸多编程思想。但是 Go 语言更是对 C 语言最彻底的一次扬弃,它舍弃了 C 语言中灵活但是危险的指针运算,还重新设计了 C 语言中部分不太合理运算符的优先级,并在很多细微的地方都做了必要的打磨和改变。
# 2. go 版本的 hello world
在这一部分我们只是使用 “hello world” 的程序来向大家介绍一下 go 语言的所编写的程序的基本组成。
1 | package main |
和 C 语言相似,go 语言的基本组成有:
- 包声明,编写源文件时,必须在非注释的第一行指明这个文件属于哪个包,如
package main
。 - 引入包,其实就是告诉 Go 编译器这个程序需要使用的包,如
import "fmt"
其实就是引入了 fmt 包。 - 函数,和 c 语言相同,即是一个可以实现某一个功能的函数体,每一个可执行程序中必须拥有一个 main 函数。
- 变量,Go 语言变量名由字母、数字、下划线组成,其中首个字符不能为数字。
- 语句 / 表达式,在 Go 程序中,一行代表一个语句结束。每个语句不需要像 C 家族中的其它语言一样以分号;结尾,因为这些工作都将由 Go 编译器自动完成。
- 注释,和 c 语言中的注释方式相同,可以在任何地方使用以 // 开头的单行注释。以 /* 开头,并以 */ 结尾来进行多行注释,且不可以嵌套使用,多行注释一般用于包的文档描述或注释成块的代码片段。
需要注意的是:标识符是用来命名变量、类型等程序实体。一个标识符实际上就是一个或是多个字母和数字、下划线_组成的序列,但是第一个字符必须是字母或下划线而不能是数字。
- 当标识符(包括常量、变量、类型、函数名、结构字段等等)以一个大写字母开头,如:Group1,那么使用这种形式的标识符的对象就可以被外部包的代码所使用(客户端程序需要先导入这个包),这被称为导出(像面向对象语言中的 public);
- 标识符如果以小写字母开头,则对包外是不可见的,但是他们在整个包的内部是可见并且可用的(像面向对象语言中的 protected)。
# 3. 数据类型
在 Go 编程语言中,数据类型用于声明函数和变量。
数据类型的出现是为了把数据分成所需内存大小不同的数据,编程的时候需要用大数据的时候才需要申请大内存,就可以充分利用内存。具体分类如下:
类型 | 详解 |
---|---|
布尔型 | 布尔型的值只可以是常量 true 或者 false。 |
数字类型 | 整型 int 和浮点型 float。Go 语言支持整型和浮点型数字,并且支持复数,其中位的运算采用补码。 |
字符串类型 | 字符串就是一串固定长度的字符连接起来的字符序列。Go 的字符串是由单个字节连接起来的。Go 语言的字符串的字节使用 UTF-8 编码标识 Unicode 文本。 |
派生类型 | (a) 指针类型(Pointer)(b) 数组类型 © 结构化类型 (struct)(d) Channel 类型 (e) 函数类型 (f) 切片类型 (g) 接口类型(interface)(h) Map 类型 |
# 3.0 定义变量
声明变量的一般形式是使用 var 关键字,具体格式为: var identifier typename
。如下的代码中我们定义了一个类型为 int 的变量。
1 | package main |
# 3.0.1 如果变量没有初始化
在 go 语言中定义了一个变量,指定变量类型,如果没有初始化,则变量默认为零值。零值就是变量没有做初始化时系统默认设置的值。
类型 | 零值 |
---|---|
数值类型 | 0 |
布尔类型 | false |
字符串 | “”(空字符串) |
# 3.0.2 如果变量没有指定类型
在 go 语言中如果没有指定变量类型,可以通过变量的初始值来判断变量类型。如下代码
1 | package main |
# 3.0.3 := 符号
当我们定义一个变量后又使用该符号初始化变量,就会产生编译错误,因为该符号其实是一个声明语句。
使用格式: typename := value
也就是说 intVal := 1
相等于:
1 | var intVal int |
# 3.0.4 多变量声明
可以同时声明多个类型相同的变量(非全局变量),如下图所示:
1 | var x, y int |
关于全局变量的声明如下:
var ( vname1 v_type1 vname2 v_type2 )
具体举例如下:
1 | var ( |
# 3.0.5 匿名变量
匿名变量的特点是一个下画线 _
,这本身就是一个特殊的标识符,被称为空白标识符。它可以像其他标识符那样用于变量的声明或赋值(任何类型都可以赋值给它),但任何赋给这个标识符的值都将被抛弃,因此这些值不能在后续的代码中使用,也不可以使用这个标识符作为变量对其它变量进行赋值或运算。
使用匿名变量时,只需要在变量声明的地方使用下画线替换即可。
示例代码如下:
1 | func GetData() (int, int) { |
需要注意的是匿名变量不占用内存空间,不会分配内存。匿名变量与匿名变量之间也不会因为多次声明而无法使用。
# 3.0.6 变量作用域
作用域指的是已声明的标识符所表示的常量、类型、函数或者包在源代码中的作用范围,在此我们主要看一下 go 中变量的作用域,根据变量定义位置的不同,可以分为一下三个类型:
- 函数内定义的变量为局部变量,这种局部变量的作用域只在函数体内,函数的参数和返回值变量都属于局部变量。这种变量在存在于函数被调用时,销毁于函数调用结束后。
- 函数外定义的变量为全局变量,全局变量只需要在一个源文件中定义,就可以在所有源文件中使用,甚至可以使用 import 引入外部包来使用。全局变量声明必须以 var 关键字开头,如果想要在外部包中使用全局变量的首字母必须大写。
- 函数定义中的变量成为形式参数,定义函数时函数名后面括号中的变量叫做形式参数(简称形参)。形式参数只在函数调用时才会生效,函数调用结束后就会被销毁,在函数未被调用时,函数的形参并不占用实际的存储单元,也没有实际值。形式参数会作为函数的局部变量来使用。
# 3.1 基本类型
类型 | 描述 |
---|---|
uint8 / uint16 / uint32 / uint64 | 无符号 8 / 16 / 32 / 64 位整型 |
int8 / int16 / int32 / int64 | 有符号 8 / 16 / 32 / 64 位整型 |
float32 / float64 | IEEE-754 32 / 64 位浮点型数 |
complex64 / complex128 | 32 / 64 位实数和虚数 |
byte | 类似 uint8 |
rune | 类似 int32 |
uintptr | 无符号整型,用于存放一个指针 |
以上就是 go 语言基本的数据类型,有了数据类型,我们就可以使用这些类型来定义变量,Go 语言变量名由字母、数字、下划线组成,其中首个字符不能为数字。
# 3.2 指针
与 C 相同,Go 语言让程序员决定何时使用指针。变量其实是一种使用方便的占位符,用于引用计算机内存地址。Go 语言中的的取地址符是 &
,放到一个变量前使用就会返回相应变量的内存地址。
指针变量其实就是用于存放某一个对象的内存地址。
# 3.2.1 指针声明和初始化
和基础类型数据相同,在使用指针变量之前我们首先需要申明指针,声明格式如下: var var_name *var-type
,其中的 var-type 为指针类型,var_name 为指针变量名,* 号用于指定变量是作为一个指针。
代码举例如下:
1 | var ip *int /* 指向整型*/ |
指针的初始化就是取出相对应的变量地址对指针进行赋值,具体如下:
1 | var a int= 20 /* 声明实际变量 */ |
# 3.2.2 空指针
当一个指针被定义后没有分配到任何变量时,它的值为 nil,也称为空指针。它概念上和其它语言的 null、NULL 一样,都指代零值或空值。
# 3.3 数组
和 c 语言相同,Go 语言也提供了数组类型的数据结构,数组是具有相同唯一类型的一组已编号且长度固定的数据项序列,这种类型可以是任意的原始类型例如整型、字符串或者自定义类型。
# 3.3.1 声明数组
Go 语言数组声明需要指定元素类型及元素个数,语法格式如下:
1 | var variable_name [SIZE] variable_type |
以上就可以定一个一维数组,我们举例代码如下:
1 | var balance [10] float32 |
# 3.3.2 初始化数组
数组的初始化方式有不止一种方式,我们列举如下:
- 直接进行初始化:
var balance = [5]float32{1000.0, 2.0, 3.4, 7.0, 50.0}
- 通过字面量在声明数组的同时快速初始化数组:
balance := [5]float32{1000.0, 2.0, 3.4, 7.0, 50.0}
- 数组长度不确定,编译器通过元素个数自行推断数组长度,在 [ ] 中填入
...
,举例如下:var balance = [...]float32{1000.0, 2.0, 3.4, 7.0, 50.0}
和balance := [...]float32{1000.0, 2.0, 3.4, 7.0, 50.0}
- 数组长度确定,指定下标进行部分初始化:
balanced := [5]float32(1:2.0, 3:7.0)
注意:
- 初始化数组中 {} 中的元素个数不能大于 [] 中的数字。
如果忽略 [] 中的数字不设置数组大小,Go 语言会根据元素的个数来设置数组的大小。
# 3.3.3 go 中的数组名意义
在 c 语言中我们知道数组名在本质上是数组中第一个元素的地址,而在 go 语言中,数组名仅仅表示整个数组,是一个完整的值,一个数组变量即是表示整个数组。
所以在 go 中一个数组变量被赋值或者被传递的时候实际上就会复制整个数组。如果数组比较大的话,这种复制往往会占有很大的开销。所以为了避免这种开销,往往需要传递一个指向数组的指针,这个数组指针并不是数组。关于数组指针具体在指针的部分深入的了解。
# 3.3.4 数组指针
通过数组和指针的知识我们就可以定义一个数组指针,代码如下:
1 | var a = [...]int{1, 2, 3} // a 是一个数组 |
数组指针除了可以防止数组作为参数传递的时候浪费空间,还可以利用其和 for range
来遍历数组,具体代码如下:
1 | for i, v := range b { // 通过数组指针迭代数组的元素 |
具体关于 go 语言的循环语句我们在后文中再进行详细介绍。
# 3.4 结构体
通过上述数组的学习,我们就可以直接定义多个同类型的变量,但这往往也是一种限制,只能存储同一种类型的数据,而我们在结构体中就可以定义多个不同的数据类型。
# 3.4.1 声明结构体
在声明结构体之前我们首先需要定义一个结构体类型,这需要使用 type 和 struct,type 用于设定结构体的名称,struct 用于定义一个新的数据类型。具体结构如下:
1 | type struct_variable_type struct { |
定义好了结构体类型,我们就可以使用该结构体声明这样一个结构体变量,语法如下:
1 | variable_name := structure_variable_type {value1, value2...valuen} |
# 3.4.2 访问结构体成员
如果要访问结构体成员,需要使用点号 .
操作符,格式为: 结构体变量名.成员名
。举例代码如下:
1 | package main |
# 3.4.3 结构体指针
关于结构体指针的定义和申明同样可以套用前文中讲到的指针的相关定义,从而使用一个指针变量存放一个结构体变量的地址。
定义一个结构体变量的语法: var struct_pointer *Books
。
这种指针变量的初始化和上文指针部分的初始化方式相同 struct_pointer = &Book1
,但是和 c 语言中有所不同,使用结构体指针访问结构体成员仍然使用 .
操作符。格式如下: struct_pointer.title
# 3.5 字符串
一个字符串是一个不可改变的字节序列,字符串通常是用来包含人类可读的文本数据。和数组不同的是,字符串的元素不可修改,是一个只读的字节数组。每个字符串的长度虽然也是固定的,但是字符串的长度并不是字符串类型的一部分。
# 3.5.1 字符串定义和初始化
Go 语言字符串的底层结构在 reflect.StringHeader 中定义,具体如下:
1 | type StringHeader struct { |
也就是说字符串结构由两个信息组成:第一个是字符串指向的底层字节数组,第二个是字符串的字节的长度。
字符串其实是一个结构体,因此字符串的赋值操作也就是 reflect.StringHeader 结构体的复制过程,并不会涉及底层字节数组的复制,所以我们也可以将字符串数组看作一个结构体数组。
字符串和数组类似,内置的 len 函数返回字符串的长度。
# 3.5.2 字符串 UTF8 编码
根据 Go 语言规范,Go 语言的源文件都是采用 UTF8 编码。因此,Go 源文件中出现的字符串面值常量一般也是 UTF8 编码的(对于转义字符,则没有这个限制)。提到 Go 字符串时,我们一般都会假设字符串对应的是一个合法的 UTF8 编码的字符序列。
Go 语言的字符串中可以存放任意的二进制字节序列,而且即使是 UTF8 字符序列也可能会遇到坏的编码。如果遇到一个错误的 UTF8 编码输入,将生成一个特别的 Unicode 字符‘\uFFFD’,这个字符在不同的软件中的显示效果可能不太一样,在印刷中这个符号通常是一个黑色六角形或钻石形状,里面包含一个白色的问号‘ ’。
下面的字符串中,我们故意损坏了第一字符的第二和第三字节,因此第一字符将会打印为 “”,第二和第三字节则被忽略;后面的 “abc” 依然可以正常解码打印(错误编码不会向后扩散是 UTF8 编码的优秀特性之一)。代码如下:
1 | fmt.Println("\xe4\x00\x00\xe7\x95\x8cabc") // 界abc |
不过在 for range 迭代这个含有损坏的 UTF8 字符串时,第一字符的第二和第三字节依然会被单独迭代到,不过此时迭代的值是损坏后的 0:
1 | // 0 65533 // \uFFFD, 对应 |
# 3.5.3 字符串的强制类型转换
在上文中我们知道源代码往往会采用 UTF8 编码,如果不想解码 UTF8 字符串,想直接遍历原始的字节码:
- 可以将字符串强制转为 [] byte 字节序列后再行遍历(这里的转换一般不会产生运行时开销):
- 采用传统的下标方式遍历字符串的字节数组
除此以外,字符串相关的强制类型转换主要涉及到 [] byte 和 [] rune 两种类型。每个转换都可能隐含重新分配内存的代价,最坏的情况下它们的运算时间复杂度都是 O (n)。
不过字符串和 [] rune 的转换要更为特殊一些,因为一般这种强制类型转换要求两个类型的底层内存结构要尽量一致,显然它们底层对应的 [] byte 和 [] int32 类型是完全不同的内部布局,因此这种转换可能隐含重新分配内存的操作。
# 3.6 slice
简单地说,切片就是一种简化版的动态数组。因为动态数组的长度不固定,切片的长度自然也就不能是类型的组成部分了。数组虽然有适用它们的地方,但是数组的类型和操作都不够灵活,而切片则使用得相当广泛。
切片高效操作的要点是要降低内存分配的次数,尽量保证 append 操作(在后续的插入和删除操作中都涉及到这个函数)不会超出 cap 的容量,降低触发内存分配的次数和每次分配内存大小。
# 3.6.1 slice 定义
我们先看看切片的结构定义,reflect.SliceHeader:
1 | type SliceHeader struct { |
和数组一样,内置的 len 函数返回切片中有效元素的长度,内置的 cap 函数返回切片容量大小,容量必须大于或等于切片的长度。
切片可以和 nil 进行比较,只有当切片底层数据指针为空时切片本身为 nil,这时候切片的长度和容量信息将是无效的。如果有切片的底层数据指针为空,但是长度和容量不为 0 的情况,那么说明切片本身已经被损坏了
只要是切片的底层数据指针、长度和容量没有发生变化的话,对切片的遍历、元素的读取和修改都和数组是一样的。在对切片本身赋值或参数传递时,和数组指针的操作方式类似,只是复制切片头信息(reflect.SliceHeader),并不会复制底层的数据。对于类型,和数组的最大不同是,切片的类型和长度信息无关,只要是相同类型元素构成的切片均对应相同的切片类型。
当我们想定义声明一个切片时可以如下:
在对切片本身赋值或参数传递时,和数组指针的操作方式类似,只是复制切片头信息・(reflect.SliceHeader),并不会复制底层的数据。对于类型,和数组的最大不同是,切片的类型和长度信息无关,只要是相同类型元素构成的切片均对应相同的切片类型。
# 3.6.2 添加元素
append()
:内置的泛型函数,可以向切片中增加元素。
- 在切片尾部追加 N 个元素
1 | var a []int |
注意:尾部添加在容量不足的条件下需要重新分配内存,可能导致巨大的内存分配和复制数据代价。即使容量足够,依然需要用 append 函数的返回值来更新切片本身,因为新切片的长度已经发生了变化。
- 在切片开头位置添加元素
1 | var a = []int{1,2,3} |
注意:在开头一般都会导致内存的重新分配,而且会导致已有的元素全部复制 1 次。因此,从切片的开头添加元素的性能一般要比从尾部追加元素的性能差很多。
- append 链式操作
1 | var a []int |
每个添加操作中的第二个 append 调用都会创建一个临时切片,并将 a [i:] 的内容复制到新创建的切片中,然后将临时创建的切片再追加到 a [:i]。
- append 和 copy 组合
1 | a = append(a, 0) // 切片扩展1个空间 |
第三个操作中会创建一个临时对象,我们可以借用 copy 函数避免这个操作,这种方式操作语句虽然冗长了一点,但是相比前面的方法,可以减少中间创建的临时切片。
# 3.6.3 删除元素
根据要删除元素的位置有三种情况:
- 从开头位置删除;
- 直接移动数据指针,代码如下:
1 | a = []int{1, 2, 3, ...} |
- 将后面的数据向开头移动,使用 append 原地完成(所谓原地完成是指在原有的切片数据对应的内存区间内完成,不会导致内存空间结构的变化)
1 | a = []int{1, 2, 3, ...} |
- 使用 copy 将后续数据向前移动,代码如下:
1 | a = []int{1, 2, 3} |
- 从中间位置删除;
对于删除中间的元素,需要对剩余的元素进行一次整体挪动,同样可以用 append 或 copy 原地完成:
- append 删除操作如下:
1 | a = []int{1, 2, 3, ...} |
- copy 删除操作如下:
1 | a = []int{1, 2, 3} |
- 从尾部删除。
代码如下所示:
1 | a = []int{1, 2, 3, ...} |
删除切片尾部的元素是最快的
# 3.7 函数
为完成某一功能的程序指令 (语句) 的集合,称为函数。
# 3.7.1 函数分类
在 Go 语言中,函数是第一类对象,我们可以将函数保持到变量中。函数主要有具名和匿名之分,包级函数一般都是具名函数,具名函数是匿名函数的一种特例,当匿名函数引用了外部作用域中的变量时就成了闭包函数,闭包函数是函数式编程语言的核心。
举例代码如下:
- 具名函数:就和 c 语言中的普通函数意义相同,具有函数名、返回值以及函数参数的函数。
1 | func Add(a, b int) int { |
- 匿名函数:指不需要定义函数名的一种函数实现方式,它由一个不带函数名的函数声明和函数体组成。
1 | var Add = func(a, b int) int { |
解释几个名词如下:
- 闭包函数:返回为函数对象,不仅仅是一个函数对象,在该函数外还包裹了一层作用域,这使得,该函数无论在何处调用,优先使用自己外层包裹的作用域。
- 一级对象:支持闭包的多数语言都将函数作为第一级对象,就是说函数可以存储到变量中作为参数传递给其他函数,最重要的是能够被函数动态创建和返回。
- 包:go 的每一个文件都是属于一个包的,也就是说 go 是以包的形式来管理文件和项目目录结构的。
# 3.7.2 函数声明和定义
Go 语言函数定义格式如下:
1 | func fuction_name([parameter list])[return types]{ |
解析 | |
---|---|
func | 函数由 func 开始声明 |
function_name | 函数名称 |
parameter list | 参数列表 |
return_types | 返回类型 |
函数体 | 函数定义的代码集合 |
# 3.7.3 函数传参
Go 语言中的函数可以有多个参数和多个返回值,参数和返回值都是以传值的方式和被调用者交换数据。在语法上,函数还支持可变数量的参数,可变数量的参数必须是最后出现的参数,可变数量的参数其实是一个切片类型的参数。
当可变参数是一个空接口类型时,调用者是否解包可变参数会导致不同的结果,我们解释一下解包的含义,代码如下:
1 | func main(){ |
以上当传入参数为 a...
时即是对切片 a 进行了解包,此时其实相当于直接调用 Print(1,2,3)
。当传入参数直接为 a
时等价于直接调用 Print([]int{}{1,2,3})
# 3.7.4 函数返回值
不仅函数的参数可以有名字,也可以给函数的返回值命名。
举例代码如下:
1 | func Find(m map[int]int, key int)(value int, ok bool) { |
如果返回值命名了,可以通过名字来修改返回值,也可以通过 defer 语句在 return 语句之后修改返回值,举例代码如下:
1 | func mian() { |
以上代码中如果没有 defer 其实返回值就是 0,1,2
,但 defer 语句会在函数 return 之后才会执行,也就是或只有以上函数在执行结束 return 之后才会执行 defer 语句,而该函数 return 时的 i
值将会达到 3,所以最终的 defer 语句执行 printlin 的输出都是 3。
defer 语句延迟执行的其实是一个匿名函数,因为这个匿名函数捕获了外部函数的局部变量 v,这种函数我们一般叫闭包。闭包对捕获的外部变量并不是传值方式访问,而是以引用的方式访问。
这种方式往往会带来一些问题,修复方法为在每一轮迭代中都为 defer 函数提供一个独有的变量,修改代码如下:
1 | func main() { |
# 3.7.5 递归调用
Go 语言中,函数还可以直接或间接地调用自己,也就是支持递归调用。Go 语言函数的递归调用深度逻辑上没有限制,函数调用的栈是不会出现溢出错误的,因为 Go 语言运行时会根据需要动态地调整函数栈的大小。这部分的知识将会涉及 goroutint 和动态栈的相关知识,我们将会在之后的博文中向大家解释。
它的语法和 c 很相似,格式如下:
1 | func recursion() { |
# 3.8 方法
方法一般是面向对象编程 (OOP) 的一个特性,在 C++ 语言中方法对应一个类对象的成员函数,是关联到具体对象上的虚表中的。但是 Go 语言的方法却是关联到类型的,这样可以在编译阶段完成方法的静态绑定。一个面向对象的程序会用方法来表达其属性对应的操作,这样使用这个对象的用户就不需要直接去操作对象,而是借助方法来做这些事情。
实现 C 语言中的一组函数如下:
1 | // 文件对象 |
以上的三个函数都是普通的函数,需要占用包级空间中的名字资源。不过 CloseFile 和 ReadFile 函数只是针对 File 类型对象的操作,这时候我们更希望这类函数和操作对象的类型紧密绑定在一起。
所以在 go 语言中我们修改如下:
1 | // 关闭文件 |
将 CloseFile 和 ReadFile 函数的第一个参数移动到函数名的开头,这两个函数就成了 File 类型独有的方法了(而不是 File 对象方法)
从代码角度看虽然只是一个小的改动,但是从编程哲学角度来看,Go 语言已经是进入面向对象语言的行列了。我们可以给任何自定义类型添加一个或多个方法。每种类型对应的方法必须和类型的定义在同一个包中,因此是无法给 int 这类内置类型添加方法的(因为方法的定义和类型的定义不在一个包中)。对于给定的类型,每个方法的名字必须是唯一的,同时方法和函数一样也不支持重载。
# 3.9 接口
# 3.9.1 什么是接口
Go 语言提供了另外一种数据类型即接口,它把所有的具有共性的方法定义在一起,任何其他类型只要实现了这些方法就是实现了这个接口。
Go 的接口类型是对其它类型行为的抽象和概括;因为接口类型不会和特定的实现细节绑定在一起,通过这种抽象的方式我们可以让对象更加灵活和更具有适应能力。很多面向对象的语言都有相似的接口概念,但 Go 语言中接口类型的独特之处在于它是满足隐式实现的鸭子类型。
所谓鸭子类型说的是:只要走起路来像鸭子、叫起来也像鸭子,那么就可以把它当作鸭子。Go 语言中的面向对象就是如此,如果一个对象只要看起来像是某种接口类型的实现,那么它就可以作为该接口类型使用。
就比如说在 c 语言中,使用 printf 在终端输出的时候只能输出有限类型的几个变量,而在 go 中可以使用 fmt.Printf,实际上是 fmt.Fprintf 向任意自定义的输出流对象打印,甚至可以打印到网络甚至是压缩文件,同时打印的数据不限于语言内置的基础类型,任意隐士满足 fmt.Stringer 接口的对象都可以打印,不满足 fmt.Stringer 接口的依然可以通过反射的技术打印。
# 3.9.2 结构体类型
interface 实际上就是一个结构体,包含两个成员。其中一个成员是指向具体数据的指针,另一个成员中包含了类型信息。空接口和带方法的接口略有不同,下面分别是空接口的数据结构:
1 | struct Eface |
其中的 Type 指的是:
1 | struct Type |
和带方法的接口使用的数据结构:
1 | struct Iface |
其中的 Iface 指的是:
1 | struct Itab |
# 3.9.3 具体类型向接口类型赋值
将一个具体类型数据赋值给 interface 这样的抽象类型,需要进行类型转换。这个转换过程中涉及哪些操作呢?
如果转换为空接口,返回一个 Eface,将 Eface 中的 data 指针指向原型数据,type 指针会指向数据的 Type 结构体。
如果将其转化为带方法的 interface,需要进行一次检测,该类型必须实现 interface 中声明的所有方法才可以进行转换,这个检测将会在编译过程中进行。检测过程具体实现式通过比较具体类型的方法表和接口类型的方法表来进行的。
- 具体类型方法表:Type 的 UncommonType 中有一个方法表,某个具体类型实现的所有方法都会被收集到这张表中。
- 接口类型方法表:Iface 的 Itab 的 InterfaceType 中也有一张方法表,这张方法表中是接口所声明的方法。Iface 中的 Itab 的 func 域也是一张方法表,这张表中的每一项就是一个函数指针,也就是只有实现没有声明。
这两处方法表都是排序过的,只需要一遍顺序扫描进行比较,应该可以知道 Type 中否实现了接口中声明的所有方法。最后还会将 Type 方法表中的函数指针,拷贝到 Itab 的 fun 字段中。Iface 中的 Itab 的 func 域也是一张方法表,这张表中的每一项就是一个函数指针,也就是只有实现没有声明。
# 3.9.4 获取接口类型数据的具体类型信息
接口类型转换为具体类型 (也就是反射,reflect),也涉及到了类型转换。reflect 包中的 TypeOf 和 ValueOf 函数来得到接口变量的 Type 和 Value。
# 3.10 channel
# 3.10.1 相关结构体定义
go 中的 channel 是可以被存储在变量中,可以作为参数传递给函数,也可以作为函数返回值返回,我们先来看一下 channel 的结构体定义:
1 | struct Hchan |
Hchan 结构体中的核心部分是存放 channel 数据的环形队列,相关数据的作用已经在其后做出了备注。在该结构体中没有存放数据的域,如果是带缓冲区的 chan,则缓冲区数据实际上是紧接着 Hchan 结构体中分配的。
另一个重要部分就是 recvq 和 sendq 两个链表,一个是因读这个通道而导致阻塞的 goroutine,另一个是因为写这个通道而阻塞的 goroutine。如果一个 goroutine 阻塞于 channel 了,那么它就被挂在 recvq 或 sendq 中。WaitQ 是链表的定义,包含一个头结点和一个尾结点,该链表中中存放的成员是一个 sudoG 结构体变量,具体定义如下:
1 | struct SudoG |
该结构体中最主要的是 g 和 elem。elem 用于存储 goroutine 的数据。读通道时,数据会从 Hchan 的队列中拷贝到 SudoG 的 elem 域。写通道时,数据则是由 SudoG 的 elem 域拷贝到 Hchan 的队列中。
Hchan 结构如下:
# 3.10.2 阻塞式读写 channel 操作
写操作代码如下,其中的 c 就是 channel,v 指的是数据:
1 | c <- v |
事实上基本的阻塞模式写 channel 操作在底层运行时库中对应的是一个 runtime.chansend 函数。具体如下:
1 | void runtime·chansend(ChanType *t, Hchan *c, byte *ep, bool *pres, void *pc) |
其中的 ep 指的是变量 v 的地址,这里的传值约定是调用者负责分配好 ep 的空间,仅需要简单的取变量地址就好了,pres 是在 select 中的通道操作中使用的。
阻塞模式读操作的核心函数有两种包装如下:
1 | chanrecv(c *hchan, ep unsafe.Pointer, block bool) (selected, received bool) |
以及
1 | chanrecv(c *hchan, ep unsafe.Pointer, block bool) (selected) |
这两种的区别主要在于返回值是否会返回一个 bool 类型值,该值只是用于判断 channel 是否能读取出数据。
读写操作的以上阻塞的过程类似,故而不再做出说明,我们补充三个细节:
- 以上我们都强调是阻塞式的读写操作,其实相对应的也有非阻塞的读写操作,使用过 select-case 来进行调用的。
- 空通道,指的是将一个 channel 赋值为 nil,或者调用后不适用 make 进行初始化。读写空通道是永远阻塞的。
- 关闭的通道,永远不会阻塞,会返回一个通道数据类型的零值。首先将 closed 置为 1,第二步收集读等待队列 recvq 的所有 sg,每个 sg 的 elem 都设为类型零值,第三步收集写等待队列 sendq 的所有 sg,每个 sg 的 elem 都设为 nil,最后唤醒所有收集的 sg。
# 3.10.3 非阻塞式读写 channel 操作
如上文所说,非阻塞式其实就是使用 select-case 来实现,在编译时将会被编译为 if-else。
如:
1 | select { |
就会被编译为:
1 | if selectnbrecv(&v, c) { |
至于其中的 selectnbrecv 相关的函数简单地调 runtime.chanrecv 函数,设置了一个参数,告诉 runtime.chanrecv 函数,当不能完成操作时不要阻塞,而是返回失败。
但是 select 中的 case 的执行顺序是随机的,而不像 switch 中的 case 那样一条一条的顺序执行。让每一个 select 都对应一个 Select 结构体。在 Select 数据结构中有个 Scase 数组,记录下了每一个 case,而 Scase 中包含了 Hchan。然后 pollorder 数组将元素随机排列,这样就可以将 Scase 乱序了。
# 3.11 map
map 表的底层原理是哈希表,其结构体定义如下:
1 | type Map struct { |
其中的 Hmap 的具体化数据结构如下:
1 | type hmap struct { |
以上 hmap 基本都是涉及到了哈希桶和溢出桶,我们首先看一下它的数据结构,如下:
1 | type bmap struct { |
我们会发现哈希桶 bmap 一般指定其能保存 8 个键值对,如果多于 8 个键值对,就会申请新的 buckets,并将其于之前的 buckets 链接在一起。
其中的联系如图所示:
在具体插入时,首先会根据 key 值采用相应的 hash 算法计算对应的哈希值,将哈希值的低 8 位作为 Hmap 结构体中 buckets 数组的索引,找到 key 值所对应的 bucket,将哈希值的高 8 位催出在 bucket 的 tophash 中。
特点如下:
- map 是无序的(原因为无序写入以及扩容导致的元素顺序发生变化),每次打印出来的 map 都会不一样,它不能通过 index 获取,而必须通过 key 获取
- map 的长度是不固定的,也就是和 slice 一样,也是一种引用类型
- 内置的 len 函数同样适用于 map,返回 map 拥有的 key 的数量
- map 的 key 可以是所有可比较的类型,如布尔型、整数型、浮点型、复杂型、字符串型…… 也可以键。
如下方式即可进行初始化:
1 | var a map[keytype]valuetype |
类型名 | 意义 |
---|---|
a | map 表名字 |
keytype | 键类型 |
valuetype | 键对应的值的类型 |
除此以外还可以使用 make 进行初始化,代码如下:
1 | map_variable = make(map[key_data_type]value_data_type) |
我们还可以使用初始值进行初始化,如下:
1 | var m map[string]int = map[string]int{"hunter":12,"tony":10} |
# 3.11.1 插入数据
map 的数据插入代码如下:
1 | map_variable["mars"] = 27 |
插入过程如下:
- 根据 key 值计算出哈希值
- 取哈希值低位和 hmap.B 取模确定 bucket 位置
- 查找该 key 是否已经存在,如果存在则直接更新值
- 如果没有找到 key,则将这一对 key-value 插入
# 3.11.2 删除数据
delete(map, key) 函数用于删除集合的元素,参数为 map 和其对应的 key。删除函数不返回任何值。相关代码如下:
1 | countryCapitalMap := map[string] string {"France":"Paris","Italy":"Rome","Japan":"Tokyo","India":"New Delhi"} |
# 3.11.3 查找数据
通过 key 获取 map 中对应的 value 值。语法为: map[key]
. 但是当 key 如果不存在的时候,我们会得到该 value 值类型的默认值,比如 string 类型得到空字符串,int 类型得到 0。但是程序不会报错。
所以我们可以使用 ok-idiom 获取值,如下: value, ok := map[key]
,其中的 value 是返回值,ok 是一个 bool 值,可知道 key/value 是否存在。
在 map 表中的查找过程如下:
- 查找或者操作 map 时,首先 key 经过 hash 函数生成 hash 值
- 通过哈希值的低 8 位来判断当前数据属于哪个桶
- 找到桶之后,通过哈希值的高八位与 bucket 存储的高位哈希值循环比对
- 如果相同就比较刚才找到的底层数组的 key 值,如果 key 相同,取出 value
- 如果高八位 hash 值在此 bucket 没有,或者有,但是 key 不相同,就去链表中下一个溢出 bucket 中查找,直到查找到链表的末尾
- 如果查找不到,也不会返回空值,而是返回相应类型的 0 值。
# 3.11.4 扩容
哈希表就是以空间换时间,访问速度是直接跟填充因子相关的,所以当哈希表太满之后就需要进行扩容。
如果扩容前的哈希表大小为 2B 扩容之后的大小为 2 (B+1),每次扩容都变为原来大小的两倍,哈希表大小始终为 2 的指数倍,则有 (hash mod 2B) 等价于 (hash & (2B-1))。这样可以简化运算,避免了取余操作。
触发扩容的条件?
- 负载因子 (负载因子 = 键数量 /bucket 数量) > 6.5 时,也即平均每个 bucket 存储的键值对达到 6.5 个。
- 溢出桶(overflow)数量 > 2^15 时,也即 overflow 数量超过 32768 时。
什么是增量扩容呢?
如果负载因子 > 6.5 时,进行增量扩容。这时会新建一个桶(bucket),新的 bucket 长度是原来的 2 倍,然后旧桶数据搬迁到新桶。每个旧桶的键值对都会分流到两个新桶中
主要是缩短 map 容器的响应时间。假如我们直接将 map 用作某个响应实时性要求非常高的 web 应用存储,如果不采用增量扩容,当 map 里面存储的元素很多之后,扩容时系统就会卡往,导致较长一段时间内无法响应请求。不过增量扩容本质上还是将总的扩容时间分摊到了每一次哈希操作上面。
什么是等量扩容?它的触发条件是什么?进行等量扩容后的优势是什么?
等量扩容,就是创建和旧桶数目一样多的新桶,然后把原来的键值对迁移到新桶中,重新做一遍类似增量扩容的搬迁动作。
触发条件:负载因子没超标,溢出桶较多。这个较多的评判标准为:
- 如果常规桶数目不大于 2^15,那么使用的溢出桶数目超过常规桶就算是多了;
- 如果常规桶数目大于 215,那么使用溢出桶数目一旦超过 215 就算多了。
这样做的目的是把松散的键值对重新排列一次,能够存储的更加紧凑,进而减少溢出桶的使用,以使 bucket 的使用率更高,进而保证更快的存取。
# 4. 常用语句及关键字
接下来我们了解一下关于 go 语言语句的基本内容。
# 4.1 条件语句
和 c 语言类似,相关的条件语句如下表所示:
语句 | 描述 |
---|---|
if 语句 | if 语句 由一个布尔表达式后紧跟一个或多个语句组成。 |
if…else 语句 | if 语句 后可以使用可选的 else 语句,else 语句中的表达式在布尔表达式为 false 时执行。 |
switch 语句 | switch 语句用于基于不同条件执行不同动作。 |
select 语句 | select 语句类似于 switch 语句,但是 select 会随机执行一个可运行的 case。如果没有 case 可运行,它将阻塞,直到有 case 可运行。 |
- if 语句
语法如下:
1 | if 布尔表达式 { |
- if-else 语句
1 | if 布尔表达式 { |
- switch 语句
其中的变量v
可以是任何类型,val1
和val2
可以是同类型的任意值,类型不局限为常量或者整数,或者最终结果为相同类型的表达式。
1 | switch v { |
- select 语句
select 是 Go 中的一个控制结构,类似于用于通信的 switch 语句。每个 case 必须是一个通信操作,要么是发送要么是接收。它将会随机执行一个可运行的 case。如果没有 case 可运行,它将阻塞,直到有 case 可运行。一个默认的子句应该总是可运行的。
1 | select { |
注意:
- 每个 case 必须都是一个通信
- 所有 channel 表达式都会被求值,所有被发送的表达式都会被求值
- 如果任意某一个通信都可以,它就执行,其他就忽略
- 如果有多个 case 都可以运行,select 就会随机挑选一个来执行。
- 如果没有一个 case 可以被运行:如果有 default 子句,就执行 default 子句,select 将被阻塞,直到某个通信可以运行,从而避免饥饿问题。
# 4.2 循环语句
# 4.2.1 循环处理语句
go 中时使用 for 实现循环的,共有三种形式:
语法 | |
---|---|
和 c 语言中的 for 相同 | for init; condition; post {} |
和 c 语言中的 while 相同 | for condition{} |
和 c 语言中的 for(;;) 相同 |
for{} |
除此以外,for 循环还可以直接使用 range 对 slice、map、数组以及字符串等进行迭代循环,格式如下:
1 | for key, value := range oldmap { |
# 4.2.1 循环控制语句
控制语句 | 详解 |
---|---|
break | 中断跳出循环或者 switch 语句 |
continue | 跳过当前循环的剩余语句,然后继续下一轮循环 |
goto 语句 | 将控制转移到被标记的语句 |
- break
break 主要用于循环语句跳出循环,和 c 语言中的使用方式是相同的。且在多重循环的时候还可以使用 label 标出想要 break 的循环。
实例代码如下:
1 | a := 0 |
- continue
Go 语言的 continue 语句 有点像 break 语句。但是 continue 不是跳出循环,而是跳过当前循环执行下一次循环语句。在多重循环中,可以用标号 label 标出想 continue 的循环。
实例代码如下:
1 | // 不使用标记 |
- goto
goto 语句主要是无条件转移到过程中指定的行。goto 语句通常和条件语句配合使用,可用来实现条件转移、构成循环以及跳出循环体等功能。但是并不主张使用 goto 语句,以免造成程序流程混乱。
示例代码如下:
1 | var a int = 0 |
以上代码中的 LOOP 就是一个标签,当运行到 goto 语句的时候,此时执行流就会跳转到 LOOP 标志的哪一行上。
# 4.3 关键字
我们这一部分直接列表供大家了解 go 中的关键字如下:
关键字 | 用法 |
---|---|
import | 导入相应的包文件 |
package | 创建包文件,用于标记该文件归属哪个包 |
chan | channal,通道 |
var | 变量控制,用于简短声明定义变量(:= 符号只能在函数内部使用,不能全局使用) |
const | 常量声明,任何时候 const 和 var 都可以同时出现 |
func | 定义函数和方法 |
interface | 接口,是一种具有一组方法的类型,这些方法定义了 interface 的行为 |
map | 哈希表 |
struct | 定义结构体 |
type | 声明类型,取别名 |
for | for 是 go 中唯一的循环结构,上文中已经介绍过它的用法 |
break | 中止,跳出循环 |
continue | 继续下一轮循环 |
select | 选择流程,可以同时等待多个通道操作 |
switch | 多分枝选择,上文中已经详细介绍过它的用法 |
case | 和 switch 配套使用 |
default | 用于选择结构的默认选型 |
defer | 用于资源释放,会在函数返回之前进行调用 |
if | 分支选择 |
else | 和 if 配套使用 |
go | 通过 go func() 来开启一个 goroutine |
goto | 跳转至标志点的代码块,不推荐使用 |
fallthrouth | |
range | 用于遍历 slice 类型数据 |
return | 用于标注函数返回值 |
# 关于我
Brath 是一个热爱技术的 Java 程序猿,公众号「InterviewCoder」定期分享有趣有料的精品原创文章!
非常感谢各位人才能看到这里,原创不易,文章如果有帮助可以关注、点赞、分享或评论,这都是对我的莫大支持!