感谢支持
我们一直在努力

基于Linux2.6.38.8内核启动过程完全解析

一: Linux kernel内存存布局


在ARM平台中zImage.bin是一个压缩镜像,它用于将被压缩的kernel解压缩到KERNEL_RAM_PADDR开始的一段内存中,接着跳进真正的kernel去执行。该kernel的执行起点是stext函数,定义于arch/arm/kernel/head.S。在分析ENTRY(stext)前,先介绍此时内存的布局如下图所示:



图一:内存布局[此处借用下网络上已有的图片,自己不想弄图片了]


在我的YL-E2410的平台上,SDRAM的开始内存地址是0x30000000,大小为64M,即0x20000000。 Linux2.6.38.8 ARM kernel将SDRAM的开始地址定义为PHYS_OFFSET。经bootloader加载kernel并由自解压部分代码运行后,最终kernel被放置到KERNEL_RAM_PADDR(=PHYS_OFFSET + TEXT_OFFSET,即0x30008000)地址上的一段内存,经此放置后,kernel代码以后均不会被移动。在arch\arm\mach-s3c2410\Makefile.boot文件,其内容如下:


 zreladdr-y  := 0x30008000
 params_phys-y := 0x30000100


这也验证了为什么内核会被放置在0x30008000的地方了,这个地址必须由Makefile.boot指定。而params_phys-y则是linux Kernel的taglist等参数的起始地址。在进入kernel代码前,即自解压缩阶段,ARM未开启MMU功能。因此启动代码一个重要功能是设置好相应的页表,并开启MMU功能。为了支持MMU功能,kernel镜像中的所有符号,包括代码段和数据段的符号,在链接时都生成了它在开启MMU时,所在物理内存地址映射到的虚拟内存地址。Kernel第一个符号stext为例,在编译链接,它生成的虚拟地址是0xc0008000,而放置它的物理地址为0x30008000。实际上这个变换可以利用简单的公式进行表示:va = pa – PHYS_OFFSET + PAGE_OFFSET。Arm linux最终的kernel空间的页表,就是按照这个关系来建立。之所提及linux的内存映射,原因是在进入kernel代码,里面所有符号地址值为0xCxxxxxxx地址,而此时ARM未开启MMU功能,故在执行stext函数第一条执行时,它的PC值就是stext所在的内存地址(即物理地址,0x30008000)。


二:stext函数详解


stext函数定义在arch/arm/kernel/head.S,它的功能是获取处理器类型和机器类型信息,并创建临时的页表,然后开启MMU功能,并跳进第一个C语言函数start_kernel。stext函数的在前置条件是:MMU, D-cache, 关闭; r0 = 0, r1 = machine nr, r2 = atags prointer.

[cpp]


  1. /* 

  2.  * This program is free software; you can Redistribute it and/or modify 

  3.  * it under the terms of the GNU General Public License version 2 as 

  4.  * published by the Free Software Foundation. 

  5.  * 

  6.  *  Kernel startup code for all 32-bit CPUs 

  7.  */  

  8. #include <linux/linkage.h>   

  9. #include <linux/init.h>   

  10.   

  11. #include <asm/assembler.h>   

  12. #include <asm/domain.h>   

  13. #include <asm/ptrace.h>   

  14. #include <asm/asm-offsets.h>   

  15. #include <asm/memory.h>   

  16. #include <asm/thread_info.h>   

  17. #include <asm/system.h>   

  18.   

  19. #ifdef CONFIG_DEBUG_LL   

  20. #include <mach/debug-macro.S>   

  21. #endif   

  22.   

  23. #if (PHYS_OFFSET & 0x001fffff)   

  24. #error “PHYS_OFFSET must be at an even 2MiB boundary!”   

  25. #endif   

  26.   

  27. #define KERNEL_RAM_VADDR    (PAGE_OFFSET + TEXT_OFFSET)   

  28. #define KERNEL_RAM_PADDR    (PHYS_OFFSET + TEXT_OFFSET)   

  29.   

  30.   

  31. /* 

  32.  * swapper_pg_dir is the virtual address of the initial page table. 

  33.  * We place the page tables 16K below KERNEL_RAM_VADDR.  Therefore, we must 

  34.  * make sure that KERNEL_RAM_VADDR is correctly set.  Currently, we expect 

  35.  * the least significant 16 bits to be 0x8000, but we could probably 

  36.  * relax this restriction to KERNEL_RAM_VADDR >= PAGE_OFFSET + 0x4000. 

  37.  */  

  38. #if (KERNEL_RAM_VADDR & 0xffff) != 0x8000   

  39. #error KERNEL_RAM_VADDR must start at 0xXXXX8000   

  40. #endif   

  41.   

  42.     .globl  swapper_pg_dir  

  43.     .equ    swapper_pg_dir, KERNEL_RAM_VADDR – 0x4000  

  44.   

  45.     .macro  pgtbl, rd  

  46.     ldr \rd, =(KERNEL_RAM_PADDR – 0x4000)  

  47.     .endm  

  48.   

  49. #ifdef CONFIG_XIP_KERNEL   

  50. #define KERNEL_START    XIP_VIRT_ADDR(CONFIG_XIP_PHYS_ADDR)   

  51. #define KERNEL_END  _edata_loc   

  52. #else   

  53. #define KERNEL_START    KERNEL_RAM_VADDR   

  54. #define KERNEL_END  _end   

  55. #endif   

  56.   

  57. /* 

  58.  * Kernel startup entry point. 

  59.  * ————————— 

  60.  * 

  61.  * This is normally called from the decompressor code.  The requirements 

  62.  * are: MMU = off, D-cache = off, I-cache = dont care, r0 = 0, 

  63.  * r1 = machine nr, r2 = atags pointer. 

  64.  * 

  65.  * This code is mostly position independent, so if you link the kernel at 

  66.  * 0xc0008000, you call this at __pa(0xc0008000). 

  67.  * 

  68.  * See linux/arch/arm/tools/mach-types for the complete list of machine 

  69.  * numbers for r1. 

  70.  * 

  71.  * We’re trying to keep crap to a minimum; DO NOT add any machine specific 

  72.  * crap here – that’s what the boot loader (or in extreme, well justified 

  73.  * circumstances, zImage) is for. 

  74.  */  

  75.     __HEAD  

  76. ENTRY(stext)  

  77.          /* 设置CPU运行模式为SVC,并关中断 */  

  78.     setmode PSR_F_BIT | PSR_I_BIT | SVC_MODE, r9 @ ensure svc mode  

  79.                         @ and irqs disabled  

  80.     mrc p15, 0, r9, c0, c0      @ get processor id  

  81.     bl  __lookup_processor_type     @ r5=procinfo r9=cpuid  

  82.          * r10指向cpu对应的proc_info记录 */  

  83.     movs    r10, r5             @ invalid processor (r5=0)?  

  84.  THUMB( it  eq )        @ force fixup-able long branch encoding  

  85.     beq __error_p           @ yes, error ‘p’  

  86.     bl  __lookup_machine_type       @ r5=machinfo  

  87.          /* r8 指向开发板对应的arch_info记录 */   

  88.     movs    r8, r5              @ invalid machine (r5=0)?  

  89.  THUMB( it  eq )        @ force fixup-able long branch encoding  

  90.     beq __error_a           @ yes, error ‘a’  

  91.          /* __vet_atags函数涉及bootloader造知kernel物理内存的情况 */  

  92.     /* 

  93.      * r1 = machine no, r2 = atags, 

  94.      * r8 = machinfo, r9 = cpuid, r10 = procinfo 

  95.      */  

  96.     bl  __vet_atags  

  97. #ifdef CONFIG_SMP_ON_UP   

  98.     bl  __fixup_smp  

  99. #endif   

  100.          /*  创建临时页表 */  

  101.     bl  __create_page_tables  

  102.   

  103.     /* 

  104.      * The following calls CPU specific code in a position independent 

  105.      * manner.  See arch/arm/mm/proc-*.S for details.  r10 = base of 

  106.      * xxx_proc_info structure selected by __lookup_machine_type 

  107.      * above.  On return, the CPU will be ready for the MMU to be 

  108.      * turned on, and r0 will hold the CPU control register value. 

  109.           * 这里的逻辑关系相当复杂,先是从proc_info结构中的中跳进__arm920_setup函数,  

  110.           * 然后执__enable_mmu 函数。最后在__enable_mmu函数通过mov pc, r13来执行__mmap_switched,   

  111.           * __mmap_switched函数在最后一条语句,鱼跃龙门,跳进第一个C语言函数start_kernel 

  112.      */  

  113.     ldr r13, =__mmap_switched       @ address to jump to after  

  114.                         @ mmu has been enabled  

  115.     adr lr, BSYM(1f)            @ return (PIC) address  

  116.  ARM(   add pc, r10, #PROCINFO_INITFUNC )  

  117.  THUMB( add r12, r10, #PROCINFO_INITFUNC    )  

  118.  THUMB( mov pc, r12             )  

  119. 1:  b   __enable_mmu  

  120. ENDPROC(stext)  

  121.     .ltorg  

三:__lookup_processor_type函数
 __lookup_processor_type函数是一个非常讲究技巧的函数,Kernel代码将所有CPU信息的定义都放到.proc.info.init段中,因此可以认为.proc.info.init段就是一个数组,每个元素都定义了一个或一种CPU的信息。目前__lookup_processor_type使用该元素的前两个字段cpuid和mask来匹配当前CPUID,如果满足CPUID & mask == cpuid,则找到当前cpu的定义并返回。

[cpp]


  1. /* 

  2.  * Read processor ID register (CP#15, CR0), and look up in the linker-built 

  3.  * supported processor list.  Note that we can’t use the absolute addresses 

  4.  * for the __proc_info lists since we aren’t running with the MMU on 

  5.  * (and therefore, we are not in the correct address space).  We have to 

  6.  * calculate the offset. 

  7.  * 

  8.  *  r9 = cpuid 

  9.  * Returns: 

  10.  *  r3, r4, r6 corrupted 

  11.  *  r5 = proc_info pointer in physical address space 

  12.  *  r9 = cpuid (preserved) 

  13.  */  

  14.     __CPUINIT  

  15. __lookup_processor_type:  

  16.         /* adr 是相对寻址,它的寻计算结果是将当前PC值加上__lookup_processor_type_data符号与PC的偏移量,  

  17.          * 而PC是物理地址,因此r3的结果也是__lookup_processor_type_data符号的物理地址 */  

  18.     adr r3, __lookup_processor_type_data  

  19.     ldmia   r3, {r4 – r6}  

  20.     sub r3, r3, r4          @ get offset between virt&phys  

  21.     add r5, r5, r3          @ convert virt addresses to  

  22.     add r6, r6, r3          @ physical address space  

  23. 1:  ldmia   r5, {r3, r4}            @ value, mask  

  24.          /* 将当前CPUID和mask相与,并与数组元素中的CPUID比较是否相同  

  25.           * 若相同,则找到当前CPU的__proc_info定义,r5指向访元素并返回。  

  26.          */   

  27.     and r4, r4, r9          @ mask wanted bits  

  28.     teq r3, r4  

  29.     beq 2f  

  30.         /* r5指向下一个__proc_info元素 */   

  31.     add r5, r5, #PROC_INFO_SZ       @ sizeof(proc_info_list)  

  32.         /* 是否遍历完所有__proc_info元素 */   

  33.     cmp r5, r6  

  34.     blo 1b  

  35.         /* 找不到则返回NULL */   

  36.     mov r5, #0              @ unknown processor  

  37. 2:  mov pc, lr  

  38. ENDPROC(__lookup_processor_type)  

四:__lookup_machine_type 函数
__lookup_machine_type 和__lookup_processor_type像对孪生兄弟,它们的行为都是很类似的:__lookup_machine_type根据r1寄存器的机器编号到.arch.info.init段的数组中依次查找机器编号与r1相同的记录。它使了与它孪生兄弟同样的手法进行虚拟地址到物理地址的转换计算。

[cpp]


  1. /* 

  2.  * Lookup machine architecture in the linker-build list of architectures. 

  3.  * Note that we can’t use the absolute addresses for the __arch_info 

  4.  * lists since we aren’t running with the MMU on (and therefore, we are 

  5.  * not in the correct address space).  We have to calculate the offset. 

  6.  * 

  7.  *  r1 = machine architecture number 

  8.  * Returns: 

  9.  *  r3, r4, r6 corrupted 

  10.  *  r5 = mach_info pointer in physical address space 

  11.  */  

  12. __lookup_machine_type:  

  13.     adr r3, __lookup_machine_type_data  

  14.     ldmia   r3, {r4, r5, r6}  

  15.     sub r3, r3, r4          @ get offset between virt&phys  

  16.     add r5, r5, r3          @ convert virt addresses to  

  17.     add r6, r6, r3          @ physical address space  

  18. 1:  ldr r3, [r5, #MACHINFO_TYPE]    @ get machine type  

  19.     teq r3, r1              @ matches loader number?  

  20.     beq 2f              @ found  

  21.     add r5, r5, #SIZEOF_MACHINE_DESC    @ next machine_desc  

  22.     cmp r5, r6  

  23.     blo 1b  

  24.     mov r5, #0              @ unknown machine  

  25. 2:  mov pc, lr  

  26. ENDPROC(__lookup_machine_type)  

具体的请看:MACHINE_START and MACHINE_END Macro define 见   http://www.linuxidc.com/Linux/2012-02/54648.htm

五:为kernel建立临时页表
前面提及到,kernel里面的所有符号在链接时,都使用了虚拟地址值。在完成基本的初始化后,kernel代码将跳到第一个C语言函数start_kernl来执行,在哪个时候,这些虚拟地址必须能够对它所存放在真正内存位置,否则运行将为出错。为此,CPU必须开启MMU,但在开启MMU前,必须为虚拟地址到物理地址的映射建立相应的面表。在开启MMU后,kernel指并不马上将PC值指向start_kernl,而是要做一些C语言运行期的设置,如堆栈,重定义等工作后才跳到start_kernel去执行。在此过程中,PC值还是物理地址,因此还需要为这段内存空间建立va = pa的内存映射关系。当然,本函数建立的所有页表都会在将来paging_init销毁再重建,这是临时过度性的映射关系和页表。
在介绍__create_table_pages前,先认识一个macro pgtbl,它将KERNL_RAM_PADDR – 0x4000的值赋给rd寄存器,从下面的使用中可以看它,该值是页表在物理内存的基础,也即页表放在kernel开始地址下的16K的地方。


 .macro pgtbl, rd
 ldr \rd, =(KERNEL_RAM_PADDR – 0x4000)
 .endm

[cpp]


  1. /* 

  2.  * Setup the initial page tables.  We only setup the barest 

  3.  * amount which are required to get the kernel running, which 

  4.  * generally means mapping in the kernel code. 

  5.  * 

  6.  * r8  = machinfo 

  7.  * r9  = cpuid 

  8.  * r10 = procinfo 

  9.  * 

  10.  * Returns: 

  11.  *  r0, r3, r5-r7 corrupted 

  12.  *  r4 = physical page table address 

  13.  */  

  14. __create_page_tables:  

  15.     pgtbl   r4              @ page table address  

  16.   

  17.     /* 

  18.      * Clear the 16K level 1 swapper page table 

  19.      */  

  20.     mov r0, r4  

  21.     mov r3, #0  

  22.     add r6, r0, #0x4000  

  23. 1:  str r3, [r0], #4  

  24.     str r3, [r0], #4  

  25.     str r3, [r0], #4  

  26.     str r3, [r0], #4  

  27.     teq r0, r6  

  28.     bne 1b  

  29.   

  30.     ldr r7, [r10, #PROCINFO_MM_MMUFLAGS] @ mm_mmuflags  

  31.   

  32.     /* 

  33.      * Create identity mapping to cater for __enable_mmu. 

  34.      * This identity mapping will be removed by paging_init(). 

  35.      */  

  36.     adr r0, __enable_mmu_loc  

  37.     ldmia   r0, {r3, r5, r6}  

  38.     sub r0, r0, r3          @ virt->phys offset  

  39.     add r5, r5, r0          @ phys __enable_mmu  

  40.     add r6, r6, r0          @ phys __enable_mmu_end  

  41.     mov r5, r5, lsr #20  

  42.     mov r6, r6, lsr #20  

  43.   

  44. 1:  orr r3, r7, r5, lsl #20     @ flags + kernel base  

  45.     str r3, [r4, r5, lsl #2]        @ identity mapping  

  46.     teq r5, r6  

  47.     addne   r5, r5, #1          @ next section  

  48.     bne 1b  

  49.   

  50.     /* 

  51.      * Now setup the pagetables for our kernel direct 

  52.      * mapped region. 

  53.      */  

  54.     mov r3, pc  

  55.     mov r3, r3, lsr #20  

  56.     orr r3, r7, r3, lsl #20  

  57.     add r0, r4,  #(KERNEL_START & 0xff000000) >> 18  

  58.     str r3, [r0, #(KERNEL_START & 0x00f00000) >> 18]!  

  59.     ldr r6, =(KERNEL_END – 1)  

  60.     add r0, r0, #4  

  61.     add r6, r4, r6, lsr #18  

  62. 1:  cmp r0, r6  

  63.     add r3, r3, #1 << 20  

  64.     strls   r3, [r0], #4  

  65.     bls 1b  

  66.   

  67. #ifdef CONFIG_XIP_KERNEL   

  68.     /* 

  69.      * Map some ram to cover our .data and .bss areas. 

  70.      */  

  71.     orr r3, r7, #(KERNEL_RAM_PADDR & 0xff000000)  

  72.     .if (KERNEL_RAM_PADDR & 0x00f00000)  

  73.     orr r3, r3, #(KERNEL_RAM_PADDR & 0x00f00000)  

  74.     .endif  

  75.     add r0, r4,  #(KERNEL_RAM_VADDR & 0xff000000) >> 18  

  76.     str r3, [r0, #(KERNEL_RAM_VADDR & 0x00f00000) >> 18]!  

  77.     ldr r6, =(_end – 1)  

  78.     add r0, r0, #4  

  79.     add r6, r4, r6, lsr #18  

  80. 1:  cmp r0, r6  

  81.     add r3, r3, #1 << 20  

  82.     strls   r3, [r0], #4  

  83.     bls 1b  

  84. #endif   

  85.   

  86.     /* 

  87.      * Then map first 1MB of ram in case it contains our boot params. 

  88.      */  

  89.     add r0, r4, #PAGE_OFFSET >> 18  

  90.     orr r6, r7, #(PHYS_OFFSET & 0xff000000)  

  91.     .if (PHYS_OFFSET & 0x00f00000)  

  92.     orr r6, r6, #(PHYS_OFFSET & 0x00f00000)  

  93.     .endif  

  94.     str r6, [r0]  

  95.   

  96. #ifdef CONFIG_DEBUG_LL   

  97. #ifndef CONFIG_DEBUG_ICEDCC   

  98.     /* 

  99.      * Map in IO space for serial debugging. 

  100.      * This allows debug messages to be output 

  101.      * via a serial console before paging_init. 

  102.      */  

  103.     addruart r7, r3  

  104.   

  105.     mov r3, r3, lsr #20  

  106.     mov r3, r3, lsl #2  

  107.   

  108.     add r0, r4, r3  

  109.     rsb r3, r3, #0x4000         @ PTRS_PER_PGD*sizeof(long)  

  110.     cmp r3, #0x0800         @ limit to 512MB  

  111.     movhi   r3, #0x0800  

  112.     add r6, r0, r3  

  113.     mov r3, r7, lsr #20  

  114.     ldr r7, [r10, #PROCINFO_IO_MMUFLAGS] @ io_mmuflags  

  115.     orr r3, r7, r3, lsl #20  

  116. 1:  str r3, [r0], #4  

  117.     add r3, r3, #1 << 20  

  118.     teq r0, r6  

  119.     bne 1b  

  120.   

  121. #else /* CONFIG_DEBUG_ICEDCC */   

  122.     /* we don’t need any serial debugging mappings for ICEDCC */  

  123.     ldr r7, [r10, #PROCINFO_IO_MMUFLAGS] @ io_mmuflags  

  124. #endif /* !CONFIG_DEBUG_ICEDCC */   

  125.   

  126. #if defined(CONFIG_ARCH_NETWINDER) || defined(CONFIG_ARCH_CATS)   

  127.     /* 

  128.      * If we’re using the NetWinder or CATS, we also need to map 

  129.      * in the 16550-type serial port for the debug messages 

  130.      */  

  131.     add r0, r4, #0xff000000 >> 18  

  132.     orr r3, r7, #0x7c000000  

  133.     str r3, [r0]  

  134. #endif   

  135. #ifdef CONFIG_ARCH_RPC   

  136.     /* 

  137.      * Map in screen at 0x02000000 & SCREEN2_BASE 

  138.      * Similar reasons here – for debug.  This is 

  139.      * only for Acorn RiscPC architectures. 

  140.      */  

  141.     add r0, r4, #0x02000000 >> 18  

  142.     orr r3, r7, #0x02000000  

  143.     str r3, [r0]  

  144.     add r0, r4, #0xd8000000 >> 18  

  145.     str r3, [r0]  

  146. #endif   

  147. #endif   

  148.     mov pc, lr  

  149. ENDPROC(__create_page_tables)  


里面涉及的代码主要就是建立虚拟地址与物理地址的转换,尤其是右移20位和18位两个地方与页表目录项的地址关系比较复杂。执行完该函数后,虚拟内存和物理内存的映射关系如下图所示:


赞(0) 打赏
转载请注明出处:服务器评测 » 基于Linux2.6.38.8内核启动过程完全解析
分享到: 更多 (0)

听说打赏我的人,都进福布斯排行榜啦!

支付宝扫一扫打赏

微信扫一扫打赏