seabios缺陷导致特定VCPU个数的qemu找不到硬盘

Posted on:2015-07-182015-07-18
Categories:Virtualization
Tags:KVM, QEMU, Xen

seabios问题的原理还是很简单的，只是我对bios的原理一点也不了解，可谓盲人骑瞎马，夜半看bug，过程记录一下，还是有些意义。
问题就是给定qemu分配78个vcpu的时候，qemu提示找不到硬盘，即是"Boot failed: could not read the boot disk"，出现了这样的问题，正确的思路就是看打印，就是seabios的boot_disk里面的：

call16_int(0x13, &br);

if (br.flags & F_CF) {
    printf("Boot failed: could not read the boot disknn");
    return；
}

call16_int获取的br没有满足flag的条件，由兴趣的可以翻看一下__call16_int，我确实没看明白调用机制是什么，此路不通。
从整体看，disk是一个文件虚拟化而成的，除了seabios本身机制问题，还一个可能出在qemu虚拟化设备上，因为本身是cpu个数导致问题，后者的疑点更重，启动2个qemu，一个有问题，另外一个没问题，进行对比，在qemu的控制端查看所有设备，都一样，OK，此路证伪。
只好重新回到__call16_int，看不懂还有万能的gdb呢，有开发文档在此，http://www.seabios.org/Debugging，主要就几条：1.make menuconfig中的CONFIG_DEBUG_LEVEL控制日志输出；2.在qemu中输出debug信息；3.在gdb中以qemu为中转调试seabios。开启第一条开关，执行第二条，失败，不能识别chardev，执行第三条，调试到call16_int深处，程序异常退出。
然后上万能大法，二分法，确定了qemu的seabios有问题，在rel-1.8.0引入的问题，然后二分法seabios代码，悲剧就此产生，二分法失效，先说一下原因，因为问题本身出在seabios内存使用上，而CONFIG_DEBUG_LEVEL也会影响内存的使用。
重新回头看一下问题，发现qemu输出debug的时候qemu被checkout到老版本上了，checkout master上测试一下，生效，日志输出了很多，和正常执行的日志对比挨着看，发现了疑点：

|07fba000| ata_reset exit status=0
|07fba000| WARNING - Unable to allocate resource at init_atadrive:715!

init_atadrive申请fseg内存失败，然后直接返回，而它的调用者init_drive_ata也直接返回，导致后续的ata格式的设备初始化没有完成。

    struct atadrive_s *adrive = malloc_fseg(sizeof(*adrive));
    if (!adrive) {
        warn_noalloc();
        return NULL;
    }

malloc_fseg内存申请失败就要看seabios具体的内存管理结构了，此处我也是似懂非懂状态...seabios用类似于buddy的系统管理内存，所有的zone都是分配完成的，如果前面申请的内存比较多，剩下的内存可能就不足了，在allocSpace代码中就是一开始一个大块，分出一块后，就有两块，如下图：

因为申请内存是需要对齐的，所以A，B不一定会衔接到一起，最后空余的内存都算到尾巴上的一个，对应代码如下：

  hlist_for_each_entry(info, &zone->head, node) {
        void *dataend = info->dataend;
        void *allocend = info->allocend;
        void *newallocend = (void*)ALIGN_DOWN((u32)allocend - size, align);
        if (newallocend >= dataend && newallocend <= allocend) {
        // Found space - now reserve it.
        if (!fill)
            fill = newallocend;
            fill->data = newallocend;
            fill->dataend = newallocend + size;
            fill->allocend = allocend;

            info->allocend = newallocend;
            hlist_add_before(&fill->node, &info->node);
            return newallocend;
        }
    }

到现在看，即是你明白了fseg的分配，只能确认前面有人把内存都占走了，当然最可能的就是cpu个数占走的，还是对比日志看，因为前面对比我们知道fseg分配的zone id=0x000ec260，所以只看这个的内存分配，疑点很快就看到了：

< _malloc zone=0x000ec260 size=1724 align=10 ret=0x000f52d0 (detail=0x07fb6f50)
< Copying MPTABLE from 0x00006df4/7fb6f80 to 0x000f52d0
---
> _malloc zone=0x000ec260 size=1704 align=10 ret=0x000f52e0 (detail=0x07fb6f50)
> Copying MPTABLE from 0x00006df4/7fb6f80 to 0x000f52e0

此处多分配了0x20内存，日志打印是在copy_mptable中，但是内存分配的length + mpclength来自调用它的mptable_setup，其中代码：

    struct mpt_cpu *cpus = (void*)&config[1], *cpu = cpus;
    int i;
    for (i = 0; i < MaxCountCPUs; i+=pkgcpus) {
        memset(cpu, 0, sizeof(*cpu));
        cpu->type = MPT_TYPE_CPU;
        cpu->apicid = i;
        cpu->apicver = apic_version;
        /* cpu flags: enabled, bootstrap cpu */        cpu->cpuflag = (apic_id_is_present(i) ? 0x01 : 0x00)
                         | ((i==0) ? 0x02 : 0x00);
        cpu->cpusignature = cpuid_signature;
        cpu->featureflag = cpuid_features;
//CPU指针一直移动
        cpu++;
    }
struct mpt_bus *buses = (void*)cpu, *bus = buses;
struct mpt_ioapic *ioapic = (void*)bus;
struct mpt_intsrc *intsrcs = (void*)&ioapic[1], *intsrc = intsrcs;
int length = (void*)intsrc - (void*)config;

抽出以上代码就明显看出length=cpunr * M + N;CPU个数愈多申请的内存越大，然后后面的ata初始化就无法申请内存。
但是QA测试时到86个CPU时就OK了，原因就是86个CPU导致copy_mptable也申请不到内存，反而给ata初始化留下了残羹冷炙。

修改方法比较简单，就是限制CPU的个数，可以参考http://code.coreboot.org/p/seabios/source/commit/9ee2e26255661a191b0ff9fa276d545ce59845c2/。

seabios缺陷导致特定VCPU个数的qemu找不到硬盘来自于OenHan

链接为:https://oenhan.com/seabios-qemu-vcpu-disk

OenHan

Sun @ KVM源代码分析4:内存虚拟化
博主，您好！想问一下qemu负责模拟vcpu的线程参与正常的线程调度吗？如果参与，其是需要先从非根模式退出到根模式再进行…6 月 4, 15:38
GGG @ ext4 mballoc源代码分析
@OENHAN 您好，“目的就是要尽可能的紧凑，所谓的针对2的幂的削峰填谷”---我对这个结论还是不太能理解，请问下在分…10 月 19, 20:36
Gary @ KVM源代码分析3:CPU虚拟化
@JOE 老哥，最近还在读KVM源码吗，可以交流一下不8 月 22, 19:30
Joe @ KVM源代码分析3:CPU虚拟化
了解了，谢谢！2 月 17, 14:06
Joe @ KVM源代码分析3:CPU虚拟化
最近在学习CPU虚拟化，有个问题想请问一下博主，在x86 cpu虚拟化中，每个VCPU有一个VMCS，然后每个guest…12 月 6, 10:22
Shawtao @ Job
请问之后会招暑期实习或者日常实习吗？11 月 9, 12:55
Arthur.Dayne @ KVM virtIO block源代码分析
我最近在研究virtio-blk，想搞明白guest中读写/dev/vda后，应该会跳到qemu的kvm_handle_…6 月 22, 17:21
Timelife @ Job
这并不是必然的和固定的，Arm及Intel的Page管理技术，保护模式下只是为了更合理高校利用资源和数据隔离，从最初高效…5 月 21, 14:55
Raymond @ Job
9 BIT 能表示512个ENTRIES，4KB页面，刚好8个字节一个ENTRY，512个刚好4KB，ENTRY中放64…2 月 29, 23:04
Xyz @ KVM MMU page释放机制
是的，是在没有开启ept的情况下。对mmu page的回收有些不解。2 月 25, 17:59

OenHan

发表回复 取消回复

发表回复取消回复