KVM虛擬化網絡優(yōu)化技術總結

責任編輯:editor006

2014-12-09 17:27:48

摘自:推酷

一個完整的數據包從虛擬機到物理機的路徑是

一個完整的數據包從虛擬機到物理機的路徑是:

虛擬機–QEMU虛擬網卡–虛擬化層–內核網橋–物理網卡

kvm-datapath

KVM的網絡優(yōu)化方案,總的來說,就是讓虛擬機訪問物理網卡的層數更少,直至對物理網卡的單獨占領,和物理機一樣的使用物理網卡,達到和物理機一樣的網絡性能。

方案一 全虛擬化網卡和virtio

virtio

  Virtio 與全虛擬化網卡區(qū)別

全虛擬化網卡是虛擬化層完全模擬出來的網卡,半虛擬化網卡通過驅動對操作系統(tǒng)做了改造;

viritio簡單的說,就是告訴虛擬機,hi 你就是在一個虛擬化平臺上跑,咱們一起做一些改動,讓你在虛擬化平臺上獲得更好的性能;

parvirtio

  關于virtio的使用場景

因 為windows虛擬機使用viritio有網絡閃斷的情況發(fā)生,windows 虛擬機如果網絡壓力不高,建議使用e1000這樣的全虛擬化網卡,如果網絡壓力比較高,建議使用SRIVO或者PCI Device Assignment這樣的技術;viritio也在不斷的演進,希望windows的閃斷的問題越來越少。

KVM天生就是為linux系統(tǒng)設計的,linux系統(tǒng)請放心大膽的使用viritio驅動;

方案二 vhost_net macvtap技術

macvtap

vhost_net使虛擬機的網絡通訊直接繞過用戶空間的虛擬化層,直接可以和內核通訊,從而提供虛擬機的網絡性能;

macvtap則是跳過內核的網橋;

使用vhost_net,必須使用virtio半虛擬化網卡;

vhost_net虛擬機xml文件配置, 

如果不使用vhost_net,則為

macvtap 虛擬機xml配置

注意:macvtap在windows虛擬機上性能很差,不建議使用

vhost_net macvtap比較

macvlan的功能是給同一個物理網卡配置多個MAC地址,這樣可以在軟件商配置多個以太網口,屬于物理層的功能。

macvtap是用來替代TUN/TAP和Bridge內核模塊,macvtap是基于macvlan這個模塊,提供TUN/TAP中tap設備使用的接口,

使用macvtap以太網口的虛擬機能夠通過tap設備接口,直接將數據傳遞到內核中對應的macvtap以太網口。

vhost-net是對于virtio的優(yōu)化,virtio本來是設計用于進行客戶系統(tǒng)的前端與VMM的后端通信,減少硬件虛擬化方式下根模式個非根模式的切換。

而 是用vhost-net后,可以進一步進入CPU的根模式后,需要進入用戶態(tài)將數據發(fā)送到tap設備后再次切入內核態(tài)的開銷,而是進入內核態(tài)后不需要在進 行內核態(tài)用戶態(tài)的切換,進一步減少這種特權級的切換,說vhost-net屬于哪個層不準確,而是屬于進行二層網絡數據傳遞的優(yōu)化。

方案三 虛擬機網卡獨占

passthrough

  網卡passthrough在虛擬機的配置方法

1 使用lcpci 設備查看pci設備信息

04:00.0 Ethernet controller: Intel Corporation 82571EB Gigabit Ethernet Controller (rev 06)04:00.1 Ethernet controller: Intel Corporation 82571EB Gigabit Ethernet Controller (rev 06)

也可以使用virsh nodedev-list –tree得到信息

+- pci_0000_00_07_0| || +- pci_0000_04_00_0| | || | +- net_p1p1_00_1b_21_88_69_dc| | | +- pci_0000_04_00_1| || +- net_p1p2_00_1b_21_88_69_dd

2 使用virsh nodedev-dumxml pci_0000_04_00_0得到xml配置信息

1 [root@]# virsh nodedev-dumpxml pci_0000_04_00_0

pci_0000_04_00_0

pci_0000_00_07_0

e1000e

82571EB Gigabit Ethernet Controller

Intel Corporation

3 編輯虛擬機xml文件,加入pci設備信息

Domain bus slot function信息從dumpxml出的xml文件獲取,define虛擬機,然后開啟虛擬機就可以,注意以為附件上去的是物理設備,需要在系統(tǒng)里面安裝相應的驅動。

方案四 SR-IVO技術

SRIOV 的原理

SR-IVO 是the single root I/O virtualization 的簡寫,是一個將PCIe共享給虛擬機使用的標準,目前用在網絡設備上比較多,理論上也可以支持其他的PCI設備,SRIOV需要硬件的支持。

srivo

  以下內容來自oracle網站,鏈接為

http://docs.oracle.com/cd/E38902_01/html/E38873/glbzi.html

phicalfunction

  物理功能 (Physical Function, PF)

用 于支持 SR-IOV 功能的 PCI 功能,如 SR-IOV 規(guī)范中定義。PF 包含 SR-IOV 功能結構,用于管理 SR-IOV 功能。PF 是全功能的 PCIe 功能,可以像其他任何 PCIe 設備一樣進行發(fā)現、管理和處理。PF 擁有完全配置資源,可以用于配置或控制 PCIe 設備。

虛擬功能 (Virtual Function, VF)

與物理功能關聯的一種功能。VF 是一種輕量級 PCIe 功能,可以與物理功能以及與同一物理功能關聯的其他 VF 共享一個或多個物理資源。VF 僅允許擁有用于其自身行為的配置資源。

每 個 SR-IOV 設備都可有一個物理功能 (Physical Function, PF),并且每個 PF 最多可有 64,000 個與其關聯的虛擬功能 (Virtual Function, VF)。PF 可以通過寄存器創(chuàng)建 VF,這些寄存器設計有專用于此目的的屬性。

一 旦在 PF 中啟用了 SR-IOV,就可以通過 PF 的總線、設備和功能編號(路由 ID)訪問各個 VF 的 PCI 配置空間。每個 VF 都具有一個 PCI 內存空間,用于映射其寄存器集。VF 設備驅動程序對寄存器集進行操作以啟用其功能,并且顯示為實際存在的 PCI 設備。創(chuàng)建 VF 后,可以直接將其指定給 IO 來賓域或各個應用程序(如裸機平臺上的 Oracle Solaris Zones)。此功能使得虛擬功能可以共享物理設備,并在沒有 CPU 和虛擬機管理程序軟件開銷的情況下執(zhí)行 I/O。

SR-IOV 的優(yōu)點

SR-IOV 標準允許在 IO 來賓域之間高效共享 PCIe 設備。SR-IOV 設備可以具有數百個與某個物理功能 (Physical Function, PF) 關聯的虛擬功能 (Virtual Function, VF)。VF 的創(chuàng)建可由 PF 通過設計用來開啟 SR-IOV 功能的寄存器以動態(tài)方式進行控制。缺省情況下,SR-IOV 功能處于禁用狀態(tài),PF 充當傳統(tǒng) PCIe 設備。

具有 SR-IOV 功能的設備可以利用以下優(yōu)點:

性能-從虛擬機環(huán)境直接訪問硬件。

成本降低-節(jié)省的資本和運營開銷包括:

節(jié)能

減少了適配器數量

簡化了布線

減少了交換機端口

SRIOV 的使用

啟動SRIVO內核模塊

modprobe igb

激活虛擬功能VF

modprobe igb max_vfs=7

千兆網卡最多支持8個vf0-7,千兆網卡目前支持比較好的是INTEL I350, 82576S雖然也支持SRIOV但是只支持虛擬機是linux的情況,windows系統(tǒng)不支持;

萬兆網卡最多支持64個vg0-63,intel的新新一代萬兆網卡都支持SRIOV x520 x540等;

如果需要重新設置vf 可以刪除模塊在重新加載

modprobe -r igb

將配置永久寫入配置文件

echo “options igb max_vfs=7″ >>/etc/modprobe.d/igb.conf

通過lspci命令可以看多主網卡和子網卡

鏈接已復制,快去分享吧

企業(yè)網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號