SRAM的功耗按工作状态可以分为动态功耗和静态功耗[2]。动态功耗主要由工作频率来决定,而静态功耗主要由各类泄漏电流组成。随着SRAM特征尺寸进入到亚微米级别,静态功耗变得越来越重要[1]。而降低SRAM的静态功耗最为直接有效的方式是降低SRAM的电源电压(VDD)[3]。虽然降低电源电压可以使静态功耗呈指数下降,但是,SRAM的稳定性也会随着电源电压的下降而下降,甚至当SRAM器件工作电压下降到最小工作电压(VMIN)以下时,会出现存储单元失效的现象。
在低电压下提高SRAM存储单元稳定性的方法有很多,最为广泛应用的2种方法为改变存储单元结构和增加辅助电路结构。其中,改变存储单元结构是将传统的6个晶体管(6T)的存储单元结构增加为7T[4]或8T[5]甚至更多晶体管[6-7]的结构。这种方法固然可以提高SRAM的稳定性,但是增加的晶体管会显著的增加SRAM器件的面积以及功耗,这一现象对大容量的SRAM来说尤为明显。
除此之外,增加辅助电路也是一种广泛使用的方法。然而,传统的辅助电路在提高读或者写单一性能的同时会造成另一种性能或稳定性的损失。针对上述情况,本文采用分步控制字线电压的两步控制(DSC)技术,可以降低SRAM器件的VMIN,并且提升工作在VMIN下的写阈值(WM)的同时不牺牲稳定性。
1 SRAM存储单元的稳定性分析 1.1 存储单元结构 图 1所示为传统6T存储单元结构。图中:INOISE、ILEAK、IKEEP和IWRITE分别为噪声电流、泄漏电流、保持电流和写入电流;M1、M2为上拉MOS管,M3、M4为传输MOS管,M5、M6为下拉MOS管。随着VDD下降,存储单元内部节点的状态越来越容易受到噪声的干扰而发生改变,从而导致失效。存储单元失效通常发生在电源电压小于规定的VMIN时,而VMIN通常由静态噪声容限(SNM)和WM来决定。
图 1 传统6T存储单元结构 Fig. 1 Conventional 6T bit-cell structure |
图选项 |
1.2 稳定性分析 通过分析图 1所示存储单元的SNM和WM得到的VMIN的大小在一定程度上代表着SRAM的稳定性强弱[8]。
当SRAM读写数据时,SNM和WM受字线、位线以及电源线电压的影响。降低字线和位线电压可以减少INOISE,从而提高全选单元和半选单元的SNM[9-10]。而增大字线电压或是降低存储单元电源电压(VDDC)等方法,可以使内部节点更容易翻转,从而提高全选单元的WM[11-13]。
然而,字线或是位线电压的降低会使写入电流IWRITE减小,引入额外的写数据时间以及WM的损失,甚至在一定条件下使写操作失效。而字线电压的增大以及存储单元电源电压的降低会使SNM下降;负位线电压(NBL)则需要额外的电容器件来驱动,引入额外的面积损失。
2 传统辅助电路与DSC字线电压技术 2.1 传统辅助电路 为了解决上述问题,设计者们通常同时使用读和写辅助电路技术来同时提高读写能力。字线欠驱(WLUD)和NBL的结合[14]以及VDDC和NBL的结合[13],可以在提高SNM的同时提高写入数据的速度和WM。但是,因为这2种方法都用到了应用在位线上的NBL技术,额外的电容带来了面积损失。同时,位线连接在存储单元传输门MOS管M3和M4的源漏极。随着SRAM容量的增大,单根位线上的阻性负载也变得越来越多,电压下降的现象也越来越严重,这使得NBL技术无法作用于全部存储单元。而字线连接在传输门MOS管M3和M4的栅极上,随着SRAM容量的增大,字线上增加的容性负载只会影响到SRAM的时序,字线辅助电路技术对字线电压的改变会完整传输到每个MOS管。Song等[10]提出的双瞬态字线电压技术(DTWL)在WLUD技术的基础上,在字线开启的后端加入字线过驱(WLOD)技术,目的是让SRAM在慢N型MOS管(NMOS)快P型MOS管(PMOS)这样写性能较差的工艺角也能使数据成功写入。但是由于字线电压在WLUD后升高至WLOD,其写数据的速度至少降低了15%。
2.2 DSC字线电压技术 针对这种情况,本文设计并采用DSC技术,结合WLUD和WLOD技术。图 2所示为DSC字线电压技术原理示意图。其中,过驱电压(VDDOD)由SRAM外部的低压差线性稳压器(LDO)来提供,对于多个SRAM器件组成的大规模SRAM阵列,所有SRAM共享一个LDO,因此,额外的LDO器件并不会引入过多的面积损失。而欠驱电压(VDDUD)则由SRAM内部产生。
图 2 DSC字线电压技术原理示意图 Fig. 2 Schematic diagram of DSC word-line voltage technique principle |
图选项 |
当字线打开时,使能信号EN有效,延时时间控制模块(DTC)经过过驱时间TOD延迟后将欠驱使能信号UD拉低使欠驱电压选通,同时在下拉MOS管栅极产生一个脉冲信号DC使字线驱动信号WLD的电压VWLD下降至欠驱电压。在本方案中,过驱时间TOD占全部字线开启时间TWL的比例影响着SRAM的读写速度和稳定性。理论上,增大该比例会使全选单元的读写速度加快,然而,半选单元的读稳定性也会随比例的增大而降低;而减小该比例则有可能造成全选单元的写失效。因此,确定最优的比例是十分重要的。本方案的TOD由DTC控制,其结构如图 3所示。从图中可以看出,该模块由一个6T结构的存储单元和一个上拉PMOS管M7构成,6T结构的两条位线分别接在高电平和低电平上。使用这样的结构便可以模拟全选单元写入数据的时间,动态地控制TOD占字线开启时间TWL的比例,从而在保证数据在过驱状态成功写入全选单元的同时,将半选单元的稳定性损失降至最低。
图 3 延时时间控制模块结构 Fig. 3 Structure of delay time control module |
图选项 |
最终,DSC字线电压技术的波形示意图如图 4所示。图中:VEN、VUD、VOD、VDC和VWL分别为SRAM使能信号的电压、欠驱使能信号的电压、过驱使能信号的电压、脉冲信号DC的电压和字线的电压;TUD为欠驱时间。
图 4 DSC字线电压技术的波形图 Fig. 4 Waveform of DSC word-line voltage technique |
图选项 |
相比于WLUD技术,位线刚打开时的过驱电压在慢NMOS快PMOS这样写性能较差的工艺角也能使数据成功写入;相比于WLOD技术,字线电压经过短暂过驱之后,降低为欠驱电压。
由于TOD占字线开启时间TWL的比例小,极大地降低了存储单元内部节点状态受噪声影响而改变的可能性,从而提高SRAM存储单元的稳定性;而相比于Song等[10]的DTWL技术,位线刚打开时的过驱电压不会造成写速度的损失,数据在字线打开时就可以正常写入。
图 5所示为使用DSC字线电压技术的SRAM结构。图中:m和n分别为存储单元阵列的行数和列数。相比于传统结构,使用字线电压控制技术的SRAM只需要在行译码器处增加字线电压驱动模块,由外部LDO提供过驱电压,SRAM内部电压源提供欠驱电压,同时通过SRAM逻辑模块控制字线电压驱动模块的功能。该结构并未改变存储单元的结构,且仅仅在行译码器处增加字线电压控制模块,因此不会引入过多的面积损失。
图 5 DSC字线电压技术的SRAM结构 Fig. 5 Structure of SRAM under DSC word-linevoltage technique |
图选项 |
3 仿真实验与数据对比 为了验证DSC字线电压技术的功能以及SRAM的性能,本文基于28 nm工艺,对256 Kbit SRAM进行前仿和后仿验证。字线电压驱动中所需要的LDO为外部独立设计,为保证本设计在不同电源电压下均可正常工作,要求该LDO的输出电压至少可以达到0.5 V,输出电流至少可以达到150 mA。
图 6所示为28 nm工艺下,容量为256 Kbit的SRAM版图。一个容量为256 Kbit的SRAM是由8个容量为32 Kbit SRAM子模块构成,每个子模块都是由存储单元阵列、行译码器、列选择器、灵敏放大器、数据缓存以及逻辑模块构成。每个子模块中的行译码器是由7位地址信号选通128行字线;列选择器为8个,数据I/O为32位。因此,每个子模块中存储阵列大小为128行256列,而256 Kbit阵列共计512行512列,包含64位数据I/O。DSC字线电压模块放置在行译码器中,作为字线电压驱动控制模块。增加此模块后,相比原结构,SRAM的面积增大4%。
图 6 256 Kbit SRAM版图 Fig. 6 Layout of 256 Kbit SRAM |
图选项 |
图 7所示为1 000次蒙特卡罗仿真测得无辅助电路的传统SRAM和DSC字线电压技术的SRAM的SNM和WM随归一化电源电压变化曲线。均值减去6倍标准差为零时确定的电源电压的值,即为估算的VMIN。由此方法确定的VMIN保证了容量不超过48 Mbit的SRAM阵列的良率超过90%,对于容量为256 Kbit的SRAM, 其良率接近100%。因此,当VDD大于此VMIN时,SRAM均可正常工作。图中的写阈值WM是在慢NMOS快PMOS(工艺角为SNFP),温度为-40℃的低温条件下测得的,静态噪声容限SNM是在快NMOS慢PMOS(工艺角为FNSP),温度为125℃的高温条件下测得的。从传统SRAM的2条曲线可以看出,SRAM器件的写数据能力表现的更差,WM确定的VMIN远高于SNM。而从DSC技术的2条曲线可以看出,使用了两步控制技术后,写阈值WM显著提高,而SNM的损失相比于WM的变化很小。在同一电源电压下(0.6 V),两步控制技术的SRAM相比传统SRAM,WM可以提高18%,SNM的损失低于4%。最终,使用两步控制技术的SRAM的VMIN可以降低近100 mV。
图 7 000次蒙特卡罗仿真测得传统结构和DSC结构2种技术的SNM和WM随归一化电源电压的变化 Fig. 7 Change of SNM and WM of two kinds of techniques (traditional structure and DSC structure) with normalized supply voltage measured by 1 000 times of Monte Carlo simulation |
图选项 |
图 8和图 9所示为温度在-40℃,电源电压为0.6 V时,无辅助电路的传统SRAM和DSC字线电压技术SRAM的写时间和读时间在不同工艺角下的对比。图中FF、SS和TT为快NMOS快PMOS、慢NMOS慢PMOS和典型值3种工艺角。DSC技术在字线打开时,字线电压先升高至高于电源电压的过驱电压,相比于无辅助电路的传统SRAM,写时间在5种工艺角都有明显下降。在典型工艺角下,DSC字线电压技术的SRAM的写速度相比传统SRAM降低接近10%,而在写入数据较为困难的慢NMOS快PMOS工艺角下,其数据可以成功写入,并使写速度提高11%。
图 8 -40℃、0.6 V下传统结构和DSC结构2种技术归一化写时间在不同工艺角的对比 Fig. 8 Comparison of normalized writing time of two kinds of techniques(traditional structure and DSC structure) at different technological angles under -40℃ and 0.6 V |
图选项 |
图 9 -40℃、0.6 V下传统结构和DSC结构2种技术归一化读时间在不同工艺角的对比 Fig. 9 Comparison of normalized reading time of two kinds of techniques (traditional structure and DSC structure) at different technological angles under -40℃ and 0.6 V |
图选项 |
对于读时间,由于字线经过短暂过驱电压后降低为欠驱电压,相比于传统SRAM,DSC字线电压技术的SRAM的读时间在5种工艺角下均有一定程度上的增大。在典型工艺角下,DSC字线电压技术的SRAM读时间增大了6%,从而使工作频率降低6%。
尽管欠驱电压使读时间增大,但是欠驱电压同样使SRAM稳定性不会因为过驱电压而损失过多,从而降低了VMIN。图 10所示为125℃传统SRAM和DSC字线电压技术SRAM在各自VMIN以及不同工艺角下的静态功耗对比。可以看出,在典型工艺角,电源电压降低100 mV使静态功耗可以降低30%。而对于功耗较高的快NMOS快PMOS工艺角,静态功耗可以下降36%。
图 10 125℃传统结构和DSC结构2种技术归一化静态功耗在各自VMIN和不同工艺角下的对比 Fig. 10 Comparison of normalized static power of two kinds of techniques(traditional structure and DSC structure) at 125℃ under VMIN and different technological angles |
图选项 |
表 1为TT工艺角25℃下,DSC字线电压技术与其他先进节点低电压技术的对比结果。表中:MUX为SRAM列选择器的个数;FVMIN为最小工作电压下的工作频率;AREA为SRAM的版图面积。所有技术均是采用28 nm CMOS工艺实现的。相比于其他技术,DSC字线电压控制技术有着更低功耗延迟积(PDP)和质量因数(FoM)。更低的功耗延迟积代表着在相同工作频率下,用DSC字线电压技术的SRAM的功耗更低;而质量因数综合考虑了包括频率、功耗和面积在内的多种因素,更高的质量因数代表着更高性能,更低的功耗以及更小的面积。
表 1 DSC字线电压技术与其他低VMIN(< 0.6 V)技术对比 Table 1 Comparison of DSC word-line voltage technique with other low VMIN (< 0.6 V) technologies
技术及参数 | 文献[15] | 文献[12] | 文献[13] | 本文 |
工艺/nm | 28 | 28 | 28 | 28 |
辅助技术 | 无 | WLUD+NBL | NBL+VDDC | DSC |
容量/bit | 128 K | 256 K | 2 M | 256 K |
MUX | 4 | 8 | 4 | 8 |
频率@VMIN/MHz | 20 | 66 | 30 | 60 |
VMIN/V | 0.6 | 0.58 | 0.5 | 0.5 |
功耗延迟积(PDP) | 1 | 0.283 | 0.463 | 0.280 |
质量因数(FoM) | 1 | 7.780 | 1.613 | 8.153 |
注:所有数据均是在TT工艺角,25℃得到;PDP和FoM按文献[15]归一化得到;PDP=VMIN2/FVMIN (数值越低性能越好);FoM=MUX·FVMIN/(VMIN2·AREA)(数值越高性能越好)。 |
表选项
4 结论 针对通过降低SRAM电源电压降低功耗后,SRAM读写性能损失的问题,本文提出DSC字线电压辅助电路技术并进行仿真验证,主要提高SRAM写阈值同时不损失SRAM噪声容限,具体特点如下:
1) 通过字线电压过驱可以分别提高SRAM写阈值与写数据时间18%和10%。
2) 通过字线电压欠驱可以将字线电压过驱带来的静态噪声容限和读数据时间的损失分别降低至4%和6%。
3) 通过在行译码器中加入字线电压驱动模块,最大限度将面积损失降低至4%。
4) 将最小电源电压降低100 mV,从而使静态功耗下降30%,且相比于其他28 nm工艺低功耗辅助电路技术,DSC字线电压技术的功耗延迟积更低,质量因数更高。
参考文献
[1] | MARINISSEN E J, PRINCE B, KEITEL-SCHULZ D, et al.Challenges in embedded memory design and test[C]//Proceedings of Design, Automation and Test in Europe.Piscataway: IEEE Press, 2005: 722-727. |
[2] | ZHANG K. Embedded memories for nano-scale VLSIs[M]. Berlin: Springer, 2009: 91-93. |
[3] | BHASKAR A.Design and analysis of low power SRAM cells[C]//2017 Innovations in Power and Advanced Computing Technologies.Piscataway: IEEE Press, 2018: 1-5. |
[4] | TAKASHIMA D, ENDO M, SHIMAZAKI K, et al. A 7T-SRAM with data-write technique by capacitive coupling[J]. IEEE Journal of Solid-State Circuits, 2019, 54(2): 596-605. DOI:10.1109/JSSC.2018.2875108 |
[5] | GROVER A, VISWESWARAN G S, PARTHASARATHY C R, et al. A 32 kb 0.35-1.2 V, 50 MHz-2.5 GHz bit-interleaved SRAM with 8T SRAM cell and data dependent write assist in 28 nm UTBB-FDSOI CMOS[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2017, 64(9): 2438-2447. DOI:10.1109/TCSI.2017.2705116 |
[6] | SAXENA S, MEHRA R. Low-power and high-speed 13T SRAM cell using FinFETs[J]. IET Circuits Devices & Systems, 2017, 11(3): 250-255. |
[7] | DUAN C, GOTTERBA A J, SINANGIL M E, et al. Energy-efficient reconfigurable SRAM:Reducing read power through data statistics[J]. IEEE Journal of Solid-State Circuits, 2017, 52(10): 1-9. DOI:10.1109/JSSC.2017.2741663 |
[8] | PAVLOV A. CMOS SRAM circuit design and parametric test in nano-scaled technologies[M]. Berlin: Springer, 2008: 2703-2711. |
[9] | NHO H, KOLAR P, HAMZAOGLU F, et al.A 32 nm high-k metal gate SRAM with adaptive dynamic stability enhancement for low-voltage operation[C]//IEEE International Solid-State Circuits Conference.Piscataway: IEEE Press, 2010: 76-84. |
[10] | SONG T, RIM W, PARK S, et al. A 10 nm FinFET 128 Mb SRAM with assist adjustment system for power, performance, and area optimization[J]. IEEE Journal of Solid-State Circuits, 2017, 52(1): 240-249. DOI:10.1109/JSSC.2016.2609386 |
[11] | LIEN N C, CHU L W, CHEN C H, et al. A 40 nm 512 kb cross-point 8T pipeline SRAM with binary word-line boosting control, ripple bit-line and adaptive data-aware write-assist[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2017, 61(12): 3416-3425. |
[12] | CHEN Y H, CHAN W M, WU W C, et al. A 16 nm 128 Mb SRAM in high-k metal-gate FinFET technology with write-assist circuitry for low-VMIN applications[J]. IEEE Journal of Solid-State Circuits, 2015, 50(1): 170-177. DOI:10.1109/JSSC.2014.2349977 |
[13] | SINANGIL M E, POULTON J W, FOJTIK M R, et al. A 28 nm 2 Mbit 6T SRAM with highly configurable low-voltage write-ability assist implementation and capacitor-based sense-amplifier input offset compensation[J]. IEEE Journal of Solid-State Circuits, 2015, 50(2): 557-567. |
[14] | CHANG M F, CHEN C F, CHANG T H, et al. A compact-area low-VDDmin 6T SRAM with improvement in cell stability, read speed, and write margin using a dual-split-control-assist scheme[J]. IEEE Journal of Solid-State Circuits, 2017, 52(9): 2498-2514. DOI:10.1109/JSSC.2017.2701547 |
[15] | SINANGIL M E, MAIR H, CHANDRAKASAN A P.A 28 nm high-density 6T SRAM with optimized peripheral-assist circuits for operation down to 0.6V[C]//IEEE International Solid-State Circuits Conference.Piscataway: IEEE Press, 2011: 260-261. |