Efficient and Scalable Cache Coherence for Many-Core Chip Multiprocessors

作者: Alberto Ros Bardisa

DOI:

关键词:

摘要: Los continuos avances en la escala de integracion permiten reducir cada vez mas el tamano los transistores y, por tanto, podemos encontrar chips con un mayor numero transistores. fabricantes han decidido dedicar estos a aumentar procesadores lugar incrementar rendimiento unico procesador, dando multiprocesadores chip o CMPs (Chip-multiprocessors). Aunque actualmente estan formados reducido (entre 2 y 8), se espera que decenas procesadores, llamados many-core CMPs, salgan al mercado futuro cercano. La mayoria mantendran coherencia las caches privadas procesador via hardware protocolo tomara gran importancia sistemas. Hoy dia, mejor manera mantener sistemas es mediante protocolos basados directorio. Sin embargo, tienen dos grandes problemas: una sobrecarga memoria alta latencia para fallos cache. provocada mantenimiento del directorio, informacion coherencia. Dependiendo como organice esta informacion, cantidad requerida puede resultar prohibitiva escala. Las altas latencias cache vienen consecuencia indireccion introducida necesidad acceder directorio antes realizar acciones necesarias. Por otro lado, suelen organizar ultimo nivel cache, normalmente comparten todos modo distribuido. Esto provoca acceso dependa banco donde almacena bloque accedido, lo su acceso. En tesis nuestros esfuerzos centrado tres problemas claves eficiencia escalabilidad CMP. primer lugar, hemos presentado organizacion directorios distribuidos escalable, decir, estructura incluida no depende sistema. Ademas, implementado nuevo mecanismo reemplazos, elimina mensajes causados realizandolos forma implicita generados peticion causa reemplazo. segundo propuesto nueva familia directa. Estos evitan Para ello, necesario almacene junto datos envien directamente nodo dicho datos. De este reducen fallo tiempo ejecucion aplicaciones. ultimo, desarrollado politica mapeo compartidas encuentran fisicamente distribuidas chip. Esta intenta distancia entre acceden encuentra bloque. garantizar distribucion uniforme almacenada diferentes bancos fin tasa Estas mejoras traducen finalmente reducciones

参考文章(62)
Manuel E. Acacio, Alberto Ros, José M. García, Scalable Directory Organization for Tiled CMP Architectures. CDES. pp. 112- 118 ,(2008)
Louis Monier, Pradeep S. Sindhu, The Architecture of the Dragon. COMPCON. pp. 118- 121 ,(1985)
Ross Evan Johnson, Extending the scalable coherent interface for large-scale shared-memory multiprocessors University of Wisconsin at Madison. ,(1993)
John L. Hennessy, David A. Patterson, Computer Architecture: A Quantitative Approach ,(1989)
Koen De Bosschere, Wayne Luk, Xavier Martorell, Nacho Navarro, Mike O’Boyle, Dionisios Pnevmatikatos, Alex Ramirez, Pascal Sainrat, André Seznec, Per Stenström, Olivier Temam, None, High-Performance Embedded Architecture and Compilation Roadmap high performance embedded architectures and compilers. ,vol. 1, pp. 5- 29 ,(2007) , 10.1007/978-3-540-71528-3_2
David E. Culler, Jaswinder Pal Singh, Anoop Gupta, Parallel Computer Architecture: A Hardware/Software Approach ,(1998)
Tom Lovett, Russell Clapp, STiNG: A CC-NUMA Computer System for the Commercial Marketplace international symposium on computer architecture. ,vol. 24, pp. 308- 317 ,(1996) , 10.1145/232973.233006
B.M. Beckmann, D.A. Wood, Managing Wire Delay in Large Chip-Multiprocessor Caches international symposium on microarchitecture. pp. 319- 330 ,(2004) , 10.1109/MICRO.2004.21
Wm. A. Wulf, Sally A. McKee, Hitting the memory wall ACM SIGARCH Computer Architecture News. ,vol. 23, pp. 20- 24 ,(1995) , 10.1145/216585.216588
Shamik Das, Andy Fan, Kuan-Neng Chen, Chuan Seng Tan, Nisha Checka, Rafael Reif, Technology, performance, and computer-aided design of three-dimensional integrated circuits international symposium on physical design. pp. 108- 115 ,(2004) , 10.1145/981066.981091