Title: | Ultra-compact approximate 4:2 compressors for power-efficient multipliers in error-resilient applications |
Author: | Zanandrea, Vinícius |
Abstract: |
A eficiência energética é um grande desafio para os sistemas computacionais atuais à medida que o volume de dados a serem processados continua a crescer. A Computação Aproximada é uma abordagem poderosa para aumentar a eficiência energética, proporcionando um ajuste entre precisão e utilização de recursos, principalmente voltada para aplicações tolerantes a erros. Aplicações como filtros, processamento digital de sinais e aprendizado de máquina lidam com grandes volumes de dados, exigindo circuitos aritméticos com desempenho computacional e de baixo consumo, principalmente multiplicadores. Compressores são geralmente utilizados na etapa de redução de produtos parciais a fim de minimizar o caminho crítico e o consumo de energia. Nesse contexto, o objetivo deste trabalho é melhorar a eficiência energética para aplicações tolerantes a erros através da proposta de dois compressores 4:2 aproximados, denominados MAX4:2CV1 e MAX4:2CV2, para a redução de produtos parciais em circuitos multiplicadores. As características de projeto dos compressores propostos são comparadas com outros compressores 4:2 aproximados da literatura, em nível de transistor utilizando a tecnologia FinFET de 7 nm. Os resultados demonstraram melhorias no Produto Atraso-Potência (PDP) de 66.7% e 79.1%, respectivamente, com economias de energia adicionais de até 52% operando em Near-Threshold Voltage. Os compressores foram integrados em duas estruturas de multiplicadores 8x8 Dadda, denominadas AxMultV1, que adota uma aproximação agressiva, e AxMultV2, que explora uma aproximação mais moderada, ambas utilizando truncamento nos bits menos significativos para maior economia de energia. Os resultados para AxMultV1 mostraram que o multiplicador baseado no MAX4:2CV2 apresentou redução de 50.4% no atraso e até 59.2% de economia de energia. Em termos de número de transistores, os compressores MAX4:2CV1 e MAX4:2CV2 resultaram em reduções de 48.1% e 58.5%, respectivamente. As características da estrutura AxMultV2 mostraram que o multiplicador baseado no MAX4:2CV1 obteve uma redução de 32.5% no atraso e 40.8% em energia, resultando em uma melhoria de até 59.8% no PDP. Sob operação em Near-Threshold, os multiplicadores reduziram o PDP em até 64.6% comparado à implementação exata. O desempenho dos circuitos aproximados foi investigado em aplicações do mundo real. Em tarefas de processamento de imagens, como multiplicação pixel a pixel e realce de imagens, as estruturas AxMultV1 e AxMultV2 com o compressor MAX4:2CV1 mostraram um bom equilíbrio entre qualidade da imagem e eficiência de hardware, com valores de PSNR acima de 37 dB e SSIM superiores a 0.98. Em tarefas de classificação de imagens utilizando redes neurais, o multiplicador baseado no MAX4:2CV1 apresentou acurácia comparável à do multiplicador exato, alcançando 95.54% no dataset MNIST com Multilayer Perceptron e até 81.27% no dataset SVHN utilizando a arquitetura LeNet-5. Os compressores MAX4:2CV1 e MAX4:2CV2 apresentaram melhorias em consumo de energia, atraso e área em comparação com projetos exatos e aproximados da literatura. Além disso, a combinação desses circuitos aproximados com a operação em Near-Threshold resultou em economias de energia ainda maiores. Os resultados apresentados nesta tese fornecem informações relevantes para auxiliar projetistas na escolha do multiplicador aproximado mais adequado com base em requisitos de projeto. Abstract: Energy efficiency is a major challenge for current computer systems as the volume of data to process continues to grow. Approximate Computing (AxC) is an interesting design paradigm to enhance energy efficiency by allowing to balance the trade-off between accuracy and resource utilization in error-resilient applications. Applications such as filters, digital signal processing, and machine learning handle large amounts of data, demanding hardware designers fast and low-power arithmetic circuits, mainly multipliers. Compressors are often used in the partial product reduction stage of a multiplier to minimize critical path delay and power consumption. In this context, the objective of this work is to improve energy efficiency for error-tolerant applications by proposing two novel approximate 4:2 compressors, named MAX4:2CV1 and MAX4:2CV2, for partial product reduction in multiplier circuits. We compared the design characteristics of our proposed compressors with other approximate 4:2 compressors from the literature, at the transistor level using 7 nm FinFET technology, also presenting the error due to approximation. Results showed Power-Delay Product (PDP) improvements of 66.7% and 79.1%, respectively, with further power savings of up to 52% under Near-Threshold Voltage (NTV) operation. The proposed compressors were integrated into two 8x8 Dadda tree multiplier structures: an aggressive approximate version, AxMultV1, and a moderate approximate version, AxMultV2, both employing truncation on the least significant bits for additional power savings. The results for the AxMultV1 structure showed that the multiplier based on MAX4:2CV2 achieved the best performance, with a 50.4% delay reduction and up to 59.2% power savings. In terms of transistor count, MAX4:2CV1 and MAX4:2CV2 resulted in 48.1% and 58.5% reductions, respectively, leading to ultra-compact designs. The design characteristics of the AxMultV2 structure showed that the multiplier based on MAX4:2CV1 achieved a 32.5% delay reduction and 40.8% power savings, resulting in a PDP improvement of up to 59.8%. At NTV operation, the proposed multipliers achieved a PDP gain of up to 64.6% over the exact implementation. The performance of the proposed approximate multipliers were investigated in real-world applications. In image processing tasks such as pixel-wise multiplication and image sharpening, the AxMultV1 and AxMultV2 structures based on the MAX4:2CV1 compressor showed a good trade-off between output image quality and hardware efficiency, with PSNR values above 37 dB and SSIM above 0.98. In image classification tasks using neural networks, the MAX4:2CV1-based multiplier also offers comparable classification accuracy to the exact multiplier, achieving 95.54% accuracy on the MNIST using a Multilayer Perceptron and up to 81.27% accuracy on the SVHN dataset with the LeNet-5 architecture. Overall, the proposed MAX4:2CV1 and MAX4:2CV2 compressors showed improvements in power, delay, and area compared to both exact and approximate designs from the literature. Furthermore, combining these approximate circuits with near-threshold voltage operation resulted in even greater power savings. The results presented in this thesis can provide a set of information for designers in selecting the most suitable approximate multiplier based on specific design requirements. |
Description: | Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025. |
URI: | https://repositorio.ufsc.br/handle/123456789/266836 |
Date: | 2025 |
Files | Size | Format | View |
---|---|---|---|
PGCC1308-T.pdf | 4.336Mb |
View/ |