| Categorias - Hardware |
Â

Muitos dos recursos introduzidos pelo Nehalem, incluindo a possibilidade de usar 4 processadores (nada menos do que 16 núcleos) são destinados ao mercado de servidores, onde cresce a demanda por máquinas capazes de rodar centenas de máquinas virtuais simultaneamente e de processar bancos de dados com vários gigabytes em tempo hábil.
Em um desktop, o uso de múltiplos processadores não faz tanto sentido (afinal, poucos aplicativos são capazes se utilizar todo o potencial de 4 núcleos, o que dizer de 16), o que faz com que a discussão recaia mais sobre os ganhos de desempenho dos Core i7 em relação aos processadores anteriores. As mudanças introduzidas pelo Nehalem são positivas mas, para a maioria, o mais importante acaba sendo o custo.
Com isso, chegamos ao Lynnfield, uma versão desktop do Nehalem, que deu origem ao Core i5 e aos Core i7 da série 8xx, versões quad-core mais baratas, que complementam os modelos da série 9xx e 9xx XE baseados no Bloomfield. Eles utilizam um controlador de memória dual-channel, abandonam o suporte a múltiplos processadores e são vendido sob frequências ligeiramente mais baixas.

Embora a arquitetura do processador continue sendo basicamente a mesma, o lançamento do Lynnfield é potencialmente mais importante que o lançamento das versões iniciais, simplesmente por que ele será a versão mais barata e por isso mais comum.
À primeira vista, parece que o Lynnfield é apenas uma versão castrada do Core i7, obtido através da desativação de alguns componentes, mas na verdade trata-se de um chip consideravelmente diferente, que é produzido em uma linha separada.
Uma das modificações mais evidentes é o uso de um controlador de memória DDR3 dual-channel em vez do controlador triple-channel do Core Bloomfield, uma mudança introduzida para diferenciar as duas plataformas e ao tempo reduzir o custo dos PCs baseados no Lynnfield, eliminando a tentação de usar 3 módulos de memória em vez de dois.
À primeira vista, parece uma redução significativa (afinal o terceiro canal corresponde a 1/3 da banda total com a memória), mas na prática a diferença é muito pequena, já que o grande cache L3 e a boa taxa de transferência dos módulos DDR3 atenuam bastante a necessidade de um barramento mais largo. O principal problema são os tempos de latência, que não têm uma relação direta com o número de canais.
O soquete LGA1156 e os modelos
Com um canal a menos no controlador de memória, o número de contatos do processador foi reduzido, o que levou a outra caracterÃstica importante, que é a adoção do soquete LGA1156 que passa a coexistir com o LGA1366 usado pelas versões high-end do Core i7. Os dois são bem similares, mas o menor número de contatos fazem com que o LGA1156 seja menor e tenha uma aparência mais quadrada, praticamente do mesmo tamanho que um soquete LGA775:

O mesmo se aplica também aos processadores, que são menores que os Core i7 baseados no Bloomfield, muito embora conservem a mesma aparência básica e o mesmo layout sem pinos que a Intel vem utilizando desde a migração para o sistema LGA:
Junto com o Lynnfield, a Intel anunciou uma nova série de modelos os Core i5. Ao contrário do que se esperava inicialmente, a divisão entre os Core i5 não é feita com base na arquitetura (ou seja, nem todos os Core i5 serão baseados no Lynnfield e nem todos os i7 serão baseados no Bloomfield) mas sim com base no número de núcleos e no suporte a SMT (o Hyper Threading). Basicamente, com 4 núcleos e o suporte a SMT ativo você tem um Core i7 e com 4 núcleos e o suporte a SMT desativado você tem um Core i5. Futuramente serão lançados também os Core i3 (a linha de baixo custo, com apenas dois núcleos) e os Core i9 (a linha high-end, com 6 ou 8 núcleos).
O Lynnfield é usado tanto no Core i5-750 quanto nos Core i7-860 e Core i7-870. Os três processadores são quad-core, possuem os mesmos 8 MB de cache L3 e utilizam o soquete LGA1156, entretanto o Core i5-750 vem com o SMT desativado, e é justamente isso o que sela a diferença entre as duas famÃlias:
Core i5-750: 2.66 GHz (2.13 GHz para o uncore), 8 MB, DDR3-1333, TDP de 95W.
Core i7-860: 2.8 GHz (2.4 GHz para o uncore), 8 MB, DDR3-1333, SMT, TDP de 95W.
Core i7-870: 2.93 GHz (2.4 GHz para o uncore), 8 MB, DDR3-1333, SMT, TDP de 95W.
Embora seja desejável, o SMT não é um recurso tão importante em desktops quanto pode parecer à primeira vista, já que o número de aplicativos capazes de utilizar 8 núcleos lógicos de maneira eficiente é pequeno. Com exceção de aplicativos de renderização, compressão de arquivos e outros casos especÃficos, o ganho oferecido pelo SMT é muito pequeno, diferente do que temos no caso dos servidores.
Outra pequena diferença é que o i5-750 utiliza uma frequência ligeiramente mais baixa para o uncore (lembre-se, o uncore inclui o controlador de memória, o cache L3 e todos os outros componentes externos aos cores do processor), o que afeta também a frequência do cache L3, representando uma pequena redução adicional no desempenho.
Assim como no caso dos Phenom e Phenom II (onde é chamado de North Bridge), o uncore utiliza tensões próprias e opera sempre à uma frequência mais baixa que as unidades de processamento, o que significa um cache L3 relativamente lento. O principal motivo disso é o uso de transistores de chaveamento lento (similares aos que a Intel já vinha utilizando em processadores de baixo consumo) que não são capazes de operar a frequências muito altas, mas que em compensação gastam muito menos energia. Como o uncore representa mais da metade da área total do processador, a redução acaba sendo bem significativa.
Diferente do que tÃnhamos na época do Pentium 4, o principal limitante para a frequência de operação dos processadores não é mais a arquitetura, mas sim a dissipação térmica. Ao reduzir a dissipação, é possÃvel atingir frequências de clock mais altas, compensando a perda de desempenho causada pelo cache L3 mais lento.
O novo turbo boost
O Lynnfield introduz também uma versão mais agressiva do Turbo Boost, que é um dos recursos de maior impacto sobre o desempenho direto. Enquanto no Bloomfield o Turbo Boost oferecia uma aumento modesto, de apenas 133 MHz, no Lynnfield ele é capaz de aumentar a frequência do processador em até 666 MHz, de acordo com o número de cores ativos.
Os degraus disponÃveis variam de acordo com o modelo. No Core i5-750 (que utiliza uma frequência base de 2.66) o clock pode subir para 2.8 GHz com 4 ou 3 núcleos ativos e para 3.2 GHz com 2 ou apenas 1 núcleo ativo.
No Core i7-860 (2.8 GHz) temos 2.93 GHz com 4 ou 3 núcleos, 3.33 GHz com 2 núcleos e 3.46 GHz com apenas um núcleo. No Core i7-870 a distribuição é similar, com 3.2 GHz (4 ou 3 núcleos), 3.46 GHz (2 núcleos) e 3.6 GHz (1 núcleo).
Veja que nos três casos a frequência pode subir em 133 MHz (266 MHz no caso do i7-870) mesmo com os 4 núcleos ativos, desde que o consumo atual e a temperatura não superem os limites estabelecidos. Como de praxe, você pode acompanhar a frequência atual do processador usando o CPUID ou outros softwares de diagnóstico, mas a maior parte dos chaveamentos ocorre muito rápido, com o processador aumentando a frequência para cobrir um rápido pico de consumo e em seguida voltando à frequência normal.
Além de jogos e aplicativos single-thread em geral (onde o processador pode manter apenas um ou dois núcleos ativos), aplicativos que utilizam predominantemente alguns componentes do processador (como os aplicativos de renderização e conversão de vÃdeo, que usam predominantemente as unidades SSE) também se beneficiam consideravelmente do Turbo Boost, já que o PCU pode desligar outros componentes do processador (reduzindo o consumo) e aumentar a frequência das unidades ativas nos 133 ou 266 MHz permitidos, mesmo sem desativar nenhum dos cores.
O lado ruim é que o uso do Turbo Boost introduz um grande fator de incerteza no desempenho do processador, pois as frequências são definidas não apenas pelo tipo de tarefas que estão sendo executadas (e consequentemente o número de núcleos em uso) mas também pela temperatura atual do processador, que é por sua vez determinada pela temperatura ambiente (que flutua ao longo do dia e de acordo com as estações do ano) e pelo cooler usado. Basicamente, o processador passa a tentar apresentar o melhor desempenho possÃvel dentro do TDP e da temperatura estabelecida, em vez de oferecer um desempenho constante, como nas gerações anteriores.
Isso abre margem para muitos casos estranhos, de PCs com configurações idênticas apresentando desempenhos bem diferentes devido à diferenças na temperatura ambiente, na ventilação do gabinete ou aos aplicativos ativos. Prepare-se para ouvir histórias de coolers milagrosos, que aumentaram o desempenho do PC em 10% mesmo sem fazer overclock e PCs que ficam lentos durante o verão...
Do outro lado da moeda, temos a possibilidade de desativar o turbo mode e simplesmente fazer overclock. Nesse caso as coisas se tornam muito mais previsÃveis e o processador volta a exibir um desempenho constante independentemente da temperatura e do consumo: 
A desvantagem nesse caso é que o consumo elétrico passa a ser muito mais alto, complicando a escolha. O grande mérito do turbo boost é justamente o fato de oferecer um pouco mais de desempenho, sem aumentar muito o consumo ou comprometer o gerenciamento de energia do processador.
Controlador PCI Express integrado
Outra mudança importante é a inclusão de 16 linhas PCI Express 2.0 dentro do próprio processador, o que faz com que o Lynnfield execute todas as funções que na plataforma i7 são executadas pelo chipset X58. Embora não traga mudanças com relação ao desempenho, essa mudança permitiu que a Intel simplificasse a plataforma, eliminando a necessidade de utilizar o barramento QPI (que no i7 liga o processador ao X58). Outra vantagem da integração é a redução no consumo elétrico total, já que ao serem movidos para dentro do processador, os transÃstores do controlador PCI Express passaram a ser fabricados usando a mesma técnica de 45 nanômetros que ele.
Estas mudanças alteraram bastante o layout do processador, com o controlador PCIe ocupando um grande espaço do lado direito. Mesmo com a redução no controlador de memória e a remoção do QPI, a contagem de transÃstores sumiu para 774 milhões (43 milhões a mais que no Bloomfield): 
Você poderia se perguntar por que a Intel esperou para incorporar as linhas PCI Express no Lynnfield, em vez de simplesmente incorporá-las já no Bloomfield, para que elas equipassem as versões iniciais do i7. A resposta é um detalhe simples: o Lynnfield possui apenas 16 linhas PCI Express, enquanto o Bloomfield e o X58 oferecem 36 linhas no total. Caso incorporasse as 36 linhas diretamente no processador, o Bloomfield teria um volume de transÃstores muito maior e a Intel teria dificuldades em manter o TDP de 130 watts para o processador, daà o uso do X58 no Core i7.
O chipset P55
Com as mudanças, o chipset perdeu muito de sua importância, assumindo um posto secundário. O primeiro chipset para a plataforma LGA1156 é o P55, que é basicamente uma versão atualizada do antigo chip ICH10 que era usado como ponte sul nos chipsets anteriores. Ele é um chip relativamente simples, que concentra as portas USB, SATA, 8 linhas PCI Express adicionais e o chipset de rede, que é conectado ao processador através de um link DMI de 2 GB/s. Seguindo a mudança, o chip passou a ser chamado de Platform Controller Hub (PCH), indicando a redistribuição das funções.

O P55 serve basicamente como um "hub" para as trilhas que vão para os slots e portas da placa-mãe. Temos então algumas poucas trilhas (correspondentes ao barramento DMI) entre o processador e o P55 que se ramificam em todas as demais. Este é um dos principais motivos de a Intel não ter dado o passo final e integrado todos os componentes diretamente ao processador, já que removendo o chipset, todas essas trilhas precisariam ir diretamente para o soquete do processador, o que aumentaria muito o número de contatos no soquete e complicaria o layout das placas.
Outro motivo, talvez mais importante que a questão técnica, é que a Intel ganha muito dinheiro vendendo chipsets, uma renda que seria perdida caso eles fossem eliminados completamente. Embora o P55 seja brutalmente mais simples que os chipsets anteriores, a Intel o vende para os fabricantes por aproximadamente o mesmo preço (cerca de 45 dólares), o que resulta em uma margem de lucro fabulosa.
Isso explica por que as placas destinadas ao i5 não são mais baratas que as placas LGA775, muito embora tenham menos componentes. Como a Intel continua cobrando o mesmo valor pelo chipset, o custo total de produção é basicamente o mesmo que era na época do Core 2 Duo, ou até mais. Se ainda tivéssemos a VIA e a ATI produzindo chipsets para processadores Intel, esse vácuo no mercado seria logo preenchido por outros chipsets de baixo custo, mas com um virtual monopólio para seus processadores, a Intel tem poucos motivos para reduzir os preços.
Continuando, as placas baseadas no P55 são bem mais simples e possuem um layout mais limpo que as placas de plataformas anteriores, com a posição central onde ficaria a ponte norte do chipset dando lugar a um espaço quase vazio com apenas alguns chaveadores ou reguladores de tensão.
Um bom exemplo é a MSI P55-GD65, onde os dois grandes dissipadores com o heat-pipe são destinados aos reguladores de tensão, e o P55 propriamente dito (posicionado entre os dois slots PCIe) recebe apenas um dissipador simples:
Assim como todas as placas baseadas no P55 que utilizam dois slots PCIe, ela utiliza uma configuração compartilhada, onde cada slot recebe 8 linhas. A divisão é feita por um quarteto de switchs PCIe instalados na placa:
A ideia de dividir as linhas PCIe entre dois slots nunca soa muito bem, mas como o P55 utiliza o PCIe 2.0, a perda acaba não sendo muito grande, já que com o dobro da banda por linha, um slot PCIe 2.0 x8 oferece a mesma taxa de transferência que um slot PCIe x16 antigo. Algumas placas implementam um terceiro slot usando 4 das linhas PCI Express disponÃveis no P55, mas nesse caso o desempenho do terceiro slot fica longe do ideal.
É importante enfatizar também que o fato de usar dois slots não torna a placa automaticamente compatÃvel com o SLI, já que é necessário que o fabricante submeta a placa ao processo de certificação e pague os royalties à nVidia. Sem isso, uma flag no BIOS bloqueia a ativação do SLI por parte dos drivers, muito embora você ainda possa usar a segunda placa para o processamento dos efeitos de fÃsica (Physics). O processo de suporte ao CrossFire X por outro lado é bem mais simples, o que faz com que quase todas as placas dual-slot ofereçam suporte a ele.
Uma tecnologia que ainda não está disponÃvel no P55, mas que mas que será lançada em breve, é o Braidwood, uma espécie de versão turbinada do ReadyBoost, que a Intel tentou popularizar sem muito sucesso em 2007. Ele estará disponÃvel a partir do chipset P57, que representa a segunda geração da plataforma.
O Braidwood consiste no uso de um módulo memória NVRAM, destinado a funcionar como um cache adicional para operações de acesso a disco, servindo como uma alternativa para melhorar o desempenho de acesso a disco, sem precisar migrar para um SSD:

As principais diferenças entre o Braidwood e o antigo Readyboost, são o uso de módulos com uma capacidade muito maior (8 ou 16GB) e o uso de um algoritmo de cache mais eficiente, duas melhorias que devem trazer ganhos mais tangÃveis. Entretanto, o futuro do Braidwood é ainda incerto, já que os módulos não serão baratos.
Outros membros da famÃlia
Como comentei no inÃcio, o Nehalem é o primeiro de uma nova série de processadores baseados na nova arquitetura, uma famÃlia que inclui diversos outros modelos, que serão lançados ao longo dos próximos meses:
Nehalem-EX: Esta é a versão destinada a servidores. Ele será um processador 8-core nativo, com 24 MB de cache L3, que suportará o uso de 2 ou 4 processadores (ou seja, até 32 núcleos por placa), tirando proveito do uso do QPI. Devido ao aumento no número de trilhas necessárias para realizar a comunicação entre os processadores, ele utilizará mais um novo soquete, o LGA1567.
Clarkdale: Esta será uma versão dual-core do Nehalem produzida usando uma técnica de 32 nanômetros e com um chipset de vÃdeo integrado (mais uma função movida do chipset para o processador), servindo como um substituto direto para o Pentium E e os Core 2 Duo.
Graças à técnica de produção de 32 nanômetros, tanto o custo de produção quanto o consumo elétrico serão bem mais baixos que o dos processadores atuais, o que deve levar a Inter a fazer a mudança rapidamente. A expectativa é que a Intel anuncie os primeiros processadores baseados na plataforma antes do final de 2009.
Duas observações com relação ao chipset de vÃdeo é que ele será um derivado do GMA X4500, usado nos chipsets atuais (e não um derivado do Lahhabee) e que ele será um chip separado incluÃdo dentro do encapsulamento do processador e não realmente um componente interno, incluÃdo na mesma pastilha de silÃcio.
Arrandale: Esta é uma versão mobile do Clarkdale, também dual-core, mas com um TDP mais baixo. Ele é destinado a substituir o Core 2 Duo nos notebooks, complementando o lançamento da nova geração do Atom (baseada no Pinetrail), que avançará sobre os netbooks.
Clarksfield: Esta é a versão quad-core destinada a notebooks, também produzida usando a técnica de 32 nanômetros. A principal diferença em relação aos processadores para desktop serão o TDP e as frequências de operação bem mais baixas.
Existe uma boa dose de polêmica em torno da utilidade de um processador quad-core em um notebook, já que eles são predominantemente usados para tarefas de produtividade e alguns jogos, tarefas onde os processadores dual-core são tradicionalmente a melhor opção. Apesar disso, a Intel parece determinada a popularizar os processadores quad-core em todas as frentes, incluindo aà os notebooks.
A boa notÃcia é que o uso do PCU e do Turbo Boost deve garantir que os chips mantenham um desempenho e um consumo elétrico equilibrado, mesmo em aplicativos que não se beneficiam dos 4 núcleos. Em outras palavras, os dois núcleos adicionais podem não ajudar muito, mas pelo menos também não vão atrapalhar.
Gulftown: Este é o codenome do sucessor do Bloomfield, produzido usando a técnica de 32 nanômetros, destinado a placas LGA1366. Ele manterá o uso de 4 núcleos, mas trará mais cache e possivelmente outras melhorias relacionadas ao desempenho.
A migração para a técnica de 32 nanômetros resultará em transÃstores com pouco mais de metade do tamanho dos produzidos usando a técnica de 45 nanômetros, o que oferecerá bastante espaço para a inclusão de novos componentes. É nesse ponto que a arquitetura modular do Nahalem começará a realmente pagar dividendos.
Inicialmente o Gulftown substituirá os modelos da série XE como processador de alto desempenho, eventualmente ganhando versões mais acessÃveis. Foi anunciada também uma versão com 6 cores, que deve ser lançada no inÃcio de 2010.
Estas versões de 32 nanômetros do Nehalem são coletivamente chamadas de Westmere, que é o nome código da nova plataforma, da mesma forma que o Bloomfield, Lynnfield & cia. são sub-versões dentro da famÃlia Nehalem. 
Para 2010 está prevista uma versão com GPU integrada, o Sandy Bridge. Diferente do Clarkdale, onde a GPU será apenas um segundo chip dentro do encapsulamento do processador, no Sandy Bridge a GPU será movida para dentro do núcleo, resultando em uma solução muito mais elegante.
Junto com o Sandy Bridge, teremos o lançamento dos primeiros produtos baseados no Larrabee, a nova arquitetura para o processamento paralelo que a Intel vem anunciando desde 2007.
A primeira amostra da arquitetura foi a demonstração de um chip com 80 núcleos, desenvolvido com o objetivo de oferecer 1 teraflop de poder de processamento. Cada um dos 80 núcleos é um chip relativamente simples, otimizado para processar instruções de ponto flutuante. Cada chip possui um "roteador" que o interliga aos vizinhos. Esta estrutura permite que as instruções sejam distribuÃdas entre os núcleos de forma bastante similar ao que acontece dentro de um cluster com várias máquinas. A principal diferença é que tudo é feito dentro de um único chip:
Com o tempo, foi revelado que este chip massivamente paralelo era uma versão prévia do Larrabee, com o qual a Intel pretende entrar no ramo de placas 3D de alto desempenho, concorrendo com a nVidia e a AMD/ATI.
Assim como no caso do Atom, a inspiração para a nova arquitetura veio do antigo Pentium. Cada um dos processadores do Larrabee é essencialmente um Pentium 1 modernizado, com duas unidades de execução e a capacidade de processar 4 threads (em vez de apenas dois, como no Nehalem) em cada uma. Elas são complementadas por uma unidade de processamento de vetores, composta por 16 unidades distintas, capazes de processar instruções de ponto flutuante de 32 bits e 256 KB de cache L2, que complementam os 64 KB de cache L1. Diferente dos processadores tradicionais, que são otimizados para o processamento de instruções seqüenciais, ele é especializado em processamento paralelo, assim como os chipsets 3D.
Desenvolver uma CPU otimizada para o processamento de gráficos pode parecer estranho, mas essa é basicamente a mesma coisa que a ATI e nVidia vêm fazendo desde a introdução dos shaders programáveis, duas gerações atrás.
Ao olhar o diagrama de blocos de um G80 (usado nas GeForce 8xxx), você notará que ele é composto por 8 clusters de unidades de processamento de vetores, que são a base do chipset. Cada uma possui seu próprio cache e a comunicação entre elas é feita de uma maneira não muito diferente da que a Intel desenvolveu para o Larrabee:
Uma única unidade não ofereceria um desempenho digo de nota, mas ao combinar algumas dúzias delas (foram anunciados planos de usar de 16 a 32 unidades na geração inicial de produtos) a Intel terá em mãos um chipset de vÃdeo bastante poderoso.
As primeiras versões nada mais serão do que placas 3D PCI-Express regulares, que concorrerão com os lançamentos da nVidia e da ATI, mas os aceleradores devem logo substituir também os chipsets de vÃdeo integrado, resultando em processadores com aceleradores 3D relativamente poderosos incluÃdos diretamente no núcleo.
Texto Retirado do site Guia do Hardware escrito por: Carlos E. Morimoto
Veja a parte 1 desta matéria.
Â
Última atualização (Sáb, 10 de Outubro de 2009 12:53)
Os Melhores Links


