Головна » Статті » Інформатика [ Додати статтю ]

Розвиток супер-ЕОМ - тенденції і перспективи розвитку супер-ЕОМ
Розвиток супер-ЕОМ - тенденції і перспективи розвитку супер-ЕОМ
На сьогоднішній день вельми актуальна тема переходу до нових поколінь обчислювальних засобів, що пов'язане з потребами вирішення складних завдань великих размерностей. В той же час не коштує на місці процес розробки нового вигляду озброєнь, і це теж вимагає створення нових, вдосконалених, обчислювальних машин для підтримки їх ефективного функціонування. У наш час однопроцесорні обчислювальні системи вже не вже не в змозі вирішити більшість військово-прикладних завдань, так рівень вимог до продуктивності і надійності обчислювальних засобів, особливо в області вирішення вирішення військово-прикладних завдань постійно росте і тепер як засіб підвищення продуктивності обчислювальних систем військового призначення найчастіше використовуються багатопроцесорні обчислювальні системи (МВС).
Як основні вимоги, що пред'являються до таких систем, можна виділити наступні:
•    необхідність високої продуктивності для будь-якого алгоритму;
•    узгодження продуктивності пам'яті з продуктивністю обчислювальної частки;
•    здатність мікропроцесорів погоджено працювати при непередбачуваних затримках даних від будь-якого джерела;
•    машинно-незалежне програмування.
Одним з чинників, що впливають на архітектуру високопродуктивних обчислювальних систем, є взаємозалежність архітектури і алгоритмів завдань. Найчастіше наявність цього чинника веде до створення проблемно-орієнтованих систем. При цьому може бути досягнутий найвищий рівень продуктивності для даного класу завдань. Така взаємозалежність також виступає стимулом для пошуку алгоритмів, щонайкраще відповідних можливим формам паралелізму на рівні апаратури, а, як відомо, збільшення ступеня паралелізму веде до збільшення числа логічних схем, що супроводиться збільшенням фізичних розмірів, внаслідок чого зростають затримки сигналів на межсоєдіненіях. А оскільки для написання програм використовуються мови високого рівня, необхідні певні засоби автоматизації процесів розпаралелювання і оптимізації програм. Кінець кінцем, цей чинник приводить до одного з двох результатів:
•    до зниження тактової частоти
•    до створення додаткових логічних ступенів і, як наслідок, до втрати продуктивності;
Варто також відзначити, що зростання числа логічних схем також приводить до зростання споживаної енергії і тепла, що відводиться.
До того ж більш високочастотні логічні схеми за інших рівних умов споживають велику потужність на один вентиль. Результатом є виникнення теплофізичного бар'єру, що обумовлене двома чинниками:
•    високою питомою щільністю теплового потоку, що вимагає застосування складних засобів відведення тепла;
•    високою загальною потужністю системи, що викликає необхідність використання складної системи енергозабезпечення і спеціальних приміщень.
Разом з тим, мають місце підходи, зв'язані із застосуванням спеціалізованих мікропроцесорів, які орієнтовані саме на використання в паралельних системах. Як приклад можна привести серію трансп'ютерів фірми Inmos. Але із-за обмеженого ринку ця серія по продуктивності різко відстала від універсальних мікропроцесорів, таких, як Alpha, Power РС, Pentium.
Спеціалізовані мікропроцесори матимуть повноцінну конкурентоспроможність тільки за умови скорочення витрат на проектування і освоєння у виробництві. А це, у свою чергу, багато в чому залежить від продуктивності інструментальних обчислювальних засобів, використовуваних в системах автоматизованого проектування.
Відмітимо, що апаратна реалізація паралельних підсистем повністю залежить від вибраних мікропроцесорів, БІС пам'яті і інших компонентів. На сьогоднішній день по економічних міркуваннях доцільно використовувати найбільш високопродуктивні мікропроцесори, розроблені для уніпроцессорних машин.
Різні обчислювальні машини використовують різні підходи, направлені на досягнення наступних цілей:
•    максимальна арифметична продуктивність процесора;
•    ефективність роботи операційної системи і зручність спілкування з нею для програміста;
•    ефективність трансляції з мов високого рівня і виключення написання програм на автокоді;
•    ефективність розпаралелювання алгоритмів для паралельної архітектури.
Проте в будь-якій машині необхідно в тій або іншій формі вирішувати всі вказані завдання. Відзначимо, що спочатку цього намагалися досягти за допомогою одного або декількох однакових процесорів.
У розвиток обчислювальних засобів завжди вносили найбільший внесок технологічні рішення. Причому основоположною характеристикою покоління обчислювальних систем була елементна база, оскільки перехід на нову елементну базу добре корреліруєтся з новим рівнем показників продуктивності і надійності обчислювальних систем.
Дещо припинив пошуки принципово нових архітектурних рішень бурхливий розвиток технології СБІС і розробка останніх поколінь мікропроцесорів, проте, стає очевидною, що чисто технологічні рішення втратили своє монопольне положення.
Так, наприклад, в найближчому майбутньому помітно зростає значення проблеми подолання розриву між апаратними засобами і методами програмування. Ця проблема вирішується чисто архітектурними засобами, при цьому роль технології є непрямою: високий ступінь інтеграції створює умови для реалізації нових архітектурних рішень. Також не викликає подиви і той факт, що без кардинальної перебудови архітектурних принципів підтримувати інтенсивні темпи розвитку засобів обчислювальної техніки вже неможливо. Найоптимістичніші прогнози свідчать: тактові частоти сучасних і перспективних СБІС можуть бути збільшені в осяжному майбутньому до 5 Ггц.
Досягнутий ступінь інтеграції, у свою чергу, дозволяє будувати паралельні системи, в яких число процесорів може досягати десятків тисяч. В області підвищення продуктивності обчислювальних систем резерв технологічних рішень обмежується одним порядком. Освоєння ж масового паралелізму і нових архітектурних рішень містить резерв підвищення продуктивності на декілька порядків.
Взагалі, в розвитку обчислювальних засобів виділяють три основні проблеми:
•    підвищення продуктивності;
•    підвищення надійності;
•    покриття семантичного розриву.
Етапи розвитку обчислювальних засобів прийнято розрізняти по поколіннях машин. Характеристика покоління визначається конкретними показниками, що відображають досягнутий рівень у вирішенні трьох перерахованих проблем. Оскільки величезний внесок в розвиток обчислювальних засобів завжди належав технологічним рішенням, за основоположну характеристику покоління машин вважалася елементна база. І дійсно, перехід на нову елементну базу добре корреліруєтся з новим рівнем показників продуктивності, надійності і скорочення семантичного розриву.
В даний час актуальним є перехід до нових поколінь обчислювальних засобів: одним з домініруюших напрямів розвитку СУПЕРЕОМ можна назвати обчислювальні системи з MIMD-параллелизмом на основі матриці мікропроцесорів. Для створення подібних обчислювальних систем, що складаються з сотень і тисяч зв'язаних процесорів, потрібно було подолати ряд складних проблем як в програмному забезпеченні (мови Parallel Pascal, Modula-2, Ada), так і в апаратних засобах (ефективна комутаційна середа, високошвидкісні засоби обміну, потужні мікропроцесори). Елементна база сучасних високопродуктивних систем характеризується високим ступенем інтеграції (до 3,5 млн. транзисторів на кристалі) і високими тактовими частотами (до 600 Мгц).
За традицією, що склалася, вирішальна роль відводиться технології виробництва елементної бази. В той же час стає очевидним, що технологічні рішення втратили монопольне положення. Так, наприклад, в найближчій перспективі помітно зростає значення проблеми покриття семантичного розриву, що відбивається в необхідності створення високоскладних програмних продуктів і вимагає кардинального зниження трудоємкотси програмування. Ця проблема вирішується переважно архітектурними засобами. Роль технології тут може бути тільки непрямою: високий ступінь інтеграції створює умови для реалізації архітектурних рішень.
В даний час всі фірми і всі університети США, Західної Європи і Японії, розробляючі СУПЕРЕОМ, ведуть інтенсивні дослідження в області багатопроцесорних СУПЕРЕОМ з масовим паралелізмом, створюють безліч їх типів, організовують їх виробництво і прискореними темпами освоюють світовий ринок в цій області. Багатопроцесорні ЕОМ з масовим паралелізмом вже зараз істотно випереджають по продуктивності традиційні СУПЕРЕОМ з векторно-конвеєрною архітектурою. Системи з масовим паралелізмом пред'являють менші вимоги до мікропроцесорів і елементної бази і мають значно меншу вартість при будь-якому рівні продуктивності, чим векторно-конвеєрні СУПЕРЕОМ. Вже в поточному десятилітті продуктивність СУПЕРЕОМ з масовим паралелізмом досягне колосальної величини - десятків тисяч мільярдів операцій в секунду з плаваючою комою над 64-розрядними числами (десятків Тфлопс).
На щорічній конференції в Чепел-хилл (Сівши. Кароліна) представлений проект фірми IBM, метою якого є створення гіперкубічного паралельного процесора в одному корпусі. Конструкція, названа Execube, має 8 - 16-розрядних мікропроцесоров, вбудованих в кристал 4мбіт динамічного ЗУ(ДЗУ). При цьому ступінь інтеграци складає 5 млн. транзисторів. Мікросхема виготовлена по КМОП-технології з трьома рівнями металізації на заводі IBM Microelectronic (Ясу, Японія). Execube є спробою підвищення ступеня інтеграції процесора з пам'яттю шляхом ефективнішого доступу до інформації ДЗУ. По суті, пам'ять перетворюється на розширені регістри процесорів. Продуктивність мікросхеми складає 50 млн оп/с.
Фірма CRAY Research оголосила про початок випуску суперкопьютеров CRAY T3/e. Основна характеристика, на якій акцентували увагу розробники - масштабованість. Мінімальна конфігурація складає 8 мікропроцесорів, максимальна - 2048. В порівнянні з попередньою моделлю T3/d співвідношення ціна/продуктивність понижена в 4 рази і складає 60 долл/мфлопс, чому сприяло застосування недорогих процесорів DEC Alpha EVC, виготовлених по КМОП-технології. Передбачувана вартість моделі Т3/е на основі 16 процесорів з 1-гбайт ЗУ складе 900 тис. доларів, а ціна найбільш потужної конфігурації (1024 процесори, ЗУ 64 Гбайт) - 39,7 млн. доларів при піковій продуктивності 600 Гфлопс.
Одним із способів подальшого підвищення продуктивності обчислювальної системи є об'єднання суперкомп'ютерів в кластери за допомогою оптоволоконних з'єднань. З цією метою комп'ютери CRAY T3/e забезпечені каналами введення/виводу з пропускною спроможністю 128 Гбайт/с. Потенційні замовники виявляють підвищену цікавість до нової розробки фірми. Бажання придбати комп'ютер виявили такі організації як Pittsburgh Supercomputer Center, Mobile Oil, Департамент по океанографії і атмосферним дослідженням США. При цьому підписано декілька контрактів на виготовлення декількох комп'ютерів 512-процесорної конфігурації.
Серед японських компаній слід виділити фірму Hitachi, яка випустила суперкомп'ютер Sr2201 з масовим паралелізмом, що містить до 2048 процесоров. У основі системи перероблена компанією процесорна архітектура RA-RISC від фірми Hewlett-paccard. Псевдовекторний процесор функціонує під управлінням ОС Hp-ux/mpp Mash 3.0. У комп'ютері, крім того, використана система підтримки паралельного режиму роботи Express, створена корпорацією Parasoft і що отримала назву Parallelware. Продуктивність нового комп'ютера складає 600 Гфлопс. До березня 1999 р. фірма планує продати 30 суперкомп'ютерів.
Одним з найбільш масштабних проектів в області створення обчислювальних засобів з масовим паралелізмом є проект фірми Intel по розробці самого швидкодіючого комп'ютера на основі мікропроцесорів шостого покоління P6. Нова система, яку планується встановити в Sandia National Laboratories складатиметься з 9000 процесорів Pentium P6 і матиме пікову продуктивність 1000 Гфлопс. Замовником системи є міністерство енергетики США. При цьому основною сферою застосування буде моделювання підземних ядерних вибухів, що дозволить витрачати 25 млн. доларів в рік замість 300 млн.
За останнє десятиліття має місце наступна динаміка зростання продуктивності паралельних обчислювальних систем в США: 1987 р. - 50 Мфлопс.
1989 р. - 1 Гфлопс(суперкомп'ютери СМ).
1991 р. - 10 Гфлопс(векторні процесори і процесори серії 528).
1994 р. - 100 Гфлопс (CRAY, Paragon0).
1996 - 1997 рр. - 200 - 500 Гфлопс (комбінація векторного процесора і куба потокової обробки).
1998 - 1999 рр. - 1000 - 3000 Гфлопс (ASCI, T3e).
Особливо видатними характеристиками відрізняються суперкомп'ютери в середині 90-х років:
1.    Фірма IBM ALPS (1024 процесори Rs6000, продуктивність 50 Гфлопс);
2.    Intel Paragon XPS (1872 процесори, продуктивність 72,9 Гфлопс);
3.    Thinking Mashines Cm5 (512 процесорів Super Spark, продуктивність 83 Гфлопс);
4.    Ncube 2SM80 (8192 процесори, продуктивність 84гфлопс);
5.    Numerical Wind Tunnel (140 процесорів, продуктивність 124 Гфлопс на тестах LINPACK);
6.    Intel Paragon XPS Supercomputer (4000 процесорів 1860xp, продуктивність 300 Гфлопс);
7.    Сray Research MPP System (2048 процесорів Alpha, продуктивність - 300 Гфлопс);
8.    Thinking Mashines Cm5 (16384 процесори Super Spark, продуктивність 1000 Гфлопс).
Короткі характеристики найбільш поширених сучасних суперкомп'ютерів приведені нижче IBM Rs/6000 Sp2.
Виробник - International Business Machines (IBM), відділення Rs/6000.
Клас архітектури: Масштабована масивно-паралельна обчислювальна система (MPP).
Вузли мають архітектуру робочих станцій Rs/6000. Існують декілька типів "SP-узлов", які комплектуються різними процесорами: POWERPC 604e/332mhz, P2sc/160mhz, Power3/mhz (раніші системи комплектувалися процесорами Power2/66 і 77mhz). Можлива установка вузлів з SMP-архитектурой - до 4 процесорів POWERPC. Об'єм пам'яті для Power3-узлов - до 4gb, для PowerPC-узлов - до 3gb.
Доступні конфігурації SP від 2 до 128 вузлів (і до 512 по спеціальному замовленню). Вузли встановлюються в "стійки" (до 16 вузлів в кожній). Одна SP-система може містити вузли різних типів.
Вузли зв'язані між собою високопродуктивних комутатором (IBM high-performance switch), який має багатостадійну структуру і працює з комутацією пакетів.
Системне ПО: OC AIX (встановлюється на кожному вузлі). Loadleveler -  система підтримки пакетної обробки. Паралельні застосування виконуються під управлінням Parallel Operating Environment (POE).
Засоби програмування: поставляється оптимізована реалізація інтерфейсу MPI (раніше - MPL): HP 9000 (Exemplar).
Виробник: Hewlett-packard, High-performance systems division.
Клас: багатопроцесорні сервера із загальною пам'яттю (SMP).
В даний час доступні декілька "класів" систем сімейства HP 9000: сервера початкового рівня (D, K-class), середнього рівня (N-class) і найбільш потужні системи (V-class).
Процесори: 64-бітові процесори з архітектурою PA-RISC 2.0 (Pa-8200, Pa-8500).
Число процесорів: N-class - до 8 процесорів. V-class - до 32 процесорів. Надалі очікується збільшення числа процесорів до 64, а потім до 128.
Можливе об'єднання до 16 Smp-гиперузлов V-class або K-class в кластер "HP Enterprise Parallel Server". Для зв'язку вузлів використовується комутатор HP Hyperfabric.
Системне ПО: встановлюється операційна система HP-UX (сумісна на рівні двійкової коди з ОС SPP-UX комп'ютерів Convex SPP).
Засоби програмування: HP MPI - реалізація MPI 1.2, оптимізована до архітектури Exemplar. Розпаралелюючі компілятори Fortran/c, математична бібліотека HP MLIB. Cxperf - засіб аналізу продуктивності програм. Cray T3e. Виробник: Silicon Graphics.
Клас архітектури: масштабована масивно-паралельна система, складається з процесорних елементів (PE).
В даний час існують дві модифікації: T3e-900 і T3e-1200.
Процесорний елемент PE складається з процесора, блоку пам'яті і пристрою сполучення з мережею. Використовуються процесори Alpha 21164 (Ev5) з тактовою частотою 450 Mhz (T3e-900) і 600 Mhz (T3e-1000), пікова продуктивність яких складає 900 і 1200 Mflop/sec відповідно. Процесорний елемент має в своєму розпорядженні свою локальну пам'ять (DRAM) об'ємом від 256mb до 2gb.
Системи T3e масштабуються до 2048 PE.
Процесорні елементи зв'язані високопродуктивною мережею з топологією тривимірного тора і двонаправленими каналами. Швидкість обмінів по мережі досягає 480mb/sec в кожному напрямі.
Використовується операційна система Unicos/mk.
Підтримується явне паралельне програмування за допомогою пакету Message Passing Toolkit (MPT) - реалізації інтерфейсів передачі повідомлень MPI, Mpi-2 і PVM, бібліотека Shmem. Для Фортран-программ можливо також неявне розпаралелювання в моделях CRAFT і HPF. Середа розробки включає також набір візуальних засобів для аналізу і відладки паралельних програм Cray T90.
Виробники: Silicon Graphics, Cray Research.
Клас архітектури: багатопроцесорна векторна система (декілька векторних процесорів працюють на загальній пам'яті).
Моделі Серія T90 включає моделі T94, T916 і T932.
Процесор Системи серії T90 базуються на векторно-конвеєрному процесорі Cray Research з піковою продуктивністю 2gflop/s.
Число процесорів Система T932 може включати до 32 векторних процесорів (до 4-х в моделі T94, до 16 моделі T916), забезпечуючи пікову продуктивність більш 60gflop/s.
Можливе об'єднання декілька T90 в MPP-системы.
Система T932 містить від 1gb до 8gb (до 1 GB в моделі T94 і до 4gb в моделі T916) оперативної пам'яті і забезпечує швидкість обмінів з пам'яттю до 800mb/sec.
Використовується операційна система UNICOS. Cray Sv1.
Виробник: Silicon Graphics
Клас архітектури: масштабований векторний суперкомп'ютер.
Використовуються 8-конвеєрні векторні процесори MSP (Multi-streaming Processor) з піковою продуктивністю 4.8 Gflop/sec; кожен MSP може бути підрозділений на 4 стандартних 2-конвеєрних процесора з піковою продуктивністю 1.2 Gflop/sec. Тактова частота процесорів - 250mhz.
Процесори об'єднуються в SMP-узлы, кожен з яких може містити 6 MSP і 8 стандартних процесорів. Система (кластер) може містити до 32 таких вузлів.
SMP-узел може містити від 2 до 16gb пам'яті. Система може містити до 1tв пам'яті. Вся пам'ять глобально адресуєма (архітектура DSM).
Використовується операційна система UNICOS.
Поставляється векторізующий і розпаралелюючий компілятор Cf90. Підтримується також явне паралельне програмування з використанням інтерфейсів MPI, OPENMP або Shmem.
Cray Origin2000. Виробник Silicon Graphics. Клас архітектури: модульна система із загальною пам'яттю (cc-numa).
Використані 64-розрядні RISC-процессоры MIPS R10000, R12000/300mhz.
Основний компонент системи - модуль Origin, що включає від 2 до 8 процесорів MIPS R10000 і до 16gb оперативної пам'яті. Поставляються системи Origin2000, що містять до 256 процесорів (тобто до 512 модулів). Вся пам'ять системи (до 256gb) глобально адресуєма, апаратний підтримується когерентність кешів. Модулі системи сполучені за допомогою мережі Craylink, побудованої на маршрутизаторах Metarouter.
Використовується операційна система SGI IRIX. Поставляється розпаралелюючий компілятор Cray Fortran 90. Підтримується стандарт OPENMP.
Onyx2 Infinitereality2. Виробник Silicon Graphics. Клас архітектури: багатопроцесорна система візуалізації; по апаратній архітектурі дуже схожа на Origin2000.
Система може включати до 128 процесорів MIPS R10000.
Графічні можливості системи забезпечують спеціальні пристрої трьох типів: геометричні (векторні) процесори, растрові процесори, генератори аналогових сигналів. Система може бути обладнана 16 незалежними каналами графічного виводу (visualization pipelines). На апаратному рівні підтримується графічний інтерфейс OPENGL.
Використовується операційна система SGI IRIX. Sun HPC 10000 (Starfire).
Виробник Sun Microsystems, серія Sun HPC.
Клас архітектури: багатопроцесорний SMP-сервер.
Процесор ULTRASPARC Ii/336mhz .
Система Starfire об'єднує від 16 до 64 процесорів.
Система включає від 2gb до 64gb пам'яті.
Системне ПО: ОС Solaris, ПО розподіли ресурсів Load Sharing Facility (LSF). Поставляється пакет підтримки паралельних додатків Sun HPC 2.0, що включає такі засоби як HPF, MPI, PVM, PFS (паралельна файлова система), Prism (візуальна середа розробки), S3l (бібліотека математичних підпрограм), і ін.
NEC Sx-5. Виробник NEC, серія SX.
Клас архітектури: паралельний векторний суперкомп'ютер (PVP).
Кожен вузол системи є векторно-конвеєрним SMP-суперкомпьютером, об'єднуючим до 16 індивідуальних векторних процесорів (кожен з піковою векторною продуктивністю 8 Gflop/s і скалярною продуктивністю 500 Mflop/s).
Об'єм пам'яті кожного вузла - до 128gb, продуктивність обмінів з пам'яттю досягає 1tb/sec. Система може включати до 32 вузлів, забезпечуючи сукупну пікову продуктивність до 4 Tflop/s.
Для зв'язку вузлів використовується високошвидкісний комутатор (IXS Internode Crossbar Switch).
Використовується операційна система SUPER-UX.
Поставляються компілятор мови HPF, реалізація інтерфейсу MPI, компілятори Fortran77/sx і Fortran90/sx з автоматичним розпаралелюванням і векторизацією, а також інтегрована середа розробки і оптимізації PSUITE.
Fujitsu VPP. Виробник Fujitsu.
Клас архітектури паралельний векторний суперкомп'ютер (PVP).
Модифікації Vpp300, Vpp700, Vpp5000.
Кожен процесорний елемент (PE) системи Vpp700e полягає скалярного пристрою (SU), векторного пристрою (VU), блоку пам'яті і пристрою сполучення. Для Vpp700: VU складається з 7 конвеєрів і забезпечує пікову продуктивність до 2.4 Gflop/sec. Об'єм пам'яті - до 2gb. Для Vpp5000: VU складається з 4 конвеєрів, пікова продуктивність - 9.6 Gflop/sec. Об'єм пам'яті - до 16gb.
Для Vpp700: система може включати від 8 до 256 PE, сумарна пікова продуктивність до 14.4 Gflop/sec Для Vpp5000: до 512 PE, сумарна пікова продуктивність до 4.9 Tflop/sec.
Процесорні елементи зв'язані комутатором (crossbar network), який проводити двосторонні обміни, не перериваючи обчислень. Пропускна спроможність каналів комутатора: для Vpp700 - 615mb/sec, для Vpp5000 -  1.6gb/sec. Використовується операційна система Uxp/v, заснована на UNIX System Vr4.
Серед засобів розробки поставляються: що розпаралелює і векторізующий компілятор Fortran90/vpp, оптимізована для VPP бібліотека математичних підпрограм Sslii/vpp, бібліотеки передачі сообшеній Mpi-2 і PVM 3.3.
Alphaserver. Виробник Compaq, Digital.
Високопродуктивний SMP-сервер, Alphaserver Array - кластерна система.
Процесори Gs140 і Gs60 - Alpha 21264, 8400 і 8200 - Alpha 21164.
Число процесорів Gs140 і 8400 - до 14, Gs60 і 8200 - до 6.
Об'єм пам'яті Gs140 - до 28gb.
Кластери Alphaserver Array можуть об'єднувати до 8 вузлів Alphaserver, тобто в цілому до 112 процесорів. Можуть комбінуватися вузли різних типів. Вузли зв'язуються між собою комутатором MEMORY CHANNEL, який забезпечує швидкість обмінів до 66mb/sec і латентності порядка 3 мкс.
На платформі Alphaserver підтримуються операційні системи Tru64 UNIX (це нове ім'я Digital UNIX), OPENVMS і Windows NT. Поставляється ПО кластеризації Trucluster Software.
Використовуються комунікаційні бібліотеки Trucluster MEMORY CHANNEL Software і MPI. Підтримується розпаралелювання в стандарті OPENMP.
Особливо видатними характеристиками відрізняються суперкомп'ютери в кінці 90-х років предстіавлени в таблиці.
Таблиця 3
Найбільш швидкодіючі суперкомп'ютери
№ВиготівникСупер- комп'ютерКраїнаРік створенняЧисло процес- соровПікова проїзводі-тельность, Гфлопс
1IntelASCI RedUSA199994723154
2SGIASCI Blue MountainUSA199861443072
3SGIT3e1200USA199810841300.8
4HitachiSr8000/128Japan19991281024
5SGIT3e900USA199713241191.6
6SGIOrigin2000USA199920481024
7SGIT3e900UK1997876788.4
8IBMSP SilverUSA199819521296
9SGIT3e900USA1999812730.8
10SGIT3e1200UK1998612734
11IBMASCI Blue Pacific CTR SP SilverUSA19981344892
12HitachiSr8000/64Japan199964512
   Класифікація паралельних обчислювальних систем, запропонована Т. Джоном, заснована на розділенні МВС по двох критеріях: способу побудови пам'яті (загальна або розподілена) і способу передачі інформації. Основні типи машин по класифікації Т. Джона представлені в таблиці 1. Тут прийняті наступні позначення: p-элементарный процесор, M - елемент пам'яті, K - комутатор, З - кеш-пам'ять.
Паралельна обчислювальна система із загальною пам'яттю і шинною організацією обміну (машина 1) дозволяє кожному процесору системи "бачити", як вирішується завдання в цілому, а не тільки ті частки, над якими він працює. Загальна шина, пов'язана з пам'яттю, викликає серйозні проблеми для забезпечення високої пропускної спроможності каналів обміну. Одним із способів обійти цю ситуацію є використання кеш-пам'яті (машина 2). В цьому випадку виникає проблема когерентності вмісту кеш-пам'яті і основний. Іншим способом підвищення продуктивності систем є відмова від центральної пам'яті (машина 3).    
Ідеальною машиною є обчислювальна система, у якої кожен процесор має прямі канали зв'язку з іншими процесорами, але в цьому випадку потрібний надзвичайно великий об'єм устаткування для організації міжпроцесорних обмінів. Певний компроміс представляє мережа з фіксованою топологією, в якій кожен процесор сполучений з деякою підмножиною процесорів системи. Якщо процесорам, що не мають безпосереднього каналу обміну, необхідно взаємодіяти, вони передають повідомлення через проміжні процесори. Одна з переваг такого підходу - не обмежується зростання числа процесорів в системі. Недолік - потрібна оптимізація прикладних програм, щоб забезпечити виконання паралельних процесів, для яких необхідна активна дія на сусідні процесори
Найцікавішим варіантом для перспективних паралельних обчислювальних комплексів є поєднання гідності архітектури з розподіленою пам'яттю і каналами міжпроцесорного обміну. Одін з можливих методів побудови такої комбінованої архітектури -  конфігурація з комутацією, коли процесор має локальну пам'ять, а з'єднуються процесори між собою за допомогою комутатора (машина 9). Комутатор може виявитися вельми корисним для групи процесорів з розподілюваною пам'яттю (машина 8). Дана конфігурація схожа на машину із загальною пам'яттю (машина 7), але тут виключені проблеми пропускної спроможності шини.
Основним недоліком класифікації Т. Джона є утаєння рівня паралелізму в системі, а, як вже було сказано вище, паралелізм будь-якого роду вимагає одночасної роботи, принаймні, двох пристроїв.
Такими пристроями можуть бути: арифметико-логічні пристрої (АЛУ) і пристрої управління (УУ).
У ЕОМ класичної архітектури УУ і АЛУ утворюють процесор. Збільшення числа процесорів або числа АЛУ в кожному з них приводить до відповідного зростання паралелізму. Наявність в ЕОМ декількох процесорів означає, що одночасно (паралельно) можуть виконуватися декілька програм або декілька фрагментів однієї програми. Робота декілька АЛУ під управлінням одного УУ означає, що безліч даних може оброблятися паралельно за однією програмою. Відповідно до цього опис структур паралельних систем можна представити у вигляді впорядкованої трійки:
•    <k,d,w>;
•    де до  - кількість пристроїв управління, тобто найбільша кількість незалежна і одночасно виконуваних програм в системі;
•    d - кількість АЛУ, що доводяться на один пристрій управління;
•    w - кількість розрядів, вміст яких обробляється одночасно (паралельно) одним арифметико-логічним пристроєм.
Інша форма розпаралелювання - конвеєризація, також вимагає наявність декілька ЦП або АЛУ. В той час, як безліч даних обробляється на одному пристрої, інша безліч даних може оброблятися на наступному пристрої і т. д., при цьому в процесі обробки виникає потік даних від одного пристрою (ЦП або АЛУ) до наступного. Протягом всього процесу над одним безліччю даних виконується одне за іншим n дій. Одночасно в конвеєрі на різних стадіях обробки можуть знаходитися від 1 до n даних.
Шість основних форм паралелізму, в широкому сенсі цього слова, дозволяють побудувати схему класифікації, в рамках якої можна описати різноманітність високопродуктивних обчислювальних систем і відобразити їх еволюцію.    
Все вищесказане свідчить про те, що замість спроб пристосувати всіх типів алгоритмів до однієї архітектури (що відбивається на конфігурації архітектури і супроводиться не завжди коректними порівняннями пікової продуктивності), продуктивнішим є взаємодоповнення архітектури в єдиній системі.
Одним з перших прикладів такої системи є об'єднання векторної системи Cray Y-XM з системою Cray T3d: це об'єднання за допомогою високошвидкісного каналу приводить до необхідності розбиття завдань на крупні блоки і до втрат часу і пам'яті на обмін інформацією. Таким чином, ситуація в даному випадку подібна до тієї, яка існувала до появи векторних машин, коли для вирішення завдань, що містять велике число операцій над векторами і матрицями, використовувалися так звані матричні процесори, наприклад, фірми FSP, які підключалися до універсальної машини за допомогою каналу введення/виводу. Інтеграція скалярної і векторної обробки в одному процесорі разом із забезпеченням високої швидкості роботи синхронного конвеєра забезпечила успіх векторних машин.
Наступний логічний крок - інтеграція скалярної, векторної і паралельної обробки. Це допоможе досягти високої реальної продуктивності за рахунок розподілу окремих часток програми по підсистемах з різною архітектурою. Очевидно, що це розподіл роботи має бути підтримане апаратно-програмними засобами автоматизації програмування.
Ці засоби повинні містити можливість інтерактивного втручання програміста на етапі аналізу завдання і можливість моделювання або пробного запуску програми з виміром параметрів ефективності. Слід підкреслити, що форми паралелізму в алгоритмах достатньо різноманітні, тому і їх апаратне віддзеркалення може бути різним. До найбільш простим можна віднести системи з одним потоком команд і множинними потоками даних, системи з множинними потоками команд і даних, системи систол. Також одним з багатообіцяючих підходів, що забезпечують автоматичне розпаралелювання, є принцип потоку даних, при якому послідовність або одночасність обчислень визначається не командами, а готовністю операндів і наявністю вільного функціонального арифметичного пристрою. Проте і в цьому випадку ступінь реального розпаралелювання залежить від внутрішнього паралелізму алгоритму і, очевидно, потрібні ефективні способи підготовки завдань. Крім того, для реалізації таких систем необхідне створення асоціативної пам'яті для пошуку готових до роботи пар операндів і систем розподілу обчислень по великому числу функціональних пристроїв.
Диференціація функцій і спеціалізація окремих підсистем почала розвиватися з появи окремих підсистем і процесорів для обслуговування введення/виводу, комунікаційних мереж, зовнішній пам'яті і тому подібне
У векторних СУПЕРЕОМ забезпечена гранична продуктивність для процесів скалярної і векторної обробки, яка присутня в більшості завдань. Завдання, що містять високий ступінь внутрішнього паралелізму, можуть бути добре адаптовані до систем масового паралелізму. Реальні завдання і, тим більше, пакети завдань містять цілий ряд алгоритмів, що мають різні рівні паралелізму. У СУПЕРЕОМ окрім основного процесора (машини) включалися зовнішні машини. У різних системах можна спостерігати елементи спеціалізації в напрямах автономного виконання функцій операційної системи, системи програмування і підготовки завдань. Зазвичай це виражається в наступній формі:
•    ці допоміжні функції можуть виконуватися паралельно з основними обчисленнями;
•    для реалізації не потрібний багато хто з тих засобів, які забезпечують високу продуктивність основного процесора, наприклад, можливість виконання операцій з плаваючої коми і векторних операцій.
Надалі, при інтеграції скалярної, векторної і паралельної обробки в рамках єдиної обчислювальної підсистеми склад цих допоміжних функцій має бути доповнений функціями аналізу програм з метою забезпечення необхідного рівня паралелізму і розподілу окремих часток програми по різних гілках обчислювальної підсистеми.
Поява СУПЕРЕОМ супроводилася підвищенням їх загальної потужності споживання (вище 100 кВт) і збільшенням щільності теплових потоків на різних рівнях конструкції. Їх створення не в останню чергу виявилося можливим, завдяки використанню ефективних рідинних і фреонових систем охолоджування. Чи є значна потужність істотною ознакою СУПЕРЕОМ? Відповідь на це питання залежить від того, що вкладається в поняття СУПЕРЕОМ.
Якщо вважати, що СУПЕРЕОМ або, точніше, суперсистема - це система з найвищою можливою продуктивністю, то енергетичний чинник залишається одним з тих, що визначають цю продуктивність. У міру розвитку технології потужність одного вентиля в мікропроцесорах зменшується, але при підвищенні продуктивності процесора за рахунок паралелізму загальна потужність у ряді випадків росте. При об'єднанні великого числа мікропроцесорів в системі з масовим паралелізмом інтегральна потужність і тепловиділення стають сумірними з аналогічними показниками для векторно-конвеєрних систем. Проте, інколи в рекламних цілях паралельні системи з невеликим числом процесорів порівнюються з суперкомп'ютерами попереднього або ранішого поколінь, щоб показати їх переваги в сенсі простоти і зручності експлуатації. Природно, з такого некоректного порівняння не можна зробити вивід про доцільність створення сучасних суперсистем.
Основним стимулом створення суперсистем є потреби вирішення великих завдань. У свою чергу, дослідження і розробки по суперсистемах стимулюють цілий комплекс фундаментальних і прикладних досліджень, результати яких використовуються надалі в інших областях. Перш за все, це стосується архітектури і схемотехніки обчислювальних машин, високочастотних інтегральних схем і засобів межсоєдіненій, ефективних систем відведення тепла. Не менш важливі результати по методах розпаралелювання при виконанні окремих операцій і ділянок програм на апаратному рівні, методам побудови паралельних алгоритмів, мов і програмних систем для ефективного вирішення великих завдань.

Категорія: Інформатика | Додав: KyZя (05.03.2012)
Переглядів: 1148 | Рейтинг: 0.0/0
Всього коментарів: 0
Додавати коментарі можуть лише зареєстровані користувачі.
[ Реєстрація | Вхід ]