Большая модель ии, похоже, застряла в кольцевой петле, несмотря на то, что исследования глубокого обучения, оптимизации данных и применения взрывных устройств так и не были прекращены, первое, что пришло в голову большинству людей — «у вас есть карта?» Судя по безудержному стремлению индустрии к GPU, шансы на продолжение расширения больших моделей в будущем, похоже, будут только в руках больших компаний. После того, как кхаи привлек дейла и ультра-подсчет, страна продолжала покупать и покупать его как стартап-компанию, которая была основана только в марте 2023 года, и была совершенно неясна в отношении инвестиций в создание вычислительной инфраструктуры, благодаря тому, что за этим стоит илонмаск, золото. На днях генеральный директор делл Майкл делл объявил, что они строят искусственный завод, управляемый nvidia GPU, который будет питать модель Grok для xAI. Однако маск сразу же заявил, что делл является поставщиком только половины серверов, а другая половина гипервычислительной системы построена на микроскопической основе. Основываясь на предположении, что эта фабрика должна быть той же группой 100 000 единиц подготовки к гидрохолоду H100, о которой говорил маск в начале месяца, спрос на GPU на рынке остается высоким, несмотря на то, что два поставщика одновременно работают над серверами для xAI, и потребуется несколько месяцев, прежде чем она будет официально запущена для следующего поколения крупных моделей модели Grok. GPU, выпущенная в 2023 году, является, по всей видимости, основной силой в настоящее время в поставках глобальных вычислительных мощностей, как OpenAI, так и xAI, и его последняя модель основана на итерации GPU. H100 совершил новый прорыв, как в емкость, так и в пропускной способности, так и в вычислительной мощности, и, возможно, даже в Том, что H100 способствовала развитию этого поколения моделей AI, однако после GTC, маск начал жаждать последней модели B200. Он считает, что учитывая текущую скорость технологического прогресса, это не стоит того, чтобы снабжать энергией 1GW H100. Для этого ксай также начал планирование системы следующего поколения, которая, согласно данным маска, будет состоять из 300 000 блоков B200 GPU, но время запуска должно подождать до следующего Лета. Скорость B200 в четыре раза превышает скорость H100, что делает его более чем в четыре раза легче с точки зрения вычислительной силы одномашинного отделения 1exaflop, а также более чем в 20 раз выше затрат на энергопотребление, и даже в больших размещении, не подверг бы производителей двойной опасности электроснабжения и углеродного следа. Несмотря на то, что цели перерасчета ии на ксаи ясны, технический курс компании под марском тесла остается неясным для другой компании под марском. Несмотря на то, что тесла также начал новый раунд закупки nvidia GPU, внутри нее также продолжался процесс самосовершенствования Dojo superscience. Только за последние годы информации о додзё стало все меньше и меньше, и даже сам маск включил его в «план видения». OpenAI и microsoft, которые, по мнению многих, уже на полной скорости засчитали Eagle, который был первым в списке TOP500 в ноябре прошлого года, третий по воздухоплаванию ии, с учётом силы 14400 nvidia H100 и 561plop /s, не только позволили системе Azure снова влезть в топ — 10, Он также занял верхнюю строчку в рейтинге сегодняшних облаков. Несмотря на то, что в последнем рейтинге Eagle остается на третьем месте, его ядро почти удвоилось. Ультра-расчетчица обеспечивает огромную поддержку тренировке и дедукции GPT-4 OpenAI, но это далеко не предел финансовой мощи microsoft. Уже в конце Марта стало известно, что microsoft и OpenAI разрабатывают супер-расчёты AI под кодовым названием «звездные врата», которые стоят до 100 миллиардов долларов. Microsoft CTO Kevin Scott назвал несколько спекуляций о своих сверхрасчетных планах просто смехотворными, но также отметил, что они действительно прилодят много усилий и будут стоить для этого. В Microsoft Build, прошедшей в прошлом месяце, кевин Скотт публично раскрыл свои будущие планы расширения сверх-расчетов. В 2020 году microsoft создала первый искусственный суперрасчет для OpenAI, благодаря которому была создана GPT-3. И следующая система, которую они построили, Eagle, была использована для обучения GPT-4. Кевин Скотт выбрал использование морских организмов для описания размера этих сверхчисел, таких как первые супервычисления, которые можно было бы описать акулами, игл был китами-косатами, в то время как их следующий сверхрасчет мог бы сравниться с синим китом. Кевин Скотт также подчеркнул, что с этого момента Eagle может занять третье место, и что начиная с этого момента microsoft будет развертывать пять гипервычислений одинакового размера каждый месяц, т.е. иметь по крайней мере 72000 H100 GPU в месяц или одну и ту же систему, которые будут вноситься в приложение, что будет способствовать увеличению вычислительной силы 2,8 эксафлоп в месяц. В то же время высокоскоростные и ниффибандские кабели, которые они используют, чтобы соединять GPU, могут облететь землю по крайней мере в течение пяти недель, что означает, что общая длина кабеля составляет более 200 000 км. Очевидно, что как microsoft, которая уже добилась успеха с OpenAI, следующая вещь, которую нужно выиграть, это битва за скалинг. Вместе с GPU Hypercomputer, в то время как многие из гигантов google размышляли о Том, как сократить расходы, связанные с приобретением большого количества GPU, удалось успешно использовать его в тренировках для больших моделей, которые были итерацией google TPU от 6 — го поколения, и как раз тогда, когда google решил эту проблему. TPU — продукт, разработанный компанией google и botton в течение нескольких поколений, важность которого приравнивается к GPU в различных новых моделях обучения и дедукции, представленных самим google. Сам google, как гигант, который культивировал много времени на алгоритмах ии и больших моделей, с самого начала знал, какие вычислительные ресурсы им нужны для разработки чипов, и поэтому TPU разделил почти всю площадь на малоточные единицы теневой вычислительной единицы. Эта программа ASIC также значительно снизила стоимость создания Ай Hypercomputer. Однако google, как производитель облачных серверов, все еще не может избежать проблем доступности, и TPU более оптимизирована для модели Gemini, которая, несмотря на то, что TPU поддерживает обычные модели ии, такие как PyTorch, tenсорflow, трудно конкурировать с GPU в погоне за экстремальными производителями. В связи с этим, в глазах google и других крупных разработчиков моделей, TPU, конечно, не является слабым производителем, но скорее является чем-то вроде цены, чем выбор. Сокращение затрат на успешно реализованные модели коммерциализации является хорошим выбором, но только google может использовать TPU в полной мере, если он хочет быть в центре этого конкурентного рынка больших моделей. В пропаганде многих производителей Ай-чипов, чтобы повысить свое собственное местоположение специализированной продукции, nvidia GPU или определяет как устройство обработки графики. На GPU такого размера, как H100, независимо от производительности и энергетических эффектов, ASIC в определенных специализированных условиях разработки и что касается более сложной графической обработки в будущем, nvidia также представила соответствующие программы, такие как L4 GPU. В этом году на GTC облачный сектор google также объявил о глубоком сотрудничестве с nvidia, поддерживая разработчиков AI, которые используют свои облачные сервисы через H100 nvidia и L4 GPU. В то же время google приобрела бы систему GB200 NVL72, которая, опираясь на экземпляр google облаков A3, предоставляет разработчикам программу «облачный LLM» для DGX Cloud, что также является обновлением существующих H100 машин. Кроме того, даже сама google джекс фреймвокс получила поддержку на GPU nvidia в сотрудничестве с обеими сторонами. Можно заметить, что google по-прежнему имеет важное значение при использовании стратегии захвата обеими руками: TPU и GPU. Крупные предприятия, которые в полной мере гонялись за Scaling Laws, представляли собой не только три взаимосвязи между размером модели, размером набора данных и стоимостью вычислений, но и между объемом производства модели. В то время как закон расширения Scaling Laws определяет, что должно существовать какое-то пропорциональное расширение между тремя людьми, за исключением того, что сегодня кажется, что его маргинальный эффект усилился. Возьмем GPT, если GPT-6 продолжит расширяться в таком соотношении, не говоря уже о ограниченном увеличении производительности, даже корпоративным гигантам, таким как microsoft, будет трудно выдержать резкое увеличение стоимости. В этом и заключается этот микронеразличимый разрыв, даже для обычных прикладных роботов чата в больших моделях ии, который представляет собой лишь несколько пробелов в скорости и точности, определяющих, смогут ли они продолжать свое господство в течение следующих десяти лет. Как производитель, который уже достиг гегемонии в операционной системе, microsoft также понимает важность предрассудков. Под влиянием маргинального эффекта, даже у магнатов, входящих в игру после иннинга, есть много возможностей наверстать упущенное, например, недавно стало известно, что они тайно разрабатывают чат-чат-роботов в амазоне. Amazon также обладает технологическим накоплением чипов для собственных исследовательских серверов, но главным преимуществом остается процессор, в котором по-прежнему существуют сравнительно большие возможности для усовершенствований продуктов, связанных с ускорителем AI (Inferentia и Trainium), и которые еще не были тесно связаны с собственным предприятием amazon. Если amazon захочет создать такое приложение для общения с роботами, то есть большая вероятность того, что впоследствии он также усилит свои инвестиции в GPU вместо того, чтобы действовать в качестве программы облачного управления.

SNAT7640 3BSE003195R

SNAT7640 3BSE003195R