2026-04-26

مهندسیِ بی‌نهایت: کالبدشکافی جنگِ زیرساختی گوگل و انویدیا برای شکستن هزینه‌های هوش مصنوعی

بررسی تخصصی معماری‌های نسل جدید TPU و GPU؛ چگونه نبرد برای کاهش هزینه‌های استنتاج، آینده‌ی هوش مصنوعی را به دسترسی عمومی نزدیک می‌کند.

در دنیای هوش مصنوعی، یک قانون نانوشته وجود دارد: «هرچه مدل هوشمندتر شود، هزینه اجرای آن برای کاربران نیز باید کاهش یابد.» اما در عمل، این یک تضاد بزرگ است. آموزش مدل‌های غول‌آسا (Frontier Models) میلیاردها دلار هزینه دارد، اما هزینه‌ی واقعی که استارتاپ‌ها و شرکت‌ها را به ورشکستگی یا سودآوری می‌رساند، در مرحله استنتاج (Inference) نهفته است.

در سال ۲۰۲۶، شاهد تغییر پارادایمی هستیم که در آن گوگل و انویدیا، نه فقط با تراشه‌های سریع‌تر، بلکه با بازطراحی کل «معماری دیتاسنتر»، در حال شکستن هزینه‌های عملیاتی هستند.

۱. بحرانِ حافظه و گلوگاهِ "دیوارِ حافظه"

برای درک کاری که گوگل و انویدیا انجام می‌دهند، ابتدا باید مشکل اصلی را بفهمیم: دیوار حافظه (Memory Wall). هوش مصنوعی امروزی به سرعتِ محاسباتی نیاز ندارد، بلکه به «سرعت انتقال داده» نیاز دارد. وقتی یک مدل (مثل GPT-5 یا Gemini 3) می‌خواهد یک کلمه تولید کند، باید میلیاردها پارامتر را از حافظه (VRAM) به هسته‌های پردازشی (Compute) منتقل کند. این جابجایی، برق زیادی مصرف می‌کند و باعث تأخیر (Latency) می‌شود.

گوگل و پاسخ هوشمندانه: TPU 8i و معماری Hypercomputer

گوگل در نسل هشتم TPUها، استراتژی «تمرکز بر حافظه» را پیش گرفته است:

  • حافظه SRAM روی تراشه: گوگل در TPU 8i مقدار حافظه فوق‌سریع روی خودِ تراشه را ۳ برابر کرده است. این یعنی بخش بزرگی از «حافظه کوتاه‌مدت» مدل، در نزدیکی هسته‌ها باقی می‌ماند و نیاز به مراجعه به حافظه‌های خارجی (HBM) کاهش می‌یابد.
  • موتور شتاب‌دهنده جمعی (CAE): در مدل‌های استدلالی (Reasoning) که نیاز به هماهنگی بین هزاران تراشه دارند، گوگل یک واحد سخت‌افزاری اختصاصی برای «هماهنگی» اضافه کرده است. این واحد، وظیفه جمع‌بندی پاسخ‌ها بین تراشه‌ها را انجام می‌دهد و تأخیر را تا ۵ برابر کاهش می‌دهد.

۲. انویدیا: بازی در سطح سیستم، نه فقط تراشه

انویدیا دیگر فقط یک فروشنده کارت گرافیک نیست؛ آن‌ها اکنون «معمار دیتاسنتر» هستند. با معماری Blackwell و سیستم‌های NVL72، انویدیا به دنبال حل مسئله «مقیاس» است.

  • شبکه‌سازی Spectrum-X: انویدیا متوجه شد که اگر ۱۰۰ هزار تراشه را به هم وصل کنید، شبکه تبدیل به گلوگاه می‌شود. آن‌ها با معرفی زیرساخت Spectrum-X، اولویت‌بندی بسته‌های داده (Data Packets) را در سطح سخت‌افزار مدیریت می‌کنند. این یعنی اگر یک درخواست «استنتاج» فوری دارید، داده‌های آن در شبکه راه را بر داده‌های کم‌اهمیت‌تر می‌بندند تا سریع‌تر به مقصد برسند.
  • کاهش مصرف انرژی (Efficiency): انویدیا در معماری جدید، با استفاده از نانو‌مدیریت برق، توان مصرفی را برای هر «توکن» تولید شده کاهش داده است. در دیتاسنتری که ۱۰۰ مگاوات برق مصرف می‌کند، حتی ۵ درصد بهینه‌سازی، سالانه میلیون‌ها دلار صرفه‌جویی در هزینه برق و خنک‌کنندگی ایجاد می‌کند.

۳. نقش کلیدیِ "کوانتایزیشن" (Quantization)

یکی از مهم‌ترین تحولات سال ۲۰۲۶، همگانی شدن محاسبات FP4 است. در گذشته، ما همه چیز را با دقت بالا (FP32) محاسبه می‌کردیم. اما تحقیقات نشان داد که مدل‌ها برای استنتاج، نیازی به این دقتِ نجومی ندارند.

  • FP4 (دقت ۴ بیتی): گوگل در TPU 8t این فرمت را به صورت سخت‌افزاری پشتیبانی می‌کند. نتیجه؟ حجم مدل در حافظه به یک‌هشتم کاهش می‌یابد، اما کیفیت پاسخ‌ها تقریباً دست‌نخورده باقی می‌ماند. این یعنی با همان سخت‌افزار قبلی، اکنون می‌توانید مدل‌های ۸ برابر بزرگ‌تر را اجرا کنید!

۴. تأثیر بر استارتاپ‌ها و کاربران نهایی

این رقابت سخت‌افزاری چه تغییری در دنیای فیگ ای آی ایجاد می‌کند؟

  1. ارزان شدنِ APIها: هزینه‌ی اجرای مدل‌های سطح بالا (SOTA) به قدری کاهش یافته که استارتاپ‌ها می‌توانند سرویس‌های پیچیده شخصی‌سازی شده را با هزینه‌ی اندک برای میلیون‌ها کاربر عرضه کنند.
  2. ظهور هوش مصنوعیِ "همیشه بیدار": با کاهش هزینه استنتاج، مدل‌ها دیگر فقط در چت‌بات‌ها نیستند؛ آن‌ها می‌توانند به صورت پیوسته در پس‌زمینه سیستم‌عامل، ایمیل‌ها یا کدهای شما فعالیت کنند، چون هزینه عملیاتی آن‌ها به حداقل رسیده است.
  3. کاهشِ تأخیرِ کاربر (Latency): رسیدن به سرعتِ «پاسخ‌دهی آنی» که در آن مدل همزمان با فکر کردن، پاسخ را تولید می‌کند، نتیجه‌ی مستقیم همین بهینه‌سازی‌های زیرساختی است.

جمع‌بندی: آینده چیست؟

ما به دورانی وارد شده‌ایم که «سخت‌افزار اختصاصی» گوگل (TPU) و «اکوسیستم یکپارچه» انویدیا (GPU + Networking)، در حال تبدیل کردنِ هوش مصنوعی از یک کالای لوکس به یک کالای عمومی (Utility) هستند.

در فیگ ای آی معتقدیم که سال ۲۰۲۶، سالِ «بهره‌وری» است. دیگر سوال این نیست که «مدل چقدر قدرتمند است؟»، بلکه سوال این است که «این مدل با چه هزینه‌ای و با چه سرعتی می‌تواند در مقیاس میلیونی اجرا شود؟».


*تمامی اطلاعات بروز این پست به کمک هوش مصنوعی سونار در اپلیکیشن فیگ ای آی جمع آوری شده. برای تهیه اشتراک فیگ ای آی و دسترسی به ۵۰+ مدل بین الملل و هوش مصنوعی سونار اینجا کلیک کنید *