2026-04-26
مهندسیِ بینهایت: کالبدشکافی جنگِ زیرساختی گوگل و انویدیا برای شکستن هزینههای هوش مصنوعی
بررسی تخصصی معماریهای نسل جدید TPU و GPU؛ چگونه نبرد برای کاهش هزینههای استنتاج، آیندهی هوش مصنوعی را به دسترسی عمومی نزدیک میکند.
در دنیای هوش مصنوعی، یک قانون نانوشته وجود دارد: «هرچه مدل هوشمندتر شود، هزینه اجرای آن برای کاربران نیز باید کاهش یابد.» اما در عمل، این یک تضاد بزرگ است. آموزش مدلهای غولآسا (Frontier Models) میلیاردها دلار هزینه دارد، اما هزینهی واقعی که استارتاپها و شرکتها را به ورشکستگی یا سودآوری میرساند، در مرحله استنتاج (Inference) نهفته است.
در سال ۲۰۲۶، شاهد تغییر پارادایمی هستیم که در آن گوگل و انویدیا، نه فقط با تراشههای سریعتر، بلکه با بازطراحی کل «معماری دیتاسنتر»، در حال شکستن هزینههای عملیاتی هستند.
۱. بحرانِ حافظه و گلوگاهِ "دیوارِ حافظه"
برای درک کاری که گوگل و انویدیا انجام میدهند، ابتدا باید مشکل اصلی را بفهمیم: دیوار حافظه (Memory Wall). هوش مصنوعی امروزی به سرعتِ محاسباتی نیاز ندارد، بلکه به «سرعت انتقال داده» نیاز دارد. وقتی یک مدل (مثل GPT-5 یا Gemini 3) میخواهد یک کلمه تولید کند، باید میلیاردها پارامتر را از حافظه (VRAM) به هستههای پردازشی (Compute) منتقل کند. این جابجایی، برق زیادی مصرف میکند و باعث تأخیر (Latency) میشود.
گوگل و پاسخ هوشمندانه: TPU 8i و معماری Hypercomputer
گوگل در نسل هشتم TPUها، استراتژی «تمرکز بر حافظه» را پیش گرفته است:
- حافظه SRAM روی تراشه: گوگل در TPU 8i مقدار حافظه فوقسریع روی خودِ تراشه را ۳ برابر کرده است. این یعنی بخش بزرگی از «حافظه کوتاهمدت» مدل، در نزدیکی هستهها باقی میماند و نیاز به مراجعه به حافظههای خارجی (HBM) کاهش مییابد.
- موتور شتابدهنده جمعی (CAE): در مدلهای استدلالی (Reasoning) که نیاز به هماهنگی بین هزاران تراشه دارند، گوگل یک واحد سختافزاری اختصاصی برای «هماهنگی» اضافه کرده است. این واحد، وظیفه جمعبندی پاسخها بین تراشهها را انجام میدهد و تأخیر را تا ۵ برابر کاهش میدهد.
۲. انویدیا: بازی در سطح سیستم، نه فقط تراشه
انویدیا دیگر فقط یک فروشنده کارت گرافیک نیست؛ آنها اکنون «معمار دیتاسنتر» هستند. با معماری Blackwell و سیستمهای NVL72، انویدیا به دنبال حل مسئله «مقیاس» است.
- شبکهسازی Spectrum-X: انویدیا متوجه شد که اگر ۱۰۰ هزار تراشه را به هم وصل کنید، شبکه تبدیل به گلوگاه میشود. آنها با معرفی زیرساخت Spectrum-X، اولویتبندی بستههای داده (Data Packets) را در سطح سختافزار مدیریت میکنند. این یعنی اگر یک درخواست «استنتاج» فوری دارید، دادههای آن در شبکه راه را بر دادههای کماهمیتتر میبندند تا سریعتر به مقصد برسند.
- کاهش مصرف انرژی (Efficiency): انویدیا در معماری جدید، با استفاده از نانومدیریت برق، توان مصرفی را برای هر «توکن» تولید شده کاهش داده است. در دیتاسنتری که ۱۰۰ مگاوات برق مصرف میکند، حتی ۵ درصد بهینهسازی، سالانه میلیونها دلار صرفهجویی در هزینه برق و خنککنندگی ایجاد میکند.
۳. نقش کلیدیِ "کوانتایزیشن" (Quantization)
یکی از مهمترین تحولات سال ۲۰۲۶، همگانی شدن محاسبات FP4 است. در گذشته، ما همه چیز را با دقت بالا (FP32) محاسبه میکردیم. اما تحقیقات نشان داد که مدلها برای استنتاج، نیازی به این دقتِ نجومی ندارند.
- FP4 (دقت ۴ بیتی): گوگل در TPU 8t این فرمت را به صورت سختافزاری پشتیبانی میکند. نتیجه؟ حجم مدل در حافظه به یکهشتم کاهش مییابد، اما کیفیت پاسخها تقریباً دستنخورده باقی میماند. این یعنی با همان سختافزار قبلی، اکنون میتوانید مدلهای ۸ برابر بزرگتر را اجرا کنید!
۴. تأثیر بر استارتاپها و کاربران نهایی
این رقابت سختافزاری چه تغییری در دنیای فیگ ای آی ایجاد میکند؟
- ارزان شدنِ APIها: هزینهی اجرای مدلهای سطح بالا (SOTA) به قدری کاهش یافته که استارتاپها میتوانند سرویسهای پیچیده شخصیسازی شده را با هزینهی اندک برای میلیونها کاربر عرضه کنند.
- ظهور هوش مصنوعیِ "همیشه بیدار": با کاهش هزینه استنتاج، مدلها دیگر فقط در چتباتها نیستند؛ آنها میتوانند به صورت پیوسته در پسزمینه سیستمعامل، ایمیلها یا کدهای شما فعالیت کنند، چون هزینه عملیاتی آنها به حداقل رسیده است.
- کاهشِ تأخیرِ کاربر (Latency): رسیدن به سرعتِ «پاسخدهی آنی» که در آن مدل همزمان با فکر کردن، پاسخ را تولید میکند، نتیجهی مستقیم همین بهینهسازیهای زیرساختی است.
جمعبندی: آینده چیست؟
ما به دورانی وارد شدهایم که «سختافزار اختصاصی» گوگل (TPU) و «اکوسیستم یکپارچه» انویدیا (GPU + Networking)، در حال تبدیل کردنِ هوش مصنوعی از یک کالای لوکس به یک کالای عمومی (Utility) هستند.
در فیگ ای آی معتقدیم که سال ۲۰۲۶، سالِ «بهرهوری» است. دیگر سوال این نیست که «مدل چقدر قدرتمند است؟»، بلکه سوال این است که «این مدل با چه هزینهای و با چه سرعتی میتواند در مقیاس میلیونی اجرا شود؟».
*تمامی اطلاعات بروز این پست به کمک هوش مصنوعی سونار در اپلیکیشن فیگ ای آی جمع آوری شده. برای تهیه اشتراک فیگ ای آی و دسترسی به ۵۰+ مدل بین الملل و هوش مصنوعی سونار اینجا کلیک کنید *