هوش مصنوعی مولد: دنیای خلاقانه جدید

مدیر محتوا
۱۴۰۱/۱۱/۰۱
مقالات

هوش مصنوعی مولد: دنیای خلاقانه جدید

طبقه جدید قدرتمندی از مدل‌های زبان بزرگ این امکان را برای ماشین‌ها فراهم می‌کند که بنویسند، کدنویسی کنند، ترسیم کنند و با نتایج معتبر و گاهی برانسانی به خلق بپردازند.

انسان‌ها در تجزیه و تحلیل مسائل اغلب خوب عمل می‌کنند. ماشین‌ها حتی بهتر هم هستند. ماشین‌ها می‌توانند مجموعه‌ای از داده‌ها را تجزیه و تحلیل کنند و الگوهایی را در آن‌ها برای موارد استفاده متعددی، خواه تقلب یا تشخیص اسپم پیدا کنند و به پیش‌بینی ETA تحویلی شما یا پیش‌بینی اینکه کدام ویدیوی TikTok را در مرحله بعد به شما نشان دهد، بپردازد. آنها در این وظایف هوشمندتر می‌شوند. این “هوش مصنوعی تحلیلی” یا هوش مصنوعی سنتی نامیده می‌شود.

اما انسان‌ها نه تنها در تجزیه و تحلیل مسائل خوب عمل می‌کنند، بلکه در خلق کردن نیز خوب هستند. ما شعر می نویسیم، محصولات طراحی می‌کنیم، بازی طراحی می‌کنیم و کد می‌سازیم. تا همین اواخر، ماشین‌ها هیچ شانسی برای رقابت با انسان‌ها در کار خلاقانه نداشتند – آن‌ها به تجزیه و تحلیل و انجام کار شناختی می‌پرداختند. اما ماشین‌ها به تازگی در خلق چیزهای حساس و زیبا مهارت کسب کرده‌اند. این طبقه جدید “هوش مصنوعی مولد” نامیده می‌شود، به این معنی که دستگاه به جای تجزیه و تحلیل چیزی که از قبل وجود دارد، چیز جدیدی تولید می کند.

هوش مصنوعی مولد نه تنها سریع‌تر و ارزان‌تر می‌شود، بلکه در برخی موارد بهتر از آن چیزی است که انسان‌ها با دست خلق می‌کنند. هر صنعتی که انسان را ملزم به خلق آثار اصیل می‌کند – از رسانه‌های اجتماعی گرفته تا بازی، تبلیغات تا معماری، کدنویسی تا طراحی گرافیکی، طراحی محصول تا قانون، بازاریابی تا فروش – در حال اختراع مجدد است. برخی از عملکردها ممکن است به طور کامل جایگزین هوش مصنوعی مولد شوند، در حالی که برخی دیگر به احتمال زیاد از یک چرخه خلاق تکراری فشرده بین انسان و ماشین بوجود می‌آیند – اما هوش مصنوعی مولد باید خلاقیت بهتر، سریع‌تر و ارزان‌تر را در طیف گسترده‌ای از بازارهای نهایی در نظر بگیرد. می‌توان گفت هوش مصنوعی مولد هزینه‌های نهایی ایجاد و کار دانش را به صفر نزدیکتر می‌نماید و بهره‌وری نیروی کار و ارزش اقتصادی گسترده و ارزش بازار متناسب را ایجاد کند.

زمینه‌هایی که با هوش مصنوعی مولد ارتباط نزدیکی دارند: کار دانش و کار خلاق شامل میلیاردها کارگر است. هوش مصنوعی مولد می‌تواند کارگران را حداقل ۱۰ درصد کارآمدتر و/یا خلاق‌تر نماید: آنها نه تنها سریع‌تر و کارآمدتر می‌شوند، بلکه توانمندتر از قبل می‌شوند. بنابراین، هوش مصنوعی مولد پتانسیل تولید تریلیون ها دلار ارزش اقتصادی را دارد.

چرا حالا؟

هوش مصنوعی مولد همان سوال “چرا اکنون” را به طور گسترده‌تر با هوش مصنوعی مطرح می‌نماید: مدل‌های بهتر، داده‌های بیشتر، محاسبات بیشتر. این مقوله سریعتر از آنچه ما می‌توانیم در ذهن خود در نظر بگیریم، در حال تغییر است، اما ارزش آن را دارد که تاریخ اخیر را به طور کلی بازنگری کنیم تا لحظه کنونی را در متن قرار دهیم.

موج ۱: مدل‌های کوچک برتر هستند (قبل از ۲۰۱۵) بیش از ۵ سال پیش، مدل‌های کوچک برای درک زبان به عنوان «روش مدرن» در نظر گرفته می‌شوند. این مدل‌های کوچک در کارهای تحلیلی به کار گرفته می‌شوند و برای پیش‌بینی زمان تحویل تا طبقه‌بندی تقلب به کار می‌روند. با این حال، آنها به اندازه کافی برای کارهای مولد همه منظوره در نظر گرفته نمی شوند. ایجاد نوشتار یا کد در سطح بشر هنوز هم یک رویا است.

موج ۲: The race to scale (۲۰۱۵-امروز) مقاله مهمی ( (Attention is all you needبا یک جستجوی ساده در گوگل یک معماری شبکه عصبی جدید را برای درک زبان طبیعی به نام ترانسفورماتور توصیف می‌کند که می‌تواند مدل‌های زبانی با کیفیت برتر تولید نماید و در عین حال قابل قیاس بوده و به زمان کمتری برای آموزش نیاز دارد. این مدل‌ها یادگیرنده های مخصوصی هستند و و نسبت به حوزه های خاص قابل تنظیم هستند.

مزایای مقیاس

اجرای آموزشی هوش مصنوعی، منابع محاسبه براوردی مورد استفاده

عملیات floating-point، سیستم های انتخابی از نظر نوع و مقیاس لگاریتمی

یادگیرنده های سریع

سرعت حفظ مدلهای هوش مصنوعی و معیار برتری خط مبنای بشری در حال سرعت گرفتن است. اما معمولا این مدلها در دنیای واقعی با مشکلاتی روبرو هستند.

همانطور که مدل‌های هوش مصنوعی به طور قابل توجهی‌ای بزرگتر شده‌اند، آنها شروع به پیشی گرفتن از معیارهای اصلی عملکرد انسانی نموده‌اند. مطمئناً با بزرگ‌تر شدن مدل‌ها، ارائه نتایج در سطح انسانی و سپس ابرانسانی آغاز می‌شود. بین سال‌های ۲۰۱۵ تا ۲۰۲۰، محاسباتی که برای آموزش این مدل‌ها استفاده می‌شود، ۶ مرتبه افزایش یافت و نتایج آنها از معیارهای عملکرد انسانی دردست خط، تشخیص گفتار و تصویر، درک مطلب و درک زبان پیشی می‌گیرد.

: OpenAI’s GPT-3: عملکرد این مدل یک پیشرفت بزرگ نسبت به GPT-2 محسوب می‌شود و نمایش‌های وسوسه‌انگیز توییتر را بر روی برخی فعالیتها از تولید کد گرفته تا جوک‌نویسی ارائه می‌دهد.

با وجود تمام پیشرفت‌های تحقیقاتی اساسی، این مدل‌ها خیلی فراگیر نیستند. این مدلها بزرگ بوده و اجرای دشواری را به همراه دارند (نیاز به هماهنگی GPU دارند)، به طور گسترده در دسترس نیستند (فقط در دسترس نیست)، و کاربری آنها به عنوان سرویس ابری گران قیمت است. با وجود این محدودیت‌ها، اولین برنامه‌های کاربردی هوش مصنوعی مولد وارد بازار می‌شوند.

موج ۳: بهتر، سریع‌تر، ارزان‌تر (۲۰۲۲+) محاسبه ارزانتر است. تکنیک‌های جدید، مانند مدل‌های انتشار، هزینه‌های مورد نیاز برای آموزش و اجرای استنتاج را تقلیل می نمایند. جامعه تحقیقاتی به توسعه الگوریتم‌های بهتر و مدل های بزرگتر می‌پردازد. بدین صورت، دسترسی توسعه‌دهندگان از نسخه بتای بسته به نسخه بتا باز یا در برخی موارد منبع باز گسترش می‌یابد. برای توسعه دهندگانی که منتظر دسترسی به LLM هستند، فلادگیتها اکنون برای اکتشاف و توسعه برنامه باز آماده هستند. برنامه ها توسعه می یابند.

موج ۴: ظهور برنامه‌های کیلر (اکنون) با استحکام لایه پلتفرم، مدل‌ها بهتر/سریع‌تر/ و ارزانتر می‌شوند و روند دسترسی مدل به منبع آزاد و متن باز، لایه برنامه برای رشد خلاقیت آماده است. همانطور که موبایل انواع جدیدی از اپلیکیشن‌ها را از طریق قابلیت‌های جدیدی مانند GPS، دوربین‌و جی پی اس عرضه کرد، انتظار داریم این مدل‌های بزرگ موج جدیدی از برنامه‌های کاربردی هوش مصنوعی را خلق کنند. و همانطور که موبایل یک دهه پیش بازاری را برای تعداد معدودی از اپلیکیشن‌های کیلر ایجاد کرد، انتظار داریم اپلیکیشن‌های کیلر برای هوش مصنوعی مولد نیز در نظر گرفته شوند.

چشم انداز بازار

نمای شماتیکی که لایه پلتفرمی را که به هر طبقه توانایی لازم را می دهد‌ و انواع بالقوه برنامه‌هایی که در بالا ساخته می‌شوند را تشریح می‌نماید، در ذیل ارائه شده است. مطمئناً با افزایش اندازه مدل‌ها، ارائه نتایج در سطح انسانی و سپس ابرانسانی آغاز می‌شود. همانطور که موبایل انواع جدیدی از برنامه‌های کاربردی را از طریق قابلیت‌های جدیدی مانند GPS، دوربین‌ و اتصال در حال حرکت عرضه نموده است، انتظار داریم این مدل‌های بزرگ موج جدیدی از برنامه‌های کاربردی هوش مصنوعی را خلق کنند.

چشم انداز اپلیکیشن هوش مصنوعی مولد

مدل ها

متن پیشرفته‌ترین دامنه است. با این حال، زبان طبیعی به سختی قابل درک است، و کیفیت از همه مهمتر است. امروزه، مدل‌ها در نوشتن با فرم کوتاه/متوسط عمومی بسیار خوب عمل می‌کنند (اما با این وجود، معمولاً برای تکرار یا پیش‌نویس‌های اولیه به کار گرفته می‌شوند). با گذشت زمان، همانطور که مدل‌ها بهتر می‌شوند، باید انتظار داشته باشیم که خروجی‌های با کیفیت بالاتر، محتوای طولانی‌تر و تنظیم عمودی بهتر ارائه شوند.

طبق نظرGitHub CoPilot ، احتمالاً ایجاد کد در کوتاه‌مدت تأثیر زیادی بر بهره‌وری توسعه دهندگان خواهد داشت. همچنین استفاده خلاقانه از کد را برای غیر توسعه دهندگان قابل دسترس‌تر می کند.

تصاویر پدیده‌ای جدیدتر هستند، اما خیلی فراگیر شده‌اند: اشتراک‌گذاری تصاویر تولید شده در توییتر بسیار سرگرم‌کننده‌تر از متن است! ما شاهد خلق مدل‌های تصویری با سبک های زیبایی شناختی مختلف و تکنیک های مختلف برای ویرایش و اصلاح تصاویر ایجاد شده هستیم.
ترکیب گفتار از قبل هم وجود داشته است ، اما برنامه‌های کاربردی مصرف کننده و سازمانی به تازگی عملکرد مناسبی دارند. برای برنامه های پیشرفته مانند فیلم و پادکست، bar برای گفتار با کیفیت یک شات انسانی که مکانیکی به نظر نمی‌رسد بسیار بالا است. اما همچون تصاویر، مدل‌های امروزی نقطه شروعی برای اصلاح بیشتر یا خروجی نهایی برای اپلیکیشن های سودمند هستند.
مدل‌های ویدیویی و سه بعدی به سرعت در حال افزایش هستند. مردم از پتانسیل این مدل‌ها برای ظهور بازارهای خلاقانه بزرگ مانند سینما، بازی، واقعیت مجازی، معماری و طراحی محصولات فیزیکی هیجان‌زده هستند. سازمان‌های تحقیقاتی مدل‌های سه بعدی و ویدیویی اساسی را منتشر می‌کنند.
سایر حوزه‌ها: مدل بنیادی تحقیق و توسعه در بسیاری از زمینه‌ها، از صدا و موسیقی گرفته تا زیست‌شناسی و شیمی (پروتئین‌ها و مولکول‌های مولد،) رخ می دهد.

نمودار زیر جدول زمانی را نشان می‌دهد که شاهد پیشرفت مدل‌های اساسی و برنامه‌های کاربردی مرتبط باشیم، ببینیم. ۲۰۲۵ و بعد از آن فقط یک حدس است.

اپلیکیشن ها

در اینجا برخی از برنامه‌هایی است که ما هیجان زیادی نسبت به آنها داریم. برنامه های خیلی زیادی وجود دارند و ما شیفته برنامه های خلاقانه ای هستیم که بنیانگذاران و توسعه دهندگان رویای آنها را در سر می پرورانند.

کپی رایست: نیاز روزافزون به محتوای وب و ایمیل شخصی‌سازی‌شده برای تقویت استراتژی‌های فروش و بازاریابی و همچنین پشتیبانی مشتری، برنامه‌های عالی برای مدل‌های زبان هستند. فرم کوتاه و ماهیت مشخص این حرف همراه با فشار زمان و هزینه بر این تیم‌ها باید تقاضا برای راه‌حل‌های خودکار و تقویت‌شده را افزایش دهد
ابزرای کمکی خاص نوشتن عمودی: امروزه اکثر ابزارهای کمکی نوشتن افقی هستند. ما بر این باوریم که فرصتی برای ساخت برنامه‌های مولد بسیار بهتر برای بازارهای نهایی خاص، از نوشتن قراردادهای قانونی تا فیلمنامه‌نویسی وجود دارد. تمایز محصولات در اینجا تنظیم دقیق مدل‌ها و الگوهای UX برای جریان‌های کاری خاص است
ایجاد کد: برنامه‌های فعلی توسعه‌دهندگان را مشتاق تر نموده و آنها را بسیار کارآمدتر می‌کند. برنامه GitHub Copilot اکنون نزدیک به ۴۰ درصد کد را در پروژه‌هایی که در آن در نظر گرفته شده است، تولید می‌کند. اما فرصت بهتر ممکن است باز کردن دسترسی به کدنویسی برای مصرف کنندگان باشد. یادگیری دستور ممکن است به بهترین زبان برنامه نویسی سطح بالا تبدیل شو
نسل هنر: تمام دنیای تاریخ هنر و فرهنگ پاپ اکنون در این مدل‌های بزرگ رمزگذاری شده‌اند، و به هر کسی اجازه می‌دهد تم‌ها و سبک‌هایی را که قبلاً برای تسلط بر آن‌ها خیلی طول می کشید، کشف کند.
بازی: در اینجا هدف استفاده از زبان طبیعی برای ایجاد صحنه ها یا مدل‌های پیچیده ای است که می توان در آنها تقلب نمود. این حالت پایانی احتمالاً خیلی دوراز ذهن است، اما گزینه های فوری تری وجود دارند که در کوتاه مدت قابل اجرا هستند، مانند ایجاد بافت و هنر اسکای باکس
رسانه/تبلیغات: پتانسیل خودکارسازی کار نمایندگی و تبلیغ کپی و خلاقانه برای مصرف کنندگان را تصور کنید. فرصت‌های عالی در اینجا برای تولید چند وجهی که برخی محصولات پیام‌ها را با تصاویر تکمیلی می‌فروشند
طراحی: نمونه سازی اولیه محصولات دیجیتالی و فیزیکی یک کار فشرده و تکراری است. رندرینگ با فیدلیتی بالا از طرح های سخت و درخواست ها در حال حاضر یک واقعیت است. همانطور که مدل‌های سه بعدی در دسترس قرار می‌گیرند، فرآیند طراحی مولد از طریق ساخت و تولید – متن به شی گسترش می‌یابد. اپلیکیشن بعدی آیفون شما ممکن است توسط یک ماشین طراحی شده باشد.
رسانه های اجتماعی و جوامع دیجیتال: آیا راه‌های جدیدی برای بیان خود با استفاده از ابزارهای مولد وجود دارد؟ برنامه‌های جدید مانند میدجورنی در حال ایجاد تجربیات اجتماعی جدید هستند زیرا مصرف کنندگان یاد می گیرند که در معرض همگان به ارائه محصولات خود بپردازند.

ساختار برنامه هوش مصنوعی مولد

یک اپلیکیشن هوش مصنوعی مولد چگونه است؟ در اینجا چند پیش بینی وجود دارد.

هوشمندی و تنظیم دقیق مدل

برنامه‌های هوش مصنوعی مولد بر روی مدل های بزرگ مانند GPT-3 یا Stable Diffusion ایجاد می‌شوند. از آنجایی که این برنامه‌ها داده‌های کاربر بیشتری را دریافت می‌کنند، می‌توانند مدل‌های خود را به‌طور دقیق تنظیم کنند: ۱) کیفیت/عملکرد مدل را برای فضای مشکل خاص خود بهبود بخشند و. ۲) کاهش اندازه / هزینه های مدل را به همراه داشته باشند.

می‌توانیم برنامه‌های هوش مصنوعی مولد را به‌عنوان یک لایه رابط کاربری و «مغز کوچک» در نظر بگیریم که در بالای «مغز بزرگ» که مدل‌های بزرگ همه‌منظوره است، قرار می‌گیرد.

فاکتور فرم

امروزه، برنامه‌های هوش مصنوعی تولیدی عمدتاً به‌عنوان پلاگین در اکوسیستم‌های نرم‌افزاری موجود وجود دارند. تکمیل کد در IDE شما رخ می‌دهد. تولید تصاویر در Figma یا فوتوشاپ صورت می‌‌گیرد. حتی ربات‌های Discord ابزار تزریق هوش مصنوعی مولد به جوامع دیجیتال/اجتماعی هستند. همچنین تعداد کمتری از برنامه‌های وب مستقل هوش مصنوعی مولد مانند Jasper و Copy.ai برای کپی رایت، Runway برای ویرایش ویدیو و Mem برای نت برداری وجود دارد.

یک پلاگین ممکن است ابزار موثری در راه‌اندازی برنامه شخصی شما باشد، و ممکن است راهی هوشمندانه برای غلبه بر مشکل اولیه داده‌های کاربر و کیفیت مدل باشد (برای استفاده کافی برای بهبود مدل‌های خود به توزیع نیاز دارید. مدل‌های خوب برای جذب کاربران). این استراتژی توزیع در سایر دسته‌های بازار مانند مصرف‌کننده/اجتماعی عملکرد مناسبی دارد.

پارادایم تعامل

امروزه، بیشتر دموهای هوش مصنوعی مولد «منحصر به فرد» هستند: یک ورودی ارائه می‌کنید، دستگاه یک خروجی را بیرون می‌فرستد و می‌توانید آن را نگه دارید یا کنار بگذارید و دوباره امتحان کنید. به طور فزاینده‌ای، مدل‌ها تکراری‌تر می‌شوند، به صورتی که می‌توانید با خروجی‌ها برای اصلاح، ظرافت، ارتقاء سطح و ایجاد تغییرات کار کنید.

امروزه خروجی های هوش مصنوعی مولد به عنوان نمونه اولیه یا پیش نویس اولیه به کار گرفته می‌شوند. برنامه‌ها در ارائه ایده‌های مختلف برای پیشبرد فرآیند خلاقانه (مانند گزینه‌های مختلف برای یک لوگو یا طراحی معماری) عالی عمل می کنند و در پیشنهاد اولین پیش‌نویس‌هایی که باید توسط کاربر برای رسیدن به حالت نهایی دقیق شوند، عالی هستند (به عنوان نمونه، پست های وبلاگ یا تکمیل خودکار کد). با هوشمند شدن مدلها، تا حدی از داده‌های کاربر خارج می‌شوند، باید انتظار داشته باشیم که این پیش‌نویس‌ها بهتر شوند، تا زمانی که برای استفاده به عنوان محصول نهایی به اندازه کافی خوب باشند.

رهبری مقوله پایدار

بهترین شرکت‌های هوش مصنوعی مولد می‌توانند با اجرای بی‌وقفه بین تعامل کاربر/داده و عملکرد مدل، یک مزیت رقابتی پایدار ایجاد کنند. برای برنده شدن، تیم‌ها باید این مسئله را مدنظر قرار دهند

۱) داشتن تعامل استثنایی با کاربر

۲) تبدیل تعامل بیشتر کاربر به عملکرد بهتر مدل (بهبود سریع، تنظیم دقیق مدل، انتخاب کاربر به عنوان داده های آموزشی برچسب دار)

۳) استفاده از مدل عالی عملکرد برای افزایش رشد و تعامل کاربر. جای اینکه بخواهند همه چیز برای همه باشند، آنها وارد فضاهای مسئله خاص می‌شوند (مانند کد، طراحی، بازی). آنها احتمالاً ابتدا عمیقاً در برنامه‌های کاربردی برای اهرم و توزیع ادغام خواهند شد و بعداً تلاش خواهند کرد تا برنامه‌های فعلی را با جریان های کاری بومی هوش مصنوعی جایگزین کنند. ساختن این برنامه‌ها با استفاده از روش مناسب برای جمع‌آوری کاربران و داده‌ها نیاز به زمان لازم دارد، اما ما معتقدیم بهترین‌ها بادوام خواهند بود و فرصتی برای رشد خواهند داشت.

موانع و ریسک

علیرغم قابلیتهای هوش مصنوعی مولد، پیچیدگی‌های زیادی در مورد مدل‌های کسب‌وکار و فناوری وجود دارد که می‌توان آن‌ها را برطرف نمود. سوالات مربوط به مسائل مهمی مانند کپی رایت، اعتماد و ایمنی و هزینه ها هنوز حل نشده است.

چشمان کاملا باز

هنوز برای عرضه هوش مصنوعی مولد زود است. لایه پلتفرم به‌تازگی عملکرد خوبی داشته است و فضای برنامه به سختی پیش می‌رود. برای روشنتر شدن موضوع، ما برای نوشتن رمان تولستوی برای استفاده مناسب از هوش مصنوعی مولد نیازی به مدل‌های زبان عظیم نداریم. این مدل‌ها امروزه برای نوشتن اولین پیش‌نویس پست‌های وبلاگ و تولید نمونه‌های اولیه لوگوها و رابط‌های محصول به اندازه کافی خوب عمل می کنند. اما بهتر است که این کار در کوتاه مدت تا میان مدت اتفاق خواهد افتاد.

موج اول برنامه‌های هوش مصنوعی مولد شبیه چشم‌انداز برنامه‌های تلفن همراه است یعنی زمانی که آیفون برای اولین بار– تا حدودی اغواگر و ظریف، با تمایز رقابتی نامشخص و مدل‌های تجاری عرضه شد. با این حال، برخی از این برنامه ها تصویر کوتاهی در مورد آینده ارائه می دهند. هنگامی که می بینید یک ماشین کد عملکرد پیچیده یا تصاویر درخشان تولید می کند، تصور آینده ای که در آن ماشین ها نقش اساسی در نحوه کار و خلق ما ایفا نکنند ، می تواند دشوار به نظر برسد.

اگر چندین دهه رویاپردازی کنیم، تصور آینده‌ای آسان است که در آن هوش مصنوعی مولد عمیقاً در نحوه کار، ایجاد و بازی ما موجود باشد: «یادداشت‌هایی که خودشان می نویسند. چاپ سه بعدی هر چیزی که بتوانید تصورش را بکنید. حرکت از متن به فیلم پیکسار. تجربه‌های بازی مانند روبلوکس که دنیای غنی را به همان سرعتی که می‌توانیم رویاپردازی کنیم، ایجاد می‌کنند. در حالی که امروزه این تجربیات ممکن است علمی تخیلی به نظر برسند، سرعت پیشرفت فوق‌العاده بالا است – ما در طی چندین سال از مدل‌های زبانی محدود به تکمیل خودکار کد عبور کرده‌ایم – می توان به این میزان تغییر ادامه دهیم و از قانون مدل بزرگ مور پیروی نمود. ،» پس این سناریوهای دور از ذهن ممکن است وارد قلمروی احتمالی شوند.

منبع:sequoiacap

مشاهده خبر