ChatGPT با قابلیت‌های صوتی و تصویری جدید به جلو می‌رود

ChatGPT با قابلیت‌های صوتی و تصویری جدید به جلو می‌رود

نویسنده پست:

محمدمهدی خارکن

دسته‌بندی:

تاریخ پست:

مهر 3, 1402

تعداد بازدید

2,922

مقاله را به اشتراک بگذار

OpenAI شروع به ارائه ویژگی‌های صوتی و تصویری جدید برای چت ربات محبوب خود با هوش مصنوعی، ChatGPT کرده است.🤐

این قابلیت‌های جدید به شما این امکان را می‌دهد که با صحبت کردن با ChatGPT 🎤 و نمایش تصاویر به آن، مکالمات طبیعی‌تری داشته باشید.

این روش‌های بیشتری را برای استفاده از ChatGPT در روال‌های روزمره فراهم می‌کند. به عنوان مثال، در حین سفر، می‌توانید عکسی از یک نقطه عطف به ChatGPT ارسال کنید و در زمان واقعی در مورد آن گفتگو کنید.

به همین ترتیب، در خانه، می‌توانید از محتویات یخچال خود عکس بگیرید و درباره ایده‌های غذا 🍝 صحبت کنید یا دستور پخت گام به گام را درخواست کنید.

در هفته‌های آینده، OpenAI این ویژگی‌ها را برای کاربران Plus و Enterprise ارائه خواهد کرد. قابلیت صوتی در اپلیکیشن‌های موبایل در دسترس خواهد بود، در حالی که عملکرد تصویر در تمامی پلتفرم‌ها قابل دسترسی خواهد بود.

ورودی صوتی به مکالمات دو طرفه اجازه می‌دهد 🗣️

ویژگی صوتی جدید به شما امکان می‌دهد با ChatGPT به صورت مکالمه صحبت کنید، که اکنون می‌تواند به صورت شنیداری در یکی از پنج صدای سنتز شده پاسخ دهد.

برای فعال کردن صدا می‌توانید از طریق تنظیمات برنامه تلفن همراه iOS و Android شرکت کنید.

به گفته OpenAI، قابلیت صدا از یک مدل پیشرفته تبدیل متن به گفتار استفاده می‌کند که بر روی نمونه‌هایی از صداپیشگان آموزش دیده است. برای تشخیص گفتار، از Whisper، سیستم گفتار منبع باز OpenAI استفاده می‌کند.

بحث در مورد تصاویر زمینه بصری را فراهم می‌کند

اکنون می‌توانید ChatGPT یک یا چند تصویر را برای ارائه زمینه بصری و تمرکز مکالمه نشان دهید.

به عنوان مثال، اشتراک‌گذاری عکس یک دستگاه خراب می‌تواند به ChatGPT در تشخیص مشکلات و پیشنهاد رفع مشکلات کمک کند. در تلفن همراه، یک ابزار ترسیم اجازه می‌دهد تا قسمت‌های خاصی از یک تصویر را دور بزنیم یا به آن اشاره کنیم.

ویژگی‌های تصویر از یک نسخه چندوجهی از مدل‌های GPT-3.5 و GPT-4 استفاده می‌کنند که برای استدلال در مورد ورودی‌های بصری به‌خوبی تنظیم شده‌اند. OpenAI قابلیت‌های تصویر را به طور گسترده برای خطرات ایمنی قبل از عرضه آزمایش کرد.

عرضه تدریجی با تمرکز بر ایمنی

OpenAI اشاره کرد که رویکردی تدریجی برای به کارگیری این ویژگی‌ها در پیش گرفته است.

فناوری صوتی جدید برنامه‌های خلاقانه را باز می‌کند، اما خطراتی مانند جعل هویت 🙋🏿‍♂️ افراد عمومی را نیز به همراه دارد. برای کاهش خطرات، صدا در حال حاضر به چت مکالمه محدود شده است.

برای تصاویر، OpenAI گفت که توانایی ChatGPT را برای تجزیه و تحلیل مستقیم افراد در عکس‌ها و توصیه در مورد موارد استفاده پرخطر بدون تأیید، محدود کرده است.

به طور خلاصه

  1. قابلیت‌های صوتی و تصویری جدید ChatGPT به کاربران راه طبیعی‌تری برای تعامل با سیستم هوش مصنوعی ارائه می‌دهد.
  2. با این حال، OpenAI رویکرد سنجیده‌ای را برای عرضه آنها اتخاذ می‌کند و دسترسی و عملکرد اولیه را به دلیل خطرات احتمالی محدود می‌کند.
  3. با گسترش این ویژگی‌ها، محدودیت‌های ChatGPT را در نظر داشته باشید و از برنامه‌های پرخطر بدون تأیید اجتناب کنید.