فهرست مطالب
محققان شرکت انتروپیک (Anthropic) در یک بررسی روی مدل کلود 3.5 هایکو (Claude 3.5 Haiku)، به دنبال درک توانایی آن در شکستن خطوط متن در یک عرض ثابت بودند؛ وظیفه ای که نیازمند ردیابی موقعیت در حین نوشتن است. این مطالعه به نتیجه شگفت انگیزی رسید: مدل های زبان بزرگ الگو های درونی شبیه به آگاهی فضایی (spatial awareness) انسان ها برای ردیابی موقعیت در فضای فیزیکی ایجاد میکنند.
آندریاس ولپینی در توییتی به این مقاله اشاره کرد و آن را به بخش بندی محتوا (chunking content) برای مصرف هوش مصنوعی تشبیه نمود. در نگاهی وسیع تر، نظر او استعاره ای از این است که چگونه هم نویسندگان و هم مدل های هوش مصنوعی در مرز هایی که یک ایده به پایان میرسد و ایده دیگری شروع میشود، ساختار های معناداری خلق میکنند.
با این حال، این مقاله تحقیقاتی در مورد خواندن محتوا نیست، بلکه درباره تولید محتوا و تشخیص این است که کجا باید یک خط جدید ایجاد کرد تا متن در یک عرض ثابت و دلخواه قرار بگیرد. هدف از این کار، درک بهتر اتفاقات درون یک مدل زبان بزرگ (LLM) هنگام ردیابی موقعیت متن، انتخاب کلمات و مرز های شکستن خط در حین نوشتن بود.
محققان یک وظیفه آزمایشی برای تولید متن با شکستن خط در یک عرض مشخص ایجاد کردند. هدف این بود که بفهمند چگونه مدل کلود 3.5 هایکو (Claude 3.5 Haiku) کلمات را برای جا دادن در عرض تعیین شده انتخاب میکند و چه زمانی یک خط جدید ایجاد میکند، که این امر نیازمند آن بود که مدل موقعیت فعلی خود را در خط متنی که در حال تولید آن است، ردیابی کند.
این آزمایش نشان میدهد که چگونه مدل های زبان بزرگ ساختار را از الگو های موجود در متن، بدون برنامه نویسی صریح یا نظارت (unsupervised)، یاد میگیرند.
چالش شکستن خط: آزمونی برای درک هوش مصنوعی
وظیفه شکستن خط (linebreaking)، مدل هوش مصنوعی را ملزم میکند تا تصمیم بگیرد آیا کلمه بعدی در خط فعلی جا میشود یا باید به خط جدید برود. برای موفقیت، مدل باید محدودیت عرض خط را یاد بگیرد؛ درست مانند یک نویسنده که باید حواسش به حاشیه کاغذ باشد. برای این کار، یک مدل زبان بزرگ باید تعداد کاراکتر های نوشته شده را ردیابی کند، فضای باقی مانده را محاسبه کند و تصمیم بگیرد که آیا کلمه بعدی جا میشود یا خیر. این وظیفه نیازمند استدلال (reasoning)، حافظه (memory) و برنامه ریزی (planning) است. محققان با استفاده از گراف های اسنادی، نحوه هماهنگی این محاسبات پیچیده را در مدل بصری سازی کردند.
شمارش پیوسته: درک هندسی از متن
محققان دریافتند که مدل کلود 3.5 هایکو برای شمارش کاراکتر ها، به جای شمارش یک به یک، از یک ساختار هندسی پیوسته استفاده میکند که مانند یک سطح منحنی نرم عمل میکند. این ویژگی به مدل های زبان بزرگ اجازه میدهد موقعیت خود در متن را به صورت کاملا روان و در لحظه ردیابی کنند. نکته جالب تر اینکه، آنها کشف کردند مدل یک “هد مرزی (Boundary Head)” ایجاد کرده که بخشی تخصصی از “مکانیزم توجه (Attention Mechanism)” آن است. این هد توجه (Attention Head) به طور خاص وظیفه تشخیص مرز پایان خط را بر عهده دارد. مقاله تحقیقاتی اینگونه بیان میکند:
“یکی از ویژگی های اساسی نمایش تعداد کاراکتر های خط این است که “هد مرزی” نمایش را میپیچاند و هر شمارش را قادر میسازد تا با شمارشی کمی بزرگتر جفت شود که نشان میدهد مرز نزدیک است. یعنی یک نقشه خطی QK وجود دارد که منحنی تعداد کاراکتر ها را در امتداد خودش میلغزاند. چنین عملی در مدل های عمومی مجاز نیست، اما هم در منیفولدی که در هایکو مشاهده میکنیم و هم در ساختار فوریه (Fourier construction) وجود دارد.”
مکانیزم توجه و حسگر مرزی چگونه کار میکند؟
محققان دریافتند که کلود 3.5 هایکو با مقایسه دو سیگنال داخلی متوجه میشود که چه زمانی خط متن به پایان نزدیک است:
۱. تعداد کاراکتر هایی که تاکنون تولید کرده است.
۲. طول کلی که خط باید داشته باشد.
هد های توجه مرزی که پیشتر به آنها اشاره شد، تصمیم میگیرند که روی کدام بخش از متن تمرکز کنند. برخی از این هد ها با چرخاندن یا تراز کردن این دو سیگنال داخلی (تعداد کاراکتر و عرض خط) تخصص یافته اند. زمانی که این دو سیگنال تقریبا با هم منطبق میشوند، ماتریس QK آنها یک ضرب داخلی بزرگ ایجاد میکند و توجه مدل به سمت ایجاد یک خط جدید جلب میشود. این فرآیند پیچیده، درک مدل های زبان بزرگ از ساختار متن را برای پردازش زبان طبیعی بهبود میبخشد.
مرحله نهایی: تصمیم گیری برای شکستن خط
در این مرحله، مدل میداند که چقدر به مرز خط نزدیک است و کلمه بعدی چقدر طولانی خواهد بود. آخرین گام، استفاده از این اطلاعات برای تصمیم گیری نهایی است. محققان دریافتند که برخی ویژگی های داخلی مدل، زمانی که کلمه بعدی باعث عبور از مرز خط میشود، فعال میشوند و به عنوان آشکارساز مرز عمل میکنند. در این حالت، مدل احتمال پیش بینی یک نماد خط جدید را افزایش میدهد. ویژگی های دیگری نیز برعکس عمل میکنند و وقتی کلمه هنوز جا میشود، احتمال ایجاد خط جدید را کاهش میدهند. این تعادل میان دو نیروی متضاد، به تصمیم گیری نهایی برای تولید محتوای ساختار یافته و خوانا منجر میشود.
آیا مدل های زبان بزرگ دچار خطای دید میشوند؟
بخش بعدی تحقیق به شکل شگفت انگیزی جذاب میشود. محققان تلاش کردند تا بررسی کنند آیا مدل میتواند مستعد توهمات بصری که انسان ها را فریب میدهد، باشد یا خیر. آنها با این ایده شروع کردند که چگونه خطای دید میتواند باعث شود انسان ها دو خط با طول یکسان را با طول های متفاوت ببینند. آیا این مدل های زبان بزرگ نیز مانند انسان ها دچار خطای دید میشوند؟
آزمودن مدل های زبان بزرگ با خطای دید!
برای اینکه بفهمند درک ساختاری مدل های زبان بزرگ چقدر شبیه به انسان است، محققان دست به یک آزمایش خلاقانه زدند. آنها توکن های مصنوعی مانند “@@” را در متن وارد کردند تا ببینند آیا میتوانند حس موقعیت مدل را مختل کنند یا خیر. نتیجه شگفت انگیز بود: این کار باعث ایجاد ناهماهنگی در الگو های داخلی مدل شد، دقیقا مانند خطای دید که ادراک انسان را فریب میدهد. این نشان داد که درک مدل از ساختار، به زمینه و الگو های آموخته شده بستگی دارد. حتی با اینکه این مدل ها چشم ندارند، تحریف هایی در سازماندهی داخلی خود تجربه میکنند که بسیار شبیه به قضاوت اشتباه انسان هنگام دیدن است. محققان توضیح میدهند:
“ما دریافتیم که این کاراکتر های مصنوعی، پیش بینی مدل برای ایجاد خط جدید را مختل میکنند! همانطور که انتظار میرفت، هد های توجه (attention heads) مربوطه منحرف شدند و به جای تمرکز روی مرز خط، به کاراکتر های “@@” نیز توجه کردند.”
آنها در ادامه با ۱۸۰ توالی مختلف این آزمایش را تکرار کردند و دریافتند که فقط گروه کوچکی از کاراکتر های مرتبط با کدنویسی میتوانند فرآیند شمارش را مختل کنند. این نشان میدهد که مدل های زبان بزرگ نسبت به الگو های خاصی حساسیت دارند.
مدل های زبان بزرگ: درکی شبیه به بینایی برای متن
این مطالعه نشان میدهد که مدل های زبان بزرگ فقط پردازشگر نماد نیستند؛ آنها از متن، نقشه های مبتنی بر ادراک (perception-based maps) میسازند. این همان نکته کلیدی تحقیق است. محققان به طور مداوم از شباهت های این فرآیند با ادراک انسانی صحبت میکنند. آنها مینویسند:
“شاید بهتر باشد به جای توصیف لایه های اولیه مدل زبان به عنوان مسئول “توکن زدایی”، آن را “ادراک” بنامیم. بخش ابتدایی مدل واقعا مسئول “دیدن” ورودی است و بسیاری از مدار های اولیه در خدمت حس کردن یا درک متن هستند؛ درست مانند لایه های اولیه در مدل های بینایی که ادراک سطح پایین را پیاده سازی میکنند.”
آنها کمی بعد این تشابه را عمیق تر میکنند و به شباهت های آن با سیستم های عصبی بیولوژیکی اشاره میکنند. الگو های هندسی مشاهده شده، مانند اتساع (dilation) در نمایش اعداد، شباهت زیادی به نحوه عملکرد مغز انسان دارد. این همپوشانی مفهومی بین علوم اعصاب و هوش مصنوعی، مسیری جدید برای درک بهتر مدل های زبان بزرگ باز میکند.
این تحقیقات چه تاثیری بر سئو دارد؟
آرتور سی. کلارک، نویسنده بزرگ علمی تخیلی، معتقد بود فناوری بسیار پیشرفته از جادو قابل تشخیص نیست. شاید این تحقیقات مستقیما یک تکنیک جدید برای سئو به شما یاد ندهد، اما با رمزگشایی از نحوه عملکرد این سیستم ها، آنها را از یک “جعبه جادویی” به یک ابزار قابل درک تبدیل میکند. درک عمیق تر از اینکه مدل های زبان بزرگ چگونه ساختار محتوا را سازماندهی و تفسیر میکنند، به متخصصان سئو کمک میکند تا استراتژی های موثر تری برای تولید محتوا و بهینه سازی وب سایت ها برای آینده موتور های جستجو تدوین کنند. این دانش، قدرت واقعی برای هر متخصص در حوزه دیجیتال مارکتینگ است.

من، جعفر جلالی، سایت ایران بک لینک را راهاندازی کردم. با تکیه بر تجربیاتی که طی سالها در کسبوکارهای آنلاین به دست آوردهام و همچنین استفاده از منابع اصلی و معتبر انگلیسی، تلاش کردم بهترین مقالات و منابع آموزشی در زمینه سئو را به زبان فارسی گردآوری کنم. هدف من از ایجاد ایران بک لینک این است که به کسبوکارهای آنلاین کمک کنم تا با دسترسی به اطلاعات کاربردی و جامع، به موفقیت بیشتری دست پیدا کنند. امیدوارم که ایران بک لینک بتواند به منبعی قابلاعتماد برای شما تبدیل شود.


