چطور LLMها واقعاً محتوا را تفسیر میکنند
بیایید با اصول پایه شروع کنیم.
برخلاف رباتهای خزنده موتور جستجو که به شدت به نشانهگذاری، دادههای متا، و ساختار لینکها متکی هستند، LLMها (مدلهای زبانی بزرگ) محتوا را به شکلی متفاوت تفسیر میکنند.
آنها صفحه را مانند یک ربات اسکن نمیکنند. آنها محتوا را جذب کرده، آن را به توکنها تقسیم کرده و روابط بین کلمات، جملات، و مفاهیم را با استفاده از مکانیزمهای توجه (attention mechanisms) تجزیه و تحلیل میکنند.
آنها به دنبال تگ <meta> یا قطعهای از JSON-LD نیستند تا به آنها بگویند که یک صفحه درباره چیست. آنها به دنبال وضوح معنایی هستند: آیا این محتوا یک ایده روشن را بیان میکند؟ آیا منسجم است؟ آیا به طور مستقیم به یک سوال پاسخ میدهد؟
LLMهایی مانند GPT-4 یا Gemini موارد زیر را تجزیه و تحلیل میکنند:
-
ترتیب ارائه اطلاعات
-
سلسلهمراتب مفاهیم (به همین دلیل است که سرفصلها هنوز هم اهمیت دارند)
-
نشانههای قالببندی مانند نقطهگذاریها، جداول، و خلاصههای برجسته شده
-
تکرار و تقویت که به مدلها کمک میکند تا آنچه که مهمترین است را تعیین کنند
این دقیقاً دلیلی است که محتواهای ضعیف ساختاردهی شده – حتی اگر پر از کلمات کلیدی و نشانهگذاریشده با اسکیمای دادهای باشند – ممکن است در خلاصههای هوش مصنوعی نمایش داده نشوند، در حالی که یک پست وبلاگ روشن و به خوبی قالببندیشده بدون حتی یک خط JSON-LD ممکن است به طور مستقیم ارجاع داده شده یا پارافریز شود.
چرا ساختار در جستجوی هوش مصنوعی بیشتر از همیشه اهمیت دارد
جستجوی سنتی درباره رتبهبندی بود؛ جستجوی هوش مصنوعی درباره نمایهسازی است.
زمانی که یک مدل زبانی به یک درخواست پاسخ میدهد، از منابع زیادی استفاده میکند – اغلب جمله به جمله، پاراگراف به پاراگراف.
این مدلها یک صفحه کامل را بازیابی نکرده و نشان نمیدهند. بلکه یک پاسخ جدید میسازند که بر اساس آنچه که میتوانند درک کنند، شکل میگیرد.
چه چیزی بیشتر قابل درک است؟
محتوایی که:
-
به طور منطقی تقسیمبندی شده است، به طوری که هر قسمت یک ایده واحد را بیان میکند.
-
در لحن و واژگان خود سازگار است.
-
به شکلی ارائه شده است که برای تجزیه و تحلیل سریع مناسب باشد (مثل سوالات متداول (FAQs)، مراحل روش انجام کاری (how-to steps)، و مقدمههای تعریفگونه).
-
با وضوح نوشته شده است، نه با فریبندگی.
موتورهای جستجوی هوش مصنوعی نیازی به اسکیمای دادهای ندارند تا پاسخ گام به گام از یک پست وبلاگ بیرون بکشند.
اما، آنها به شما نیاز دارند که گامهای خود را به وضوح برچسبگذاری کنید، آنها را کنار هم نگه دارید و در متن طولانی و پر پیچ و خم دفن نکنید یا با فراخوانهای عمل (calls to action)، پاپآپها یا انحرافات غیرمرتبط قطع نکنید.
ساختار تمیز اکنون یک عامل رتبهبندی است – نه در معنای سنتی SEO، بلکه در اقتصاد ارجاعنویسی هوش مصنوعی که وارد آن شدهایم.
آنچه LLMها هنگام تجزیه و تحلیل محتوا به دنبال آن هستند
در اینجا آنچه من مشاهده کردهام (هم از طریق تجربه شخصی و هم از طریق آزمایش ابزارهایی مانند Perplexity، ChatGPT Browse، Bing Copilot، و مرورهای هوش مصنوعی گوگل) آورده شده است:
سرفصلها و زیرسرفصلهای واضح: LLMها از ساختار سرفصلها برای درک سلسلهمراتب استفاده میکنند. صفحات با لانهسازی صحیح H1–H2–H3 آسانتر از دیوارهای متنی یا الگوهای پر از div برای تجزیه و تحلیل هستند.
پاراگرافهای کوتاه و متمرکز: پاراگرافهای طولانی، نکته اصلی را پنهان میکنند. LLMها ترجیح میدهند که افکار خود به صورت مجزا بیان شوند. به این فکر کنید که هر پاراگراف یک ایده واحد داشته باشد.
قالبهای ساختاریافته (فهرستها، جداول، سوالات متداول): اگر میخواهید نقل قول شوید، کارتان را برای استخراج محتوا آسان کنید. گلولهها، جداول، و قالبهای پرسش و پاسخ معادن طلا برای موتورهای جستجوی پاسخ هستند.
محدوده موضوعی تعریفشده در ابتدا: TL;DR خود را زودتر قرار دهید. نگذارید مدل (یا کاربر) برای رسیدن به اصل مطلب، 600 کلمه از داستان برند شما را مرور کند.
نشانههای معنایی در بدنه متن: کلماتی مانند “به طور خلاصه”، “مهمترین”، “گام 1″، و “اشتباه رایج” به LLMها کمک میکنند تا ارتباط و ساختار را شناسایی کنند. دلیل استفاده زیاد از این عبارتهای “آشکار” در محتواهای تولید شده توسط هوش مصنوعی این است که مدل واقعاً میداند چگونه اطلاعات را به روشی ساختاردهی کند که شفاف، قابل هضم، و مؤثر باشد؛ چیزی که حقیقتاً بیش از آن چیزی است که میتوان درباره بسیاری از نویسندگان انسانی گفت.
یک مثال دنیای واقعی: چرا مقاله من نمایش داده نشد
در دسامبر 2024، من مقالهای درباره اهمیت اسکیمای دادهای در جستجوی مبتنی بر هوش مصنوعی نوشتم.
محتوا به گونهای ساختاردهی شده بود که شفافیت، زمانبندی و ارتباط بالایی با این بحث داشته باشد، اما در جستجوهای تحقیقاتی من برای این مقاله (همانطور که هماکنون در حال خواندن آن هستید) نمایش داده نشد. دلیل؟ من از عبارت “LLM” در عنوان یا URL استفاده نکردم.
تمام مقالاتی که در جستجوی من بازگشت داشتند، عبارت “LLM” را در عنوان خود داشتند. مقاله من گفت “AI Search” اما به طور صریح LLMها را ذکر نکرده بود.
شاید فرض کنید که یک مدل زبانی بزرگ (LLM) درک میکند که “جستجوی هوش مصنوعی” و “LLMها” از نظر مفهومی مرتبط هستند – و احتمالاً اینطور است – اما درک اینکه دو چیز مرتبط هستند و انتخاب اینکه چه چیزی را بر اساس درخواست (پرامپت) بازگرداند، دو موضوع متفاوت است.
مدل از کجا منطق جستجوی خود را میگیرد؟ از پرامپت. آن سوال شما را به طور حرف به حرف تفسیر میکند.
اگر بگویید “مقالات درباره LLMها و استفاده از اسکیمای دادهای را نشان بده”، مدل محتواهایی را که به طور مستقیم شامل “LLM” و “schema” هستند، نمایش میدهد – نه لزوماً محتواهایی که در کنار آنها، مرتبط یا معنایی مشابه دارند، به خصوص زمانی که انتخابهای زیادی برای انتخاب از کلمات موجود در پرسش (یا همان پرامپت) وجود دارد.
پس، حتی اگر LLMها از رباتهای سنتی هوشمندتر باشند، جستجو هنوز هم بر اساس نشانههای سطحی انجام میشود.
این ممکن است به نظر برسد که هنوز تحقیق کلمات کلیدی اهمیت دارد – و بله، قطعاً دارد. نه به این دلیل که LLMها ضعیف هستند، بلکه به این دلیل که رفتار جستجو (حتی در جستجوی هوش مصنوعی) هنوز به نحوه بیان انسانها بستگی دارد.
لایه جستجو – لایهای که تصمیم میگیرد چه چیزی واجد شرایط خلاصهسازی یا ارجاع است – هنوز هم توسط نشانههای زبانی سطحی هدایت میشود.
آنچه تحقیقها به ما درباره جستجو و بازیابی میگویند
حتی کارهای علمی اخیر نیز این دیدگاه لایهبندی شده از بازیابی را تایید میکنند.
مقالهای که در سال 2023 توسط Doostmohammadi و همکاران منتشر شد، نشان داد که تکنیکهای سادهتر تطابق کلمات کلیدی، مانند روشی به نام BM25، اغلب نتایج بهتری از روشهایی که تنها بر درک معنایی تمرکز دارند، به همراه میآورد.
این بهبود از طریق کاهش پرپلیکسیتی اندازهگیری شد، که به ما نشان میدهد یک مدل زبانی چقدر در پیشبینی کلمه بعدی مطمئن یا غیرمطمئن است.
به عبارت سادهتر: حتی در سیستمهایی که به طور خاص برای هوشمند بودن طراحی شدهاند، استفاده از عبارتهای شفاف و صریح همچنان پاسخها را بهتر میکند.
پس درس فقط این نیست که از زبانی که مدلها برای شناسایی آن آموزش دیدهاند استفاده کنید. درس واقعی این است: اگر میخواهید محتوای شما پیدا شود، باید بدانید جستجوی هوش مصنوعی به عنوان یک سیستم چگونه کار میکند – یک زنجیره از پرامپتها، بازیابی، و سنتز. علاوه بر این، باید مطمئن شوید که در لایه بازیابی با سیستم هماهنگ هستید.
این مسئله مربوط به محدودیتهای درک هوش مصنوعی نیست. بلکه مربوط به دقت در بازیابی است.
مدلهای زبانی قادرند محتوای دقیق و پیچیده را تفسیر کنند، اما زمانی که به عنوان عامل جستجو عمل میکنند، هنوز هم به خاص بودن پرسشهایی که به آنها داده میشود وابسته هستند.
این امر باعث میشود که اصطلاحات، نه فقط ساختار، بخش کلیدی از دیده شدن باشند.
چگونه محتوا را برای جستجوی هوش مصنوعی ساختاردهی کنیم
اگر میخواهید شانس خود را برای ارجاع، خلاصهسازی، یا نقل قول شدن توسط موتورهای جستجوی مبتنی بر هوش مصنوعی افزایش دهید، وقت آن است که کمتر مانند یک نویسنده فکر کنید و بیشتر مانند یک معمار اطلاعات – و محتوا را به گونهای ساختاردهی کنید که برای جستجوی هوش مصنوعی مناسب باشد.
این به معنی فدا کردن صدا یا بینش نیست، بلکه به این معناست که ایدهها را به شکلی ارائه دهید که استخراج، تفسیر و بازسازی آنها آسان باشد.
تکنیکهای اصلی برای ساختاردهی محتوای مناسب برای هوش مصنوعی
در اینجا برخی از مؤثرترین تاکتیکهای ساختاری که من پیشنهاد میکنم آورده شده است:
استفاده از سلسلهمراتب منطقی سرفصلها
صفحات خود را با یک H1 واضح که زمینه را تنظیم میکند شروع کنید، و سپس با H2 و H3هایی که به طور منطقی زیر آن قرار میگیرند، ساختار دهید.
LLMها، مانند خوانندگان انسانی، به این سلسلهمراتب برای درک جریان و رابطه بین مفاهیم وابسته هستند.
اگر هر سرفصل در صفحه شما یک H1 باشد، شما سیگنال میدهید که همه چیز به یک اندازه اهمیت دارد، که به این معنی است که هیچ چیزی برجسته نمیشود.
ساختار خوب سرفصلها نه تنها از نظر معنایی مناسب است؛ بلکه یک نقشه برای درک محتوا فراهم میکند.
پاراگرافها را کوتاه و مستقل نگه دارید
هر پاراگراف باید یک ایده را به طور واضح منتقل کند.
دیوارهای متنی نه تنها خوانندگان انسانی را میترسانند؛ بلکه احتمال این که مدل هوش مصنوعی بخش اشتباهی از پاسخ را استخراج کند یا کل محتوا را نادیده بگیرد، افزایش میدهند.
این موضوع به طور مستقیم با معیارهای خوانایی مانند نمره Flesch Reading Ease مرتبط است که جملات کوتاهتر و عبارات سادهتر را ارزیابی میکند.
اگرچه این ممکن است برای کسانی که از جملات طولانی و پیچیده لذت میبرند (مثل خودم) سخت باشد، اما شفافیت و تقسیمبندی کمک میکند تا هم انسانها و هم LLMها بتوانند جریان فکر شما را دنبال کنند بدون اینکه دچار انحراف شوند.
استفاده از فهرستها، جداول، و قالبهای قابل پیشبینی
اگر محتوای شما میتواند به یک راهنمای گام به گام، فهرست شمارهگذاریشده، جدول مقایسهای، یا تجزیه و تحلیل گلولهای تبدیل شود، این کار را انجام دهید. خلاصهسازهای هوش مصنوعی از ساختار خوششان میآید، کاربران هم همینطور.
دیدگاههای کلیدی را در ابتدای متن قرار دهید
بهترین مشاوره یا مهمترین تعاریف خود را برای انتها نگه ندارید.
LLMها تمایل دارند آنچه را که زودتر در محتوا ظاهر میشود، اولویت دهند. بنابراین پایاننامه، تعریف یا نکته اصلی خود را بالا بگذارید و سپس آن را گسترش دهید.
استفاده از نشانههای معنایی
با عباراتی مانند “گام 1″، “به طور خلاصه”، “نکته کلیدی”، “شایعترین اشتباه” و “برای مقایسه” ساختار را سیگنال دهید.
این عبارات به LLMها (و خوانندگان) کمک میکنند تا نقش هر بخش از متن را شناسایی کنند.
از نویز پرهیز کنید
پاپآپهای مداخلهگر، پنجرههای مودال، درخواستهای مکرر برای اقدام (CTA) و کاروسلهای ناهمگون میتوانند محتوای شما را آلوده کنند.
حتی اگر کاربر آنها را ببندد، معمولاً هنوز در مدل شیء سند (DOM) حضور دارند و آنچه که LLM میبیند را کاهش میدهند.
محتوای خود را مانند یک نسخهبرداری تصور کنید: اگر آن را بلند بخوانید، چه صدایی خواهد داشت؟ اگر در این قالب پیگیری آن سخت باشد، ممکن است برای یک LLM نیز پیگیری آن دشوار باشد.
نقش اسکیمای داده: هنوز مفید است، اما نه یک راهحل جادویی
بیایید واضح باشیم: دادههای ساختاریافته هنوز ارزش دارند. آنها به موتورهای جستجو کمک میکنند تا محتوا را درک کنند، نتایج غنی (rich results) را پر کنند و موضوعات مشابه را تفکیک کنند.
با این حال، LLMها برای درک محتوای شما به آن نیاز ندارند.
اگر سایت شما یک آشفتگی معنایی است، اسکیمای دادهای ممکن است به شما کمک کند، اما آیا بهتر نیست که ابتدا از ایجاد چنین آشفتگیای جلوگیری کنید؟
اسکیمای دادهای یک تقویتکننده مفید است، نه یک راهحل جادویی. ابتدا به ساختار واضح و ارتباطات توجه کنید و از نشانهگذاری برای تقویت محتوا استفاده کنید – نه برای نجات آن.
چگونه اسکیمای داده هنوز به درک هوش مصنوعی کمک میکند
با این حال، گوگل اخیراً در رویداد Search Central Live در مادرید تأیید کرده است که LLM آن (جمنای) که موتور جستجوی AI Overviews را به راه میاندازد، از دادههای ساختاریافته برای کمک به درک بهتر محتوا استفاده میکند.
در واقع، در این رویداد، جان مولر توصیه کرد که از دادههای ساختاریافته استفاده کنید زیرا این دادهها سیگنالهای واضحتری درباره قصد و ساختار به مدلها میدهند.
این نکته با آنچه گفته شد در تناقض نیست؛ بلکه آن را تقویت میکند. اگر محتوای شما از پیش ساختاردهی و قابل فهم نباشد، اسکیمای دادهای میتواند به پر کردن شکافها کمک کند. این یک وسیله کمکی است، نه یک درمان.
اسکیمای دادهای یک تقویتکننده مفید است، اما جایگزینی برای ساختار و شفافیت نیست.
در محیطهای جستجوی مبتنی بر هوش مصنوعی، ما میبینیم که محتوای بدون هیچ داده ساختاریافتهای در ارجاعات و خلاصهها نمایش داده میشود، زیرا محتوای اصلی به خوبی سازماندهی، به خوبی نوشته شده و به راحتی قابل تجزیه و تحلیل است.
به طور خلاصه:
-
از اسکیمای دادهای زمانی استفاده کنید که کمک به شفافسازی قصد یا زمینه محتوا کند.
-
به آن برای اصلاح محتوای بد یا یک طرح نادرست تکیه نکنید.
-
کیفیت محتوا و طرحبندی را قبل از نشانهگذاری اولویت قرار دهید.
-
آینده دیدهشدن محتوا بستگی به چگونگی ارتباط شما دارد، نه فقط چگونگی برچسبگذاری.
نتیجهگیری: ساختاردهی برای معنا، نه فقط برای ماشینها
بهینهسازی برای LLMها به معنی دنبال کردن ابزارها یا ترفندهای جدید نیست. بلکه به این معنی است که بر آنچه که همیشه برای ارتباط مؤثر لازم بوده، تمرکز کنید: شفافیت، انسجام و ساختار.
اگر میخواهید رقابتی بمانید، باید محتوا را برای جستجوی هوش مصنوعی به همان دقتی که برای خوانندگان انسانی ساختاردهی میکنید، ساختاردهی کنید.
بهترین محتوای موجود در جستجوی هوش مصنوعی لزوماً بهینهترین محتوا نیست. بلکه محتوایی است که قابل فهمتر باشد. این یعنی:
-
پیشبینی چگونگی تفسیر محتوا، نه فقط ایندکس شدن آن.
-
دادن چارچوبی به هوش مصنوعی که برای استخراج ایدههای شما به آن نیاز دارد.
-
ساختاردهی صفحات برای درک، نه فقط برای تطابق.
-
پیشبینی و استفاده از زبانی که مخاطبان شما از آن استفاده میکنند، زیرا LLMها به طور حرف به حرف به پرامپتها پاسخ میدهند و بازیابی بر اساس این عبارات دقیق انجام میشود.
همزمان با تغییر جستجو از لینکها به زبان، وارد عصر جدیدی از طراحی محتوا میشویم. عصری که در آن معنا در صدر قرار میگیرد و برندهایی که برای درک بهتر ساختاردهی میکنند، همزمان با آن بالا خواهند رفت.