یادگیری ساز و کار گوگل در ایندکس کردن، بررسی و به کارگیری صفحات موجود در دنیای وب

موتور جستجو گوگل چگونه کار می کند ؟

گوگل چگونه صفحاتی را که مرتبط به درخواست شما است را پیدا می کند و بر چه اساسی ترتیب نمایش نتایج پیدا شده را مشخص می کند؟

یا به بیان سادتر ، جستجو در وب مانند جستجو یک موضوع در یک کتاب بسیار بزرگ می باشد و وجود یک فهرست دقیق و کامل خیلی سریع به ما می گوید که هر مطلبی دقیقا در چه فصل و یا صفحه ای قرار دارد.
وقتی که جستجویی در گوگل انجام می شود، گوگل نیز فهرست خود را بررسی می کند تا مرتبط ترین نتایج را متناسب با جستجو کاربران ارائه کند.

در ارائه نتایج جستجو به کاربران 3 مرحله مهم وجود دارد :

1-  Crawling  :  پیدا کردن و مورد بررسی قرار دادن سایت توسط ربات های موتورهای جستجو
آیا گوگل سایت شما را می شناسد ؟ آیا توانسته سایت شما را در وب پیدا کند ؟

2-  Indexing : فهرست بندی و ذخیره کردن اطلاعات سایت
آیا گوگل می تواند اطلاعات سایت شما را فهرست بندی و در دیتابیس های خود ذخیره کند؟

3-  Serving : ارائه پاسخ به درخواست جستجو کاربران
آیا سایت شما محتواهای خوب و کاربردی دارد که به جستجو ها و درخواست های کاربران مربوط باشد ؟

Crawling

crawling یا عمل بررسی سایت، فرآیندی است که توسط ربات گوگل (googlebot) جهت پیدا کردن صفحات جدید یا آپدیت شده، برای اضافه کردن به فهرست گوگل انجام می پذیرد.
گوگل از مجموعه عظیمی از کامپیوترها برای فراخوانی و بررسی بیلیون ها صفحه موجود در دنیای وب استفاده می کند; و برنامه ای که این فراخوانی و بررسی ها را انجام می دهد googlebot  نام دارد. (البته به نام ربات یا عنکبوت نیز شناخته می شود )
ربات گوگل از یک الگوریتم بسیار پیچیده و مخصوص به خود استفاده می کند و این برنامه و الگوریتم ها مشخص می کنند که کدام سایت ها و هر کدام هر چند وقت یکبار مورد بررسی قرار بگیرند، و چه تعداد صفحه از هر سایت فراخوانی و بررسی شود.

گوگل پروسه بررسی صفحات وب را با لیستی از لینک هایی شروع می کند که همه آن ها را از بررسی های قبلی خود جمع آوری کرده است، بعلاوه اطلاعات و لینک هایی که در نقشه سایت توسط مدیران وب سایت ها فراهم شده است.
هر زمان که ربات گوگل سایتی را بررسی می کند، کلیه لینک های را که هنگام بررسی صفحات مشاهده می کند، به لیست خود جهت بررسی ها بعدی خود اضافه می کند. کلیه سایت های جدید، تغییرات در سایت های فعلی، لینک ها و صفحات حذف شده، همه و همه به قولی یادداشت می شوند تا در فهرست بندی و اطلاعات ذخیره شده نزد گوگل بروز رسانی شوند.

خود گوگل صراحتا اعلام کرده است که بحث بررسی کردن سایت ها و تعداد دفعاتی که این کار را برای هر سایت انجام می دهد، کاملا رایگان بوده و هرگز با پرداخت هزینه روال این بررسی را تغییر نخواهد داد (مثلا با دریافت پول یک سایت را بیشتر و سریعتر مورد بررسی قرار دهد) و بحث جستجو در وب را از بحث تبلیغات و درآمدزایی های خود کاملا تفکیک و مجزا کرده است

Indexing

پس از اینکه ربات گوگل صفحات وب را پیدا و بررسی کرد در مرحله دوم کاری خود شروع به پردازش اطلاعات تمامی این صفحات خواهد کرد و در طی این پردازش یک فهرست کامل از تمامی کلمات موجود در صفحات به همراه آدرس صفحه ای که هر کلمه که در آن واقع شده است آماده می کند.
علاوه بر این گوگل تمامی اطلاعاتی اضافی مانند مقادیر تگ های Title یا ALT  که به صورت برچسب یا توضیح جانبی در متن استفاده شده است، را نیز پردازش می کند.

با اینکه ربات گوگل محدودیتی در پردازش اطلاعات ندارد و می تواند اطلاعات بسیار زیادی را پردازش کند، اما همه نوع محتوایی را نمی تواند پردازش کند مثلا محتواهای موجود در یک فایل تصویری یا ویدئویی را نیم تواند مستقیما پردازش کند یا مثلا صفحاتی که در سایت به صورت داینامیک تولید می شوند (مثلا یک فروشگاه لباس را در نظر بگیرید کاربر می تواند جستجو کند لباس از نوع گرمکن، رنگ آبی، سایز بزرگ، در این حالت سایت اطلاعات این جستجو را در یک صفحه ای خاص به کاربر نشان می دهد که لینک آن صفحه بر اساس نوع جستجو توسط خود سیستم ساخته می شود)

Serving results

در مرحله آخر از روال کاری موتور جستجو گوگل، وقتی کاربری درخواست را برای جستجو برای گوگل ارسال می کند، گوگل بین تمامی صفحات و اطلاعاتی که در مرحله دوم فهرست بندی کرده است شروع به جستجو می کند و صفحاتی را که طبق تحلیل ها و پردازش های خودش بیشترین نزدیکی و ارتباط را با جستجو کاربر داشته به عنوان نتیجه بر می گرداند.

گوگل بیش از 200 فاکتور را برای تشخیص میزان ارتباط بین جستجو کاربران و اینکه چه نتایجی برگردانده شود را بررسی می کند. مثلا یکی از این معیار های رتبه صفحات یا همان pagerank می باشد. پیج رنک میزان اهیمت یک صفحه است که بر اساس تعداد لینک های خارجی یک صفحه (back links)  مشخص می شود. به بیان ساده تر هر لینکی که از سایر سایت ها به یکی از صفحات سایت شما داده می شود در رتبه و میزان پیج رنک هر صفحه تاثیر گذار است و البته میزان تاثیر همه لینک های خارجی یکسان نیست و بهترین لینک های خارجی لینک هایی هستند که به خاطر محتوای مفید و با کیفیت در سایت شما منتشر شده است.

و خود گوگل روی این موضوع بسیار حساس است که بهترین نتیجه را برای کاربرانش که درخواست جستجو به او داده اند را به همراه داشته باشد و برای این هدف نیز سخت تلاش می کند تا لینک های اسپم و روش هایی که بر نتایج تاثیر منفی میگذارند را شناسای کند و بتواند بهترین حس را برای کاربرانش به ارمغان بیاورد.

برای اینکه سایت شما در صفحه نتایج جستجو رتبه خوبی داشته باشد، خیلی مهم است که قبل از هر چیزی مطمئن شوید که گوگل می تواند به صفحات و محتویات سایت شما دسترسی داشته باشد و بتواند آن ها را بررسی کند (Crawling) و اطلاعات خوانده شده را پردازش و فهرست بندی کند (indexing) (توسط ابزار گوگل وبمستر شما می توانید وضعیت بررسی و ایندکس سایت خود و یا خطاهایی که ربات گوگل  با آن ها مواجه شده است را بررسی کنید)

گوگل در بخش آموزشی خود برای مدیران وب سایت ها، دستورالعمل ها و راهنمایی ها مفیدی را قرار داده، و مدیران وب سایت ها با رعایت کردن آن ها، نه تنها از خیلی از مشکلات و جریمه های گوگل می توانند دور باشند بلکه می توانند رتبه خوبی نیز در نتایج جستجو گوگل کسب کنند.

در خصوص جستجو و ارائه نتایح توسط گوگل، زمانی که در حال نوشتن کلمه یا عبارت مور نظر خود برای جستجو هستند، اگر دقت کرده باشید خود گوگل شروع به تکمیل اتوماتیک عبارت شما می کند و مواردی را به شما پیشنهاد می دهد. این قابلیت گوگل صرفا برای صرفه جویی در زمان کاربران طراحی و پیاده سازی شده است و عباراتی که پیشنهاد میدهد بر اساس بیشترین درخواست هایی است که توسط سایر کاربران داده شده است (البته متناسب با کلماتی که شما در حال تایپ هستید) و اگر سایتی برای یک عبارت یا کلمه کلیدی رتبه خوب و بالایی داشته باشد علت آن تحلیل اتوماتیک ربات های گوگل از محتوای آن سایت است و تشخیص اینکه آن محتوا بیشترین ارتباط و نزدیکی را با درخواست جستجو داده شده توسط کاربران دارد.

ارسال پاسخ