Tim hiểu về cách thức thu thập thông tin và lập chỉ mục của Google

Chúng ta đều hiểu và biết sơ qua về cách thu thập thông tin và cách lập chỉ mục (index) của Google. Hành trình của một truy vấn bắt đầu trước khi bạn nhập tìm kiếm, với việc thu thập thông tin và lập chỉ mục hàng nghìn tỷ tài liệu trên web. Và chúng ta cùng đi tìm hiểu quy trình này được diễn ra ra sao?

Cách thức hoạt động của tính năng Tìm kiếm

Các quy trình này thiết lập nền tảng — đó là cách chúng tôi thu thập và sắp xếp thông tin trên web để chúng tôi có thể đưa ra các kết quả hữu ích nhất cho bạn. Chỉ mục của chúng tôi ở mức hơn 100.000.000 gigabyte và chúng tôi đã dành trên một triệu giờ tính toán để tạo chỉ mục. Tìm hiểu thêm về các thông tin cơ bản trong video ngắn này.

Tìm thông tin bằng việc thu thập dữ liệu

Chúng tôi sử dụng phần mềm có tên “trình thu thập thông tin web” để khám phá các trang web công khai hiện có. Trình thu thập thông tin nổi tiếng nhất có tên là “Googlebot”. Trình thu thập thông tin xem các trang web và dò theo liên kết trên các trang đó, giống như khi bạn duyệt nội dung trên web. Chúng đi từ liên kết này tới liên kết khác và mang dữ liệu về các trang web đó về cho máy chủ của Google.

Quá trình thu thập thông tin bắt đầu với danh sách các địa chỉ web từ các lần thu thập thông tin trước đó và sơ đồ trang web do chủ sở hữu trang web cung cấp. Khi các trình thu thập thông tin của chúng tôi truy cập các trang web này, chúng sẽ tìm các liên kết cho những trang khác để truy cập. Phần mềm đặc biệt chú ý tới các trang web mới, các thay đổi đối với trang web hiện tại và các liên kết không còn hoạt động.

Các chương trình máy tính xác định những trang web nào cần thu thập thông tin, tần suất cũng như số lượng trang cần tìm nạp từ mỗi trang web. Google không chấp nhận khoản thanh toán để thu thập thông tin một trang web thường xuyên hơn cho các kết quả tìm kiếm trên web của mình. Chúng tôi quan tâm hơn đến việc có các kết quả tốt nhất có thể bởi vì về lâu dài, đó là điều tốt nhất cho người dùng và do vậy, cho doanh nghiệp của chúng tôi.

Sắp xếp thông tin bằng cách lập chỉ mục

Hệ thống web giống như một thư viện công cộng không ngừng phát triển với hàng tỷ cuốn sách và không có hệ thống quản lý trung tâm. Google về cơ bản gom góp các trang web trong quá trình thu thập thông tin, sau đó tạo chỉ mục để chúng tôi biết chính xác cách tra cứu nội dung. Giống như chỉ mục ở phía sau của một cuốn sách, chỉ mục của Google cũng bao gồm thông tin về các từ và vị trí của chúng. Khi bạn tìm kiếm, ở mức cơ bản nhất, các thuật toán của chúng tôi sẽ tra cứu những cụm từ tìm kiếm của bạn trong chỉ mục để tìm các trang phù hợp.

Quy trình tìm kiếm trở nên phức tạp hơn kể từ giai đoạn đó. Khi bạn tìm kiếm từ “chó” bạn không muốn một trang với từ “chó” xuất hiện hàng trăm lần. Bạn có thể muốn tìm hình ảnh, video hoặc một danh sách các giống chó. Các hệ thống lập chỉ mục của Google ghi chú nhiều khía cạnh khác nhau của trang, chẳng hạn như thời gian trang được xuất bản, liệu trang có chứa hình ảnh và video hay không và nhiều hơn thế. Với Đồ thị tri thức này, chúng tôi tiếp tục đi xa hơn việc kết hợp từ khóa để hiểu rõ hơn về con người, địa điểm và những thứ mà bạn quan tâm.

Lựa chọn cho chủ sở hữu trang web

Hầu hết các trang web không cần thiết lập giới hạn cho việc thu thập thông tin, lập chỉ mục hay cung cấp, vì thế các trang web của họ có đủ điều kiện để xuất hiện trong các kết quả tìm kiếm mà không phải làm thêm bất kỳ công việc gì. Điều đó có nghĩa là chủ sở hữu trang web có nhiều lựa chọn về cách Google thu thập thông tin và lập chỉ mục trang web của họ thông qua Công cụ quản trị trang web và một tệp gọi là “robots.txt”. Với tệp robots.txt, chủ sở hữu trang web có thể chọn không cho Googlebot thu thập thông tin hoặc họ có thể cung cấp các hướng dẫn cụ thể hơn về cách xử lý các trang trên trang web của họ.

Chủ sở hữu trang web có các lựa chọn ở mức chi tiết và có thể chọn cách nội dung được lập chỉ mục theo cơ sở từng trang. Ví dụ: họ có thể chọn để các trang của mình xuất hiện mà không có đoạn trích (đoạn tóm tắt hiển thị bên dưới tiêu đề trong kết quả tìm kiếm) hoặc phiên bản được lưu trong bộ nhớ cache (phiên bản thay thế được lưu trữ trên máy chủ của Google đề phòng trường hợp trang trực tuyến không khả dụng). Các quản trị viên web cũng có thể chọn tích hợp tính năng tìm kiếm vào các trang của riêng họ với Tìm kiếm tùy chỉnh.

Theo tài liệu insidesearch của google

Hãy bình chọn bài viết


Fatal error: Call to undefined function get_related_posts_thumbnails() in /home/content/12/5007712/html/vietnamads/wp-content/themes/vietnamads/content-single.php on line 68