Những thực hành tốt nhất để thiết lập thẻ meta robots và robots.txt
 

Những thực hành tốt nhất để thiết lập thẻ meta robots và robots.txt

Thảo luận trong 'Thảo luận Seo' bắt đầu bởi ntphong, 5/10/17.

Những thực hành tốt nhất để thiết lập thẻ meta robots và robots.txt

Thảo luận Seo, 5/10/17. Trả lời: 0, Đọc: 379.

ntphong ntphong

Lượt xem: 379


Bạn đang xem:

Những thực hành tốt nhất để thiết lập thẻ meta robots và robots.txt

Coppy cùng chia sẻ nhé bạn!
  1. ntphong

    ntphong Administrator Staff Member

    Tham gia ngày:
    25/12/14
    Bài viết:
    51,323
    Trang chủ:

    Những Cảnh Đẹp Của Việt Nam Qua Góc Nhìn Từ FlyCam PhanTom 3 Professional (Video 4K)

    Bấm Youtube để đăng ký xem video nhé!


    Các nhà marketing digital và các chuyên gia SEO đều nhận thấy được tầm quan trọng của việc công cụ tìm kiếm lập chỉ mục như thế nào. Đó là lý do tại sao họ đang cố gắng hết sức để giúp Google thu thập dữ liệu và index các trang web của họ đúng cách, đầu tư thời gian và nguồn lực để tối ưu hóa on-page và off-page như nội dung, các liên kết, các thẻ, meta descriptions, tối ưu hóa hình ảnh, cấu trúc trang web...

    [​IMG]

    Không thể phủ nhận rằng việc tối ưu hóa trang web là bước cơ bản để thành công trong tìm kiếm nhưng chúng ta lại quên đi những khía cạnh kỹ thuật SEO và mắc phải một sai lầm nghiêm trọng. Nếu bạn chưa bao giờ nghe nói đến robots.txt, thẻ meta robots, XML sitemaps, microformats và thẻ X-Robot, bạn có thể gặp rắc rối.

    Đừng hoảng sợ. Trong bài viết này tôi sẽ giải thích cách sử dụng và thiết lập các thẻ robots.txt và thẻ meta robot. Tôi sẽ cung cấp một số ví dụ thực tế để bạn hiểu.

    Robots.txt là gì?

    Robots.txt là một tệp văn bản được sử dụng để hướng dẫn bots tìm kiếm cách để thu thập thông tin và lập chỉ mục các trang web. Lý tưởng là tập tin robots.txt được đặt trong thư mục cấp cao nhất của trang web để robots có thể truy cập các chỉ dẫn của nó ngay lập tức.

    Để các lệnh giao tiếp với các trình thu thập khác, tập tin robots.txt phải tuân thủ theo các tiêu chuẩn cụ thể được đề cập trong Robots exclusion protocol (REP) - được tạo ra từ năm 1994 và sau đó được mở rộng vào năm 1996, 1997 và năm 2005.

    Trong suốt lịch sử của họ, tập tin robots.txt đã được cải thiện dần để hỗ trợ các chỉ thị cụ thể của trình thu thập thông tin, tiện ích URI-pattern, chỉ thị index (còn được gọi là thẻ REP hoặc thẻ robots meta) và microformat rel=“nofollow.”

    Vì tập tin robots.txt cung cấp cho bots tìm kiếm các hướng dẫn về cách thu thập thông tin hoặc cách thu thập dữ liệu này hoặc phần của trang web, việc biết cách sử dụng và thiết lập các tập tin này là khá quan trọng. Nếu tập tin robots.txt được thiết lập không chính xác, nó có thể gây ra nhiều lỗi index. Vì vậy, mỗi khi bạn bắt đầu một chiến dịch SEO mới, hãy kiểm tra tập tin robots.txt của bạn bằng công cụ robots texting của Google.

    Đừng quên: nếu mọi thứ đều đúng, tập tin robots.txt sẽ tăng tốc quá trình index.

    Ẩn gì với Robots.txt

    Tập tin Robots.txt có thể được sử dụng để loại bỏ các thư mục, danh mục và các trang cụ thể ra khỏi tìm kiếm. Để kết thúc, sử dụng chỉ thị "disallow". Dưới đây là một số trang mà bạn nên ẩn bằng tập tin robots.txt:

    - Các trang có nội dung trùng lặp
    - Phân trang
    - Trang sản phẩm và dịch vụ động
    - Các trang tài khoản
    - Các trang quản trị
    - Shopping cart
    - Chats
    - Trang Thank-you

    Về cơ bản, nó trông như thế này:
    [​IMG]
    Trong ví dụ ở trên, tôi hướng dẫn Googlebot tránh thu thập và lập chỉ mục tất cả các trang liên quan đến tài khoản người dùng, giỏ hàng và nhiều trang động được tạo khi người dùng tìm kiếm các sản phẩm trong thanh tìm kiếm hoặc sắp xếp theo giá cả...

    Tuy nhiên đừng quên rằng tập tin robots.txt được công khai trên web. Để truy cập tập tin robots.txt, chỉ cần gõ:

    www.thegioiseo.com/robots.txt (thay tên miền thegioiseo.com bằng tên miền của bạn)

    Tính khả dụng này có nghĩa là bạn không thể bảo vệ hoặc ẩn bất kỳ dữ liệu nào trong đó. Hơn nữa, các robot xấu và trình thu thập thông tin độc hại có thể tận dụng tập tin robots.txt, sử dụng nó như một bản đồ chi tiết để điều hướng các trang web có giá trị nhất của bạn. Ngoài ra, hãy lưu ý rằng các lệnh robots.txt thực ra là các chỉ thị. Điều này có nghĩa là các chương trình tìm kiếm có thể thu thập thông tin và lập chỉ mục trang web của bạn ngay cả khi bạn không hướng dẫn họ. Tin vui là hầu hết các công cụ tìm kiếm (như Google, Bing, Yahoo và Yandex) đều tôn trọng các chỉ thị robots.txt.

    Chắc chắn tập tin robots.txt có nhược điểm. Tuy nhiên, tôi khuyên bạn nên làm cho chúng trở thành một phần không thể tách rời của mọi chiến dịch SEO.

    Cách sử dụng Robots.txt

    Tập tin Robots.txt là khá linh hoạt và có thể được sử dụng theo nhiều cách. Tuy nhiên, lợi ích chính của chúng là chúng cho phép các chuyên gia SEO “allow” hoặc “disallow” nhiều trang cùng một lúc mà không cần truy cập code của từng trang.

    Ví dụ: bạn có thể chặn tất cả trình thu thập thông tin tìm kiếm khỏi nội dung. Như thế này:

    User-agent: *
    Disallow: /
    Hoặc ẩn cấu trúc thư mục của trang web và các danh mục cụ thể, như sau:

    User-agent: *
    Disallow: /no-index/
    Nó cũng hữu ích để loại trừ nhiều trang khỏi tìm kiếm. Chỉ cần phân tích các URL bạn muốn ẩn từ trình thu thập thông tin tìm kiếm. Sau đó, thêm lệnh “disallow” vào trong robots.txt của bạn, liệt kê các URL và các trang không còn hiển thị với Google.

    [​IMG]

    Tuy nhiên, điều quan trọng hơn là tập tin robots.txt cho phép bạn ưu tiên các trang, danh mục và thậm chí cả các mã CSS và JS. Hãy xem ví dụ dưới đây:
    [​IMG]
    Tại đây, chúng tôi đã không cho phép các trang WordPress và các danh mục cụ thể, nhưng các tệp tin wp-content, các plugin JS, CSS styles và blog được allow. Cách tiếp cận này đảm bảo rằng spider thu thập thông tin và index ngay từ đầu.

    Một điều quan trọng nữa: tập tin robots.txt là một trong những vị trí có thể có cho tập tin sitemap.xml của bạn. Nó nên được đặt sau các lệnh User-agent, Disallow, Allow và Host. Như thế này:
    [​IMG]
    Lưu ý: bạn cũng có thể thêm tập tin robots.txt vào Google Search Console và nếu bạn muốn nhắm mục tiêu vào Bing thì bạn sẽ thêm vào Bing Webmaster Tools. Đây là cách tiếp cận an toàn hơn nhiều để bảo vệ nội dung khỏi bị sao chép bởi các webmaster của các trang web đối thủ cạnh tranh.

    Mặc dù cấu trúc robots.txt và cài đặt khá đơn giản, một tập tin được thiết lập đúng cách có thể tạo hoặc phá vỡ chiến dịch SEO của bạn. Hãy cẩn thận với cách cài đặt: Bạn có thể dễ dàng “disallow” toàn bộ trang web của bạn do nhầm lẫn và sau đó chờ đợi lưu lượng truy cập.

    Thẻ meta robots là gì?

    Thẻ meta robots (thẻ REP) cho trình thu thập biết cách công cụ tìm kiếm thu thập thông tin và lập chỉ mục trang web của bạn. Chúng cho phép các chuyên gia SEO nhắm mục tiêu vào các trang cá nhân và hướng trình thu thập biết phải làm gì và không nên follow gì.

    Cách sử dụng thẻ meta robots

    Thẻ meta robots sử dụng khá đơn giản.

    Thứ nhất, không có nhiều thẻ REP. Chỉ có 4 tham số thẻ chính:

    - Follow

    - Index

    - Nofollow

    - Noindex

    Thứ 2, không mất nhiều thời gian để thiết lập thẻ meta robots. Trong bốn bước đơn giản, bạn có thể thực hiện quá trình lập chỉ mục trang web của mình:

    - Truy cập code của trang bằng cách nhấn CTRL + U.

    - Copy và paste phần <head> của mã trang vào một tài liệu riêng biệt.

    - Đưa hướng dẫn chi tiết để các nhà phát triển sử dụng tài liệu này. Tập trung vào việc làm thế nào, ở đâu và thẻ meta robots được thêm vào code như thế nào.

    - Kiểm tra để đảm bảo rằng nhà phát triển đã triển khai thẻ một cách chính xác. Tôi khuyên bạn nên sử dụng The Screaming Frog SEO Spider để làm điều đó.

    Ảnh chụp màn hình dưới đây cho thấy thẻ meta robot trông như thế nào (hãy kiểm tra dòng code đầu tiên):

    [​IMG]

    Thứ 3: thẻ meta robots được chấp nhận bởi các công cụ tìm kiếm chính như: Google, Bing, Yahoo và Yandex. Bạn không phải chỉnh code cho từng công cụ tìm kiếm hoặc trình duyệt.

    Các thông số chính của thẻ meta robots

    Như đã đề cập ở trên, REP có 4 tham số chính: follow, index, nofollow và noindex. Đây là cách bạn có thể sử dụng chúng:

    - index, follow: cho phép bots tìm kiếm index một trang và follow liên kết của nó.

    - noindex, nofollow: chặn bots tìm kiếm index một trang và follow liên kết của nó.

    - index, nofollow: cho phép công cụ tìm kiếm index một trang nhưng ẩn liên kết của nó khỏi spider tìm kiếm.

    - noindex, follow: loại trừ một trang khỏi công cụ tìm kiếm nhưng cho phép follow các liên kết của nó (link juice giúp tăng SERPs).

    Các tham số thẻ REP là khác nhau. Dưới đây là một trong số ít những tham số ít sử dụng:

    - none

    - noarchive

    - nosnippet

    - unavailabe_after

    - noimageindex

    - nocache

    - noodp

    - notranslate

    Thẻ robots meta rất cần thiết nếu bạn cần tối ưu hóa các trang cụ thể. Chỉ cần truy cập vào code và hướng dẫn nhà phát triển những việc cần làm.

    Nếu trang web của bạn chạy trên CMS nâng cao (OpenCart, PrestaShop) hoặc sử dụng các plugin cụ thể (như WP Yoast), bạn cũng có thể chèn thẻ meta và các thông số của chúng vào mẫu trang. Điều này cho phép bạn chứa nhiều trang cùng một lúc mà không cần phải nhờ sự giúp đỡ từ các nhà phát triển.

    Các nguyên tắc cơ bản để thiết lập robots.txt và thẻ meta robots

    Biết cách thiết lập và sử dụng tập tin robots.txt và thẻ meta robots là rất quan trọng. Một lỗi có thể dẫn đến cái chết cho toàn bộ chiến dịch của bạn.

    Tôi biết một số nhà marketing digital dành nhiều tháng làm SEO chỉ để nhận ra rằng các trang web của họ đã đươc đóng từ chỉ mục trong robots.txt. Những người khác lạm dụng thẻ "nofollow" rất nhiều và họ đã bị đánh mất một vài backlinks.

    Việc xử lý tập tin robots.txt và thẻ REP có thể dẫn đến nhiều sai lầm. Rất may là có một số quy tắc cơ bản sẽ giúp bạn thực hiện thành công.

    Robots.txt

    - Đặt tập tin robots.txt của bạn vào thư mục cấp cao nhất của mã trang web để đơn giản hóa trình thu thập và lập chỉ mục.

    - Cấu trúc đúng tập tin robots.txt như sau: ser-agent → Disallow → Allow → Host → Sitemap.

    - Đảm bảo rằng mọi URL bạn muốn “Allow:” hoặc “Disallow:” được đặt trên một dòng riêng biệt. Nếu một số URL xuất hiện trên một dòng đơn, trình thu thập sẽ gặp sự cố khi truy cập chúng.

    - Sử dụng chữ thường để đặt tên robots.txt của bạn. Việc đặt "robots.txt" luôn tốt hơn "Robots.TXT". Ngoài ra, tên tập tin phân là phân biệt chữ hoa chữ thường.

    - Không tách các thông số truy vấn với khoảng trống. Ví dụ: một truy vấn dòng như thế này "/ cars / / audi /" sẽ gây ra những sai lầm trong tập tin robots.txt.

    - Không sử dụng ký tự đặc biệt ngoại trừ * và $. Các ký tự khác không được nhận dạng.

    - Tạo tập tin robots.txt riêng biệt cho các subdomain khác nhau. Ví dụ: "hubspot.com" và "blog.hubspot.com" có các tập tin riêng lẻ với chỉ thị directory- và page-specific.

    - Sử dụng # để để lại comment trong tập tin robots.txt của bạn. Trình thu thập không coi trọng các dòng có ký tự #.

    - Không dựa vào robots.txt vì mục đích bảo mật. Sử dụng mật khẩu và các cơ chế bảo mật khác để bảo vệ trang web của bạn khỏi bị ha cker, scrap và gian lận dữ liệu.

    Thẻ meta robots

    - Hãy phân biệt chữ hoa chữ thường. Google và các công cụ tìm kiếm khác có thể nhận ra thuộc tính, giá trị và thông số ở cả chữ hoa và chữ thường và bạn có thể chuyển đổi chúng nếu bạn muốn. Tôi đề nghị bạn gắn nó vào một trong những lựa chọn để cải thiện khả năng đọc code.

    - Tránh nhiều thẻ <meta>. Bằng cách này, bạn sẽ tránh xung đột trong code. Sử dụng nhiều giá trị trong thẻ <meta> của bạn. Giống như thế này: <meta name = "robots" content = "noindex, nofollow">.

    - Không sử dụng các thẻ meta xung đột để tránh những sai sót trong quá trình lập chỉ mục. Ví dụ: nếu bạn có một số dòng code có thẻ meta như <meta name=“robots” content=“follow”> và <meta name=“robots” content=“nofollow”>, chỉ "nofollow" vào tài khoản.

    Lưu ý: Bạn có thể dễ dàng thực hiện thẻ robots.txt và meta robots. Tuy nhiên, hãy cẩn thạn để tránh gây nhầm lẫn.

    Nếu bạn "allow" index một trang cụ thể trong tập tin robots.txt nhưng vô tình "noindex” trong <meta>, spider sẽ index trang.

    Ngoài ra, hãy nhớ rằng: nếu bạn muốn đưa ra hướng dẫn cụ thể cho Google, hãy sử dụng <meta> "googlebot" thay vì "robots". Giống như thế này: <meta name = "googlebot" content = "nofollow">. Nó tương tự như "robot" nhưng tránh tất cả các trình thu thập thông tin tìm kiếm khác.

    Kết luận

    Tối ưu hóa công cụ tìm kiếm không chỉ là về từ khóa, liên kết và nội dung. Phần kỹ thuật của SEO cũng rất quan trọng. Trên thực tế, nó có thể tạo ra sự khác biệt cho toàn bộ chiến dịch marketing digital của bạn. Do đó, hãy học cách sử dụng đúng và thiết lập tập tin robot.txt và các thẻ meta robots càng sớm càng tốt. Tôi hy vọng những thực hành và các đề xuất của tôi trong bài viết này sẽ hướng dẫn bạn thực hiện một cách suôn sẻ.
     
    Diễn đàn Ntphong index siêu nhanh!

    Diễn đàn Seo

    Tiêu đề: Những thực hành tốt nhất để thiết lập thẻ meta robots và robots.txt

    Ghi nguồn bài viết www.ntphong.com khi đăng tải lại bài viết này.

  2. Quảng cáo Thành viên VIP



Link hữu ích: @@ giàn phơi thông minh, giàn phơi quần áo, lap dat cap quang viettel, @@