7 cách để sử dụng Splunk đối với kỹ thuật SEO

Thảo luận trong 'Công cụ tìm kiếm' bắt đầu bởi ntphong, 1/2/15.

7 cách để sử dụng Splunk đối với kỹ thuật SEO

Công cụ tìm kiếm, 1/2/15. Trả lời: 0, Đọc: 1,185.

ntphong ntphong

Lượt xem: 1,185

Bạn đang xem:

7 cách để sử dụng Splunk đối với kỹ thuật SEO

Coppy cùng chia sẻ nhé bạn!
  1. ntphong

    ntphong Administrator Staff Member

    Tham gia ngày:
    25/12/14
    Bài viết:
    49,745
    Trang chủ:

    Những Cảnh Đẹp Của Việt Nam Qua Góc Nhìn Từ FlyCam PhanTom 3 Professional (Video 4K)

    Bấm Youtube để đăng ký xem video nhé!


    (Thegioiseo) - Hôm nay, tôi sẽ giới thiệu với các bạn về cách sử dụng Splunk – một công cụ có thể giúp người dùng hiểu biết được những hành động từ log server và dữ liệu từ các máy khác.

    Bất kể ai có niềm đam mê kỹ thuật SEO để hiểu sâu về kiến trúc của một trang web và Google liên quan đến các URL trên một trang web như thế nào thì có thể đọc bài viết này.

    Splunk là một công cụ lưu trữ tuyệt vời, nó cho phép bạn phân tích một lượng lớn dữ liệu một cách nhanh chóng và dễ dàng để đưa ra quyết định quan trọng. Nếu bạn đã từng sắp xếp 10.000 hàng trong một bảng tính Excel, bạn sẽ hiểu được sự cần thiết phải có một công cụ có thể làm được việc đó như Splunk. Đối với nhiều trang web, phiên bản miễn phí của Splunk cho phép bạn tải lên 500 MB mỗi ngày, với dung lượng đó có thể đủ để bạn phân tích các bản ghi truy cập trên trang web của bạn.

    Dưới đây là 7 cách tôi sử dụng Splunk cùng với các kỹ thuật SEO của tôi:

    1. Khám phá URL đã được thu thập bởi Googlebot (hoặc bất kỳ bot khác)

    Khi đưa ra một trang web mới, các webmaster thường lo lắng về bộ nhớ cache Google của một trang đã được thu thập (đó là cách để xếp hạng trên một số các truy vấn mong muốn).

    Việc dựa vào bộ nhớ cache là một tín hiệu để Google thu thập dữ liệu thành công sau khi Googlebot thu thập dữ liệu ban đầu của một trang index. (Bộ nhớ cache của bất kỳ trang nào được tìm thấy bằng cách tìm kiếm [cache:web address].)

    Một cách nhanh nhất và chính xác nhất để biết nếu một trang được index là tìm kiếm chính xác tiêu đề của nó sau khi Google đã crawl trang.

    Tuy nhiên, cách chính xác nhất (và nhanh nhất) để biết liệu Googlebot có phát hiện ra một trang hay không là tìm kiếm log web của bạn để xem Google có truy cập trang hay không.

    Khi bạn tải logs vào Splunk, đây là cách để bạn chạy truy vấn này.
    1. Đầu tiên, bạn chọn khoảng thời gian của bạn. Khoảng thời gian càng ngắn thì kết quả càng nhanh, vì vậy bạn hãy sử dụng khoảng thời gian ngắn nhất có thể.
    2. Bạn nhập chuỗi sau vào ô truy vấn:
    Index = {the name of your index} url stub AND googlebot

    Ví dụ, nếu index của bạn được gọi là “primary” và URL của bạn là “free-trial.html” thì đây sẽ là truy vấn của bạn:

    Index=primary free-trial.html AND googlebot

    [​IMG]

    2. Tìm trang 404

    Mỗi khi người dùng truy cập trang 404 thay vì họ có thể xem chúng thì bạn đang đánh mất cơ hội để cho họ thấy những nội dung mà họ đang tìm kiếm.

    Do đó, bạn hãy luôn chủ động tìm các trang lỗi 404 với một công cụ thu thập dữ liệu như ScreamingFrog nhưng nếu bạn có nhiều các liên kết hỏng trên trang web của bạn thì bạn hãy sửa chúng.

    Trong kịch bản này, việc phân tích log trở nên rất hữu ích khi bạn có thể khám phá lỗi URL thường xuyên mà người dùng truy cập và chọn để khắc phục hoặc chuyển hướng lưu lượng truy cập đến một trang đang làm việc.

    Dưới đây là cách bạn thiết lập các truy vấn để tìm trang 404:
    1. Đầu tiên, chọn khoảng thời gian của bạn. Đối với loại truy vấn này, tôi thường sử dụng là 30 ngày nhưng bạn có thể chọn khoảng thời gian tùy thích.
    2. Nhập chuỗi sau vào ô truy vấn:
    Index = {the name of your index} status = 404 | top limit = 50 url

    Giới hạn của bạn có thể là bất cứ điều gì mà bạn muốn nhưng tôi thích làm việc với 50 URL. Khi truy vấn này hoàn tất, click vào tab statistic và bạn sẽ thấy tất cả các URL mà bạn cần phải loại ra trong một bảng.

    [​IMG]

    3. Tìm Googlebot 302s

    Chuyển hướng 302 là một chuyển hướng tạm thời – khác với chuyển hướng 301.

    Trong một số thử nghiệm của tôi, tôi đã thấy 302s đi qua giá trị liên kết và các trang xếp hạng được chuyển hướng nhưng chỉ nên sử dụng 302s khi một chuyển hướng thực sự chỉ có tính chất tạm thời.

    Chuyển hướng 302 có thể đi vào trang web của bạn với hàng loạt các cách khác nhau. Dưới đây là cách bạn thiết lập các truy vấn để tìm các trang 302:
    1. Đầu tiên, bạn chọn khoảng thời gian. Với loại truy vấn này, tôi thường sử dụng 30 ngày, nhưng bạn có thể chọn bất cứ khoảng thời gian nào bạn muốn.
    2. Nhập vào chuỗi truy vấn sau:
    Index = {the name of your index} status = 302 | top limit = 50 uri

    Cũng giống như trước, bạn có thể để giới bạn bao nhiêu tùy thích.

    [​IMG]

    4. Tính số trang được crawl bởi Google mỗi ngày

    Nếu bạn sử dụng Webmaster Tools, có thể bạn đã quen với màn hình mà Google hiển thị số URL được crawl mỗi ngày. Những thông tin này có thể có hoặc có thể không chính xác nhưng bạn sẽ không biết cho đến khi bạn nhìn thấy các bản ghi để xem có bao nhiêu URL thực sự được Google crawl mỗi ngày. Bạn có thể bắt đầu bằng cách:
    1. Chọn một khoảng thời gian 30 ngày hoặc bất kỳ khoảng thời gian nào nếu bạn thích
    2. Nhập vào truy vấn sau:
    index ={name of your index} googlebot | timechart count by day

    Khi truy vấn hoàn tất, click tab Statistics và bạn sẽ có số tiền thực sự của các trang được Googlebot crawl mỗi ngày. Bạn cũng có thể kiểm tra tab visualization để xem nó đã thay đổi trong khoảng thời gian tìm kiếm như thế nào.

    [​IMG]
    5. Tính số trang được Googlebot Mobile crawl mỗi ngày

    Nếu bạn muốn biết có bao nhiêu URL được Googlebot mobile crawl mỗi ngày, bạn có thể vào Webmaster Tools để tìm thông tin này. Nơi duy nhất bạn có thể nhìn thấy những con số này là log truy cập của bạn.

    Điều thú vị là Googlebot smartphone crawl trang web như iPhone, vì vậy chúng ta chỉ cần tìm kiếm cho Googlebot và iPhone:
    1. Chọn một khoảng thời gian 30 ngày hoặc bất cứ khoảng thời gian nào mà bạn muốn
    2. Nhập các truy vấn sau đây:
    index ={name of your index} googlebot AND iphone | timechart count by day

    Khi truy vấn hoàn tất, click tab statistics và bạn sẽ có số tiền thực sự của các trang đã được Googlebot smartphone crawl mỗi ngày. Cũng giống như các truy vấn trước đó, bạn có thể sử dụng tab visualization để xem những thay đổi này hoạt động như thế nào trong một khoảng thời gian cụ thể.

    [​IMG]

    6. Tìm các URL gây lãng phí ngân sách

    SEO cần phải biết, Google cũng dành một ngân sách thu thập dữ liệu cho mỗi trang web dựa vào PageRank của họ - trên thực tế chúng ta không thể nhìn thấy nhưng chỉ có Google biết được điều đó. Nếu Googlebot lãng phí một số ngân sách có giá trị dành cho URL mà bạn không quan tâm thì rõ ràng là có rất ít băng thông để sử dụng trên các URL quan trọng hơn.

    Nếu bạn không biết nơi mà Googlebot quan tâm thì bạn không thể biết ngân sách của bạn đang được sử dụng có hiệu quả hay không. Splunk có thể giúp bạn nhanh chóng phát hiện ra tất cả các URL mà Googlebot crawl và sau đó bạn sẽ có dữ liệu để đưa ra quyết định về những gì cần phải được thêm vào trong tập tin robots.txt của bạn:
    1. Chọn khoảng thời gian của bạn và bạn nên chọn các khoảng thời gian khác nhau để tìm ra các URL có vấn đề.
    2. Nhập vào truy vấn sau:
    index={name of your index} googlebot uri_stem=”*”| top limit=20 url

    Bạn có thể thiết lập giới hạn cho bất cứ điều gì bạn muốn, nhưng 20 là một con số có thể quản lý được. Khi truy vấn hoàn tất, click tab statistic và bạn sẽ có một bảng hiển thị các URL mà Google đang crawl. Bây giờ bạn có thể đưa ra quyết định về bất kỳ trang nào đó cần được loại bỏ hoặc bị chặn bằng một tập tin robots hoặc noindexed trên trang.

    [​IMG]

    7. Thiết lập một cảnh báo với 500s bởi Googlebot

    Khi một máy chủ không có khả năng thực hiện một yêu cầu HTTP, nó sẽ gửi lại một phản hồi 500 đến trình duyệt hoặc yêu cầu dịch vụ.

    Lỗi 500 có khả năng gây ra các vấn đề SEO. Do ảnh hưởng trên bảng xếp hạng, Google sẽ gửi một thông điệp về sự cố mất điện đến các webmaster thông qua Webmaster Tools, tuy nhiên, các thông báo này có thể mất hơn 24h để đến nơi.

    Bên cạnh việc ảnh hưởng trên bảng xếp hạng, error 500 mang đến trải nghiệm người dùng kém và điều này là một vấn đề mà bạn có thể sẽ muốn giải quyết ngay lập tức. Nếu bạn đăng ký Enterprise plan của Splunk, bạn có thể thiết lập cảnh bảo thời gian thực cho lỗi 500.

    Dưới đây là cách bạn thiết lập cảnh báo này:
    1. Tìm kiếm các truy vấn sau đây:

      index={name of your index} AND “status=5*”
    2. Click “Save As” và chọn “Alert”trong trình đơn thả xuống.
    3. Tên Thông báo của bạn.
    4. Thay đổi các loại cảnh báo đến “Real Time.”
    5. Nhấn "Next."
    6. Trên màn hình tiếp theo, đánh dấu vào ô “Send Email.”
    7. Thêm email của bạn vào hộp và nhấn "Save".
    [​IMG]

    Trong thời gian tiếp theo, nếu lỗi 500 xuất hiện trên trang web của bạn, bạn sẽ nhận được một cảnh báo ngay lập tức.

    Kết luận

    Tôi sử dụng Splunk với hơn một chục cách khác nhau để hoàn thành các nhiệm vụ SEO khác nhau và chỉ có 7 cách mà tôi thường sử dụng. Phân tích tập tin log không chỉ giúp bạn tiếp thị hiệu quả nhất có thể mà nó còn luôn dạy cho bạn rất nhiều về cách công cụ tìm kiếm và trang web làm việc.

    Nếu bạn chưa bao giờ phân tích tập tin log trong SEO của bạn thì đây là thời gian để bắt đầu.

    Ghi nguồn www.thegioiseo.com
     
    Diễn đàn Ntphong index siêu nhanh!

    Diễn đàn Seo

    Tiêu đề: 7 cách để sử dụng Splunk đối với kỹ thuật SEO

    Ghi nguồn bài viết www.ntphong.com khi đăng tải lại bài viết này.

  2. Quảng cáo Thành viên VIP


    Những Cảnh Đẹp Của Việt Nam Qua Góc Nhìn Từ FlyCam PhanTom 3 Professional (Video 4K)

    Bấm Youtube để đăng ký xem video nhé!


Link hữu ích: @@ giàn phơi thông minh, giàn phơi quần áo, giàn phơi quần áo thông minh, giàn phơi quần áo, sim tra sau, giàn phơi thông minh, Mật Ong Rừng, Mật Ong Rừng Nguyên Chất, fpt ho chi minh, @@
=