Cara Merangkak Laman Besar Dan Mengekstrak Data Menggunakan Spider SEO Screaming Frog

Menjerit Frog SEO Spider

Kami sedang membantu beberapa pelanggan sekarang Penghijrahan Marketo. Oleh kerana syarikat besar menggunakan penyelesaian perusahaan seperti ini, ia seperti jaring labah-labah yang menggunakan proses dan platform selama bertahun-tahun ... sehingga syarikat tidak menyedari setiap titik sentuh.

Dengan platform automasi pemasaran perusahaan seperti Marketo, borang adalah titik masuk data di seluruh laman web dan halaman arahan. Syarikat sering mempunyai beribu-ribu halaman dan beratus-ratus borang di seluruh laman web mereka yang perlu dikenal pasti untuk dikemas kini.

Alat yang hebat untuk ini adalah Menjerit Spider SEO Frog… Mungkin platform paling popular di pasaran untuk merangkak, mengaudit, dan mengekstrak data dari laman web. Platform ini kaya dengan ciri dan menawarkan beratus-ratus pilihan untuk hampir setiap tugas yang anda perlukan.

Screaming Frog SEO Spider: Rangkak Dan Ekstrak

Ciri utama Screaming Frog SEO Spider adalah anda dapat melakukan pengekstrakan tersuai berdasarkan Regex, XPath, Atau CSSPath spesifik. Ini sangat berguna kerana kami ingin merangkak laman web pelanggan dan mengaudit serta menangkap nilai MunchkinID dan FormId dari halaman.

Dengan alat, buka Konfigurasi> Custom> Pengekstrakan untuk mengenal pasti elemen yang ingin anda ekstrak.

pengekstrakan adat menjerit

Skrin pengekstrakan memungkinkan pengumpulan data yang hampir tidak terhad:

Peraturan Pengekstrakan Labah-labah SEO Menjerit Frog

Pengekstrakan Regex, XPath, dan CSSPath

Untuk MunchkinID, pengecam terletak dalam skrip borang yang terdapat di dalam halaman:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Kami kemudian menggunakan a Peraturan Regex untuk menangkap id dari dalam tag skrip yang dimasukkan di halaman:

Regex: ["']id["']: *["'](.*?)["']

Untuk ID Borang, data terdapat dalam tag input dalam bentuk Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Kami menggunakan Peraturan XPath untuk menangkap id dari dalam borang yang dimasukkan di halaman. Pertanyaan XPath mencari borang dengan input dengan nama lemah lembut, maka pengekstrakan menjimatkan nilai:

XPath: //form/input[@name="formid"]/@value

Menjerit Frog SEO Spider Javascript Rendering

Pilihan hebat Screaming Frog lain ialah anda tidak terhad pada HTML di halaman, anda boleh membuat JavaScript yang akan memasukkan borang ke dalam laman web anda. Dalam Konfigurasi> Labah-labah, anda boleh pergi ke tab Rendering dan mengaktifkannya.

Menjerit Frog SEO Spider Javascript Rendering

Ini memerlukan sedikit masa lebih lama untuk merayapi laman web ini, tentu saja, tetapi anda akan mendapat borang yang diberikan oleh klien melalui JavaScript serta borang yang disisipkan di sisi pelayan.

Walaupun ini adalah aplikasi yang sangat spesifik, aplikasi ini sangat berguna kerana anda bekerja dengan laman web yang besar. Anda benar-benar ingin mengaudit di mana borang anda disertakan di seluruh laman web.

Muat turun Screaming Frog SEO Spider

Apa yang anda fikir?

Laman web ini menggunakan Akismet untuk mengurangkan spam. Ketahui bagaimana data komen anda diproses.