Google Search

Python

Bash

Autore/Autrice

Paolo Volterra

Data di Pubblicazione

8 febbraio 2025

1 Google Search

https://www.google.com/search?q=genai+finance+banking+filetype:pdf&tbs=qdr:m&num=10 Così ottieni solo i PDF pubblicati nell’ultimo mese senza parametri di tracking.

I parametri servono principalmente a:

Definire il numero di risultati per pagina (num=10)
Applicare filtri temporali (tbs=qdr:m)
Ottimizzare la ricerca in base al dispositivo e alla sessione utente (biw, bih, dpr, sxsrf)
Monitorare e migliorare l’esperienza di ricerca (sca_esv, sa=X, ved)
Se vuoi fare una ricerca più pulita e replicabile, puoi usare un URL più semplice, ad esempio:

1.1 a cosa servono num=10&sca_esv=b7f49eb14b13d0ff&sxsrf=AHTn8zoX-WJU4kej-SU5uGy0Sl_AqaeURg:1739086839079&source=lnt&tbs=qdr:m&sa=X&ved=2ahUKEwjNmJuqi7aLAxXRywIHHS8CDDkQpwV6BAgEEA8&biw=1843&bih=1017&dpr=1.56

Questi parametri nell’URL della tua ricerca su Google hanno diverse funzioni specifiche:

num=10 – Indica il numero di risultati per pagina. In questo caso, Google mostrerà 10 risultati per pagina.
sca_esv=b7f49eb14b13d0ff – È un parametro di sessione che Google utilizza per il monitoraggio della ricerca. Non ha un impatto diretto sui risultati, ma serve a Google per ottimizzare la ricerca e migliorare l’esperienza utente.
sxsrf=AHTn8zoX-WJU4kej-SU5uGy0Sl_AqaeURg – Fa parte del sistema di sicurezza di Google per prevenire attacchi CSRF (Cross-Site Request Forgery). Non influenza i risultati.
source=lnt – Indica che la ricerca ha utilizzato un filtro temporale o altri strumenti avanzati di ricerca.
tbs=qdr:m – Applica un filtro temporale alla ricerca. In questo caso, qdr:m significa che vengono mostrati solo i risultati pubblicati nell’ultimo mese.
sa=X – È un parametro che indica che la ricerca è stata effettuata manualmente (senza passare da suggerimenti o altre fonti).
ved=2ahUKEwjNmJuqi7aLAxXRywIHHS8CDDkQpwV6BAgEEA8 – È un parametro di tracking interno usato da Google per monitorare clic e interazioni con i risultati di ricerca.
biw=1843&bih=1017 – Indicano la larghezza (biw) e l’altezza (bih) della finestra del browser in pixel al momento della ricerca. Questo può influenzare la disposizione dei risultati sulla pagina.
dpr=1.56 – Indica il device pixel ratio, cioè il rapporto tra pixel fisici e pixel logici dello schermo. Google utilizza questo parametro per ottimizzare la visualizzazione dei risultati su schermi ad alta risoluzione.

1.2 nell’ultima settimana

Per filtrare i risultati della ricerca agli ultimi 7 giorni, devi modificare il parametro tbs=qdr:m (che filtra per l’ultimo mese) con tbs=qdr:w, che filtra per l’ultima settimana.

L’URL corretto per la tua ricerca diventa:

arduino Copia Modifica https://www.google.com/search?q=genai+finance+banking+filetype:pdf&tbs=qdr:w&num=10 📌 Spiegazione della modifica:

tbs=qdr:w → Mostra solo risultati pubblicati nell’ultima settimana. num=10 → Limita il numero di risultati per pagina a 10. filetype:pdf → Restringe la ricerca ai soli documenti PDF. Se vuoi un periodo ancora più ristretto (es. ultime 24 ore), puoi usare tbs=qdr:d.

1.3 per cercare nell’anno 2022 o in intervallo di date

ChatGPT ha detto: Per cercare documenti nell’anno 2022 o in un intervallo di date specifico su Google, devi usare il parametro tbs=cdr:1,cd_min:[data inizio],cd_max:[data fine].

1️⃣ Cercare nell’anno 2022 Puoi usare questo URL:

arduino Copia Modifica https://www.google.com/search?q=genai+finance+banking+filetype:pdf&tbs=cdr:1,cd_min:01/01/2022,cd_max:12/31/2022&num=10 📌 Spiegazione:

tbs=cdr:1,cd_min:01/01/2022,cd_max:12/31/2022 → Filtra i risultati pubblicati tra il 1° gennaio 2022 e il 31 dicembre 2022.

2️⃣ Cercare in un intervallo di date specifico Se vuoi risultati pubblicati tra 1° giugno 2023 e 31 dicembre 2023, usa:

arduino Copia Modifica https://www.google.com/search?q=genai+finance+banking+filetype:pdf&tbs=cdr:1,cd_min:06/01/2023,cd_max:12/31/2023&num=10 📌 Personalizza l’intervallo di date:

cd_min:MM/DD/YYYY → Data di inizio della ricerca. cd_max:MM/DD/YYYY → Data di fine della ricerca. 3️⃣ Metodo Alternativo Manuale Se preferisci, puoi fare la ricerca direttamente su Google, poi:

Clicca su Strumenti (sotto la barra di ricerca). Seleziona Intervallo di date personalizzato. Inserisci le date desiderate. Questa tecnica è utile se vuoi un filtro più preciso senza dover modificare l’URL manualmente. 🚀

1.4 crea una routine bash che chiede testo da cercare numero di risultati e periodo da a . i risultati devono essere solo pdf. la ricerca deve essere salvata in un file markdown

1.5 script puppeteer

ChatGPT ha detto: Google Pdf Search Puppeteer Ho creato uno script Puppeteer in JavaScript che esegue una ricerca su Google per file PDF, con la possibilità di specificare un intervallo di date e un numero di risultati. I risultati vengono salvati in un file Markdown. Se hai bisogno di modifiche o miglioramenti, fammi sapere! 🚀

const puppeteer = require('puppeteer');
const fs = require('fs');

(async () => {
    const browser = await puppeteer.launch({ headless: true });
    const page = await browser.newPage();

    // Chiedi all'utente il testo da cercare
    const readline = require('readline-sync');
    const query = readline.question("Inserisci il testo da cercare: ");
    const numResults = readline.question("Inserisci il numero di risultati (es. 10): ");
    const startDate = readline.question("Inserisci la data di inizio (formato MM/DD/YYYY): ");
    const endDate = readline.question("Inserisci la data di fine (formato MM/DD/YYYY): ");

    // Formatta la query per l'URL
    const queryUrl = encodeURIComponent(query);
    
    // Costruisci l'URL di ricerca di Google
    const searchUrl = `https://www.google.com/search?q=${queryUrl}+filetype:pdf&tbs=cdr:1,cd_min:${startDate},cd_max:${endDate}&num=${numResults}`;
    
    console.log(`Navigating to: ${searchUrl}`);
    await page.goto(searchUrl, { waitUntil: 'domcontentloaded' });

    // Estrai i link dai risultati di ricerca
    const links = await page.evaluate(() => {
        return Array.from(document.querySelectorAll('a'))
            .map(anchor => anchor.href)
            .filter(href => href.endsWith('.pdf'));
    });

    // Salva i risultati in un file Markdown
    const outputFile = 'risultati.md';
    let outputContent = `# Risultati per: ${query}\n`;
    outputContent += `_Periodo: ${startDate} - ${endDate}_\n\n`;
    links.forEach(link => {
        outputContent += `- [${link}](${link})\n`;
    });
    
    fs.writeFileSync(outputFile, outputContent);
    console.log(`Risultati salvati in ${outputFile}`);

    await browser.close();
})();

1.6 routine bash

che chiede testo da cercare numero di risultati e periodo da a .
i risultati devono essere solo pdf.
la ricerca deve essere salvata in un file markdown ChatGPT ha detto: Google Pdf Search Puppeteer modifica apportata Ho aggiornato lo script Bash per eseguire la ricerca di file PDF su Google, chiedendo all’utente il testo da cercare, il numero di risultati e l’intervallo di date. I risultati vengono salvati in un file Markdown.

#!/bin/bash

# Chiedi all'utente il testo da cercare
echo "Inserisci il testo da cercare:"
read query

# Chiedi all'utente il numero di risultati
echo "Inserisci il numero di risultati (es. 10):"
read num_results

# Chiedi l'intervallo di date
echo "Inserisci la data di inizio (formato YYYY-MM-DD):"
read start_date
echo "Inserisci la data di fine (formato YYYY-MM-DD):"
read end_date

# Converti la query per l'URL
query_url=$(echo "$query" | sed 's/ /+/g')

# Costruisci l'URL di ricerca
search_url="https://www.google.com/search?q=${query_url}+filetype:pdf&tbs=cdr:1,cd_min:${start_date},cd_max:${end_date}&num=${num_results}"

# Definisci il file di output
output_file="risultati.md"

# Esegui la ricerca e salva i risultati in Markdown
echo "# Risultati per: $query" > "$output_file"
echo "_Periodo: $start_date - $end_date_" >> "$output_file"
echo "" >> "$output_file"

# Usa wget e grep per estrarre i link
wget -qO- "$search_url" | grep -Eo 'https?://[^ ]+\.pdf' | sort -u | while read -r link; do
    echo "- [$link]($link)" >> "$output_file"
done

echo "Risultati salvati in $output_file"

1.7 script python

import requests
from bs4 import BeautifulSoup
import urllib.parse

# Chiedi all'utente il testo da cercare
query = input("Inserisci il testo da cercare: ")
num_results = input("Inserisci il numero di risultati (es. 10): ")
start_date = input("Inserisci la data di inizio (formato YYYY-MM-DD): ")
end_date = input("Inserisci la data di fine (formato YYYY-MM-DD): ")

# Converti la query per l'URL
query_url = urllib.parse.quote(query)
search_url = f"https://www.google.com/search?q={query_url}+filetype:pdf&tbs=cdr:1,cd_min:{start_date},cd_max:{end_date}&num={num_results}"

# Definisci il file di output
output_file = "risultati.md"

# Esegui la richiesta HTTP
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(search_url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# Trova tutti i link ai file PDF
links = set()
for a in soup.find_all('a', href=True):
    href = a['href']
    if ".pdf" in href:
        links.add(href)

# Salva i risultati in un file Markdown
with open(output_file, "w", encoding="utf-8") as f:
    f.write(f"# Risultati per: {query}\n")
    f.write(f"_Periodo: {start_date} - {end_date}_\n\n")
    for link in links:
        f.write(f"- [{link}]({link})\n")

print(f"Risultati salvati in {output_file}")

Torna in cima