jueves, 7 de septiembre de 2006

Música, Videos, Imagenes. DataMining con Google

Buscar en Google es practicamente muy sencillo, pero muchos usuarios desconocen por completo la potencia de este buscador. En mi caso, utilizo google para buscar información irrelevante, aunque lo he aprovechado desde hace un buen de tiempo para buscar archivos mp3 y así evitar el uso de algunas aplicaciones p2p.

Google permite el uso de comandos y operadores para así condicionar las búsquedas y obtener mejores resultados, entre estos comandos y operadores están: intitle (muestra los sitios web cuyo titulo tengan las palabras que deseas, ejem: intitle:máquina elemental), site (este comando sirve para hacer búsquedas especificas en un sitio web, por ejemplo: debilidad site:http://maquinaelemental.blogspot.com), inurl (este comando se utiliza para buscar palabras en las URL's de los sitios, por ejemplo: inurl:sex), OR (sirve para encontrar 2 o más palabras en la web, sin condicionar a que todas las palabras se encuentren en los sitios, ejemplo: "Internet explorer" OR ie), AND (este comando no es muy necesario ya que esta por default, es el que se utiliza en una búsqueda sencilla), comillas (se utiliza para buscar frases, por ejemplo: "clases sociales bajas"), + (google ignora palabras comunes como "el", "la" etc. Si en tu búsqueda es escéncial el uso de alguna palabra común la puedes utilizar anteponiendo el operador +), hay más pero estos son los que recuerdo, les recomiendo lean Google Search Manual para conocer todos los secretos que tiene google y aprovecharlo al máximo.

Podemos hacer una combinacion de estos comandos y operadores para buscar archivos mp3, yo usualmente utilizo esta sentencia:

intitle:index.of mp3 OR wma OR ogg + "vitalic" -htm -html -php -asp "Last Modified"

Una explicación rápida.

intitle:index.of , me sirve para encontrar directorios sin protección o permisos de acceso, comúnmente en un directorio encuentras archivos y carpetas.

mp3 OR wma OR ogg , lo utilizo para especificar cualquiera de las palabras que quiero que contenga el directorio, en este caso, las palabras son extensiones de archivos de audio (mp3, wma, ogg). Puedes cambiar estas palabras por mpg, mpeg, avi, wmv, mov que son extensiones de archivos de videos.

+ "vitalic" , esta palabra quiero que venga en todos los directorios, en este caso es el nombre de un artista de la música electrónica. Obviamente esta palabra es la que se tiene que cambiar por la de tu artista favorito, no se quizás quieras bajarte los mp3 de RBD,.. wth!

-htm -html -php -asp , quiero que todos mis resultados sean directorios y no paginas web, en este caso omito direcciones que contengan algunos de estas extensiones htm, html, php o asp.

"Last Modified" , esta palabra se utiliza ya que es común que sea parte de un directorio, con esto estoy más que seguro que mis resultados son directorios.

Podemos jugar un poco con la sentencia y cambiar palabras, que tal si buscamos algo de Los Simpsons:

intitle:index.of mpg OR mov OR wmv OR avi OR mpeg + "the simpsons" -htm -html -php -asp "Last Modified"

a vaya miren lo que encontré: The Simpsons - Treehouse Of Horror XII.mpg y hay más por supuesto,.. gracias San Google!

Les recomiendo un articulo llamado Voyeur Heaven donde explican más comandos y formas distintas de hacer datamining con google.

3 comentarios:

Anónimo dijo...

cielos Google podia ser nuestro dios.... oh cielos...

Unknown dijo...

Jajaja!! Cielos,.. donde se ha metido Mr Pants, le preguntare a google?,.. el amor lo ausenta por estos rincones olvidados de la Internet.

Anónimo dijo...

creo que me olvidare del amor un momento (pa curar las penas) y regresare a este mundillo de los "blops"