You can support us by downloading this article as PDF from the Link below. Download the guide as PDF

Hey folks!. In this blog post, we’re to look at how to extract website urls, emails, files and accounts using Photon crawler. Photon is an incredibly fast site crawler written in Python used to extract urls, emails, files, website accounts and much more from a target.

Photon is able to handle 160 requests per second while extensive data extraction is just another day for Photon!. The project is under heavy development and updates for fixing bugs, optimizing performance & new features are being rolled every day.

Photon is able to extract the following types of data while crawling:

  • Extracts URLs both in-scope & out-of-scope, as well as URLs with parameters (
  • JavaScript file s & Endpoints present in them
  • Can extract strings based on custom regex pattern
  • Extract Intel – e.g emails, social media accounts, Amazon buckets etc.
  • Extracts Files: pdf, png, xml etc.

The data extracted by Photon is saved in an organized manner.

ls -1

All files are saved as text for easy reading.

Install and use Photon Website crawler in Linux

Photon project is available on git, clone it by running:

$ git clone
Cloning into 'Photon'...
remote: Counting objects: 417, done.
remote: Compressing objects: 100% (22/22), done.
remote: Total 417 (delta 20), reused 42 (delta 20), pack-reused 374
Receiving objects: 100% (417/417), 151.42 KiB | 201.00 KiB/s, done.
Resolving deltas: 100% (182/182), done.

Change toPhoton and start using photon script.

$ cd Photon
$ chmod +x

The help page is available when the option --help is used. Below are the options available:

[pastacode lang=”bash” manual=”–url%20%20%20%20%20%20%20%20%20%20%20%20%20%20root%20url%0A%20%20-l%20–level%20%20%20%20%20%20%20%20%20%20%20%20levels%20to%20crawl%0A%20%20-t%20–threads%20%20%20%20%20%20%20%20%20%20number%20of%20threads%0A%20%20-d%20–delay%20%20%20%20%20%20%20%20%20%20%20%20delay%20between%20requests%0A%20%20-c%20–cookie%20%20%20%20%20%20%20%20%20%20%20cookie%0A%20%20-r%20–regex%20%20%20%20%20%20%20%20%20%20%20%20regex%20pattern%0A%20%20-s%20–seeds%20%20%20%20%20%20%20%20%20%20%20%20additional%20seed%20urls%0A%20%20-e%20–export%20%20%20%20%20%20%20%20%20%20%20export%20formatted%20result%0A%20%20-o%20–output%20%20%20%20%20%20%20%20%20%20%20specify%20output%20directory%0A%20%20–timeout%20%20%20%20%20%20%20%20%20%20%20%20%20http%20requests%20timeout%0A%20%20–ninja%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20ninja%20mode%0A%20%20–update%20%20%20%20%20%20%20%20%20%20%20%20%20%20update%20photon%0A%20%20–dns%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20dump%20dns%20data%0A%20%20–only-urls%20%20%20%20%20%20%20%20%20%20%20only%20extract%20urls%0A%20%20–user-agent%20%20%20%20%20%20%20%20%20%20specify%20user-agent(s)” message=”” highlight=”” provider=”manual”/]

A basic usage example:

$ ./ -u

-u option is used to specify root URL.

When done, a directory with site name should be created.

To crawl with 10 threads, level 4 and export data as json

$ ./ -u -t 10 -l 3 --export=json

Generates an image containing the DNS data of the target domain.

$ ./ -u --dns

At present, it doesn’t work if the target is a subdomain.

Updating Photon

To update photon, run:

$  ./ --update

You can support us by downloading this article as PDF from the Link below. Download the guide as PDF