FireCrawlをセルフホストすることで、ウェブサイトのデータを効率的にクローリングし、LLM(大規模言語モデル)向けのMarkdownや構造化データに変換する機能を自前の環境で利用できます。以下に、FireCrawlをローカル環境にインストールする手順を説明します。
※この記事は10章まで読んだ読者を対象としています。
リポジトリのクローン: まず、公式のFireCrawlリポジトリをクローンします。
git clone <https://github.com/mendableai/firecrawl.git>
クローン後、ディレクトリに移動します。
cd firecrawl
環境変数ファイルの設定:
.env.example
ファイルをコピーして、.env
ファイルを作成します。
cp apps/api/.env.example .env
次に、.env
ファイルを編集し、以下の項目を設定します。
USE_DB_AUTHENTICATION
: false
に設定します。TEST_API_KEY
: 任意のAPIキーを設定します(例: fc-my-firecrawl
)。USE_DB_AUTHENTICATION=false
TEST_API_KEY=fc-my-firecrawl
※TEST_API_KEY
は、fc-
で始まる文字列である必要があります。
Dockerのセットアップ: FireCrawlはDocker Composeを使用して起動します。 (docker-compose.yamlのあるディレクトリで。今回の例ではfirecrawl)
docker compose up -d --build
初回のビルドには時間がかかる場合があります。
動作確認: 以下のコマンドで、FireCrawlのAPIが正常に動作しているか確認します。
curl -X GET <http://localhost:3002/test>
Hello, world!
と表示されれば、セットアップは成功です。
Difyとの連携(オプション): Difyと連携する場合、Difyの設定画面で以下を入力します。
.env
ファイルで設定したTEST_API_KEY
の値(例: fc-my-firecrawl
)。http://host.docker.internal:3002
これにより、DifyからFireCrawlを利用できるようになります。
これらの手順に従うことで、FireCrawlをセルフホスト環境で利用できるようになります。
FireCrawlは、ウェブサイトのデータを効率的にクローリングし、LLM(大規模言語モデル)向けのMarkdownや構造化データに変換するツールです。 その機能を最大限に活用するためには、各種パラメータの設定が重要です。 以下に、主要なパラメータとその説明をまとめました。
api_key
):
url
):
only_main_content
):
true
またはfalse
で指定し、デフォルトはfalse
です。これらのパラメータを適切に設定することで、FireCrawlの機能を効果的に活用できます。 詳細な設定や追加のオプションについては、公式ドキュメントを参照してください。