FANTOM - Direct cDNA CAGE

本プロトコルは、Cap Analysis of Gene Expression（CAGE）法をIlluminaのパターン化フローセル型シーケンサー（例：NextSeq 1000/2000、NovaSeq）向けに最適化したものです。ユニークデュアルインデックス（UDI）とペアエンドリードを用い、デュアルインデックスアダプターのライゲーションおよびセカンドストランド合成を導入することで、従来のIllumina CAGEプロトコルを改良し、より安定したデマルチプレックス処理とアダプターダイマー競合の防止を実現しています。

背景

CAGEは、キャップ構造を持つRNAの5′末端を捉えることで、転写開始点（TSS）を1塩基レベルの精度で解析する手法です^[1]^[2]^[3]^[4]^[5]。このプロトコルでは、従来のキャップトラッパー化学反応と一本鎖cDNAライブラリー構築法を維持しつつ、UDIアダプターの導入と二本鎖化・サイズ選択工程を追加することで、パターン化フローセルおよびペアエンドシーケンスに対応しています^[6]。

ワークフローの概要

fig03
Figure 1: Direct cDNA CAGE のワークフロー^[6]

材料

ライブラリー作製に必要な主な試薬と条件は以下の通りです。

Total RNA : 1ライブラリーあたり3–5 µg (A260/230 > 1.8, A260/280 > 1.8, RIN > 7)
逆転写酵素 (SuperScript III または同等品)
ランダム N6+TCT プライマー
Agencourt RNA Clean XP および AMPure XP magnetic beads
過ヨウ素酸ナトリウム (NaIO₄), biotin (long‑arm) hydrazide
RNase I, RNase H
Streptavidin magnetic beads
Illuminaペアエンドシーケンス対応UDI アダプター (5′側にi5、3′側にi7を含む)
LongAmp Taq または同等品 (セカンドストランド合成用)
Exonuclease I
SPRIselect ビーズおよび標準バッファー
QA/QC 試薬 (KAPA qPCR, fragment analyzer)
注意事項: パターン化フローセルで検証済みのUDIセットを使用すること。全工程でRNase／DNaseフリーの環境を維持すること。

手順

ベンチ作業

A. RNAの調製とQC (∼1日)

全RNAを抽出する (例：Maxwell、カラム法、フェノール/クロロホルム法)
RNAの定量 (Nanodrop/Qubit) とクオリティーチェック (BioAnalyzer/TapeStation)
A260/230 > 1.8, A260/280 > 1.8, and RIN > 7 の条件を満たす場合のみ次の工程へ進む

B. First-Strand cDNA 合成

3–5 µgのRNAをRandom N6+TCTプライマーでプライミングし、SuperScript IIIでcDNAを合成する
Cleanup to obtain RNA/一本鎖cDNAハイブリッドを得るためクリーンアップする

C. キャップトラッピング

NaIO₄でRNAキャップを酸化し、ロングアームビオチンヒドラジドでビオチン化する
RNase Iで一本鎖RNAを分解する
ビオチン化されたRNA/cDNAハイブリッドをストレプトアビジン磁気ビーズで捕捉し、十分に洗浄する
RNase H および RNase I で処理し、一本鎖cDNAを回収する

D. UDIアダプターライゲーション

ユニークなi5インデックスを含む5′アダプターを一本鎖cDNAにライゲートし、未結合アダプターを洗浄して除去する
ユニークなi7インデックスを含む3′アダプターをライゲートし、同様に洗浄して未結合アダプターを除去する

E. 二本鎖化とクリーンアップ

パターン化フローセル上でのアダプターダイマー競合を防ぐため、ポリメラーゼを用いて二本鎖合成を行う
Exonuclease I で残存プライマーや一本鎖DNAを分解する
洗浄後、SPRIselectによるサイズ選択を行い、アダプターダイマーを除去してライブラリ断片を濃縮する

F. ライブラリのクオリティーチェック

KAPA qPCRなどでライブラリを定量し、フラグメントアナライザーでサイズ分布を確認する
1ランあたり9–12ライブラリをプールすることを目安とし、使用するプラットフォーム/リード長、目標シーケンス深度に応じて調整する

シーケンス (パターン化フローセル使用)

プラットフォーム例: NextSeq 2000 (P2フローセル)
必須構成: ペアエンドリード (例: 2×50 bp または 2×100 bp)
インデックスホッピングを防止して確実なデマルチプレックスを実現するため、各サンプルに固有のi5およびi7インデックスを持つUDI (unique dual indexes) を使用する
出力ファイル: デマルチプレックスされたFASTQファイル (R1/R2; I1 = i7, I2 = i5)
典型的な出力量: 1ランあたり9～12ライブラリで約3.5～5億リード/ラン (1ライブラリあたり約3,000～4,500万リード) *使用キットやフローセルにより変動

データ解析^[7]

ペアエンドDirect cDNA CAGE用のdscage‑pe2 pipeline^[7] (Docker/Singularity対応) を使用する。このパイプラインはクオリティーチェック、マッピング（デフォルトでhg38/mm10、必要に応じて他のゲノムを追加可能）、およびCTSS検出を実施し、TSSやエンハンサー解析に適した出力を生成する。

入力: デマルチプレックス済みペアエンドFASTQs (R1/R2)
出力: マッピング済みリード、CTSSデータ、クオリティーチェックレポート、CAGE解析・可視化用ファイル
*他のゲノムを解析する場合は、対応するアノテーションをパイプライン設定に追加する

注意事項・トラブルシューティング

インデックスホッピング: 常にユニークなi5+i7の組み合わせ (UDI) を使用すること。ユニークでないデュアルインデックスはパターン化フローセルでは非推奨。
低RNA量サンプル: 3 µg 以下の RNA しか得られない場合は、パターン化フローセルでシークエンスする前に、本プロトコルのデュアルインデックスおよび二本鎖化工程を保持したLQ‑ssCAGE^[8]の適用を検討する。
プーリング: NextSeq 2000 P2の場合、12ライブラリを超えるプールは推奨しない。より多くプールする場合はP3などの大型フローセルを使用して深度を確保する。

互換性

対応シーケンサー: NextSeq 1000/2000, NovaSeqシリーズ (パターン化フローセル)
インデックス: 96×96 UDI plates/sets (i7/i5ペア対応)
リードモード: ペアエンドのみ (パイプラインはPE前提)

安全性

危険試薬 (過ヨウ素酸ナトリウムなど) を扱う際は、所属機関の安全ガイドラインに従うこと。RNaseフリー環境を維持すること。

参考文献

^ Kodzius, R. et al. CAGE: cap analysis of gene expression. Nat Methods 3, 211-22 (2006), doi: 10.1038/nmeth0306-211
^ Takahashi, H. et al. 5′ end–centered expression profiling using cap-analysis gene expression and next-generation sequencing. Nat Protoc. 7, 542-561 (2012), doi: 10.1038/nprot.2012.005
^ Kanamori‑Katayama, M. et al. Unamplified cap analysis of gene expression on a single-molecule sequencer. Genome Res. 21(7), 1150-1159 (2011), doi: 10.1101/gr.115469.110
^ FANTOM Consortium and the RIKEN PMI and CLST (DGT). A promoter-level mammalian expression atlas. Nature 507(7493), 462-470 (2014), doi: 10.1038/nature13182
^ Murata, M. et al. Detecting expressed genes using CAGE. Methods Mol Biol. 1164, 67-85 (2014), doi: 10.1007/978-1-4939-0805-9_7
^ Delobel, D. et al. Protocol for direct cDNA cap analysis of gene expression for paired-end patterned flow cell sequencing. STAR Protocols. (2025), doi: 10.1016/j.xpro.2024.103594
^ Github: dscage-pe2
^ Takahashi, H. et al. Low Quantity Single Strand CAGE (LQ-ssCAGE) Maps Regulatory Enhancers and Promoters. Methods Mol Biol. 2351, 67-90 (2021), doi: 10.1007/978-1-0716-1597-3_4