Come convertire un file TXT in FASTA

Vengono eseguiti studi clinici per analizzare i dati della sequenza proteica e trovare trattamenti per le malattie. I dati della sequenza proteica vengono inseriti nel formato FASTA (fast-all) in modo che i programmi software comprendano come elaborare la sequenza di dati. Il formato FASTA ha fino a 80 caratteri per riga di dati di sequenza e utilizza lo standard del codice IUB/IUPAC (International Union of Biochemistry/International Union of Pure and Applied Chemistry). La conversione di un file TXT (testo normale) in formato FASTA comporta la modifica o l'aggiunta di dati di sequenza in formato FASTA a un file di testo esistente con linee di dati di sequenza proteica. I programmi di editor di testo come Blocco note lo rendono semplice da fare.

Aprire il file di testo della sequenza proteica che si desidera modificare in un programma di modifica del testo come Blocco note.

Modifica o aggiungi la riga di descrizione per seguire il formato FASTA. Ad esempio, >gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELLATED) è una riga di descrizione FASTA valida. Questa riga fornisce una descrizione univoca per le righe di dati di sequenza che seguono. Il formato FASTA richiede l'uso del simbolo maggiore di (>) in modo che il programma software possa identificare le informazioni descrittive univoche ed evitare di elaborare la descrizione come una linea di sequenza di dati proteici.

Premere il tasto "Invio" per inserire un'interruzione di riga una volta modificata la riga della descrizione.

Modificare o aggiungere il formato della linea dati della sequenza proteica per conformarsi ai codici standard IUB/IUPAC. Lo standard IUB/IUPAC utilizza le lettere dell'alfabeto per rappresentare codici accettabili o sequenze di query per amminoacidi o acidi nucleici nel formato FASTA. Ad esempio, QIKDLLVSSSTDLDTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE rappresenta una riga di dati di sequenza validi poiché inizia con la lettera "Q", che rappresenta la glutammina, e termina con la lettera "E", che rappresenta il glutammato.

Aggiungi più righe di dati di sequenza, modifica le righe di dati di sequenza esistenti o aggiungi interruzioni di riga dopo 80 caratteri, se necessario. L'adesione agli standard della linea dati della sequenza FASTA e alle interruzioni di riga garantisce che il programma segua le istruzioni relative a glutammina, glutammato e altri codici di lettere. Le lettere nello standard IUB/IUPAC sono semplicemente istruzioni per il programma software che elabora i dati formattati FASTA.

Fare clic su "File", selezionare "Salva", quindi fare clic sul pulsante "Salva". Il tuo file TXT è ora in formato FASTA.