Alignments for a candidate for put1 in Azoarcus sp. BH72

GapMind for catabolism of small carbon sources

Alignments for a candidate for put1 in Azoarcus sp. BH72

Align L-glutamate gamma-semialdehyde dehydrogenase (EC 1.2.1.88); Proline dehydrogenase (EC 1.5.5.2) (characterized)
to candidate WP_011767475.1 AZO_RS18830 bifunctional proline dehydrogenase/L-glutamate gamma-semialdehyde dehydrogenase PutA

Query= reanno::HerbieS:HSERO_RS00905
         (1230 letters)



>NCBI__GCF_000061505.1:WP_011767475.1
          Length = 1221

 Score = 1304 bits (3375), Expect = 0.0
 Identities = 722/1227 (58%), Positives = 864/1227 (70%), Gaps = 23/1227 (1%)

Query: 16   FQAELLPTPSPLRAAITAAYRRDEREAVQWLLQQVQEEQPWKD----ATQQLARKLVQQV 71
            F A++   P  LRAAITAA RRDE + V  L+ ++Q+ +        A +  A  LV  V
Sbjct: 3    FDADVPEAPGALRAAITAATRRDEADCVHALVAELQQRRARLGLDDAAVEARAAALVVDV 62

Query: 72   REKRTRSSGVDALMHEFSLSSEEGVALMCLAEALLRIPDRQTADRLIADKISKGDWRKHL 131
            R +R  + GVD LMHEFSLS++EGVALMCLAEALLRIPD  TADRLI DKI +GDWR HL
Sbjct: 63   RRRRRGAGGVDQLMHEFSLSTQEGVALMCLAEALLRIPDHATADRLIRDKIGQGDWRTHL 122

Query: 132  GESPSLFVNAATWGLLITGKLVSTSSESGLTQAITRLIGKGGEPLIRKGVDLAMRMLGNQ 191
            G S SLFVNAATWGLLI+G+LV+T SE  L  A++RL+ +GGEP++R+GVD AMR+LG Q
Sbjct: 123  GHSESLFVNAATWGLLISGRLVATRSERALGSALSRLLARGGEPVVRRGVDFAMRLLGQQ 182

Query: 192  FVTGQTIEEALDNSRENEKRGYRYSYDMLGEAALTMHDADAYYQSYESAIHAIGRASNGR 251
            FV G+TI  AL  SR++E RGY +S+DMLGEAALT  DA+ Y ++YE AIHAIG A+ G 
Sbjct: 183  FVLGETIGAALRRSRDSESRGYSHSFDMLGEAALTAADAERYTRAYEEAIHAIGAAAAGH 242

Query: 252  GIKDGPGISVKLSALHPRYSRAQHARVMSELLPRLKQLLLLAKQYDIGLNIDAEEADRLE 311
            G + GPGIS+KLSALHPRY RAQ +RV +ELLPRL  L+ LA+ YDIG+NIDAEEADRLE
Sbjct: 243  GPRAGPGISIKLSALHPRYCRAQRSRVRAELLPRLAALMRLARGYDIGVNIDAEEADRLE 302

Query: 312  LSLDMMEVLVADPDLAGFDGLGFVVQGYQKRCPFVIDYLVDLARRNGRRLMIRLVKGAYW 371
            LSLD+ E LVADP LAG+DGLGFVVQ YQKR PFVIDYLVDLA R+GRRLMIRLVKGAYW
Sbjct: 303  LSLDLFEALVADPLLAGWDGLGFVVQAYQKRAPFVIDYLVDLAHRSGRRLMIRLVKGAYW 362

Query: 372  DSEIKRAQVDGLEGYPVYTRKVHTDLSYLTCAQKLLAATDVIYPQFATHNAHTLAAIYHW 431
            DSEIKRAQV+G  GYPVYTRK HTDL+YL CA +LLA    +YPQFATHNA T+A ++  
Sbjct: 363  DSEIKRAQVEGQAGYPVYTRKAHTDLAYLVCAARLLAEAGAVYPQFATHNARTVAEVHEM 422

Query: 432  AR----QHQIDNYEFQCLHGMGETLYDQVVGPDNLGKACRVYAPVGSHQTLLAYLVRRLL 487
            A+       +  YEFQCLHGMGE+LYD VVG   LG  CR+YAPVGSH+TLL YLVRRLL
Sbjct: 423  AQCVGAGGTLPAYEFQCLHGMGESLYDSVVGGARLGVPCRIYAPVGSHRTLLPYLVRRLL 482

Query: 488  ENGANSSFVNQIVDEAVPLDRLVGDPIETVRAQGGLPHPAIAVPHRLYGEERKNSAGIDL 547
            ENGANSSFVN+IVD+++P+  L  DP++ V A    PHP+I +P  LYG ER+NSAG+DL
Sbjct: 483  ENGANSSFVNRIVDDSMPVAALAADPLQAVLAGDVTPHPSIPLPAGLYGPERRNSAGLDL 542

Query: 548  SNEDRLQQLGQLFISMADRQWQAAPLLAADTAAQSA--QAAQLVRNPADLREVVGQVSEA 605
            +++  L  L    ++ A    +A PLL +    ++A  Q A+ V NPAD  ++VG V EA
Sbjct: 543  ASDAVLAALEAALVARAGEPRRAQPLLGSGKLDEAAARQRARPVCNPADHADIVGSVVEA 602

Query: 606  TVADVDTALRAATDYAPQWQSTPATERAAMLERAADLLEEHIAELMALAVREAGKSLPNA 665
               +V+ AL AA   A  W + P   RA  L  AAD  E   A L+++ VREAGK+  NA
Sbjct: 603  LPDEVEAALAAAAAAAAGWAAVPPAARADALRAAADRFEAQQAALVSVLVREAGKTWGNA 662

Query: 666  IAEVREAVDFLRYYAIASRHDGNVLAWGPVVCISPWNFPLAIFIGEVSAALAAGNVVLAK 725
            +AEVREAVDF RYYA             P+VCISPWNFPLAIF+G++SAALAAG  VLAK
Sbjct: 663  VAEVREAVDFCRYYAQQVVTLPAPTQAAPLVCISPWNFPLAIFVGQLSAALAAGRCVLAK 722

Query: 726  PAEQTALIAHRAVQLLHEAGIPRAALQLLPGRGETVGAALTSDVRVKGVIFTGSTEVAQL 785
            PA  T L A  AV+L+H AGIPRAALQLLPGRG +VG  L  D R+ GV+FTGST+VA+ 
Sbjct: 723  PALATPLTAALAVELMHAAGIPRAALQLLPGRGGSVGQTLARDPRIGGVLFTGSTDVARG 782

Query: 786  INRTLAQRQHDDGDGSGEHGEVPLIAETGGQNALIVDSSALAEQVVQDVLSSAFDSAGQR 845
            + R LA+R        G   E  LIAETGGQNA+IVDSSAL EQVVQDVL SAFDSAGQR
Sbjct: 783  LARWLAER--------GAGPEPCLIAETGGQNAMIVDSSALLEQVVQDVLVSAFDSAGQR 834

Query: 846  CSALRILCLQEDIADRTLAMLKGAMAELRVGRPDRLSIDIGPVIDAEARQNLLDHIERMR 905
            CSALR+LC+Q DIA+  L MLK AM ELR+G P  L+ DIGPVID  AR  L  H+ RM+
Sbjct: 835  CSALRVLCVQRDIAEPLLTMLKDAMGELRIGDPAALATDIGPVIDNAARDALEAHVARMQ 894

Query: 906  ASARAVHQLPLGEECQHGTFVAPTVIEIDDLAQLQREVFGPVLHVLRYRRDALPQLIDAI 965
            A+ R V ++PL   C++G+FVAPT+IEID +  + REVFGP+LHVLR+  + L +LI +I
Sbjct: 895  AAGRGVFRVPLPPACENGSFVAPTLIEIDGIGDVGREVFGPILHVLRFDAEGLDRLIASI 954

Query: 966  NATGYGLTLGVHSRIDETIEFVAQRAHVGNIYVNRNIVGAVVGVQPFGGEGKSGTGPKAG 1025
            NATGYGLT G+HSRIDET+E V     VGN+YVNRN+VGAVVGVQPFGGEG SGTGPKAG
Sbjct: 955  NATGYGLTGGLHSRIDETVERVVAGLRVGNLYVNRNMVGAVVGVQPFGGEGLSGTGPKAG 1014

Query: 1026 GPLYLKRLQRNAQLH-EELTRAQPADVPNALLDSLLDWARTHGHERLAANGQRYHRDSLL 1084
            GPLYL RL   AQL    L    PA+ P A L  L  WAR  G   LAA        SL 
Sbjct: 1015 GPLYLHRLLGTAQLDPAALGLVAPAE-PAAALGVLAAWARQRGDSALAARCAEDGARSLA 1073

Query: 1085 QRSLVLPGPTGERNTLGFAPRGLVLCAAGSVGTLLNQLAAAFATGNTALVDERSAAI-LP 1143
                 LPGPTGE NTL F  RG+VLC A S   LL QLAAA ATGN+AL +  +AA  + 
Sbjct: 1074 GCHCALPGPTGEANTLRFVGRGVVLCVADSAPALLAQLAAALATGNSALFEAGAAAYRVA 1133

Query: 1144 SGLPAPVRAAIRRASQLDAEPLQAALVDSHQAAHW--RARLAAREGALVPLILCGEDTTI 1201
            + LP+ +   +             AL D    A W  R RLA R G LV ++        
Sbjct: 1134 AELPSALGGWLGVRGHGPDPVFAVALFDGDTEAEWLLRRRLAERPGPLVAVLRADGAGRY 1193

Query: 1202 PLWRLLAERALCINTTAAGGNASLMTI 1228
            PL RL+AER + INT AAGGNA+LMT+
Sbjct: 1194 PLHRLVAERVVSINTAAAGGNAALMTL 1220


Lambda     K      H
   0.319    0.134    0.389 

Gapped
Lambda     K      H
   0.267   0.0410    0.140 


Matrix: BLOSUM62
Gap Penalties: Existence: 11, Extension: 1
Number of Sequences: 1
Number of Hits to DB: 3860
Number of extensions: 183
Number of successful extensions: 10
Number of sequences better than 1.0e-02: 1
Number of HSP's gapped: 1
Number of HSP's successfully gapped: 1
Length of query: 1230
Length of database: 1221
Length adjustment: 47
Effective length of query: 1183
Effective length of database: 1174
Effective search space:  1388842
Effective search space used:  1388842
Neighboring words threshold: 11
Window for multiple hits: 40
X1: 16 ( 7.4 bits)
X2: 38 (14.6 bits)
X3: 64 (24.7 bits)
S1: 41 (21.8 bits)
S2: 59 (27.3 bits)

This GapMind analysis is from Sep 24 2021. The underlying query database was built on Sep 17 2021.

Downloads

Candidates (tab-delimited)
Steps (tab-delimited)
Rules (tab-delimited)
Protein sequences (fasta format)
Organisms (tab-delimited)
SQLite3 databases

Related tools

About GapMind

Each pathway is defined by a set of rules based on individual steps or genes. Candidates for each step are identified by using ublast (a fast alternative to protein BLAST) against a database of manually-curated proteins (most of which are experimentally characterized) or by using HMMer with enzyme models (usually from TIGRFam). Ublast hits may be split across two different proteins.

A candidate for a step is "high confidence" if either:

ublast finds a hit to a characterized protein at above 40% identity and 80% coverage, and bits >= other bits+10.
- (Hits to curated proteins without experimental data as to their function are never considered high confidence.)
HMMer finds a hit with 80% coverage of the model, and either other identity < 40 or other coverage < 0.75.

where "other" refers to the best ublast hit to a sequence that is not annotated as performing this step (and is not "ignored").

Otherwise, a candidate is "medium confidence" if either:

ublast finds a hit at above 40% identity and 70% coverage (ignoring otherBits).
ublast finds a hit at above 30% identity and 80% coverage, and bits >= other bits.
HMMer finds a hit (regardless of coverage or other bits).

Other blast hits with at least 50% coverage are "low confidence."

Steps with no high- or medium-confidence candidates may be considered "gaps." For the typical bacterium that can make all 20 amino acids, there are 1-2 gaps in amino acid biosynthesis pathways. For diverse bacteria and archaea that can utilize a carbon source, there is a complete high-confidence catabolic pathway (including a transporter) just 38% of the time, and there is a complete medium-confidence pathway 63% of the time. Gaps may be due to:

our ignorance of proteins' functions,
omissions in the gene models,
frame-shift errors in the genome sequence, or
the organism lacks the pathway.

GapMind relies on the predicted proteins in the genome and does not search the six-frame translation. In most cases, you can search the six-frame translation by clicking on links to Curated BLAST for each step definition (in the per-step page).

For more information, see:

the paper from 2019 on GapMind for amino acid biosynthesis
the paper from 2022 on GapMind for carbon sources
the source code
instructions for running GapMind on your computer

If you notice any errors or omissions in the step descriptions, or any questionable results, please let us know

by Morgan Price, Arkin group, Lawrence Berkeley National Laboratory

GapMind for catabolism of small carbon sources