~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/check.py

  • Committer: mbp at sourcefrog
  • Date: 2005-03-23 06:25:55 UTC
  • Revision ID: mbp@sourcefrog.net-20050323062555-5489339018d0c043
- import a subset of elementtree for easier installation

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
#! /usr/bin/python
 
2
 
 
3
 
1
4
# Copyright (C) 2004, 2005 by Martin Pool
2
5
# Copyright (C) 2005 by Canonical Ltd
3
6
 
 
7
 
4
8
# This program is free software; you can redistribute it and/or modify
5
9
# it under the terms of the GNU General Public License as published by
6
10
# the Free Software Foundation; either version 2 of the License, or
15
19
# along with this program; if not, write to the Free Software
16
20
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
17
21
 
18
 
# TODO: Check ancestries are correct for every revision: includes
19
 
# every committed so far, and in a reasonable order.
20
 
 
21
 
# TODO: Also check non-mainline revisions mentioned as parents.
22
 
 
23
 
# TODO: Check for extra files in the control directory.
24
 
 
25
 
# TODO: Check revision, inventory and entry objects have all 
26
 
# required fields.
27
 
 
28
 
 
29
 
import bzrlib.ui
30
 
from bzrlib.trace import note, warning
31
 
from bzrlib.osutils import rename, sha_string, fingerprint_file
32
 
from bzrlib.trace import mutter
33
 
from bzrlib.errors import BzrCheckError, NoSuchRevision
34
 
from bzrlib.inventory import ROOT_ID
35
 
from bzrlib.branch import gen_root_id
36
 
 
37
 
 
38
 
class Check(object):
39
 
    """Check a branch"""
40
 
    def __init__(self, branch):
41
 
        self.branch = branch
42
 
        branch.lock_read()
43
 
        try:
44
 
            branch.weave_store.enable_cache = True
45
 
            branch.control_weaves.enable_cache = True
46
 
            self.run()
47
 
        finally:
48
 
            branch.unlock()
49
 
            branch.weave_store.enable_cache = False
50
 
            branch.control_weaves.enable_cache = False
51
 
 
52
 
 
53
 
    def run(self):
54
 
        branch = self.branch
55
 
 
56
 
 
57
 
        self.checked_text_cnt = 0
58
 
        self.checked_rev_cnt = 0
59
 
        self.repeated_text_cnt = 0
60
 
        self.missing_inventory_sha_cnt = 0
61
 
        self.missing_revision_cnt = 0
62
 
        # maps (file-id, version) -> sha1
63
 
        self.checked_texts = {}
64
 
 
65
 
        history = branch.revision_history()
66
 
        revno = 0
67
 
        revcount = len(history)
68
 
 
69
 
        last_rev_id = None
70
 
        self.progress = bzrlib.ui.ui_factory.progress_bar()
71
 
        for rev_id in history:
72
 
            self.progress.update('checking revision', revno, revcount)
73
 
            revno += 1
74
 
            self.check_one_rev(rev_id, last_rev_id)
75
 
            last_rev_id = rev_id
76
 
        self.progress.clear()
77
 
        self.report_results()
78
 
 
79
 
 
80
 
    def report_results(self):
81
 
        note('checked branch %s format %d',
82
 
             self.branch.base, 
83
 
             self.branch._branch_format)
84
 
 
85
 
        note('%6d revisions', self.checked_rev_cnt)
86
 
        note('%6d unique file texts', self.checked_text_cnt)
87
 
        note('%6d repeated file texts', self.repeated_text_cnt)
88
 
        if self.missing_inventory_sha_cnt:
89
 
            note('%d revisions are missing inventory_sha1',
90
 
                 self.missing_inventory_sha_cnt)
91
 
        if self.missing_revision_cnt:
92
 
            note('%d revisions are mentioned but not present',
93
 
                 self.missing_revision_cnt)
94
 
 
95
 
 
96
 
    def check_one_rev(self, rev_id, last_rev_id):
97
 
        """Check one revision.
98
 
 
99
 
        rev_id - the one to check
100
 
 
101
 
        last_rev_id - the previous one on the mainline, if any.
102
 
        """
103
 
 
104
 
        # mutter('    revision {%s}' % rev_id)
105
 
        branch = self.branch
106
 
        rev = branch.get_revision(rev_id)
107
 
        if rev.revision_id != rev_id:
108
 
            raise BzrCheckError('wrong internal revision id in revision {%s}'
109
 
                                % rev_id)
110
 
 
111
 
        # check the previous history entry is a parent of this entry
112
 
        if rev.parent_ids:
113
 
            if last_rev_id is None:
114
 
                raise BzrCheckError("revision {%s} has %d parents, but is the "
115
 
                                    "start of the branch"
116
 
                                    % (rev_id, len(rev.parent_ids)))
117
 
            for parent_id in rev.parent_ids:
118
 
                if parent_id == last_rev_id:
119
 
                    break
120
 
            else:
121
 
                raise BzrCheckError("previous revision {%s} not listed among "
122
 
                                    "parents of {%s}"
123
 
                                    % (last_rev_id, rev_id))
124
 
        elif last_rev_id:
125
 
            raise BzrCheckError("revision {%s} has no parents listed "
126
 
                                "but preceded by {%s}"
127
 
                                % (rev_id, last_rev_id))
128
 
 
129
 
        if rev.inventory_sha1:
130
 
            inv_sha1 = branch.get_inventory_sha1(rev_id)
131
 
            if inv_sha1 != rev.inventory_sha1:
132
 
                raise BzrCheckError('Inventory sha1 hash doesn\'t match'
133
 
                    ' value in revision {%s}' % rev_id)
134
 
        else:
135
 
            missing_inventory_sha_cnt += 1
136
 
            mutter("no inventory_sha1 on revision {%s}" % rev_id)
137
 
        self._check_revision_tree(rev_id)
138
 
        self.checked_rev_cnt += 1
139
 
 
140
 
    def _check_revision_tree(self, rev_id):
141
 
        tree = self.branch.revision_tree(rev_id)
142
 
        inv = tree.inventory
143
 
        seen_ids = {}
144
 
        for file_id in inv:
145
 
            if file_id in seen_ids:
146
 
                raise BzrCheckError('duplicated file_id {%s} '
147
 
                                    'in inventory for revision {%s}'
148
 
                                    % (file_id, rev_id))
149
 
            seen_ids[file_id] = True
150
 
        for file_id in inv:
151
 
            ie = inv[file_id]
152
 
            ie.check(self, rev_id, inv, tree)
153
 
        seen_names = {}
154
 
        for path, ie in inv.iter_entries():
155
 
            if path in seen_names:
156
 
                raise BzrCheckError('duplicated path %s '
157
 
                                    'in inventory for revision {%s}'
158
 
                                    % (path, rev_id))
159
 
            seen_names[path] = True
160
 
 
161
 
 
162
 
def check(branch):
163
 
    """Run consistency checks on a branch."""
164
 
    Check(branch)
 
22
 
 
23
 
 
24
######################################################################
 
25
# consistency checks
 
26
 
 
27
def check():
 
28
    """Consistency check of tree."""
 
29
    assert_in_tree()
 
30
    mutter("checking tree")
 
31
    check_patches_exist()
 
32
    check_patch_chaining()
 
33
    check_patch_uniqueness()
 
34
    check_inventory()
 
35
    mutter("tree looks OK")
 
36
    ## TODO: Check that previous-inventory and previous-manifest
 
37
    ## are the same as those stored in the previous changeset.
 
38
 
 
39
    ## TODO: Check all patches present in patch directory are
 
40
    ## mentioned in patch history; having an orphaned patch only gives
 
41
    ## a warning.
 
42
 
 
43
    ## TODO: Check cached data is consistent with data reconstructed
 
44
    ## from scratch.
 
45
 
 
46
    ## TODO: Check no control files are versioned.
 
47
 
 
48
    ## TODO: Check that the before-hash of each file in a later
 
49
    ## revision matches the after-hash in the previous revision to
 
50
    ## touch it.
 
51
 
 
52
 
 
53
def check_inventory():
 
54
    mutter("checking inventory file and ids...")
 
55
    seen_ids = Set()
 
56
    seen_names = Set()
 
57
    
 
58
    for l in controlfile('inventory').readlines():
 
59
        parts = l.split()
 
60
        if len(parts) != 2:
 
61
            bailout("malformed inventory line: " + `l`)
 
62
        file_id, name = parts
 
63
        
 
64
        if file_id in seen_ids:
 
65
            bailout("duplicated file id " + file_id)
 
66
        seen_ids.add(file_id)
 
67
 
 
68
        if name in seen_names:
 
69
            bailout("duplicated file name in inventory: " + quotefn(name))
 
70
        seen_names.add(name)
 
71
        
 
72
        if is_control_file(name):
 
73
            raise BzrError("control file %s present in inventory" % quotefn(name))
 
74
 
 
75
 
 
76
def check_patches_exist():
 
77
    """Check constraint of current version: all patches exist"""
 
78
    mutter("checking all patches are present...")
 
79
    for pid in revision_history():
 
80
        read_patch_header(pid)
 
81
 
 
82
 
 
83
def check_patch_chaining():
 
84
    """Check ancestry of patches and history file is consistent"""
 
85
    mutter("checking patch chaining...")
 
86
    prev = None
 
87
    for pid in revision_history():
 
88
        log_prev = read_patch_header(pid).precursor
 
89
        if log_prev != prev:
 
90
            bailout("inconsistent precursor links on " + pid)
 
91
        prev = pid
 
92
 
 
93
 
 
94
def check_patch_uniqueness():
 
95
    """Make sure no patch is listed twice in the history.
 
96
 
 
97
    This should be implied by having correct ancestry but I'll check it
 
98
    anyhow."""
 
99
    mutter("checking history for duplicates...")
 
100
    seen = Set()
 
101
    for pid in revision_history():
 
102
        if pid in seen:
 
103
            bailout("patch " + pid + " appears twice in history")
 
104
        seen.add(pid)
 
105
        
 
106