~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/check.py

  • Committer: Martin Pool
  • Date: 2006-01-13 06:31:42 UTC
  • Revision ID: mbp@sourcefrog.net-20060113063142-8e706dc1483c69e1
Bump version to 0.8pre

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
#! /usr/bin/python
2
 
 
3
 
 
4
1
# Copyright (C) 2004, 2005 by Martin Pool
5
2
# Copyright (C) 2005 by Canonical Ltd
6
3
 
7
 
 
8
4
# This program is free software; you can redistribute it and/or modify
9
5
# it under the terms of the GNU General Public License as published by
10
6
# the Free Software Foundation; either version 2 of the License, or
19
15
# along with this program; if not, write to the Free Software
20
16
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
21
17
 
22
 
 
23
 
 
24
 
######################################################################
25
 
# consistency checks
26
 
 
27
 
def check():
28
 
    """Consistency check of tree."""
29
 
    assert_in_tree()
30
 
    mutter("checking tree")
31
 
    check_patches_exist()
32
 
    check_patch_chaining()
33
 
    check_patch_uniqueness()
34
 
    check_inventory()
35
 
    mutter("tree looks OK")
36
 
    ## TODO: Check that previous-inventory and previous-manifest
37
 
    ## are the same as those stored in the previous changeset.
38
 
 
39
 
    ## TODO: Check all patches present in patch directory are
40
 
    ## mentioned in patch history; having an orphaned patch only gives
41
 
    ## a warning.
42
 
 
43
 
    ## TODO: Check cached data is consistent with data reconstructed
44
 
    ## from scratch.
45
 
 
46
 
    ## TODO: Check no control files are versioned.
47
 
 
48
 
    ## TODO: Check that the before-hash of each file in a later
49
 
    ## revision matches the after-hash in the previous revision to
50
 
    ## touch it.
51
 
 
52
 
 
53
 
def check_inventory():
54
 
    mutter("checking inventory file and ids...")
55
 
    seen_ids = Set()
56
 
    seen_names = Set()
57
 
    
58
 
    for l in controlfile('inventory').readlines():
59
 
        parts = l.split()
60
 
        if len(parts) != 2:
61
 
            bailout("malformed inventory line: " + `l`)
62
 
        file_id, name = parts
63
 
        
64
 
        if file_id in seen_ids:
65
 
            bailout("duplicated file id " + file_id)
66
 
        seen_ids.add(file_id)
67
 
 
68
 
        if name in seen_names:
69
 
            bailout("duplicated file name in inventory: " + quotefn(name))
70
 
        seen_names.add(name)
71
 
        
72
 
        if is_control_file(name):
73
 
            raise BzrError("control file %s present in inventory" % quotefn(name))
74
 
 
75
 
 
76
 
def check_patches_exist():
77
 
    """Check constraint of current version: all patches exist"""
78
 
    mutter("checking all patches are present...")
79
 
    for pid in revision_history():
80
 
        read_patch_header(pid)
81
 
 
82
 
 
83
 
def check_patch_chaining():
84
 
    """Check ancestry of patches and history file is consistent"""
85
 
    mutter("checking patch chaining...")
86
 
    prev = None
87
 
    for pid in revision_history():
88
 
        log_prev = read_patch_header(pid).precursor
89
 
        if log_prev != prev:
90
 
            bailout("inconsistent precursor links on " + pid)
91
 
        prev = pid
92
 
 
93
 
 
94
 
def check_patch_uniqueness():
95
 
    """Make sure no patch is listed twice in the history.
96
 
 
97
 
    This should be implied by having correct ancestry but I'll check it
98
 
    anyhow."""
99
 
    mutter("checking history for duplicates...")
100
 
    seen = Set()
101
 
    for pid in revision_history():
102
 
        if pid in seen:
103
 
            bailout("patch " + pid + " appears twice in history")
104
 
        seen.add(pid)
105
 
        
106
 
 
 
18
# TODO: Check ancestries are correct for every revision: includes
 
19
# every committed so far, and in a reasonable order.
 
20
 
 
21
# TODO: Also check non-mainline revisions mentioned as parents.
 
22
 
 
23
# TODO: Check for extra files in the control directory.
 
24
 
 
25
# TODO: Check revision, inventory and entry objects have all 
 
26
# required fields.
 
27
 
 
28
# TODO: Get every revision in the revision-store even if they're not
 
29
# referenced by history and make sure they're all valid.
 
30
 
 
31
import bzrlib.ui
 
32
from bzrlib.trace import note, warning
 
33
from bzrlib.osutils import rename, sha_string, fingerprint_file
 
34
from bzrlib.trace import mutter
 
35
from bzrlib.errors import BzrCheckError, NoSuchRevision
 
36
from bzrlib.inventory import ROOT_ID
 
37
 
 
38
 
 
39
class Check(object):
 
40
    """Check a branch"""
 
41
 
 
42
    def __init__(self, branch):
 
43
        self.branch = branch
 
44
        self.checked_text_cnt = 0
 
45
        self.checked_rev_cnt = 0
 
46
        self.ghosts = []
 
47
        self.repeated_text_cnt = 0
 
48
        self.missing_parent_links = {}
 
49
        self.missing_inventory_sha_cnt = 0
 
50
        self.missing_revision_cnt = 0
 
51
        # maps (file-id, version) -> sha1
 
52
        self.checked_texts = {}
 
53
        self.checked_weaves = {}
 
54
 
 
55
    def check(self):
 
56
        self.branch.lock_read()
 
57
        self.progress = bzrlib.ui.ui_factory.progress_bar()
 
58
        try:
 
59
            self.progress.update('retrieving inventory', 0, 0)
 
60
            # do not put in init, as it should be done with progess,
 
61
            # and inside the lock.
 
62
            self.inventory_weave = self.branch._get_inventory_weave()
 
63
            self.history = self.branch.revision_history()
 
64
            if not len(self.history):
 
65
                # nothing to see here
 
66
                return
 
67
            self.plan_revisions()
 
68
            revno = 0
 
69
            self.check_weaves()
 
70
            while revno < len(self.planned_revisions):
 
71
                rev_id = self.planned_revisions[revno]
 
72
                self.progress.update('checking revision', revno,
 
73
                                     len(self.planned_revisions))
 
74
                revno += 1
 
75
                self.check_one_rev(rev_id)
 
76
        finally:
 
77
            self.progress.clear()
 
78
            self.branch.unlock()
 
79
 
 
80
    def plan_revisions(self):
 
81
        if not self.branch.revision_store.listable():
 
82
            self.planned_revisions = self.branch.get_ancestry(self.history[-1])
 
83
            self.planned_revisions.remove(None)
 
84
            # FIXME progress bars should support this more nicely.
 
85
            self.progress.clear()
 
86
            print ("Checking reachable history -"
 
87
                   " for a complete check use a local branch.")
 
88
            return
 
89
        
 
90
        self.planned_revisions = set(self.branch.revision_store)
 
91
        inventoried = set(self.inventory_weave.names())
 
92
        awol = self.planned_revisions - inventoried
 
93
        if len(awol) > 0:
 
94
            raise BzrCheckError('Stored revisions missing from inventory'
 
95
                '{%s}' % ','.join([f for f in awol]))
 
96
        self.planned_revisions = list(self.planned_revisions)
 
97
 
 
98
    def report_results(self, verbose):
 
99
        note('checked branch %s format %d',
 
100
             self.branch.base, 
 
101
             self.branch._branch_format)
 
102
 
 
103
        note('%6d revisions', self.checked_rev_cnt)
 
104
        note('%6d unique file texts', self.checked_text_cnt)
 
105
        note('%6d repeated file texts', self.repeated_text_cnt)
 
106
        note('%6d weaves', len(self.checked_weaves))
 
107
        if self.missing_inventory_sha_cnt:
 
108
            note('%6d revisions are missing inventory_sha1',
 
109
                 self.missing_inventory_sha_cnt)
 
110
        if self.missing_revision_cnt:
 
111
            note('%6d revisions are mentioned but not present',
 
112
                 self.missing_revision_cnt)
 
113
        if len(self.ghosts):
 
114
            note('%6d ghost revisions', len(self.ghosts))
 
115
            if verbose:
 
116
                for ghost in self.ghosts:
 
117
                    note('      %s', ghost)
 
118
        if len(self.missing_parent_links):
 
119
            note('%6d revisions missing parents in ancestry', 
 
120
                 len(self.missing_parent_links))
 
121
            if verbose:
 
122
                for link, linkers in self.missing_parent_links.items():
 
123
                    note('      %s should be in the ancestry for:', link)
 
124
                    for linker in linkers:
 
125
                        note('       * %s', linker)
 
126
 
 
127
    def check_one_rev(self, rev_id):
 
128
        """Check one revision.
 
129
 
 
130
        rev_id - the one to check
 
131
 
 
132
        last_rev_id - the previous one on the mainline, if any.
 
133
        """
 
134
 
 
135
        # mutter('    revision {%s}', rev_id)
 
136
        branch = self.branch
 
137
        try:
 
138
            rev_history_position = self.history.index(rev_id)
 
139
        except ValueError:
 
140
            rev_history_position = None
 
141
        last_rev_id = None
 
142
        if rev_history_position:
 
143
            rev = branch.get_revision(rev_id)
 
144
            if rev_history_position > 0:
 
145
                last_rev_id = self.history[rev_history_position - 1]
 
146
        else:
 
147
            rev = branch.get_revision(rev_id)
 
148
                
 
149
        if rev.revision_id != rev_id:
 
150
            raise BzrCheckError('wrong internal revision id in revision {%s}'
 
151
                                % rev_id)
 
152
 
 
153
        # check the previous history entry is a parent of this entry
 
154
        if rev.parent_ids:
 
155
            if last_rev_id is not None:
 
156
                for parent_id in rev.parent_ids:
 
157
                    if parent_id == last_rev_id:
 
158
                        break
 
159
                else:
 
160
                    raise BzrCheckError("previous revision {%s} not listed among "
 
161
                                        "parents of {%s}"
 
162
                                        % (last_rev_id, rev_id))
 
163
            for parent in rev.parent_ids:
 
164
                if not parent in self.planned_revisions:
 
165
                    missing_links = self.missing_parent_links.get(parent, [])
 
166
                    missing_links.append(rev_id)
 
167
                    self.missing_parent_links[parent] = missing_links
 
168
                    # list based so somewhat slow,
 
169
                    # TODO have a planned_revisions list and set.
 
170
                    if self.branch.has_revision(parent):
 
171
                        missing_ancestry = self.branch.get_ancestry(parent)
 
172
                        for missing in missing_ancestry:
 
173
                            if (missing is not None 
 
174
                                and missing not in self.planned_revisions):
 
175
                                self.planned_revisions.append(missing)
 
176
                    else:
 
177
                        self.ghosts.append(rev_id)
 
178
        elif last_rev_id:
 
179
            raise BzrCheckError("revision {%s} has no parents listed "
 
180
                                "but preceded by {%s}"
 
181
                                % (rev_id, last_rev_id))
 
182
 
 
183
        if rev.inventory_sha1:
 
184
            inv_sha1 = branch.get_inventory_sha1(rev_id)
 
185
            if inv_sha1 != rev.inventory_sha1:
 
186
                raise BzrCheckError('Inventory sha1 hash doesn\'t match'
 
187
                    ' value in revision {%s}' % rev_id)
 
188
        else:
 
189
            missing_inventory_sha_cnt += 1
 
190
            mutter("no inventory_sha1 on revision {%s}", rev_id)
 
191
        self._check_revision_tree(rev_id)
 
192
        self.checked_rev_cnt += 1
 
193
 
 
194
    def check_weaves(self):
 
195
        """Check all the weaves we can get our hands on.
 
196
        """
 
197
        n_weaves = 1
 
198
        weave_ids = []
 
199
        if self.branch.weave_store.listable():
 
200
            weave_ids = list(self.branch.weave_store)
 
201
            n_weaves = len(weave_ids)
 
202
        self.progress.update('checking weave', 0, n_weaves)
 
203
        self.inventory_weave.check(progress_bar=self.progress)
 
204
        for i, weave_id in enumerate(weave_ids):
 
205
            self.progress.update('checking weave', i, n_weaves)
 
206
            w = self.branch.weave_store.get_weave(weave_id,
 
207
                    self.branch.get_transaction())
 
208
            # No progress here, because it looks ugly.
 
209
            w.check()
 
210
            self.checked_weaves[weave_id] = True
 
211
 
 
212
    def _check_revision_tree(self, rev_id):
 
213
        tree = self.branch.revision_tree(rev_id)
 
214
        inv = tree.inventory
 
215
        seen_ids = {}
 
216
        for file_id in inv:
 
217
            if file_id in seen_ids:
 
218
                raise BzrCheckError('duplicated file_id {%s} '
 
219
                                    'in inventory for revision {%s}'
 
220
                                    % (file_id, rev_id))
 
221
            seen_ids[file_id] = True
 
222
        for file_id in inv:
 
223
            ie = inv[file_id]
 
224
            ie.check(self, rev_id, inv, tree)
 
225
        seen_names = {}
 
226
        for path, ie in inv.iter_entries():
 
227
            if path in seen_names:
 
228
                raise BzrCheckError('duplicated path %s '
 
229
                                    'in inventory for revision {%s}'
 
230
                                    % (path, rev_id))
 
231
            seen_names[path] = True
 
232
 
 
233
 
 
234
def check(branch, verbose):
 
235
    """Run consistency checks on a branch."""
 
236
    checker = Check(branch)
 
237
    checker.check()
 
238
    checker.report_results(verbose)