~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/check.py

  • Committer: Martin Pool
  • Date: 2005-09-06 02:26:28 UTC
  • Revision ID: mbp@sourcefrog.net-20050906022628-66d65f0feb4a9e80
- implement version 5 xml storage, and tests

  This stores files identified by the version that introduced the 
  text, and the version that introduced the name.  Entry kinds are
  given by the xml tag not an explicit kind field.

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
# Copyright (C) 2005, 2006 by Canonical Ltd
 
1
# Copyright (C) 2004, 2005 by Martin Pool
 
2
# Copyright (C) 2005 by Canonical Ltd
2
3
 
3
4
# This program is free software; you can redistribute it and/or modify
4
5
# it under the terms of the GNU General Public License as published by
14
15
# along with this program; if not, write to the Free Software
15
16
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
16
17
 
17
 
# TODO: Check ancestries are correct for every revision: includes
18
 
# every committed so far, and in a reasonable order.
19
 
 
20
 
# TODO: Also check non-mainline revisions mentioned as parents.
21
 
 
22
 
# TODO: Check for extra files in the control directory.
23
 
 
24
 
# TODO: Check revision, inventory and entry objects have all 
25
 
# required fields.
26
 
 
27
 
# TODO: Get every revision in the revision-store even if they're not
28
 
# referenced by history and make sure they're all valid.
29
 
 
30
 
# TODO: Perhaps have a way to record errors other than by raising exceptions;
31
 
# would perhaps be enough to accumulate exception objects in a list without
32
 
# raising them.  If there's more than one exception it'd be good to see them
33
 
# all.
34
 
 
35
18
import bzrlib.ui
36
19
from bzrlib.trace import note, warning
37
 
from bzrlib.osutils import rename, sha_string, fingerprint_file
38
 
from bzrlib.trace import mutter
39
 
from bzrlib.errors import BzrCheckError, NoSuchRevision
40
 
from bzrlib.inventory import ROOT_ID
41
 
 
42
 
 
43
 
class Check(object):
44
 
    """Check a branch"""
45
 
 
46
 
    # The Check object interacts with InventoryEntry.check, etc.
47
 
 
48
 
    def __init__(self, branch):
49
 
        self.branch = branch
50
 
        self.repository = branch.repository
51
 
        self.checked_text_cnt = 0
52
 
        self.checked_rev_cnt = 0
53
 
        self.ghosts = []
54
 
        self.repeated_text_cnt = 0
55
 
        self.missing_parent_links = {}
56
 
        self.missing_inventory_sha_cnt = 0
57
 
        self.missing_revision_cnt = 0
58
 
        # maps (file-id, version) -> sha1; used by InventoryFile._check
59
 
        self.checked_texts = {}
60
 
        self.checked_weaves = {}
61
 
 
62
 
    def check(self):
63
 
        self.branch.lock_read()
64
 
        self.progress = bzrlib.ui.ui_factory.nested_progress_bar()
65
 
        try:
66
 
            self.progress.update('retrieving inventory', 0, 0)
67
 
            # do not put in init, as it should be done with progess,
68
 
            # and inside the lock.
69
 
            self.inventory_weave = self.branch.repository.get_inventory_weave()
70
 
            self.history = self.branch.revision_history()
71
 
            if not len(self.history):
72
 
                # nothing to see here
73
 
                return
74
 
            self.plan_revisions()
75
 
            revno = 0
76
 
            self.check_weaves()
77
 
            while revno < len(self.planned_revisions):
78
 
                rev_id = self.planned_revisions[revno]
79
 
                self.progress.update('checking revision', revno,
80
 
                                     len(self.planned_revisions))
81
 
                revno += 1
82
 
                self.check_one_rev(rev_id)
83
 
        finally:
84
 
            self.progress.finished()
85
 
            self.branch.unlock()
86
 
 
87
 
    def plan_revisions(self):
88
 
        repository = self.branch.repository
89
 
        self.planned_revisions = set(repository.all_revision_ids())
90
 
        self.progress.clear()
91
 
        inventoried = set(self.inventory_weave.versions())
92
 
        awol = self.planned_revisions - inventoried
93
 
        if len(awol) > 0:
94
 
            raise BzrCheckError('Stored revisions missing from inventory'
95
 
                '{%s}' % ','.join([f for f in awol]))
96
 
        self.planned_revisions = list(self.planned_revisions)
97
 
 
98
 
    def report_results(self, verbose):
99
 
        note('checked branch %s format %s',
100
 
             self.branch.base, 
101
 
             self.branch._format)
102
 
 
103
 
        note('%6d revisions', self.checked_rev_cnt)
104
 
        note('%6d unique file texts', self.checked_text_cnt)
105
 
        note('%6d repeated file texts', self.repeated_text_cnt)
106
 
        note('%6d weaves', len(self.checked_weaves))
107
 
        if self.missing_inventory_sha_cnt:
108
 
            note('%6d revisions are missing inventory_sha1',
109
 
                 self.missing_inventory_sha_cnt)
110
 
        if self.missing_revision_cnt:
111
 
            note('%6d revisions are mentioned but not present',
112
 
                 self.missing_revision_cnt)
113
 
        if len(self.ghosts):
114
 
            note('%6d ghost revisions', len(self.ghosts))
115
 
            if verbose:
116
 
                for ghost in self.ghosts:
117
 
                    note('      %s', ghost)
118
 
        if len(self.missing_parent_links):
119
 
            note('%6d revisions missing parents in ancestry', 
120
 
                 len(self.missing_parent_links))
121
 
            if verbose:
122
 
                for link, linkers in self.missing_parent_links.items():
123
 
                    note('      %s should be in the ancestry for:', link)
124
 
                    for linker in linkers:
125
 
                        note('       * %s', linker)
126
 
 
127
 
    def check_one_rev(self, rev_id):
128
 
        """Check one revision.
129
 
 
130
 
        rev_id - the one to check
131
 
 
132
 
        last_rev_id - the previous one on the mainline, if any.
133
 
        """
134
 
 
135
 
        # mutter('    revision {%s}', rev_id)
136
 
        branch = self.branch
137
 
        try:
138
 
            rev_history_position = self.history.index(rev_id)
139
 
        except ValueError:
140
 
            rev_history_position = None
 
20
 
 
21
def _update_store_entry(obj, obj_id, branch, store_name, store):
 
22
    """This is just a meta-function, which handles both revision entries
 
23
    and inventory entries.
 
24
    """
 
25
    from bzrlib.trace import mutter
 
26
    import tempfile, os, errno
 
27
    from osutils import rename
 
28
    obj_tmp = tempfile.TemporaryFile()
 
29
    obj.write_xml(obj_tmp)
 
30
    obj_tmp.seek(0)
 
31
 
 
32
    tmpfd, tmp_path = tempfile.mkstemp(prefix=obj_id, suffix='.gz',
 
33
        dir=branch.controlfilename(store_name))
 
34
    os.close(tmpfd)
 
35
    try:
 
36
        orig_obj_path = branch.controlfilename([store_name, obj_id+'.gz'])
 
37
        # Remove the old entry out of the way
 
38
        rename(orig_obj_path, tmp_path)
 
39
        try:
 
40
            # TODO: We may need to handle the case where the old
 
41
            # entry was not compressed (and thus did not end with .gz)
 
42
 
 
43
            store.add(obj_tmp, obj_id) # Add the new one
 
44
            os.remove(tmp_path) # Remove the old name
 
45
            mutter('    Updated %s entry {%s}' % (store_name, obj_id))
 
46
        except:
 
47
            # On any exception, restore the old entry
 
48
            rename(tmp_path, orig_obj_path)
 
49
            raise
 
50
    finally:
 
51
        if os.path.exists(tmp_path):
 
52
            # Unfortunately, the next command might throw
 
53
            # an exception, which will mask a previous exception.
 
54
            os.remove(tmp_path)
 
55
        obj_tmp.close()
 
56
 
 
57
def _update_revision_entry(rev, branch):
 
58
    """After updating the values in a revision, make sure to
 
59
    write out the data, but try to do it in an atomic manner.
 
60
 
 
61
    :param rev:    The Revision object to store
 
62
    :param branch: The Branch object where this Revision is to be stored.
 
63
    """
 
64
    _update_store_entry(rev, rev.revision_id, branch,
 
65
            'revision-store', branch.revision_store)
 
66
 
 
67
def _update_inventory_entry(inv, inv_id, branch):
 
68
    """When an inventory has been modified (such as by adding a unique tree root)
 
69
    this atomically re-generates the file.
 
70
 
 
71
    :param inv:     The Inventory
 
72
    :param inv_id:  The inventory id for this inventory
 
73
    :param branch:  The Branch where this entry will be stored.
 
74
    """
 
75
    _update_store_entry(inv, inv_id, branch,
 
76
            'inventory-store', branch.inventory_store)
 
77
 
 
78
 
 
79
def check(branch):
 
80
    """Run consistency checks on a branch.
 
81
 
 
82
    TODO: Also check non-mainline revisions mentioned as parents.
 
83
 
 
84
    TODO: Check for extra files in the control directory.
 
85
    """
 
86
    from bzrlib.trace import mutter
 
87
    from bzrlib.errors import BzrCheckError, NoSuchRevision
 
88
    from bzrlib.osutils import fingerprint_file
 
89
    from bzrlib.inventory import ROOT_ID
 
90
    from bzrlib.branch import gen_root_id
 
91
 
 
92
    branch.lock_read()
 
93
 
 
94
    try:
141
95
        last_rev_id = None
142
 
        if rev_history_position:
143
 
            rev = branch.repository.get_revision(rev_id)
144
 
            if rev_history_position > 0:
145
 
                last_rev_id = self.history[rev_history_position - 1]
146
 
        else:
147
 
            rev = branch.repository.get_revision(rev_id)
148
 
                
149
 
        if rev.revision_id != rev_id:
150
 
            raise BzrCheckError('wrong internal revision id in revision {%s}'
151
 
                                % rev_id)
152
 
 
153
 
        # check the previous history entry is a parent of this entry
154
 
        if rev.parent_ids:
155
 
            if last_rev_id is not None:
156
 
                for parent_id in rev.parent_ids:
157
 
                    if parent_id == last_rev_id:
 
96
 
 
97
        missing_inventory_sha_cnt = 0
 
98
        missing_revision_sha_cnt = 0
 
99
        missing_revision_cnt = 0
 
100
 
 
101
        history = branch.revision_history()
 
102
        revno = 0
 
103
        revcount = len(history)
 
104
        mismatch_inv_id = []
 
105
 
 
106
        # for all texts checked, text_id -> sha1
 
107
        checked_texts = {}
 
108
 
 
109
        progress = bzrlib.ui.ui_factory.progress_bar()
 
110
 
 
111
        for rev_id in history:
 
112
            revno += 1
 
113
            progress.update('checking revision', revno, revcount)
 
114
            # mutter('    revision {%s}' % rev_id)
 
115
            rev = branch.get_revision(rev_id)
 
116
            if rev.revision_id != rev_id:
 
117
                raise BzrCheckError('wrong internal revision id in revision {%s}'
 
118
                                    % rev_id)
 
119
 
 
120
            # check the previous history entry is a parent of this entry
 
121
            if rev.parents:
 
122
                if last_rev_id is None:
 
123
                    raise BzrCheckError("revision {%s} has %d parents, but is the "
 
124
                                        "start of the branch"
 
125
                                        % (rev_id, len(rev.parents)))
 
126
                for prr in rev.parents:
 
127
                    if prr.revision_id == last_rev_id:
158
128
                        break
159
129
                else:
160
130
                    raise BzrCheckError("previous revision {%s} not listed among "
161
131
                                        "parents of {%s}"
162
132
                                        % (last_rev_id, rev_id))
163
 
            for parent in rev.parent_ids:
164
 
                if not parent in self.planned_revisions:
165
 
                    missing_links = self.missing_parent_links.get(parent, [])
166
 
                    missing_links.append(rev_id)
167
 
                    self.missing_parent_links[parent] = missing_links
168
 
                    # list based so somewhat slow,
169
 
                    # TODO have a planned_revisions list and set.
170
 
                    if self.branch.repository.has_revision(parent):
171
 
                        missing_ancestry = self.repository.get_ancestry(parent)
172
 
                        for missing in missing_ancestry:
173
 
                            if (missing is not None 
174
 
                                and missing not in self.planned_revisions):
175
 
                                self.planned_revisions.append(missing)
 
133
 
 
134
                for prr in rev.parents:
 
135
                    if prr.revision_sha1 is None:
 
136
                        missing_revision_sha_cnt += 1
 
137
                        continue
 
138
                    prid = prr.revision_id
 
139
                    
 
140
                    try:
 
141
                        actual_sha = branch.get_revision_sha1(prid)
 
142
                    except NoSuchRevision:
 
143
                        missing_revision_cnt += 1
 
144
                        mutter("parent {%s} of {%s} not present in store",
 
145
                               prid, rev_id)
 
146
                        continue
 
147
                        
 
148
                    if prr.revision_sha1 != actual_sha:
 
149
                        raise BzrCheckError("mismatched revision sha1 for "
 
150
                                            "parent {%s} of {%s}: %s vs %s"
 
151
                                            % (prid, rev_id,
 
152
                                               prr.revision_sha1, actual_sha))
 
153
            elif last_rev_id:
 
154
                raise BzrCheckError("revision {%s} has no parents listed but preceded "
 
155
                                    "by {%s}"
 
156
                                    % (rev_id, last_rev_id))
 
157
 
 
158
            if rev.inventory_id != rev_id:
 
159
                mismatch_inv_id.append(rev_id)
 
160
 
 
161
            ## TODO: Check all the required fields are present on the revision.
 
162
 
 
163
            if rev.inventory_sha1:
 
164
                inv_sha1 = branch.get_inventory_sha1(rev.inventory_id)
 
165
                if inv_sha1 != rev.inventory_sha1:
 
166
                    raise BzrCheckError('Inventory sha1 hash doesn\'t match'
 
167
                        ' value in revision {%s}' % rev_id)
 
168
            else:
 
169
                missing_inventory_sha_cnt += 1
 
170
                mutter("no inventory_sha1 on revision {%s}" % rev_id)
 
171
 
 
172
            inv = branch.get_inventory(rev.inventory_id)
 
173
            seen_ids = {}
 
174
            seen_names = {}
 
175
 
 
176
            ## p('revision %d/%d file ids' % (revno, revcount))
 
177
            for file_id in inv:
 
178
                if file_id in seen_ids:
 
179
                    raise BzrCheckError('duplicated file_id {%s} '
 
180
                                        'in inventory for revision {%s}'
 
181
                                        % (file_id, rev_id))
 
182
                seen_ids[file_id] = True
 
183
 
 
184
            i = 0
 
185
            for file_id in inv:
 
186
                i += 1
 
187
                if i & 31 == 0:
 
188
                    progress.tick()
 
189
 
 
190
                ie = inv[file_id]
 
191
 
 
192
                if ie.parent_id != None:
 
193
                    if ie.parent_id not in seen_ids:
 
194
                        raise BzrCheckError('missing parent {%s} in inventory for revision {%s}'
 
195
                                % (ie.parent_id, rev_id))
 
196
 
 
197
                if ie.kind == 'file':
 
198
                    if ie.text_id in checked_texts:
 
199
                        fp = checked_texts[ie.text_id]
176
200
                    else:
177
 
                        self.ghosts.append(rev_id)
178
 
        elif last_rev_id:
179
 
            raise BzrCheckError("revision {%s} has no parents listed "
180
 
                                "but preceded by {%s}"
181
 
                                % (rev_id, last_rev_id))
182
 
 
183
 
        if rev.inventory_sha1:
184
 
            inv_sha1 = branch.repository.get_inventory_sha1(rev_id)
185
 
            if inv_sha1 != rev.inventory_sha1:
186
 
                raise BzrCheckError('Inventory sha1 hash doesn\'t match'
187
 
                    ' value in revision {%s}' % rev_id)
188
 
        else:
189
 
            missing_inventory_sha_cnt += 1
190
 
            mutter("no inventory_sha1 on revision {%s}", rev_id)
191
 
        self._check_revision_tree(rev_id)
192
 
        self.checked_rev_cnt += 1
193
 
 
194
 
    def check_weaves(self):
195
 
        """Check all the weaves we can get our hands on.
196
 
        """
197
 
        n_weaves = 1
198
 
        weave_ids = []
199
 
        if self.branch.repository.weave_store.listable():
200
 
            weave_ids = list(self.branch.repository.weave_store)
201
 
            n_weaves = len(weave_ids)
202
 
        self.progress.update('checking weave', 0, n_weaves)
203
 
        self.inventory_weave.check(progress_bar=self.progress)
204
 
        for i, weave_id in enumerate(weave_ids):
205
 
            self.progress.update('checking weave', i, n_weaves)
206
 
            w = self.branch.repository.weave_store.get_weave(weave_id,
207
 
                    self.branch.repository.get_transaction())
208
 
            # No progress here, because it looks ugly.
209
 
            w.check()
210
 
            self.checked_weaves[weave_id] = True
211
 
 
212
 
    def _check_revision_tree(self, rev_id):
213
 
        tree = self.branch.repository.revision_tree(rev_id)
214
 
        inv = tree.inventory
215
 
        seen_ids = {}
216
 
        for file_id in inv:
217
 
            if file_id in seen_ids:
218
 
                raise BzrCheckError('duplicated file_id {%s} '
219
 
                                    'in inventory for revision {%s}'
220
 
                                    % (file_id, rev_id))
221
 
            seen_ids[file_id] = True
222
 
        for file_id in inv:
223
 
            ie = inv[file_id]
224
 
            ie.check(self, rev_id, inv, tree)
225
 
        seen_names = {}
226
 
        for path, ie in inv.iter_entries():
227
 
            if path in seen_names:
228
 
                raise BzrCheckError('duplicated path %s '
229
 
                                    'in inventory for revision {%s}'
230
 
                                    % (path, rev_id))
 
201
                        if not ie.text_id in branch.text_store:
 
202
                            raise BzrCheckError('text {%s} not in text_store' % ie.text_id)
 
203
 
 
204
                        tf = branch.text_store[ie.text_id]
 
205
                        fp = fingerprint_file(tf)
 
206
                        checked_texts[ie.text_id] = fp
 
207
 
 
208
                    if ie.text_size != fp['size']:
 
209
                        raise BzrCheckError('text {%s} wrong size' % ie.text_id)
 
210
                    if ie.text_sha1 != fp['sha1']:
 
211
                        raise BzrCheckError('text {%s} wrong sha1' % ie.text_id)
 
212
                elif ie.kind == 'directory':
 
213
                    if ie.text_sha1 != None or ie.text_size != None or ie.text_id != None:
 
214
                        raise BzrCheckError('directory {%s} has text in revision {%s}'
 
215
                                % (file_id, rev_id))
 
216
 
 
217
            progress.tick()
 
218
            for path, ie in inv.iter_entries():
 
219
                if path in seen_names:
 
220
                    raise BzrCheckError('duplicated path %s '
 
221
                                        'in inventory for revision {%s}'
 
222
                                        % (path, rev_id))
231
223
            seen_names[path] = True
232
 
 
233
 
 
234
 
def check(branch, verbose):
235
 
    """Run consistency checks on a branch."""
236
 
    checker = Check(branch)
237
 
    checker.check()
238
 
    checker.report_results(verbose)
 
224
            last_rev_id = rev_id
 
225
 
 
226
    finally:
 
227
        branch.unlock()
 
228
 
 
229
    progress.clear()
 
230
 
 
231
    note('checked %d revisions, %d file texts' % (revcount, len(checked_texts)))
 
232
    
 
233
    if missing_inventory_sha_cnt:
 
234
        note('%d revisions are missing inventory_sha1' % missing_inventory_sha_cnt)
 
235
 
 
236
    if missing_revision_sha_cnt:
 
237
        note('%d parent links are missing revision_sha1' % missing_revision_sha_cnt)
 
238
 
 
239
    if missing_revision_cnt:
 
240
        note('%d revisions are mentioned but not present' % missing_revision_cnt)
 
241
 
 
242
    if missing_revision_cnt:
 
243
        print '%d revisions are mentioned but not present' % missing_revision_cnt
 
244
 
 
245
    # stub this out for now because the main bzr branch has references
 
246
    # to revisions that aren't present in the store -- mbp 20050804
 
247
#    if (missing_inventory_sha_cnt
 
248
#        or missing_revision_sha_cnt):
 
249
#        print '  (use "bzr upgrade" to fix them)'
 
250
 
 
251
    if mismatch_inv_id:
 
252
        warning('%d revisions have mismatched inventory ids:' % len(mismatch_inv_id))
 
253
        for rev_id in mismatch_inv_id:
 
254
            warning('  %s', rev_id)